JP7357176B1 - 周波数領域における自己注意機構に基づく夜間オブジェクト検出、訓練方法及び装置 - Google Patents
周波数領域における自己注意機構に基づく夜間オブジェクト検出、訓練方法及び装置 Download PDFInfo
- Publication number
- JP7357176B1 JP7357176B1 JP2023071865A JP2023071865A JP7357176B1 JP 7357176 B1 JP7357176 B1 JP 7357176B1 JP 2023071865 A JP2023071865 A JP 2023071865A JP 2023071865 A JP2023071865 A JP 2023071865A JP 7357176 B1 JP7357176 B1 JP 7357176B1
- Authority
- JP
- Japan
- Prior art keywords
- frequency domain
- self
- attention
- indicates
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 82
- 238000012549 training Methods 0.000 title claims abstract description 66
- 230000007246 mechanism Effects 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 30
- 239000013598 vector Substances 0.000 claims description 44
- 238000003860 storage Methods 0.000 claims description 18
- 238000007781 pre-processing Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 238000005429 filling process Methods 0.000 claims description 3
- 238000010008 shearing Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 abstract description 5
- 238000012545 processing Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/48—Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/60—Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
Description
訓練セット画像に対してデータ前処理を行い、訓練セット画像をYUVの3つのチャネルに変換して、3つのチャネルの画像に対してブロック分割をそれぞれ行い、Yが明度を示し、UとVが色度を示すステップS1と、
3つのチャネルにおける各ブロックの高低周波情報を抽出し、同一チャネルにおける各ブロックの相対位置が同じ情報は同一周波数領域の情報を示すステップS2と、
各ブロックにおける同一周波数領域に属する情報を各ブロック間の空間関係に応じて同一周波数領域チャネルに書き込んで、複数の異なる周波数領域のチャネルを取得するステップS3と、
すべての周波数領域チャネルを周波数領域における自己注意ネットワークに入力し、各チャネル間におけるスケール化内積自己注意を計算することにより、周波数領域チャネルごとに自己注意重み付けした後の周波数領域特徴を出力するステップS4と、
予測された対象枠位置及び予測カテゴリを出力し、特徴マップにおける各特徴点に対応する真のカテゴリ及び真理値の対象枠位置に基づいて損失関数に応じて夜間オブジェクト監督訓練を行うステップS5と、を含む。
訓練セット画像に対してランダム水平反転、ランダムせん断、画像充填、画像スケール化を順次行い、画像充填過程において、画像の幅・長さを0でsの整数倍に充填し、画像スケール化過程において、画像を幅s×n・長さs×nにスケール化して、前処理後の画像次元(s×n)×(s×n)×3を取得し、ここで、3がRGBチャネルであるステップS1.1と、
訓練セット画像をRGBからYUVチャネルに変換し、3つのチャネルの画像を画素の幅・長さがs×sのn×n個のブロックにそれぞれ分割するステップS1.2と、を含む。
各周波数領域チャネルを二次元ベクトルから一次元ベクトルに再構築し、各ベクトルを行列Kに直列接続するステップS4.1と、
行列に対してスケール化内積自己注意計算を行って、複数の周波数領域間における動的に重み付けしたベクトルを取得するステップS4.2であって、
前記ステップS4.2における自己注意計算公式は、以下の式1に示され、
がスケール比率を示し、Nが一次元ベクトルの長さを示し、該公式は複数の周波数領域間における動的重み付けを実現して、その周波数領域が最大重みを占めるように確保することができるステップS4.2と、
動的に重み付けしたベクトルを同じ多層パーセプトロン(MLP)層に入力し、該MLP層は2つの完全接続層で構成され、第1層が
個のニューロンで構成され、第2層がN個のニューロンで構成され、従って、出力ベクトル及び入力ベクトルの次元が変化しないように維持するステップS4.3と、
多層パーセプトロン(MLP)層の出力ベクトルを直列接続して、次元を再構築して、自己注意重み付けした後の周波数領域特徴を取得するステップS4.4と、を含む。
前記周波数領域特徴を検出ネットワークに入力し、特徴マップにおける各特徴点に対応する予測カテゴリを出力し、対象枠を予測し、検出ネットワークは深層残差ネットワーク(ResNet)を基幹ネットワークとし、微調整後のRetinaNet検出ネットワークを用い、具体的にその基幹ネットワークResNetにおける畳み込み層conv1及び畳み込み層conv2における最大プーリング層を削除し、残りの層が変化しないように維持するステップS5.1と、
予測カテゴリ及び真のカテゴリに基づいて分類損失により監督訓練を行うとともに、予測対象枠及び真理値の対象枠に基づいて回帰損失により監督訓練を共同で行うステップS5.2と、を含む。
前記事前訓練モジュールは、訓練セット画像に対してデータ前処理を行い、訓練セット画像をYUVの3つのチャネルに変換して、3つのチャネルの画像に対してブロック分割をそれぞれ行い、Yが明度を示し、UとVが色度を示し、
前記高低周波情報抽出モジュールは、3つのチャネルにおける各ブロックの高低周波情報を抽出し、同一チャネルにおける各ブロックの相対位置が同じ情報は同一周波数領域の情報を示し、
前記同一周波数領域情報記憶モジュールは、各ブロックにおける同一周波数領域に属する情報を各ブロック間の空間関係に応じて同一周波数領域チャネルに書き込んで、複数の異なる周波数領域のチャネルを取得し、
前記自己注意ネットワークモジュールは、すべての周波数領域チャネルを周波数領域における自己注意ネットワークに入力し、各チャネル間におけるスケール化内積自己注意を計算することにより、周波数領域チャネルごとに自己注意重み付けした後の周波数領域特徴を出力し、
前記検出ネットワークモデルは、周波数領域特徴を検出ネットワークに入力し、予測された対象枠位置及び予測カテゴリを出力し、特徴マップにおける各特徴点に対応する真のカテゴリ及び真理値の対象枠位置に基づいて損失関数に応じて夜間オブジェクト監督訓練を行う。
第1として、入力画像をRGBからYUVチャネルに変換し、人の目の視覚特性に一層適合し、輝度Yチャネルを分離することにより輝度チャネルにおける異なる周波数領域の視覚情報を捕らえることができ、それにより夜間オブジェクト検出性能を向上させ、
第2として、周波数領域における自己注意ネットワークモジュールにおけるスケール化自己注意計算によって有用な周波数領域の重みを動的に向上させ、冗長周波数領域の重みを低下させ、それにより周波数領域情報の利用率を向上させ、
第3として、該方法は深層残差ネットワーク(ResNet)を基幹ネットワークとするいかなる検出ネットワーク(RetinaNetに限らない)にプラグ・アンド・プレイすることができ、且つRetinaNet-ResNet50及びRetinaNet-ResNet101の2つのbaselineよりもそれぞれMAPが3.70%及び2.88%の精度向上する、ことにある。
データ前処理の前に、データセットの構築を行うことができすることであって、オープンソース夜間オブジェクト検出データセットExclusively Dark(ExDark)をダウンロードし、該データセットは12個のカテゴリ、即ち自転車、船、瓶、コップ、バス、乗用車、猫、椅子、狗、オートバイ、人及び机を含み、4:1:1の比率で訓練セット、検証セット及びテストセットを作成し、
上記訓練セット画像に対してデータ前処理を行うことは具体的に下記ステップS1.1~ステップS1.2を含み、
ステップS1.1において、訓練セット画像に対してランダム水平反転、ランダムせん断、画像充填、画像スケール化を順次行い、画像充填過程において、画像の幅・長さを0でsの整数倍に充填し、画像スケール化過程において、画像を幅s×n・長さs×nにスケール化して、前処理後の画像次元(s×n)×(s×n)×3を取得し、ここで、3がRGBチャネルであり、
図1が簡略化された図であり、画像のサイズが4×4であり、s=n=2であり、同一数字が同一周波数領域を示すが、本発明の実施例において、s=8、n=64であり、従って、前処理後の画像次元が512×512×3であり、ここで、3がRGBチャネルであり、
ステップS1.2において、訓練セット画像をRGBからYUVチャネルに変換し、3つのチャネルの画像を画素の幅・長さがs×sのn×n個のブロックにそれぞれ分割し、
本発明の実施例では、幅・長さが8×8のブロックが結像され、従って、3つのチャネルがそれぞれ64×64=4096個のブロックに分割され、Yが明度(このチャネルだけを取ることで、グレースケールマップを取得することができる)を示し、UとVが色度を示し、画像の彩度を説明し、画素の色を指定するためのものである。
3つのチャネルの各ブロックのそれぞれに対して離散コサイン変換(DCT)を行い、更に各ブロックの高低周波情報を抽出する。
本例では、各元のチャネルは64×64個のブロックがあり、従って、元の512×512×3の画像が64×64×192の周波数領域チャネルに分解され、画像の192種類の周波数領域が示され、
ステップS4では、すべての周波数領域チャネルを周波数領域における自己注意ネットワークに入力し、各チャネル間におけるスケール化内積自己注意を計算することにより、周波数領域チャネルごとに自己注意重み付けした後の周波数領域特徴を出力し、図3に示すように、下記ステップS4.1~ステップS4.4を含み、
ステップS4.1において、各周波数領域チャネルを二次元ベクトルから一次元ベクトルに再構築すれば、合計してs×s×3(Sと記される)個の長さn×n(Nと記される)の1次元ベクトルが生成され、各ベクトルを直列接続して行列Kをなし、K=S×Nであり、
本発明の実施例では、合計してSが192個であって長さNが4096である一次元ベクトルが生成され、各ベクトルを直列接続してなる行列がKと記され、K=192×4096であり、
ステップS4.2において、行列に対してスケール化内積自己注意計算を行って、複数の周波数領域間における動的に重み付けしたベクトルを取得し、その計算公式は、以下の式1に示され、
がスケール比率を示し、Nが一次元ベクトルの長さを示し、該公式は複数の周波数領域間における動的重み付けを実現して、その周波数領域が最大重みを占めるように確保することができ、
本発明の実施例では、N=4096であり、次元192×4096のベクトルを出力し、Qがクエリ(query)を示し、Kがキー値(key)を示し、Vが値エントリ(value)を示す。
個のニューロンで構成され、第2層がN個のニューロンで構成され、
本発明の実施例では、ステップS4.2で計算して出力されたベクトルが192個の次元1×4096のベクトルに基づいて、それぞれ同じMLP(Multilayer Perceptron、多層パーセプトロン)層に入力され、該MLP層は2つの完全接続層で構成され、第1層が
個のニューロンで構成され、第2層が4096個のニューロンで構成される。従って、出力ベクトル及び入力ベクトルの次元が変化しないように維持され、
ステップS4.4において、多層パーセプトロン(MLP)層の出力ベクトルを直列接続して、次元を再構築して、自己注意重み付けした後の周波数領域特徴を取得し、具体的に、上記S個の出力ベクトルを直列接続して、N×Sのベクトルを取得し、且つ次元n×n×Sのベクトルに再構築(reshape)して、該ベクトルが自己注意重み付けした後の周波数領域特徴であり、
本発明の実施例では、上記192個の出力ベクトルを直列接続して、4096×192のベクトルを取得し、且つ次元64×64×192のベクトルに再構築(reshape)し、該ベクトルが自己注意重み付けした後の周波数領域特徴であり、
ステップS5では、周波数領域特徴を検出ネットワークに入力し、予測値及び真理値に基づいて損失関数に応じて夜間オブジェクト監督訓練を行い、それは下記ステップS5.1~ステップS5.3を含み、
ステップS5.1において、前記周波数領域特徴を検出ネットワークに入力し、具体的に、周波数領域特徴を、深層残差ネットワーク(ResNet)を基幹ネットワークとする検出ネットワークに入力し、該検出ネットワークが微調整後のRetinaNet検出ネットワークを用い、具体的にその基幹ネットワーク(ResNet)におけるconv1層及びconv2層における最大プーリング層を削除し、残りの層が変化しないように維持し、
ステップS5.2において、分類損失及び回帰損失により監督訓練を共同で行い、具体的に、ステップS4.4における出力された周波数領域特徴を上記検出ネットワークに入力して訓練し、分類損失がFocal Lossを用い、回帰損失がIOU交差オーバーユニオン損失を用い、
分類損失はFocal Loss分類損失を用い、計算公式は、以下の式2に示され、
周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練装置であって、事前訓練モジュール、高低周波情報抽出モジュール、同一周波数領域情報記憶モジュール、自己注意ネットワークモジュール及び検出ネットワークモデルを備え、
前記事前訓練モジュールは、訓練セット画像に対してデータ前処理を行い、訓練セット画像をYUVの3つのチャネルに変換して、3つのチャネルの画像に対してブロック分割をそれぞれ行い、Yが明度を示し、UとVが色度を示し、
前記高低周波情報抽出モジュールは、3つのチャネルにおける各ブロックの高低周波情報を抽出し、同一チャネルにおける各ブロックの相対位置が同じ情報は同一周波数領域の情報を示し、
前記同一周波数領域情報記憶モジュールは、各ブロックにおける同一周波数領域に属する情報を各ブロック間の空間関係に応じて同一周波数領域チャネルに書き込んで、複数の異なる周波数領域のチャネルを取得し、
前記自己注意ネットワークモジュールは、すべての周波数領域チャネルを周波数領域における自己注意ネットワークに入力し、各チャネル間におけるスケール化内積自己注意を計算することにより、周波数領域チャネルごとに自己注意重み付けした後の周波数領域特徴を出力し、
前記検出ネットワークモデルは、周波数領域特徴を検出ネットワークに入力し、予測された対象枠位置及び予測カテゴリを出力し、特徴マップにおける各特徴点に対応する真のカテゴリ及び真理値の対象枠位置に基づいて損失関数に応じて夜間オブジェクト監督訓練を行う。
Claims (10)
- 周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法であって、以下のステップS1~ステップS5を含み、
前記ステップS1では、訓練セット画像に対してデータ前処理を行い、訓練セット画像をYUVの3つのチャネルに変換して、3つのチャネルの画像に対してブロック分割をそれぞれ行い、Yが明度を示し、UとVが色度を示し、
前記ステップS2では、3つのチャネルにおける各ブロックの高低周波情報を抽出し、同一チャネルにおける各ブロックの相対位置が同じ情報は同一周波数領域の情報を示し、
前記ステップS3では、各ブロックにおける同一周波数領域に属する情報を各ブロック間の空間関係に応じて同一周波数領域チャネルに書き込んで、複数の異なる周波数領域のチャネルを取得し、
前記ステップS4では、すべての周波数領域チャネルを周波数領域における自己注意ネットワークに入力し、各チャネル間におけるスケール化内積自己注意を計算することにより、周波数領域チャネルごとに自己注意重み付けした後の周波数領域特徴を出力し、
前記ステップS5では、周波数領域特徴を検出ネットワークに入力し、予測された対象枠位置及び予測カテゴリを出力し、特徴マップにおける各特徴点に対応する真のカテゴリ及び真理値の対象枠位置に基づいて損失関数に応じて夜間オブジェクト監督訓練を行う
ことを特徴とする周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法。 - 前記ステップS1におけるデータ前処理は、以下のステップS1.1~ステップS1.2を含み、
前記ステップS1.1では、訓練セット画像に対してランダム水平反転、ランダムせん断、画像充填、画像スケール化を順次行い、画像充填過程において、画像の幅・長さを0でsの整数倍に充填し、画像スケール化過程において、画像を幅s×n・長さs×nにスケール化して、前処理後の画像次元(s×n)×(s×n)×3を取得し、ここで、3がRGBチャネルであり、
前記ステップS1.2では、訓練セット画像をRGBからYUVチャネルに変換し、3つのチャネルの画像を画素の幅・長さがs×sのn×n個のブロックにそれぞれ分割する
ことを特徴とする請求項1に記載の周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法。 - 前記ステップS2において、3つのチャネルの各ブロックのそれぞれに対して離散コサイン変換DCTを行い、更に各ブロックの高低周波情報を抽出する
ことを特徴とする請求項1に記載の周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法。 - 前記ステップS4は、以下のステップS4.1~ステップS4.4を含み、
前記ステップS4.1では、各周波数領域チャネルを二次元ベクトルから一次元ベクトルに再構築し、各ベクトルを行列Kに直列接続し、
前記ステップS4.2では、行列に対してスケール化内積自己注意計算を行って、複数の周波数領域間における動的に重み付けしたベクトルを取得し、
前記ステップS4.2における自己注意計算公式は、以下の式1に示され、
がスケール比率を示し、Nが一次元ベクトルの長さを示し、
前記ステップS4.3では、動的に重み付けしたベクトルを同じ多層パーセプトロンMLP層に入力し、
前記ステップS4.4では、多層パーセプトロンMLP層の出力ベクトルを直列接続して、次元を再構築して、自己注意重み付けした後の周波数領域特徴を取得する
ことを特徴とする請求項1に記載の周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法。 - 前記ステップS5は、以下のステップS5.1~ステップS5.2を含み、
前記ステップS5.1では、前記周波数領域特徴を検出ネットワークに入力し、特徴マップにおける各特徴点に対応する予測カテゴリを出力し、対象枠を予測し、
前記ステップS5.2では、予測カテゴリ及び真のカテゴリに基づいて分類損失により監督訓練を行うとともに、予測対象枠及び真理値の対象枠に基づいて回帰損失により監督訓練を共同で行う
ことを特徴とする請求項1に記載の周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法。 - 事前訓練モジュール、高低周波情報抽出モジュール、同一周波数領域情報記憶モジュール、自己注意ネットワークモジュール及び検出ネットワークモデルを備える周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練装置であって、
前記事前訓練モジュールは、訓練セット画像に対してデータ前処理を行い、訓練セット画像をYUVの3つのチャネルに変換して、3つのチャネルの画像に対してブロック分割をそれぞれ行い、Yが明度を示し、UとVが色度を示し、
前記高低周波情報抽出モジュールは、3つのチャネルにおける各ブロックの高低周波情報を抽出し、同一チャネルにおける各ブロックの相対位置が同じ情報は同一周波数領域の情報を示し、
前記同一周波数領域情報記憶モジュールは、各ブロックにおける同一周波数領域に属する情報を各ブロック間の空間関係に応じて同一周波数領域チャネルに書き込んで、複数の異なる周波数領域のチャネルを取得し、
前記自己注意ネットワークモジュールは、すべての周波数領域チャネルを周波数領域における自己注意ネットワークに入力し、各チャネル間におけるスケール化内積自己注意を計算することにより、周波数領域チャネルごとに自己注意重み付けした後の周波数領域特徴を出力し、
前記検出ネットワークモデルは、周波数領域特徴を検出ネットワークに入力し、予測された対象枠位置及び予測カテゴリを出力し、特徴マップにおける各特徴点に対応する真のカテゴリ及び真理値の対象枠位置に基づいて損失関数に応じて夜間オブジェクト監督訓練を行う
ことを特徴とする周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練装置。 - 周波数領域における自己注意機構に基づく夜間オブジェクト検出方法であって、
入力画像に対して請求項1に記載の周波数領域における自己注意機構に基づく夜間オブジェクト検出方法によって前処理、高低周波情報の抽出及び同一周波数領域チャネルへの書き込みを行った後、訓練済みの自己注意ネットワーク及び検出ネットワークに入力して、検出結果を取得する
ことを特徴とする周波数領域における自己注意機構に基づく夜間オブジェクト検出方法。 - 周波数領域における自己注意機構に基づく夜間オブジェクト検出装置であって、
入力画像を請求項8に記載の周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練装置に入力し、事前訓練モジュール、高低周波情報抽出モジュール、同一周波数領域情報記憶モジュールを経た後、訓練済みの自己注意ネットワークモジュール及び検出ネットワークモデルに順次入力して、検出結果を取得する
ことを特徴とする周波数領域における自己注意機構に基づく夜間オブジェクト検出装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210902801.1 | 2022-07-29 | ||
CN202210902801.1A CN114972976B (zh) | 2022-07-29 | 2022-07-29 | 基于频域自注意力机制的夜间目标检测、训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7357176B1 true JP7357176B1 (ja) | 2023-10-05 |
JP2024018938A JP2024018938A (ja) | 2024-02-08 |
Family
ID=82969750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023071865A Active JP7357176B1 (ja) | 2022-07-29 | 2023-04-25 | 周波数領域における自己注意機構に基づく夜間オブジェクト検出、訓練方法及び装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7357176B1 (ja) |
CN (1) | CN114972976B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117422939A (zh) * | 2023-12-15 | 2024-01-19 | 武汉纺织大学 | 一种基于超声特征提取的乳腺肿瘤分类方法及系统 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115496993B (zh) * | 2022-09-09 | 2023-07-14 | 锋睿领创(珠海)科技有限公司 | 基于频域融合的目标检测方法、装置、设备及存储介质 |
CN115294483A (zh) * | 2022-09-28 | 2022-11-04 | 山东大学 | 输电线路复杂场景的小目标识别方法及系统 |
CN117636341B (zh) * | 2024-01-26 | 2024-04-26 | 中国海洋大学 | 一种多帧海藻显微图像增强识别方法及其模型搭建方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112465737A (zh) | 2020-12-07 | 2021-03-09 | 中国工商银行股份有限公司 | 图像处理模型训练方法、图像处理方法及图像处理装置 |
US11222217B1 (en) | 2020-08-14 | 2022-01-11 | Tsinghua University | Detection method using fusion network based on attention mechanism, and terminal device |
US20220215646A1 (en) | 2019-04-23 | 2022-07-07 | The Johns Hopkins University | Abdominal multi-organ segmentation with organ-attention networks |
CN115294483A (zh) | 2022-09-28 | 2022-11-04 | 山东大学 | 输电线路复杂场景的小目标识别方法及系统 |
CN115496993A (zh) | 2022-09-09 | 2022-12-20 | 锋睿领创(珠海)科技有限公司 | 基于频域融合的目标检测方法、装置、设备及存储介质 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8873884B2 (en) * | 2010-10-06 | 2014-10-28 | International Business Machines Corporation | Method and system for resizing an image |
US9401001B2 (en) * | 2014-01-02 | 2016-07-26 | Digimarc Corporation | Full-color visibility model using CSF which varies spatially with local luminance |
US8847771B2 (en) * | 2013-01-25 | 2014-09-30 | Toyota Motor Engineering & Manufacturing North America, Inc. | Method and apparatus for early detection of dynamic attentive states for providing an inattentive warning |
US9565335B2 (en) * | 2014-01-02 | 2017-02-07 | Digimarc Corporation | Full color visibility model using CSF which varies spatially with local luminance |
US11361225B2 (en) * | 2018-12-18 | 2022-06-14 | Microsoft Technology Licensing, Llc | Neural network architecture for attention based efficient model adaptation |
CN111460931B (zh) * | 2020-03-17 | 2023-01-31 | 华南理工大学 | 基于颜色通道差值图特征的人脸欺骗检测方法及系统 |
CN111738112B (zh) * | 2020-06-10 | 2023-07-07 | 杭州电子科技大学 | 基于深度神经网络和自注意力机制的遥感船舶图像目标检测方法 |
CN111967498A (zh) * | 2020-07-20 | 2020-11-20 | 重庆大学 | 基于毫米波雷达和视觉融合的夜间目标检测和跟踪方法 |
CN112434723B (zh) * | 2020-07-23 | 2021-06-01 | 之江实验室 | 一种基于注意力网络的日/夜间图像分类及物体检测方法 |
CN112200161B (zh) * | 2020-12-03 | 2021-03-02 | 北京电信易通信息技术股份有限公司 | 一种基于混合注意力机制的人脸识别检测方法 |
CN112927202B (zh) * | 2021-02-25 | 2022-06-03 | 华南理工大学 | 多时域多特征结合的Deepfake视频检测方法及系统 |
CN112861883B (zh) * | 2021-03-18 | 2022-11-01 | 上海壁仞智能科技有限公司 | 一种图像显著性区域检测方法及装置 |
CN113657225B (zh) * | 2021-08-05 | 2023-09-26 | 武汉工程大学 | 一种目标检测方法 |
CN114241511B (zh) * | 2021-10-21 | 2024-05-03 | 西安科技大学 | 一种弱监督行人检测方法、系统、介质、设备及处理终端 |
CN113902926B (zh) * | 2021-12-06 | 2022-05-31 | 之江实验室 | 一种基于自注意力机制的通用图像目标检测方法和装置 |
CN114266884A (zh) * | 2021-12-13 | 2022-04-01 | 浙江工业大学 | 旋转框定位多形态瓶状物品分拣目标检测方法 |
CN114581536B (zh) * | 2022-02-25 | 2024-09-20 | 华南理工大学 | 基于特征感知和多通道学习的图像色差检测方法 |
CN114594461A (zh) * | 2022-03-14 | 2022-06-07 | 杭州电子科技大学 | 基于注意力感知与缩放因子剪枝的声呐目标检测方法 |
CN114691986A (zh) * | 2022-03-21 | 2022-07-01 | 合肥工业大学 | 基于子空间适应性间距的跨模态检索方法及存储介质 |
CN114757832B (zh) * | 2022-06-14 | 2022-09-30 | 之江实验室 | 基于交叉卷积注意力对抗学习的人脸超分辨方法和装置 |
-
2022
- 2022-07-29 CN CN202210902801.1A patent/CN114972976B/zh active Active
-
2023
- 2023-04-25 JP JP2023071865A patent/JP7357176B1/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220215646A1 (en) | 2019-04-23 | 2022-07-07 | The Johns Hopkins University | Abdominal multi-organ segmentation with organ-attention networks |
US11222217B1 (en) | 2020-08-14 | 2022-01-11 | Tsinghua University | Detection method using fusion network based on attention mechanism, and terminal device |
CN112465737A (zh) | 2020-12-07 | 2021-03-09 | 中国工商银行股份有限公司 | 图像处理模型训练方法、图像处理方法及图像处理装置 |
CN115496993A (zh) | 2022-09-09 | 2022-12-20 | 锋睿领创(珠海)科技有限公司 | 基于频域融合的目标检测方法、装置、设备及存储介质 |
CN115294483A (zh) | 2022-09-28 | 2022-11-04 | 山东大学 | 输电线路复杂场景的小目标识别方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117422939A (zh) * | 2023-12-15 | 2024-01-19 | 武汉纺织大学 | 一种基于超声特征提取的乳腺肿瘤分类方法及系统 |
CN117422939B (zh) * | 2023-12-15 | 2024-03-08 | 武汉纺织大学 | 一种基于超声特征提取的乳腺肿瘤分类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114972976B (zh) | 2022-12-20 |
CN114972976A (zh) | 2022-08-30 |
JP2024018938A (ja) | 2024-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7357176B1 (ja) | 周波数領域における自己注意機構に基づく夜間オブジェクト検出、訓練方法及び装置 | |
WO2020177651A1 (zh) | 图像分割方法和图像处理装置 | |
CN112446270B (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
CN113284054B (zh) | 图像增强方法以及图像增强装置 | |
CN112446834B (zh) | 图像增强方法和装置 | |
CN110717851B (zh) | 图像处理方法及装置、神经网络的训练方法、存储介质 | |
US10614574B2 (en) | Generating image segmentation data using a multi-branch neural network | |
US12062158B2 (en) | Image denoising method and apparatus | |
US20230214976A1 (en) | Image fusion method and apparatus and training method and apparatus for image fusion model | |
CN111402130B (zh) | 数据处理方法和数据处理装置 | |
WO2021018163A1 (zh) | 神经网络的搜索方法及装置 | |
CN113011562B (zh) | 一种模型训练方法及装置 | |
CN111914997B (zh) | 训练神经网络的方法、图像处理方法及装置 | |
CN110246084B (zh) | 一种超分辨率图像重构方法及其系统、装置、存储介质 | |
CN110532871A (zh) | 图像处理的方法和装置 | |
WO2021018106A1 (zh) | 行人检测方法、装置、计算机可读存储介质和芯片 | |
CN113065645B (zh) | 孪生注意力网络、图像处理方法和装置 | |
CN112529904B (zh) | 图像语义分割方法、装置、计算机可读存储介质和芯片 | |
CN111860398A (zh) | 遥感图像目标检测方法、系统及终端设备 | |
CN117037215B (zh) | 人体姿态估计模型训练方法、估计方法、装置及电子设备 | |
CN111079764A (zh) | 一种基于深度学习的低照度车牌图像识别方法及装置 | |
WO2022179606A1 (zh) | 一种图像处理方法及相关装置 | |
CN109815931A (zh) | 一种视频物体识别的方法、装置、设备以及存储介质 | |
CN114764856A (zh) | 图像语义分割方法和图像语义分割装置 | |
CN113066018A (zh) | 一种图像增强方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230425 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230621 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230816 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230906 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230925 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7357176 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |