JP2024018938A - 周波数領域における自己注意機構に基づく夜間オブジェクト検出、訓練方法及び装置 - Google Patents

周波数領域における自己注意機構に基づく夜間オブジェクト検出、訓練方法及び装置 Download PDF

Info

Publication number
JP2024018938A
JP2024018938A JP2023071865A JP2023071865A JP2024018938A JP 2024018938 A JP2024018938 A JP 2024018938A JP 2023071865 A JP2023071865 A JP 2023071865A JP 2023071865 A JP2023071865 A JP 2023071865A JP 2024018938 A JP2024018938 A JP 2024018938A
Authority
JP
Japan
Prior art keywords
frequency domain
self
attention
channels
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2023071865A
Other languages
English (en)
Other versions
JP7357176B1 (ja
Inventor
依依 章
Yiyi Zhang
影 ▲鄭▼
Ying Zheng
志文 ▲応▼
Zhiwen Ying
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Application granted granted Critical
Publication of JP7357176B1 publication Critical patent/JP7357176B1/ja
Publication of JP2024018938A publication Critical patent/JP2024018938A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/48Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/60Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

【課題】本発明は周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法及び装置を提供する。【解決手段】方法は、検出ネットワークを訓練し、入力画像を前処理してRGBからYUVチャネルに変換させ、3つのチャネルの画像を複数のブロックにそれぞれ分割し、3つのチャネルの各ブロックそれぞれに対して離散コサイン変換(DCT)を行い、各ブロックにおける同一周波数領域に属する情報をその元の空間関係に応じて同一チャネルに書き込み、異なる周波数領域を示す複数のチャネルを生成し、すべての周波数領域チャネルを自己注意ネットワークモジュールに入力し、該モジュールが各チャネル間におけるスケール化内積自己注意を計算することにより、チャネル毎に動的に重み付けした後の数値を出力し、更にそれぞれ同じ多層パーセプトロン(MLP)に入力し、出力結果を検出ネットワークに入力し、最終的に画像の検出結果を取得する。【選択図】図1

Description

本発明はコンピュータ視覚識別の技術分野に関し、特に周波数領域における自己注意機構に基づく夜間オブジェクト検出、訓練方法及び装置に関する。
オブジェクト検出は多くの他の代表的な視覚問題の基礎であって、高い実用価値及び利用可能性を有する。RGBビデオカメラが撮影した夜間シーンのピクチャにおける物体を検出することは、非常に重要であるが、十分に重く見ていない問題であり、現在最新の視覚検出アルゴリズムは夜間シーンにおいて所期の性能を実現できない場合が多い。
夜間オブジェクト検出は多くのシステム(例えば、安全で確実な自動運転車)の肝心の構成部分である。歩行者検出を例とし、正式なアルゴリズムのCaltech(有名な歩行者検出データセット)における誤り率(小さければ小さいほど良くなる)は7.36%に達することができるが、夜間歩行者データセットにおいて63.99%に達するだけである。
夜間オブジェクト検出の性能が低い理由は、主に現在の深層学習ネットワークが照明情報及び低周波情報に比較的敏感であるためである。周知のように、夜間で撮影した画像は、騒音が大きく、輪郭が明瞭でなく、模様がぼけているという問題がある。これも汎用の特徴抽出ネットワークが十分な特徴情報を抽出して学習及び識別することができないことを直接にもたらしてしまう。
研究によって明らかになることは、人の目の色度への敏感度が輝度への敏感度よりも低い。従って、YUV画像(Yチャネルが画像の輝度情報を示す)は人の目に一層適合する視覚特性を示す。また、研究者はニューラルネットワークの画像の異なる周波数領域への敏感度が異なることを発見した。昼間画像に基づいて訓練するモデルにおいて、低周波情報がより効果的なものであることが証明されるが、高周波情報が常に無視される。ところが、夜間画像は昼間画像の分布と大いに異なり、夜間画像自体が有する低周波情報が非常に限られる。従って、周波数領域の範囲において画像を動的に重み付けし、モデルが性能の向上に最も有利な周波数領域特徴を選択できるようにし、夜間シーンへの利用可能性が高い。
従来技術の欠点を解決して、夜間画像の検出精度を向上させる目的を実現するために、本発明は以下の技術案を用いる。
周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法であって、
訓練セット画像に対してデータ前処理を行い、訓練セット画像をYUVの3つのチャネルに変換して、3つのチャネルの画像に対してブロック分割をそれぞれ行い、Yが明度を示し、UとVが色度を示すステップS1と、
3つのチャネルにおける各ブロックの高低周波情報を抽出し、同一チャネルにおける各ブロックの相対位置が同じ情報は同一周波数領域の情報を示すステップS2と、
各ブロックにおける同一周波数領域に属する情報を各ブロック間の空間関係に応じて同一周波数領域チャネルに書き込んで、複数の異なる周波数領域のチャネルを取得するステップS3と、
すべての周波数領域チャネルを周波数領域における自己注意ネットワークに入力し、各チャネル間におけるスケール化内積自己注意を計算することにより、周波数領域チャネルごとに自己注意重み付けした後の周波数領域特徴を出力するステップS4と、
予測された対象枠位置及び予測カテゴリを出力し、特徴マップにおける各特徴点に対応する真のカテゴリ及び真理値の対象枠位置に基づいて損失関数に応じて夜間オブジェクト監督訓練を行うステップS5と、を含む。
更に、前記ステップS1におけるデータ前処理は、
訓練セット画像に対してランダム水平反転、ランダムせん断、画像充填、画像スケール化を順次行い、画像充填過程において、画像の幅・長さを0でsの整数倍に充填し、画像スケール化過程において、画像を幅s×n・長さs×nにスケール化して、前処理後の画像次元(s×n)×(s×n)×3を取得し、ここで、3がRGBチャネルであるステップS1.1と、
訓練セット画像をRGBからYUVチャネルに変換し、3つのチャネルの画像を画素の幅・長さがs×sのn×n個のブロックにそれぞれ分割するステップS1.2と、を含む。
更に、前記ステップS2において、3つのチャネルの各ブロックのそれぞれに対して離散コサイン変換(DCT)を行い、更に各ブロックの高低周波情報を抽出する。
更に、前記ステップS4は、
各周波数領域チャネルを二次元ベクトルから一次元ベクトルに再構築し、各ベクトルを行列Kに直列接続するステップS4.1と、
行列に対してスケール化内積自己注意計算を行って、複数の周波数領域間における動的に重み付けしたベクトルを取得するステップS4.2であって、
前記ステップS4.2における自己注意計算公式は、以下の式1に示され、
Figure 2024018938000002
ここで、各ベクトルを行列Kに直列接続して自己注意計算におけるキー値(key)とし、V=Q=Kであり、Qがクエリ(query)を示し、Vが値エントリ(value)を示し、QKが内積操作を示し、すべてのベクトル間の類似度を取得するためのものであり、
Figure 2024018938000003
がスケール比率を示し、Nが一次元ベクトルの長さを示し、該公式は複数の周波数領域間における動的重み付けを実現して、その周波数領域が最大重みを占めるように確保することができるステップS4.2と、
動的に重み付けしたベクトルを同じ多層パーセプトロン(MLP)層に入力し、該MLP層は2つの完全接続層で構成され、第1層が
Figure 2024018938000004
個のニューロンで構成され、第2層がN個のニューロンで構成され、従って、出力ベクトル及び入力ベクトルの次元が変化しないように維持するステップS4.3と、
多層パーセプトロン(MLP)層の出力ベクトルを直列接続して、次元を再構築して、自己注意重み付けした後の周波数領域特徴を取得するステップS4.4と、を含む。
更に、前記ステップS5は、
前記周波数領域特徴を検出ネットワークに入力し、特徴マップにおける各特徴点に対応する予測カテゴリを出力し、対象枠を予測し、検出ネットワークは深層残差ネットワーク(ResNet)を基幹ネットワークとし、微調整後のRetinaNet検出ネットワークを用い、具体的にその基幹ネットワークResNetにおける畳み込み層conv1及び畳み込み層conv2における最大プーリング層を削除し、残りの層が変化しないように維持するステップS5.1と、
予測カテゴリ及び真のカテゴリに基づいて分類損失により監督訓練を行うとともに、予測対象枠及び真理値の対象枠に基づいて回帰損失により監督訓練を共同で行うステップS5.2と、を含む。
更に、前記ステップS5.2における分類損失はFocal Loss分類損失を用い、計算公式は、以下の式2に示され、
Figure 2024018938000005
ここで、xが特徴マップにおけるx行目を示し、yがy列目の位置を示し、px,yがx,y座標において予測カテゴリにより取得された分類信頼度を示し、p x,yがx,y座標においてオブジェクトが属する真のカテゴリの分類信頼度を示し、1が正サンプルを示し、0が負サンプルを示し、γが0よりも大きな値であり、αが[0,1]間の小数であり、γとαがいずれも固定値であって、訓練に参加しない。
更に、前記ステップS5.2における回帰損失はIOU交差オーバーユニオン損失を用い、計算公式は、以下の式3に示され、
Figure 2024018938000006
ここで、xが特徴マップにおけるx行目を示し、yがy列目の位置を示し、bx,yがx,y座標に対応する予測対象枠の座標を示し、b x,yがx,y座標に対応する真理値の対象枠の座標を示し、Areaが該対象枠の面積を示す。
周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練装置であって、事前訓練モジュール、高低周波情報抽出モジュール、同一周波数領域情報記憶モジュール、自己注意ネットワークモジュール及び検出ネットワークモデルを備え、
前記事前訓練モジュールは、訓練セット画像に対してデータ前処理を行い、訓練セット画像をYUVの3つのチャネルに変換して、3つのチャネルの画像に対してブロック分割をそれぞれ行い、Yが明度を示し、UとVが色度を示し、
前記高低周波情報抽出モジュールは、3つのチャネルにおける各ブロックの高低周波情報を抽出し、同一チャネルにおける各ブロックの相対位置が同じ情報は同一周波数領域の情報を示し、
前記同一周波数領域情報記憶モジュールは、各ブロックにおける同一周波数領域に属する情報を各ブロック間の空間関係に応じて同一周波数領域チャネルに書き込んで、複数の異なる周波数領域のチャネルを取得し、
前記自己注意ネットワークモジュールは、すべての周波数領域チャネルを周波数領域における自己注意ネットワークに入力し、各チャネル間におけるスケール化内積自己注意を計算することにより、周波数領域チャネルごとに自己注意重み付けした後の周波数領域特徴を出力し、
前記検出ネットワークモデルは、周波数領域特徴を検出ネットワークに入力し、予測された対象枠位置及び予測カテゴリを出力し、特徴マップにおける各特徴点に対応する真のカテゴリ及び真理値の対象枠位置に基づいて損失関数に応じて夜間オブジェクト監督訓練を行う。
周波数領域における自己注意機構に基づく夜間オブジェクト検出方法であって、入力画像に対して前記した周波数領域における自己注意機構に基づく夜間オブジェクト検出方法によって前処理、高低周波情報の抽出及び同一周波数領域チャネルへの書き込みを行った後、訓練済みの自己注意ネットワーク及び検出ネットワークに入力して、検出結果を取得する。
周波数領域における自己注意機構に基づく夜間オブジェクト検出装置であって、入力画像を前記した周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練装置に入力し、事前訓練モジュール、高低周波情報抽出モジュール、同一周波数領域情報記憶モジュールを経た後、訓練済みの自己注意ネットワークモジュール及び検出ネットワークモデルに順次入力して、検出結果を取得する。
本発明の優位性及び有益な効果は、
第1として、入力画像をRGBからYUVチャネルに変換し、人の目の視覚特性に一層適合し、輝度Yチャネルを分離することにより輝度チャネルにおける異なる周波数領域の視覚情報を捕らえることができ、それにより夜間オブジェクト検出性能を向上させ、
第2として、周波数領域における自己注意ネットワークモジュールにおけるスケール化自己注意計算によって有用な周波数領域の重みを動的に向上させ、冗長周波数領域の重みを低下させ、それにより周波数領域情報の利用率を向上させ、
第3として、該方法は深層残差ネットワーク(ResNet)を基幹ネットワークとするいかなる検出ネットワーク(RetinaNetに限らない)にプラグ・アンド・プレイすることができ、且つRetinaNet-ResNet50及びRetinaNet-ResNet101の2つのbaselineよりもそれぞれMAPが3.70%及び2.88%の精度向上する、ことにある。
図1は本発明の実施例に係る方法の全体アーキテクチャ図である。 図2は本発明の実施例に係る方法のフローチャートである。 図3は本発明の実施例に係る方法における周波数領域における自己注意ネットワークモジュールの実行フローチャートである。 図4は本発明の実施例に係る装置の構造模式図である。
以下、図面を参照しながら本発明の具体的な実施形態を詳しく説明する。理解されるように、ここに説明される具体的な実施形態は単に本発明を説明及び解釈するためのものであり、本発明を制限するためのものではない。
図1、図2に示すように、周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法は以下のステップを含む。
ステップS1では、訓練セット画像に対してデータ前処理を行い、訓練セット画像をYUVの3つのチャネルに変換して、3つのチャネルの画像に対してブロック分割をそれぞれ行い、Yが明度を示し、UとVが色度を示し、
データ前処理の前に、データセットの構築を行うことができすることであって、オープンソース夜間オブジェクト検出データセットExclusively Dark(ExDark)をダウンロードし、該データセットは12個のカテゴリ、即ち自転車、船、瓶、コップ、バス、乗用車、猫、椅子、狗、オートバイ、人及び机を含み、4:1:1の比率で訓練セット、検証セット及びテストセットを作成し、
上記訓練セット画像に対してデータ前処理を行うことは具体的に下記ステップS1.1~ステップS1.2を含み、
ステップS1.1において、訓練セット画像に対してランダム水平反転、ランダムせん断、画像充填、画像スケール化を順次行い、画像充填過程において、画像の幅・長さを0でsの整数倍に充填し、画像スケール化過程において、画像を幅s×n・長さs×nにスケール化して、前処理後の画像次元(s×n)×(s×n)×3を取得し、ここで、3がRGBチャネルであり、
図1が簡略化された図であり、画像のサイズが4×4であり、s=n=2であり、同一数字が同一周波数領域を示すが、本発明の実施例において、s=8、n=64であり、従って、前処理後の画像次元が512×512×3であり、ここで、3がRGBチャネルであり、
ステップS1.2において、訓練セット画像をRGBからYUVチャネルに変換し、3つのチャネルの画像を画素の幅・長さがs×sのn×n個のブロックにそれぞれ分割し、
本発明の実施例では、幅・長さが8×8のブロックが結像され、従って、3つのチャネルがそれぞれ64×64=4096個のブロックに分割され、Yが明度(このチャネルだけを取ることで、グレースケールマップを取得することができる)を示し、UとVが色度を示し、画像の彩度を説明し、画素の色を指定するためのものである。
ステップS2では、3つのチャネルにおける各ブロックの高低周波情報を抽出し、同一チャネルにおける各ブロックの相対位置が同じ情報は同一周波数領域の情報を示し、
3つのチャネルの各ブロックのそれぞれに対して離散コサイン変換(DCT)を行い、更に各ブロックの高低周波情報を抽出する。
本発明の実施例では、各ブロックの高低周波情報を抽出し、このとき、画像次元が依然として512×512×3であるが、示す情報が各ブロックの周波数領域情報となり、ここで、同一チャネルにおける各ブロックの相対位置が同じ情報は同一周波数領域の情報を示す。
ステップS3では、各ブロックにおける同一周波数領域に属する情報を各ブロック間の空間関係に応じて同一周波数領域チャネルに書き込んで、複数の異なる周波数領域のチャネルを取得すれば、合計して異なる周波数領域を示すs×s×3個のチャネルが生成され、各チャネルのサイズがn×nであり、
本例では、各元のチャネルは64×64個のブロックがあり、従って、元の512×512×3の画像が64×64×192の周波数領域チャネルに分解され、画像の192種類の周波数領域が示され、
ステップS4では、すべての周波数領域チャネルを周波数領域における自己注意ネットワークに入力し、各チャネル間におけるスケール化内積自己注意を計算することにより、周波数領域チャネルごとに自己注意重み付けした後の周波数領域特徴を出力し、図3に示すように、下記ステップS4.1~ステップS4.4を含み、
ステップS4.1において、各周波数領域チャネルを二次元ベクトルから一次元ベクトルに再構築すれば、合計してs×s×3(Sと記される)個の長さn×n(Nと記される)の1次元ベクトルが生成され、各ベクトルを直列接続して行列Kをなし、K=S×Nであり、
本発明の実施例では、合計してSが192個であって長さNが4096である一次元ベクトルが生成され、各ベクトルを直列接続してなる行列がKと記され、K=192×4096であり、
ステップS4.2において、行列に対してスケール化内積自己注意計算を行って、複数の周波数領域間における動的に重み付けしたベクトルを取得し、その計算公式は、以下の式1に示され、
Figure 2024018938000007
ここで、各ベクトルを行列Kに直列接続して自己注意計算におけるキー値keyとし、V=Q=Kであり、Qがクエリqueryを示し、Vが値エントリvalueを示し、QKが内積操作を示し、すべてのベクトル間の類似度を取得するためのものであり、
Figure 2024018938000008
がスケール比率を示し、Nが一次元ベクトルの長さを示し、該公式は複数の周波数領域間における動的重み付けを実現して、その周波数領域が最大重みを占めるように確保することができ、
本発明の実施例では、N=4096であり、次元192×4096のベクトルを出力し、Qがクエリ(query)を示し、Kがキー値(key)を示し、Vが値エントリ(value)を示す。
ステップS4.3において、動的に重み付けしたベクトルを同じ多層パーセプトロン(MLP)層に入力し、該MLP層は2つの完全接続層で構成され、第1層が
Figure 2024018938000009
個のニューロンで構成され、第2層がN個のニューロンで構成され、
本発明の実施例では、ステップS4.2で計算して出力されたベクトルが192個の次元1×4096のベクトルに基づいて、それぞれ同じMLP(Multilayer Perceptron、多層パーセプトロン)層に入力され、該MLP層は2つの完全接続層で構成され、第1層が
Figure 2024018938000010
個のニューロンで構成され、第2層が4096個のニューロンで構成される。従って、出力ベクトル及び入力ベクトルの次元が変化しないように維持され、
ステップS4.4において、多層パーセプトロン(MLP)層の出力ベクトルを直列接続して、次元を再構築して、自己注意重み付けした後の周波数領域特徴を取得し、具体的に、上記S個の出力ベクトルを直列接続して、N×Sのベクトルを取得し、且つ次元n×n×Sのベクトルに再構築(reshape)して、該ベクトルが自己注意重み付けした後の周波数領域特徴であり、
本発明の実施例では、上記192個の出力ベクトルを直列接続して、4096×192のベクトルを取得し、且つ次元64×64×192のベクトルに再構築(reshape)し、該ベクトルが自己注意重み付けした後の周波数領域特徴であり、
ステップS5では、周波数領域特徴を検出ネットワークに入力し、予測値及び真理値に基づいて損失関数に応じて夜間オブジェクト監督訓練を行い、それは下記ステップS5.1~ステップS5.3を含み、
ステップS5.1において、前記周波数領域特徴を検出ネットワークに入力し、具体的に、周波数領域特徴を、深層残差ネットワーク(ResNet)を基幹ネットワークとする検出ネットワークに入力し、該検出ネットワークが微調整後のRetinaNet検出ネットワークを用い、具体的にその基幹ネットワーク(ResNet)におけるconv1層及びconv2層における最大プーリング層を削除し、残りの層が変化しないように維持し、
ステップS5.2において、分類損失及び回帰損失により監督訓練を共同で行い、具体的に、ステップS4.4における出力された周波数領域特徴を上記検出ネットワークに入力して訓練し、分類損失がFocal Lossを用い、回帰損失がIOU交差オーバーユニオン損失を用い、
分類損失はFocal Loss分類損失を用い、計算公式は、以下の式2に示され、
Figure 2024018938000011
ここで、xが特徴マップにおけるx行目を示し、yがy列目の位置を示し、px,yがx,y座標において予測カテゴリにより取得された分類信頼度を示し、p x,yがx,y座標においてオブジェクトが属する真のカテゴリの分類信頼度を示し、1が正サンプルを示し、0が負サンプルを示し、γが0よりも大きな値であり、αが[0,1]間の小数であり、γとαがいずれも固定値であって、訓練に参加しない。
回帰損失はIOU交差オーバーユニオン損失を用い、計算公式は、以下の式3に示され、
Figure 2024018938000012
ここで、xが特徴マップにおけるx行目を示し、yがy列目の位置を示し、bx,yがx,y座標に対応する予測対象枠の座標を示し、b x,yがx,y座標に対応する真理値の対象枠の座標を示し、Areaが該対象枠の面積を示す。
ステップS5.3において、同期SGD(stochastic gradient descent、確率的勾配降下)を最適化装置として用い、8つのGPUにおいて訓練を行い、batch sizeが16であり、訓練ステップ数が90kであり、初期学習率が0.01であり、その後で60kステップ及び80kステップの時に10倍縮小し、
周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練装置であって、事前訓練モジュール、高低周波情報抽出モジュール、同一周波数領域情報記憶モジュール、自己注意ネットワークモジュール及び検出ネットワークモデルを備え、
前記事前訓練モジュールは、訓練セット画像に対してデータ前処理を行い、訓練セット画像をYUVの3つのチャネルに変換して、3つのチャネルの画像に対してブロック分割をそれぞれ行い、Yが明度を示し、UとVが色度を示し、
前記高低周波情報抽出モジュールは、3つのチャネルにおける各ブロックの高低周波情報を抽出し、同一チャネルにおける各ブロックの相対位置が同じ情報は同一周波数領域の情報を示し、
前記同一周波数領域情報記憶モジュールは、各ブロックにおける同一周波数領域に属する情報を各ブロック間の空間関係に応じて同一周波数領域チャネルに書き込んで、複数の異なる周波数領域のチャネルを取得し、
前記自己注意ネットワークモジュールは、すべての周波数領域チャネルを周波数領域における自己注意ネットワークに入力し、各チャネル間におけるスケール化内積自己注意を計算することにより、周波数領域チャネルごとに自己注意重み付けした後の周波数領域特徴を出力し、
前記検出ネットワークモデルは、周波数領域特徴を検出ネットワークに入力し、予測された対象枠位置及び予測カテゴリを出力し、特徴マップにおける各特徴点に対応する真のカテゴリ及び真理値の対象枠位置に基づいて損失関数に応じて夜間オブジェクト監督訓練を行う。
周波数領域における自己注意機構に基づく夜間オブジェクト検出方法であって、入力画像に対して周波数領域における自己注意機構に基づく夜間オブジェクト検出方法によって前処理、高低周波情報の抽出及び同一周波数領域チャネルへの書き込みを行った後、訓練済みの自己注意ネットワーク及び検出ネットワークに入力して、検出結果を取得する。
本発明の実施例では、推理するとき、入力画像をステップS1における前処理を経てステップS3に達した後で訓練済みの自己注意ネットワークモジュール及び検出ネットワークに順次入力して、画像におけるオブジェクトカテゴリ及び位置を取得する。
周波数領域における自己注意機構に基づく夜間オブジェクト検出装置であって、入力画像を前記した周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練装置に入力し、事前訓練モジュール、高低周波情報抽出モジュール、同一周波数領域情報記憶モジュールを経た後、訓練済みの自己注意ネットワークモジュール及び検出ネットワークモデルに順次入力して、検出結果を取得する。
上記した周波数領域における自己注意機構に基づく夜間オブジェクト検出方法の実施例に対応して、本発明は周波数領域における自己注意機構に基づく夜間オブジェクト検出装置の実施例を更に提供する。
図4を参照し、本発明の実施例に係る周波数領域における自己注意機構に基づく夜間オブジェクト検出装置はメモリと、1つ又は複数のプロセッサとを備え、メモリに実行可能コードが記憶され、前記1つ又は複数のプロセッサは前記実行可能コードを実行するとき、上記実施例における周波数領域における自己注意機構に基づく夜間オブジェクト検出方法を実現するためのものである。
本発明に係る周波数領域における自己注意機構に基づく夜間オブジェクト検出装置の実施例はデータ処理能力を有するいかなる機器に応用されてもよく、該データ処理能力を有するいかなる機器はコンピュータなどの機器又は装置であってもよい。装置実施例はソフトウェアにより実現されてもよく、ハードウェア又はソフトウェアとハードウェアとを組み合わせる方式で実現されてもよい。ソフトウェアによる実現を例とし、1つの論理意味上の装置として、それはその位置するデータ処理能力を有するいかなる機器のプロセッサにより不揮発性メモリにおける対応するコンピュータプログラム命令を内部メモリに読み取って実行して形成したものである。ハードウェアの面から言えば、図4は本発明に係る周波数領域における自己注意機構に基づく夜間オブジェクト検出装置の位置するデータ処理能力を有するいかなる機器のハードウェア構造図であり、図4に示されるプロセッサ、内部メモリ、ネットワークインターフェース及び不揮発性メモリ以外に、実施例における装置の位置するデータ処理能力を有するいかなる機器は一般的に該データ処理能力を有するいかなる機器の実際の機能によって他のハードウェアを更に備えてもよく、その詳細な説明は省略する。
上記装置における各ユニットの機能及び作用の実現過程は具体的に上記方法における対応ステップの実現過程を参照し、ここで詳細な説明は省略する。
装置実施例は、基本的に方法実施例に対応するため、関連箇所が方法実施例の説明の一部を参照すればよい。以上に説明された装置実施例は単に模式的なものであり、分離部材として説明される前記ユニットは物理的に分離してもよく、物理的に分離しなくてもよく、ユニットとして表示される部材は物理ユニットであってもよく、物理ユニットでなくてもよく、即ち、一箇所に位置してもよく、複数のネットワークユニットに配置されてもよい。実際の必要に応じて、その一部又は全部のモジュールを選択して本発明案の目的を実現してもよい。当業者は創造的な労力を要することなく、理解し実施することができる。
本発明の実施例はコンピュータ読み取り可能な記憶媒体を更に提供し、プログラムが記憶され、該プログラムがプロセッサにより実行されるとき、上記実施例における周波数領域における自己注意機構に基づく夜間オブジェクト検出方法を実現する。
前記コンピュータ読み取り可能な記憶媒体は上記いずれか1つの実施例に記載のデータ処理能力を有するいかなる機器の内部記憶ユニット、例えばハードディスク又は内部メモリであってもよい。前記コンピュータ読み取り可能な記憶媒体はデータ処理能力を有するいかなる機器の外部記憶装置、例えば前記機器に配置されるプラグインハードディスク、スマートメディアカード(SMC、Smart Media Card)、SDカード、フラッシュカード(Flash Card)などであってもよい。更に、前記コンピュータ読み取り可能な記憶媒体はデータ処理能力を有するいかなる機器の内部記憶ユニットのほか、外部記憶装置を更に備えるものであってもよい。前記コンピュータ読み取り可能な記憶媒体は前記コンピュータプログラム、並びに前記データ処理能力を有するいかなる機器に必要な他のプログラム及びデータを記憶するためのものであり、更に既に出力した又は出力しようとするデータを一時的に記憶するためのものであってもよい。
以上の実施例は単に本発明の技術案を説明するためのものであり、それを制限するものではなく、上記実施例を参照して本発明を詳しく説明したが、当業者であれば理解されるように、それは依然として上記実施例に記載された技術案を修正し、又はその一部又は全部の技術的特徴を等価置換することができるが、これらの修正又は置換は対応する技術案の本質を本発明の実施例の技術案の範囲から逸脱させるものではない。

Claims (10)

  1. 周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法であって、以下のステップS1~ステップS5を含み、
    前記ステップS1では、訓練セット画像に対してデータ前処理を行い、訓練セット画像をYUVの3つのチャネルに変換して、3つのチャネルの画像に対してブロック分割をそれぞれ行い、Yが明度を示し、UとVが色度を示し、
    前記ステップS2では、3つのチャネルにおける各ブロックの高低周波情報を抽出し、同一チャネルにおける各ブロックの相対位置が同じ情報は同一周波数領域の情報を示し、
    前記ステップS3では、各ブロックにおける同一周波数領域に属する情報を各ブロック間の空間関係に応じて同一周波数領域チャネルに書き込んで、複数の異なる周波数領域のチャネルを取得し、
    前記ステップS4では、すべての周波数領域チャネルを周波数領域における自己注意ネットワークに入力し、各チャネル間におけるスケール化内積自己注意を計算することにより、周波数領域チャネルごとに自己注意重み付けした後の周波数領域特徴を出力し、
    前記ステップS5では、周波数領域特徴を検出ネットワークに入力し、予測された対象枠位置及び予測カテゴリを出力し、特徴マップにおける各特徴点に対応する真のカテゴリ及び真理値の対象枠位置に基づいて損失関数に応じて夜間オブジェクト監督訓練を行う
    ことを特徴とする周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法。
  2. 前記ステップS1におけるデータ前処理は、以下のステップS1.1~ステップS1.2を含み、
    前記ステップS1.1では、訓練セット画像に対してランダム水平反転、ランダムせん断、画像充填、画像スケール化を順次行い、画像充填過程において、画像の幅・長さを0でsの整数倍に充填し、画像スケール化過程において、画像を幅s×n・長さs×nにスケール化して、前処理後の画像次元(s×n)×(s×n)×3を取得し、ここで、3がRGBチャネルであり、
    前記ステップS1.2では、訓練セット画像をRGBからYUVチャネルに変換し、3つのチャネルの画像を画素の幅・長さがs×sのn×n個のブロックにそれぞれ分割する
    ことを特徴とする請求項1に記載の周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法。
  3. 前記ステップS2において、3つのチャネルの各ブロックのそれぞれに対して離散コサイン変換DCTを行い、更に各ブロックの高低周波情報を抽出する
    ことを特徴とする請求項1に記載の周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法。
  4. 前記ステップS4は、以下のステップS4.1~ステップS4.4を含み、
    前記ステップS4.1では、各周波数領域チャネルを二次元ベクトルから一次元ベクトルに再構築し、各ベクトルを行列Kに直列接続し、
    前記ステップS4.2では、行列に対してスケール化内積自己注意計算を行って、複数の周波数領域間における動的に重み付けしたベクトルを取得し、
    前記ステップS4.2における自己注意計算公式は、以下の式1に示され、
    Figure 2024018938000013
    ここで、各ベクトルを行列Kに直列接続して自己注意計算におけるキー値keyとし、V=Q=Kであり、Qがクエリqueryを示し、Vが値エントリvalueを示し、QKが内積操作を示し、すべてのベクトル間の類似度を取得するためのものであり、
    Figure 2024018938000014
    がスケール比率を示し、Nが一次元ベクトルの長さを示し、
    前記ステップS4.3では、動的に重み付けしたベクトルを同じ多層パーセプトロンMLP層に入力し、
    前記ステップS4.4では、多層パーセプトロンMLP層の出力ベクトルを直列接続して、次元を再構築して、自己注意重み付けした後の周波数領域特徴を取得する
    ことを特徴とする請求項1に記載の周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法。
  5. 前記ステップS5は、以下のステップS5.1~ステップS5.2を含み、
    前記ステップS5.1では、前記周波数領域特徴を検出ネットワークに入力し、特徴マップにおける各特徴点に対応する予測カテゴリを出力し、対象枠を予測し、
    前記ステップS5.2では、予測カテゴリ及び真のカテゴリに基づいて分類損失により監督訓練を行うとともに、予測対象枠及び真理値の対象枠に基づいて回帰損失により監督訓練を共同で行う
    ことを特徴とする請求項1に記載の周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法。
  6. 前記ステップS5.2における分類損失はFocal Loss分類損失を用い、計算公式は、以下の式2に示され、
    Figure 2024018938000015
    ここで、xが特徴マップにおけるx行目を示し、yがy列目の位置を示し、px,yがx,y座標において予測カテゴリにより取得された分類信頼度を示し、p x,yがx,y座標においてオブジェクトが属する真のカテゴリの分類信頼度を示し、1が正サンプルを示し、0が負サンプルを示し、γが0よりも大きな値であり、αが[0,1]間の小数であり、γとαがいずれも固定値であって、訓練に参加しない
    ことを特徴とする請求項5に記載の周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法。
  7. 前記ステップS5.2における回帰損失はIOU交差オーバーユニオン損失を用い、計算公式は、以下の式3に示され、
    Figure 2024018938000016
    ここで、xが特徴マップにおけるx行目を示し、yがy列目の位置を示し、bx,yがx,y座標に対応する予測対象枠の座標を示し、b x,yがx,y座標に対応する真理値の対象枠の座標を示し、Areaが該対象枠の面積を示す
    ことを特徴とする請求項5に記載の周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練方法。
  8. 事前訓練モジュール、高低周波情報抽出モジュール、同一周波数領域情報記憶モジュール、自己注意ネットワークモジュール及び検出ネットワークモデルを備える周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練装置であって、
    前記事前訓練モジュールは、訓練セット画像に対してデータ前処理を行い、訓練セット画像をYUVの3つのチャネルに変換して、3つのチャネルの画像に対してブロック分割をそれぞれ行い、Yが明度を示し、UとVが色度を示し、
    前記高低周波情報抽出モジュールは、3つのチャネルにおける各ブロックの高低周波情報を抽出し、同一チャネルにおける各ブロックの相対位置が同じ情報は同一周波数領域の情報を示し、
    前記同一周波数領域情報記憶モジュールは、各ブロックにおける同一周波数領域に属する情報を各ブロック間の空間関係に応じて同一周波数領域チャネルに書き込んで、複数の異なる周波数領域のチャネルを取得し、
    前記自己注意ネットワークモジュールは、すべての周波数領域チャネルを周波数領域における自己注意ネットワークに入力し、各チャネル間におけるスケール化内積自己注意を計算することにより、周波数領域チャネルごとに自己注意重み付けした後の周波数領域特徴を出力し、
    前記検出ネットワークモデルは、周波数領域特徴を検出ネットワークに入力し、予測された対象枠位置及び予測カテゴリを出力し、特徴マップにおける各特徴点に対応する真のカテゴリ及び真理値の対象枠位置に基づいて損失関数に応じて夜間オブジェクト監督訓練を行う
    ことを特徴とする周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練装置。
  9. 周波数領域における自己注意機構に基づく夜間オブジェクト検出方法であって、
    入力画像に対して請求項1に記載の周波数領域における自己注意機構に基づく夜間オブジェクト検出方法によって前処理、高低周波情報の抽出及び同一周波数領域チャネルへの書き込みを行った後、訓練済みの自己注意ネットワーク及び検出ネットワークに入力して、検出結果を取得する
    ことを特徴とする周波数領域における自己注意機構に基づく夜間オブジェクト検出方法。
  10. 周波数領域における自己注意機構に基づく夜間オブジェクト検出装置であって、
    入力画像を請求項8に記載の周波数領域における自己注意機構に基づく夜間オブジェクト検出訓練装置に入力し、事前訓練モジュール、高低周波情報抽出モジュール、同一周波数領域情報記憶モジュールを経た後、訓練済みの自己注意ネットワークモジュール及び検出ネットワークモデルに順次入力して、検出結果を取得する
    ことを特徴とする周波数領域における自己注意機構に基づく夜間オブジェクト検出装置。
JP2023071865A 2022-07-29 2023-04-25 周波数領域における自己注意機構に基づく夜間オブジェクト検出、訓練方法及び装置 Active JP7357176B1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210902801.1 2022-07-29
CN202210902801.1A CN114972976B (zh) 2022-07-29 2022-07-29 基于频域自注意力机制的夜间目标检测、训练方法及装置

Publications (2)

Publication Number Publication Date
JP7357176B1 JP7357176B1 (ja) 2023-10-05
JP2024018938A true JP2024018938A (ja) 2024-02-08

Family

ID=82969750

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023071865A Active JP7357176B1 (ja) 2022-07-29 2023-04-25 周波数領域における自己注意機構に基づく夜間オブジェクト検出、訓練方法及び装置

Country Status (2)

Country Link
JP (1) JP7357176B1 (ja)
CN (1) CN114972976B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115496993B (zh) * 2022-09-09 2023-07-14 锋睿领创(珠海)科技有限公司 基于频域融合的目标检测方法、装置、设备及存储介质
CN115294483A (zh) * 2022-09-28 2022-11-04 山东大学 输电线路复杂场景的小目标识别方法及系统
CN117422939B (zh) * 2023-12-15 2024-03-08 武汉纺织大学 一种基于超声特征提取的乳腺肿瘤分类方法及系统
CN117636341B (zh) * 2024-01-26 2024-04-26 中国海洋大学 一种多帧海藻显微图像增强识别方法及其模型搭建方法

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8873884B2 (en) * 2010-10-06 2014-10-28 International Business Machines Corporation Method and system for resizing an image
US9401001B2 (en) * 2014-01-02 2016-07-26 Digimarc Corporation Full-color visibility model using CSF which varies spatially with local luminance
US8847771B2 (en) * 2013-01-25 2014-09-30 Toyota Motor Engineering & Manufacturing North America, Inc. Method and apparatus for early detection of dynamic attentive states for providing an inattentive warning
US9565335B2 (en) * 2014-01-02 2017-02-07 Digimarc Corporation Full color visibility model using CSF which varies spatially with local luminance
US11361225B2 (en) * 2018-12-18 2022-06-14 Microsoft Technology Licensing, Llc Neural network architecture for attention based efficient model adaptation
US20220215646A1 (en) * 2019-04-23 2022-07-07 The Johns Hopkins University Abdominal multi-organ segmentation with organ-attention networks
CN111460931B (zh) * 2020-03-17 2023-01-31 华南理工大学 基于颜色通道差值图特征的人脸欺骗检测方法及系统
CN111738112B (zh) * 2020-06-10 2023-07-07 杭州电子科技大学 基于深度神经网络和自注意力机制的遥感船舶图像目标检测方法
CN111967498A (zh) * 2020-07-20 2020-11-20 重庆大学 基于毫米波雷达和视觉融合的夜间目标检测和跟踪方法
CN112434723B (zh) * 2020-07-23 2021-06-01 之江实验室 一种基于注意力网络的日/夜间图像分类及物体检测方法
CN111950467B (zh) * 2020-08-14 2021-06-25 清华大学 基于注意力机制的融合网络车道线检测方法及终端设备
CN112200161B (zh) * 2020-12-03 2021-03-02 北京电信易通信息技术股份有限公司 一种基于混合注意力机制的人脸识别检测方法
CN112465737B (zh) 2020-12-07 2023-11-07 中国工商银行股份有限公司 图像处理模型训练方法、图像处理方法及图像处理装置
CN112927202B (zh) * 2021-02-25 2022-06-03 华南理工大学 多时域多特征结合的Deepfake视频检测方法及系统
CN112861883B (zh) * 2021-03-18 2022-11-01 上海壁仞智能科技有限公司 一种图像显著性区域检测方法及装置
CN113657225B (zh) * 2021-08-05 2023-09-26 武汉工程大学 一种目标检测方法
CN114241511B (zh) * 2021-10-21 2024-05-03 西安科技大学 一种弱监督行人检测方法、系统、介质、设备及处理终端
CN113902926B (zh) * 2021-12-06 2022-05-31 之江实验室 一种基于自注意力机制的通用图像目标检测方法和装置
CN114266884A (zh) * 2021-12-13 2022-04-01 浙江工业大学 旋转框定位多形态瓶状物品分拣目标检测方法
CN114581536A (zh) * 2022-02-25 2022-06-03 华南理工大学 基于特征感知和多通道学习的图像色差检测方法
CN114594461A (zh) * 2022-03-14 2022-06-07 杭州电子科技大学 基于注意力感知与缩放因子剪枝的声呐目标检测方法
CN114691986A (zh) * 2022-03-21 2022-07-01 合肥工业大学 基于子空间适应性间距的跨模态检索方法及存储介质
CN114757832B (zh) * 2022-06-14 2022-09-30 之江实验室 基于交叉卷积注意力对抗学习的人脸超分辨方法和装置
CN115496993B (zh) 2022-09-09 2023-07-14 锋睿领创(珠海)科技有限公司 基于频域融合的目标检测方法、装置、设备及存储介质
CN115294483A (zh) 2022-09-28 2022-11-04 山东大学 输电线路复杂场景的小目标识别方法及系统

Also Published As

Publication number Publication date
CN114972976A (zh) 2022-08-30
JP7357176B1 (ja) 2023-10-05
CN114972976B (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
JP7357176B1 (ja) 周波数領域における自己注意機構に基づく夜間オブジェクト検出、訓練方法及び装置
WO2020177651A1 (zh) 图像分割方法和图像处理装置
CN110532871B (zh) 图像处理的方法和装置
CN112446270B (zh) 行人再识别网络的训练方法、行人再识别方法和装置
CN110717851B (zh) 图像处理方法及装置、神经网络的训练方法、存储介质
WO2021018163A1 (zh) 神经网络的搜索方法及装置
CN111402130B (zh) 数据处理方法和数据处理装置
US20210398252A1 (en) Image denoising method and apparatus
CN111914997B (zh) 训练神经网络的方法、图像处理方法及装置
WO2021018106A1 (zh) 行人检测方法、装置、计算机可读存储介质和芯片
CN110246084B (zh) 一种超分辨率图像重构方法及其系统、装置、存储介质
CN113065645B (zh) 孪生注意力网络、图像处理方法和装置
CN113191489B (zh) 二值神经网络模型的训练方法、图像处理方法和装置
CN113807361A (zh) 神经网络、目标检测方法、神经网络训练方法及相关产品
CN113066018A (zh) 一种图像增强方法及相关装置
WO2022179606A1 (zh) 一种图像处理方法及相关装置
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN114511798B (zh) 基于transformer的驾驶员分心检测方法及装置
Hua et al. Dynamic scene deblurring with continuous cross-layer attention transmission
CN117593187A (zh) 基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法
Zhao et al. End‐to‐End Retinex‐Based Illumination Attention Low‐Light Enhancement Network for Autonomous Driving at Night
CN113256556A (zh) 一种图像选择方法及装置
CN113192085A (zh) 三维器官图像分割方法、装置及计算机设备
CN115988260A (zh) 一种图像处理方法、装置及电子设备
Tao et al. An accurate low-light object detection method based on pyramid networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230425

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230621

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230816

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230906

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230925

R150 Certificate of patent or registration of utility model

Ref document number: 7357176

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150