JP2022517835A - 画像処理方法並びにその、装置、コンピュータプログラム及び電子機器 - Google Patents

画像処理方法並びにその、装置、コンピュータプログラム及び電子機器 Download PDF

Info

Publication number
JP2022517835A
JP2022517835A JP2021542181A JP2021542181A JP2022517835A JP 2022517835 A JP2022517835 A JP 2022517835A JP 2021542181 A JP2021542181 A JP 2021542181A JP 2021542181 A JP2021542181 A JP 2021542181A JP 2022517835 A JP2022517835 A JP 2022517835A
Authority
JP
Japan
Prior art keywords
image
feature vector
feature
target region
image processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021542181A
Other languages
English (en)
Other versions
JP7163504B2 (ja
Inventor
坤 金
世杰 ▲趙▼
▲陽▼ 易
峰 李
小祥 左
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2022517835A publication Critical patent/JP2022517835A/ja
Application granted granted Critical
Publication of JP7163504B2 publication Critical patent/JP7163504B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/56Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2111Selection of the most significant subset of features by using evolutionary computational techniques, e.g. genetic algorithms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Library & Information Science (AREA)
  • Physiology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

画像処理方法並びにその、装置、コンピュータ可読媒体及び電子機器。この画像処理方法は、処理対象の画像の特徴図を抽出するステップS210と、前記特徴図を複数のターゲット領域に分割するステップS220と、各前記ターゲット領域の特徴ベクトルに基づいて、各前記ターゲット領域のウェートを決定するステップS230と、各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するステップS240とを含む。上記技術案は、画像における各ターゲット領域の特徴ベクトルに基づいて、各ターゲット領域に対して重み付け処理を行うことができ、さらに画像における非顕著領域を弱め、画像における顕著領域を強調することができ、生成される画像特徴ベクトルの精度及び合理性を効果的に向上させる。

Description

本願は、2019年5月6日に提出された、出願番号が201910369974Xで、発明の名称が「画像処理方法並びにその、装置、コンピュータ可読媒体及び電子機器」である中国特許出願の優先権を主張し、その全ての内容は、参照により本願に組み込まれるものとする。
本願は、コンピュータ及び通信技術分野に関し、具体的には、画像処理方法並びにその、装置、コンピュータ可読媒体及び電子機器に関する。
画像処理分野、例えば、画像検索、画像認識技術では、画像から抽出された特徴ベクトルが画像処理結果の精度に大きい影響を与えるが、関連する技術に係る特徴抽出方法には、非常に多くの不合理なところが存在するため、抽出された特徴ベクトルが不正確になってしまい、さらに、最終的な処理結果に影響を与えてしまう。
本願の実施例は、さらに、決定される画像特徴ベクトルの精度及び合理性を少なくともある程度まで向上させることができる、画像処理方法、装置、コンピュータ可読媒体及び電子機器を提供する。
本願の他の特徴及び利点は、以下の詳細な説明にて明瞭になり、又は、部分的に本願を実施することで理解される。
本願の実施例の1つの態様によれば、画像処理方法が提供され、前記画像処理方法は、処理対象の画像の特徴図を抽出するステップと、前記特徴図を複数のターゲット領域に分割するステップと、各前記ターゲット領域の特徴ベクトルに基づいて、各前記ターゲット領域のウェートを決定するステップと、各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するステップとを含む。
本願の実施例の1つの態様によれば、画像処理方法が提供され、前記画像処理方法は、処理対象の画像を画像処理モデルに入力するステップであって、前記画像処理モデルは、畳み込みモジュールと、視覚的注意力モジュールと、特徴統合モジュールとを含み、前記畳み込みモジュールは、前記処理対象の画像の特徴図を抽出するためのものであり、前記視覚的注意力モジュールは、前記特徴図を複数のターゲット領域に分割し、各前記ターゲット領域の特徴ベクトルに基づいて各前記ターゲット領域のウェートを決定するためのものであり、前記特徴統合モジュールは、各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するためのものである、ステップと、前記画像処理モデルにより生成された前記処理対象の画像の特徴ベクトルを取得するステップとを含む。
本願の実施例の1つの態様によれば、画像処理装置が提供され、前記画像処理装置は、処理対象の画像の特徴図を抽出する抽出ユニットと、前記特徴図を複数のターゲット領域に分割する分割ユニットと、各前記ターゲット領域の特徴ベクトルに基づいて、各前記ターゲット領域のウェートを決定する決定ユニットと、各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成する生成ユニットとを含む。
本願の一部の実施例では、前記した技術案に基づいて、前記分割ユニットは、予め設定された領域分割パターンに基づいて前記特徴図を分割し、前記複数のターゲット領域を得、又は、前記特徴図に対してROI(Region Of Interest、関心領域)プーリング操作を行うことで、ROIを前記特徴図にマッピングして前記複数のターゲット領域を得るように構成されている。
本願の一部の実施例では、前記した技術案に基づいて、前記分割ユニットは、予め設定された少なくとも1種の領域分割パターンに基づいて、前記特徴図を分割し、各種の前記領域分割パターンに対応する特徴図領域を得、各種の前記領域分割パターンに対応する特徴図領域を前記ターゲット領域とするように構成されている。
本願の一部の実施例では、前記した技術案に基づいて、前記決定ユニットは、各前記ターゲット領域の特徴ベクトルに対して次元低減処理を行い、各前記ターゲット領域に対応する特徴スカラーを得、各前記ターゲット領域に対応する特徴スカラーに対して正規化処理を行い、各前記ターゲット領域のウェートを得るように構成されている。
本願の一部の実施例では、前記した技術案に基づいて、前記決定ユニットは、各前記ターゲット領域の特徴ベクトルを出力次元が1次元の全接続層に入力し、前記全接続層の出力に基づいて各前記ターゲット領域に対応する特徴スカラーを決定するように構成されている。
本願の一部の実施例では、前記した技術案に基づいて、前記生成ユニットは、各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、各前記ターゲット領域に対して重み付け後の特徴ベクトルを演算し、各前記ターゲット領域に対して重み付け後の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するように構成されている。
本願の一部の実施例では、前記した技術案に基づいて、前記生成ユニットは、各前記ターゲット領域に対して重み付け後の特徴ベクトルに対して統合処理を行い、前記処理対象の画像の特徴ベクトルを得、又は、各前記ターゲット領域に対して重み付け後の特徴ベクトルに対して統合処理を行い、統合処理された特徴ベクトルに対して正規化処理を行い、前記処理対象の画像の特徴ベクトルを得るように構成されている。
本願の一部の実施例では、前記した技術案に基づいて、前記画像処理装置は、前記処理対象の画像の特徴ベクトルに基づいて、前記処理対象の画像とマッチングする画像を検索する検索ユニットをさらに含む。
本願の実施例の1つの態様によれば、画像処理装置が提供され、前記画像処理装置は、処理対象の画像を画像処理モデルに入力する処理ユニットであって、前記画像処理モデルは、畳み込みモジュールと、視覚的注意力モジュールと、特徴統合モジュールとを含み、前記畳み込みモジュールは、前記処理対象の画像の特徴図を抽出するためのものでありであり、前記視覚的注意力モジュールは、前記特徴図を複数のターゲット領域に分割し、各前記ターゲット領域の特徴ベクトルに基づいて各前記ターゲット領域のウェートを決定するためのものであり、前記特徴統合モジュールは、各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するためのものである処理ユニットと、前記画像処理モデルにより生成された前記処理対象の画像の特徴ベクトル取得ユニットとを含む。
本願の一部の実施例では、前記した技術案に基づいて、前記画像処理装置は、特徴ベクトルがマークされた画像サンプルを取得し、前記画像サンプルにより前記画像処理モデルを訓練する訓練ユニットをさらに含む。
本願の一部の実施例では、前記した技術案に基づいて、前記処理ユニットは、前記畳み込みモジュールにおけるいずれかの畳み込み層により前記処理対象の画像の特徴図を抽出するように構成されている。
本願の実施例の1つの態様によれば、コンピュータプログラムが記憶されているコンピュータ可読媒体が提供され、前記コンピュータプログラムがプロセッサによって実行されると、上記実施例に記載の画像処理方法を実現する。
本願の実施例の1つの態様によれば、電子機器が提供され、前記電子機器は、1つ又は複数のプロセッサと、1つ又は複数のプログラムが記憶されているメモリであって、前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサによって実行されると、前記1つ又は複数のプロセッサに上記実施例に記載の画像処理方法を実現させるメモリとを含む。
本願の一部の実施例に係る技術案では、処理対象の画像の特徴図を複数のターゲット領域に分割し、各ターゲット領域の特徴ベクトルに基づいて各ターゲット領域のウェートを決定することで、各ターゲット領域のウェート及び各ターゲット領域の特徴ベクトルに基づいて、処理対象の画像の特徴ベクトルを生成することによって、画像の特徴ベクトルを決定する際、画像における各ターゲット領域の特徴ベクトルに基づいて、各ターゲット領域に対して重み付け処理を行うことができ、さらに画像における非顕著領域(例えば、顕著領域)を弱め、画像における顕著領域(例えば、前景領域)を強調し、生成される画像特徴ベクトルの精度及び合理性を効果的に向上させ、画像検索の効果を向上させることに寄与する。
以上の一般的な説明及び次の詳細な説明は例示的かつ説明的なものに過ぎず、本願を限定するものではないことを理解すべきである。
ここでの図面は明細書に組み込まれかつ本明細書の一部を構成し、本願を満たす実施例を示し、明細書と共に本願の原理を説明するために用いられる。明らかに、以下の説明における図面は本出願のいくつかの実施例に過ぎず、当業者にとって、創造的な労力を要することなく、これらの図面に基づいて他の図面を取得することができる。図面において、
本願の実施例の技術案を適用できる例示的なシステムアーキテクチャの模式図を示す。 本願の一実施例に係る画像処理方法のフローチャートを示す。 本願の一実施例に係る、各ターゲット領域のウェートを決定するフローチャートを示す。 本願の一実施例に係る、各ターゲット領域のウェート及び各ターゲット領域の特徴ベクトルに基づいて、処理対象の画像の特徴ベクトルを生成するフローチャートを示す。 本願の一実施例に係る画像処理方法のフローチャートを示す。 本願の一実施例に係る画像処理方法のフローチャートを示す。 本願の一実施例に係る領域分割パターンの模式図を示す。 本願の一実施例に係る画像検索モデルの構成の模式図を示す。 本願の一実施例に係る画像中各領域のウェート模式図を示す。 本願の一実施例に係る画像検索結果の模式図を示す。 本願の一実施例に係る画像処理装置のブロック図を示す。 本願の一実施例に係る画像処理装置のブロック図を示す。 本願の実施例を実現するための電子機器のコンピュータシステムの構成の模式図である。
以下、図面を参照して、例示的な実施形態をより全面的に説明する。しかし、例示的な実施形態は様々な形態で実施することができ、かつここで説明される例に限定されるとして理解すべきではない。逆に、これらの実施形態を提供することにより、本願がより全面的かつ完全になり、例示的な実施形態の発想を当業者に全面的に伝える。
また、説明された特徴、構造又は特性は、任意の適切な形態で1つ以上の実施例に組み合わせることができる。以下の説明において、より多くの具体的な詳細を提供することで、本願の実施例に対する十分な理解を提供する。しかし、当業者であれば、特定の詳細のうちの1つ以上なしで、本出願の技術案を実施してもよく、又は、他の方法、構成要素、装置、ステップなどを採用してもよいことを意識する。他の場合、本願の各態様を曖昧にすることを回避するために、公知の方法、装置、実現又は操作を示さないか又は説明しない。
図面に示されたブロック図は単に機能エンティティであり、必ずしも物理的に独立したエンティティに対応する必要がない。即ち、ソフトウェアの形でこれらの機能エンティティを実現したり、又は、1つ以上のハードウェアモジュール又は集積回路においてこれらの機能エンティティを実現したり、又は、異なるネットワーク及び/又はプロセッサ装置及び/又はマイクロコントローラ装置においてこれらの機能エンティティを実現したりすることができる。
図面に示されたフローチャートは例示的な説明だけであり、必ずしも全ての内容及び操作/ステップを含む必要がなく、必ずしも説明された順序で実行する必要がない。例えば、ある操作/ステップは分解されてもよく、ある操作/ステップは組み合わせられるか又は部分的に組み合わせられてもよく、したがって、実際に実行される順序は実際の状況に応じて変更する可能性がある。
図1は、本願の実施例の技術案を適用できる例示的なシステムアーキテクチャの模式図を示す。
図1に示すように、システムアーキテクチャは、端末機器(図1に示すスマートフォン101、タブレットパソコン102及びポータブルコンピュータ103のうちの1種又は複数種であり、当然ながら、デスクトップコンピュータなどであってもよい)と、ネットワーク104と、サーバ105とを含むことができる。ネットワーク104は、端末機器とサーバ105との間に通信リンクを提供する媒体である。ネットワーク104は、有線通信リンク、無線通信リンクなどの様々な接続種類を含むことができる。
図1における端末機器、ネットワーク及びサーバの数が例示的なものに過ぎないことを理解すべきである。実際のニーズに応じて、任意の数の端末機器、ネットワーク及びサーバを有することができる。例えば、サーバ105は、複数のサーバからなるサーバクラスターなどであってもよい。
本願の一実施例では、ユーザは、端末機器(図1に示すスマートフォン101、タブレットパソコン102又はポータブルコンピュータ103)により、処理対象の画像を指定することができ、例えば、ユーザは、端末機器により処理対象の画像をサーバ105に送信するか、又は、端末機器により、サーバ105に提供された画像から処理対象の画像を選択する。
本願の一実施例では、サーバ105は、処理対象の画像を決定すると、処理対象の画像の特徴図を抽出することができ、例えば、CNN(Convolutional Neural Network、畳み込みニューラルネットワーク)モデルにおけるいずれかの畳み込み層により、処理対象の画像の特徴図を抽出することができる。処理対象の画像の特徴図を抽出した後に、この特徴図を複数のターゲット領域に分割し、次に各ターゲット領域の特徴ベクトルに基づいて、各ターゲット領域のウェートを決定し、さらに各ターゲット領域のウェート及び各ターゲット領域の特徴ベクトルに基づいて、処理対象の画像の特徴ベクトルを生成することができる。これから分かるように、本願の実施例の技術案は、画像の特徴ベクトルを決定する場合、画像における各ターゲット領域の特徴ベクトルに基づいて、各ターゲット領域に対して重み付け処理を行うことができ、さらに画像における非顕著領域を弱め、画像における顕著領域を強調することができ、生成される画像特徴ベクトルの正確性及び合理性を効果的に向上させ、画像処理の効果を向上させることに寄与し、例えば、画像検索の効果及び画像認識の精度などを向上させる。
なお、本願の実施例に係る画像処理方法は、サーバ105により実行されてもよく、対応して、画像処理装置は、サーバ105に設置されてもよい。しかし、本願の他の実施例では、端末機器は、本願の実施例に係る画像処理案を実行するように、サーバと同様な機能を有してもよい。
以下、本願の実施例の技術案の実現詳細について詳しく説明する。
図2は、本願の一実施例に係る画像処理方法のフローチャートを示し、この画像処理方法は、演算処理機能を有する機器によって実行されてもよく、例えば、図1に示すサーバ105によって実行されてもよい。図2を参照すると、この画像処理方法は、ステップS210~ステップS240を少なくとも含み、詳細な説明は以下のとおりである。
ステップS210において、サーバが処理対象の画像の特徴図を抽出する。
本願の一実施例では、処理対象の画像は、特徴ベクトルを抽出すべき画像であってもよいし、又は、検索すべき画像であってもよいし、又は、認識すべき画像などであってもよい。
本願の一実施例では、CNNモデルにおけるいずれかの畳み込み層によって、処理対象の画像の特徴図を抽出することができる。
ステップS220において、サーバが前記特徴図を複数のターゲット領域に分割する。
本願の一実施例では、予め設定された領域分割パターンに基づいて処理対象の画像の特徴図を分割することで、この複数のターゲット領域を得てもよい。例えば、少なくともの1種の領域分割パターンを予め設定し(例えば、3種の領域分割パターンを予め設定する)、次に、この少なくとも1種の領域分割パターンによって特徴図を分割し、各種の領域分割パターンに対応する特徴図領域を得、さらに各種の領域分割パターンに対応する特徴図領域を分割して得られたターゲット領域としてもよい。
本願の一実施例では、ROIプーリング(Pooling)操作の出力特徴図のサイズを設定し、次に、処理対象の画像の特徴図に対してROIプーリング操作を行うことで、ROIを処理対象の画像の特徴図にマッピングして複数のターゲット領域を得てもよい。
続いて、図2を参照すると、ステップS230において、サーバが各前記ターゲット領域の特徴ベクトルに基づいて、各前記ターゲット領域のウェートを決定する。
本願の一実施例では、図3に示すように、ステップS230において、各ターゲット領域のウェートを決定するプロセスは、ステップS310及びステップS320を含むことができる。
ステップS310において、サーバが各ターゲット領域の特徴ベクトルに対して次元低減処理を行い、各ターゲット領域に対応する特徴スカラーを得る。
本願の一実施例では、特徴スカラーは、特徴サイズを特徴付ける物理量であり、例えば、各ターゲット領域の特徴ベクトルを出力次元が1次元の全接続層に入力することで、全接続層の出力に基づいて、各ターゲット領域に対応する特徴スカラーを決定してもよい。
ステップS320において、サーバが各ターゲット領域に対応する特徴スカラーに対して正規化処理を行い、各ターゲット領域のウェートを得る。
本願の一実施例では、各ターゲット領域に対応する特徴スカラーに対して、L1ノルム、L2ノルム又はsoftmax(正規化指数関数と称する)関数の正規化処理を行ってもよい。
図3に示す実施例の技術案によって、各ターゲット領域の特徴ベクトルに基づいて各ターゲット領域のウェートを決定することができ、さらに、決定されたウェートにより画像における非顕著領域(例えば、背景領域)を弱め、画像における顕著領域(例えば、前景領域)を強調することができ、生成される画像特徴ベクトルの精度及び合理性を向上させることに寄与する。
続いて、図2を参照すると、ステップS240において、サーバが各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成する。
本願の一実施例では、図4に示すように、ステップS240において、各ターゲット領域のウェート及び各ターゲット領域の特徴ベクトルに基づいて、処理対象の画像の特徴ベクトルを生成するプロセスは、以下のステップS410及びステップS420を含むことができる
ステップS410において、サーバが各ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、各前記ターゲット領域に対して重み付け後の特徴ベクトルを演算する。
本願の一実施例では、各ターゲット領域のウェートと各ターゲット領域の特徴ベクトルとのドット積を求める(すなわち、スカラー積を演算する)ことで、各ターゲット領域に対して重み付け後の特徴ベクトルを得てもよい。
ステップS420において、サーバが各前記ターゲット領域に対して重み付け後の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成する。
本願の一実施例では、各ターゲット領域に対して重み付け後の特徴ベクトルに対して統合処理を行うことで、処理対象の画像の特徴ベクトルを得てもよい。或いは、各ターゲット領域に対して重み付け後の特徴ベクトルに対して統合処理を行った後に、統合処理された特徴ベクトルに対して正規化処理を行い(例えば、L2ノルムによる正規化処理を行う)、処理対象の画像の特徴ベクトルを得てもよい。
図2に示す実施例の技術案によれば、本願の一実施例では、処理対象の画像の特徴ベクトルを取得した後に、処理対象の画像の特徴ベクトルに基づいて、処理対象の画像とマッチングする画像を検索し、又は、特徴ベクトルに基づいてさらに画像認識を行うことができる。
図2~図4に示す実施例の技術案によって、画像の特徴ベクトルを決定する場合、画像における各ターゲット領域の特徴ベクトルに基づいて、各ターゲット領域に対して重み付け処理を行うことができ、さらに画像における非顕著領域を弱め、画像における顕著領域を強調することができ、生成される画像特徴ベクトルの精度及び合理性を効果的に向上させ、画像検索の効果を向上させることに寄与し、画像認識の効果を向上させることに寄与することができる。
図5は、本願の一実施例に係る画像処理方法のフローチャートを示し、この画像処理方法は、演算処理機能を有する機器によって実行されてもよく、例えば、図1に示すサーバ105によって実行されてもよい。図5を参照すると、この画像処理方法は、ステップS510~ステップS520を少なくとも含み、詳細な説明は以下のとおりである。
ステップS510において、処理対象の画像を画像処理モデルに入力し、前記画像処理モデルは、畳み込みモジュールと、視覚的注意力モジュールと、特徴統合モジュールとを含む。前記畳み込みモジュールは、前記処理対象の画像の特徴図を抽出するためのものでありであり、前記視覚的注意力モジュールは、前記特徴図を複数のターゲット領域に分割し、各前記ターゲット領域の特徴ベクトルに基づいて各前記ターゲット領域のウェートを決定するためのものであり、前記特徴統合モジュールは、各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するためのものである。
本願の一実施例では、畳み込みモジュールは、畳み込みモジュールにおけるいずれかの畳み込み層により、処理対象の画像の特徴図を抽出できる畳み込みニューラルネットワークであり得る。
本願の一実施例では、視覚的注意力モジュールは、予め設定された領域分割パターンに基づいて処理対象の画像の特徴図を分割することで、複数のターゲット領域を得てもよい。例えば、少なくとも1種の領域分割パターンを予め設定し、次に、この少なくとも1種の領域分割パターンにより特徴図を分割し、各種の領域分割パターンに対応する特徴図領域を得、さらに各種の領域分割パターンに対応する特徴図領域を分割して得られたターゲット領域としてもよい。
本願の一実施例では、視覚的注意力モジュールは、ROIプーリング操作の出力特徴図のサイズを設定し、次に処理対象の画像の特徴図に対してROIプーリング操作を行うことで、ROIを処理対象の画像の特徴図にマッピングして複数のターゲット領域を得てもよい。
本願の一実施例では、視覚的注意力モジュールが各ターゲット領域の特徴ベクトルに基づいて各ターゲット領域のウェートを決定する技術案は、前記した実施例で図3に示す技術案と同様であるため、ここでは説明を省略する。
本願の一実施例では、特徴統合モジュールが各ターゲット領域のウェート及び各ターゲット領域の特徴ベクトルに基づいて、処理対象の画像の特徴ベクトルを生成する技術案は、前記した実施例で図4に示す技術案と同様であるため、ここでは説明を省略する。
続いて、図5を参照すると、ステップS520において、サーバが前記画像処理モデルにより生成された前記処理対象の画像の特徴ベクトルを取得する。
本願の一実施例では、画像処理モデルにより生成された処理対象の画像の特徴ベクトルを取得すると、処理対象の画像の特徴ベクトルに基づいて、処理対象の画像とマッチングする画像を検索してもよい。
本願の一実施例では、画像処理モデルにより生成された処理対象の画像の特徴ベクトルを取得すると、処理対象の画像の特徴ベクトルに基づいて、処理対象の画像を認識してもよい。
図5に示す実施例の技術案は、画像処理モデルにより処理対象の画像の特徴ベクトルを生成することによって、生成される画像特徴ベクトルの精度及び合理性を確保した上で、エンドツーエンドの訓練方法により画像処理モデルを訓練することを実現し、さらに、画像処理モデルにより画像の特徴ベクトルを容易に生成することを実現することができる。本願の一実施例では、画像処理モデルを訓練する方法は、特徴ベクトルがマークされた画像サンプルを取得し、画像処理モデルの損失関数が収束するまで、この画像サンプルにより画像処理モデルを訓練することである。
以下、図6~図10を参照しながら、本願の実施例の技術案の実現詳細について詳しく説明する。
図6に示すように、本願の実施例による画像処理方法は、ステップS610~ステップS660を含み、詳細な説明は以下のとおりである。
ステップS610において、サーバがいずれかのデータセットにおいて畳み込みニューラルネットワークモデルを訓練する。
本願の一実施例では、畳み込みニューラルネットワークモデルは、ResNet(Residual Network、残差ニューラルネットワーク)、ResNeXt、VGGNet(Visual Geometry Group Network、超解像テストシーケンスネットワーク)、InceptionNetなどであり得る。
このいずれかのデータセットにおいて訓練することは、データセットを訓練セットとして用いて、畳み込みニューラルネットワークモデルを訓練することであり得る。
ステップS620において、サーバが画像を訓練された畳み込みニューラルネットワークモデルに入力し、いずれかの畳み込み層から出力された1組の特徴図を取得する。
本願の一実施例では、畳み込みニューラルネットワークモデルから出力された特徴図のサイズは、C×W×Hであってもよい。ただし、Cは、チャンネルの数を表し、H及びWは、それぞれ、長さ及び幅を表す。
畳み込みニューラルネットワークは、2つ以上の畳み込み層を有する場合、この2つ以上の畳み込み層が並列するものであってもよく、すなわち、画像がそれぞれ各畳み込み層で処理されることで、各畳み込み層に対応する特徴図、すなわち、上記の1組の特徴図が出力される。
ステップS630において、サーバが取得した特徴図をいくつかの領域に分割し、各領域の特徴ベクトルを決定する。
本願の一実施例では、画像に対していくつかの領域を事前に設計し、次に各領域内においてプーリング(Max Pooling)操作を行うことで、各領域の特徴を得てもよい。図7に示すように、図7のうちの図(1)は、図全体を1つの領域と見なすことを示し、すなわち、R1とし、図7のうちの図(2)は、図全体を4つの領域にほぼ等分することを示し(領域の交差が多すぎると、不明瞭になってしまうことを回避するために、そのうちの2つの領域のみを示す)、隣接する2つの領域の重なり率をα(0<α<l)とし、この4つの領域をそれぞれR2、R3、R4、R5とし、図7のうちの図(3)は、図全体を9つの領域にほぼ等分することを示し(領域の交差が多すぎると、不明瞭になってしまうことを回避するために、そのうちの3つの領域のみを示す)、隣接する2つの領域の重なり率をα(0<α<l)とし、この9つの領域をそれぞれR6、R7、R8、R9、R1O、R11、R12、R13、R14とする。当然ながら、図全体をより多くの領域に分割してもよい。
本願の一実施例では、画像を図7に示す3つのパターンで分割し、R1~R14の14個の領域を得てもよい。次に、各領域の座標位置に基づいて各領域内においてmax-pooling操作を行うことで、各領域の特徴ベクトルvを決定する。
本願の一実施例では、ROI Pooling層の出力特徴図のサイズを設定してもよい。例えば、出力特徴図のサイズを3×3に設定した場合、サイズがW×Hの入力特徴図をROI Pooling層に入力すると、アルゴリズムが入力特徴図を3×3の部分にほぼ等分し、各部分が1つの最大値を出力として取得し、それにより、3×3の特徴図を出力する。
以下、上記R1~R14の14個の領域を得ることを例として説明すると、この14個の領域の特徴ベクトルは、それぞれv1~v14であり、各特徴ベクトルの次元は、Cであり、対応する領域内の特徴を特徴付けるためのものである。
ステップS640において、サーバが取得した特徴ベクトルv1~v14を全接続層に入力し、各領域に対応するスカラーを出力し、各領域に対応するスカラーに対して正規化処理を行い、各領域のウェートを得る。
本願の一実施例では、全接続層のパラメータは、全接続層の入力次元がC次元、出力次元が1次元であることを表す

Figure 2022517835000002
であってもよい。全接続層によって14個のスカラーを取得した場合、この14個のスカラーに対して正規化処理を行ってもよく、例えば、LIノルム、L2ノルム又はsoftmax関数を用いて正規化処理を行い、β1~β14を得ると、β1~β14は、それぞれ特徴ベクトルv1~v14のウェート、すなわち、各領域のウェートを表す。LIノルムで正規化することを例とする場合、特徴ベクトルのウェートは、以下の式(1)で演算することができる。

Figure 2022517835000003
ステップS650において、サーバが取得した特徴ベクトルvi~v14のそれぞれと、対応するウェートβ1~β14とのドット積を求め、各領域に対して重み付け後の特徴ベクトルを得る。
本願の一実施例では、この14個の領域に対して重み付け後の特徴ベクトルは、それぞれ、β1v1~β14v1として表され、すなわち、画像に対して視覚的注意力メカニズムの処理を行い、この処理は、ドット積で実現することができる。このプロセスは、設計がシンプルであり、特定のニューラルネットワーク層を追加する必要がなく、ドット積プロセスは、対応する領域特徴ベクトルと領域のウェートとを掛け算することのみである。
ステップS660において、サーバが各領域に対して重み付け後の特徴ベクトルを加算し、L2ノルムによる正規化処理を行い、画像の最終的な特徴ベクトルを得る。画像の特徴ベクトルを得ると、この特徴ベクトルに基づいて処理し、例えば、画像検索処理又は画像認識処理などを行うことができる。本願の一実施例では、以下の式(2)で演算して画像の最終的な特徴ベクトルを得ることができる。

Figure 2022517835000004
本願の一実施例では、図6に示す技術案に基づいて、エンドツーエンド訓練を行うことができる画像検索モデルを構築することができ、画像検索モデルは、図8に示すように、CNNネットワーク801と、視覚的注意力モジュール803と、加算モジュール804と、L2正規化層805とを含むことができ、この中で、視覚的注意力モジュール803は、ROI Pooling層と、全接続層と、正規化層と、ドット積モジュールとを含むことができる。CNNネットワーク801は、図6に示すステップS620を実行し、特徴図802を得るためのものであり、視覚的注意力モジュール803は、図6に示すステップS630~ステップS650を実行するためのものであり、加算モジュール804及びL2正規化層805は、図6に示すステップS660を実行し、画像の特徴ベクトル806を得るためのものである。この画像検索モデルは、異なる画像の特徴ベクトルに基づいて画像間の類似度を決定することにより、類似度に基づいて類似画像を決定するための類似度決定モジュールをさらに含む。
本願の一実施例では、画像検索モデルの損失関数が収束するまで、構築された画像検索モデルを、分類タスク上で又は距離学習の方法などを用いて微調整することができる。
本願の実施例の技術案の効果を説明しやすくするために、具体的に図9に示すように、本願の実施例では、演算して得られた各領域のウェートを画像においてマークする。図9に示す「GT」は、各画像における目立つものが位置する領域を表し、図9から分かるように、目立つものを含む領域のウェートが一般的に大きい一方、目立つものを含まない領域のウェートが小さく、さらに前景領域の特徴を強調し、背景領域の特徴を弱め、より合理的かつより正確な画像特徴の符号化を実現し、画像検索性能を大幅に向上させることに寄与する。
本願の一実施例では、VGG-16又はResNet-101のネットワークアーキテクチャに基づいて、学界に認められている画像検索データセットParis6k、Oxford5k、Paris106k、Oxford105kをテストし、テスト結果は、Mean Average Precision(平均再現率の平均値、MAPと略称)を定量指標とし、具体的なテスト結果を表1に示す。

Figure 2022517835000005
表1から分かるように、本願の実施例の技術案を用いると、定量指標を効果的に向上させることができ、特に、ResNet-101アーキテクチャを選択する場合、データセットParisl06kにおいて7.36%高まり、データセット0xfordl05kにおいて11.25%高まった。
本願の実施例の技術案の効果をさらに検証するために、本願の一実施例では、本願の実施例の技術案に基づいて、検出対象の画像の特徴ベクトルを抽出すると、抽出された特徴ベクトルに基づいて検索し、次に類似度の降順に、順次検索画像に戻り、戻った5枚目の画像、10枚目の画像、20枚目の画像及び30枚目の画像は、図10に示す。それで分かるように、本発明の実施例の技術案は、合理的かつ正確な特徴を抽出し、従って、非ターゲット領域が大きい画像でも、良好に検索することができる。
また、本願の実施例の技術案は、画像検索、ビデオ検索分野に適用することができ、具体的には、類似ビデオの推薦、類似ビデオの重複除去、画像の推薦又は重複除去などに適用することができる。
以下、本願の上記実施例での画像処理方法を実行するための本願の装置の実施例について説明する。本願の装置の実施例で開示されていない詳細については、本願の上記の画像処理方法の実施例を参照してください。
図11は、本願の一実施例に係る画像処理装置のブロック図を示す。
図11を参照すると、本願の一実施例に係る画像処理装置1100は、抽出ユニット1102と、分割ユニット1104と、決定ユニット1106と、生成ユニット1108とを含む。
抽出ユニット1102は、処理対象の画像の特徴図を抽出するためのものであり、分割ユニット1104は、前記特徴図を複数のターゲット領域に分割するためのものであり、決定ユニット1106は、各前記ターゲット領域の特徴ベクトルに基づいて、各前記ターゲット領域のウェートを決定するためのものであり、生成ユニット1108は、各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するためのものである。
本願の一部の実施例では、前記した技術案に基づいて、分割ユニット1104は、予め設定された領域分割パターンに基づいて前記特徴図を分割し、前記複数のターゲット領域を得、又は、前記特徴図に対してROIプーリング操作を行うことで、ROIを前記特徴図にマッピングして前記複数のターゲット領域を得るように構成されている。
本願の一部の実施例では、前記した技術案に基づいて、分割ユニット1104は、予め設定された少なくとも1種の領域分割パターンに基づいて、前記特徴図を分割し、各種の前記領域分割パターンに対応する特徴図領域を得、各種の前記領域分割パターンに対応する特徴図領域を前記ターゲット領域とするように構成されている。
本願の一部の実施例では、前記した技術案に基づいて、決定ユニット1106は、各前記ターゲット領域の特徴ベクトルに対して次元低減処理を行い、各前記ターゲット領域に対応する特徴スカラーを得、各前記ターゲット領域に対応する特徴スカラーに対して正規化処理を行い、各前記ターゲット領域のウェートを得るように構成されている。
本願の一部の実施例では、前記した技術案に基づいて、決定ユニット1106は、各前記ターゲット領域の特徴ベクトルを出力次元が1次元の全接続層に入力し、前記全接続層の出力に基づいて各前記ターゲット領域に対応する特徴スカラーを決定するように構成されている。
本願の一部の実施例では、前記した技術案に基づいて、生成ユニット1108は、各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、各前記ターゲット領域に対して重み付け後の特徴ベクトルを演算し、各前記ターゲット領域に対して重み付け後の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するように構成されている。
本願の一部の実施例では、前記した技術案に基づいて、生成ユニット1108は、各ターゲット領域に対して重み付け後の特徴ベクトルに対して統合処理を行い、前記処理対象の画像の特徴ベクトルを得、又は、各前記ターゲット領域に対して重み付け後の特徴ベクトルに対して統合処理を行い、統合処理された特徴ベクトルに対して正規化処理を行い、前記処理対象の画像の特徴ベクトルを得るように構成されている。
本願の一部の実施例では、前記した技術案に基づいて、画像処理装置1100は、前記処理対象の画像の特徴ベクトルに基づいて、前記処理対象の画像とマッチングする画像を検索する検索ユニットをさらに含む。
図12は、本願の一実施例に係る画像処理装置のブロック図を示す。
図12を参照すると、本願の一実施例に係る画像処理装置1200は、処理ユニット1202と取得ユニット1204とを含む。
処理ユニット1202は、処理対象の画像を画像処理モデルに入力するためのものであり、前記画像処理モデルは、畳み込みモジュールと、視覚的注意力モジュールと、特徴統合モジュールとを含み、前記畳み込みモジュールは、前記処理対象の画像の特徴図を抽出するためのものでありであり、前記視覚的注意力モジュールは、前記特徴図を複数のターゲット領域に分割し、各前記ターゲット領域の特徴ベクトルに基づいて各前記ターゲット領域のウェートを決定するためのものであり、前記特徴統合モジュールは、各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するためのものであり、取得ユニット1204は、前記画像処理モデルにより生成された前記処理対象の画像の特徴ベクトルを取得するためのものである。
本願の一部の実施例では、前記した技術案に基づいて、画像処理装置1200は、特徴ベクトルがマークされた画像サンプルを取得し、前記画像サンプルにより前記画像処理モデルを訓練する訓練ユニットをさらに含む。
本願の一部の実施例では、前記した技術案に基づいて、処理ユニット1202は、前記畳み込みモジュールにおけるいずれかの畳み込み層により、前記処理対象の画像の特徴図を抽出するように構成されている。
図13は、本願の実施例を実現するための電子機器のコンピュータシステムの構成の模式図を示す。
なお、図13に示す電子機器のコンピュータシステム1300は、1つの例に過ぎず、本願の実施例の機能及び適用範囲にいかなる制限をもたらすものではない。
図13に示すように、コンピュータシステム1300は、中央処理ユニット(Central Processing Unit、CPU)1301を含み、中央処理ユニット1301は、読み出し専用メモリ(Read-Only Memory、ROM)1302に記憶されたプログラム又は記憶部分1308からランダムアクセスメモリ(Random Access Memory、RAM)1303にロードされたプログラムに基づいて、様々な適当な動作及び処理を実行することができ、例えば、上記実施例に記載の方法を実行する。RAM 1303には、システムオペレーティングに必要とされる様々なプログラム及びデータが記憶されている。CPU 1301、ROM 1302及びRAM 1303は、バス1304を介してお互いに接続されている。入出力(Input/Output、I/O)インターフェース1305もバス1304に接続されている。
以下の部材、即ち、キーボード、マウスなどを含む入力部分1306と、陰極線管(Cathode Ray Tube、CRT)、液晶ディスプレイ(Liquid Crystal Display、LCD)など及びスピーカなどを含む出力部分1307と、ハードディスクなどを含む記憶部分1308と、LAN(Local Area Network、ローカルエリアネットワーク)カード、モデムなどを含むネットワークインターフェースカードの通信部分1309とは、I/Oインターフェース1305に接続されている。通信部分1309は、インターネットなどのネットワークを介して、通信処理を実行する。ドライバ1310は、需要に応じて、I/Oインターフェース1305に接続されてもよい。フロッピーディスク、ディスク、光磁気ディスク、半導体メモリなどの取り外し可能媒体1311は、ニーズに応じて、ドライバ1310に取り付けられることで、読み取られたコンピュータプログラムを需要に応じて記憶部分1308に容易にインストールする。
特に、本願の実施例によれば、以上にフローチャートを参照して説明したプロセスは、コンピュータソフトウェアプログラムとして実現されてもよい。例えば、本願の実施例は、コンピュータ可読媒体に記憶されたコンピュータプログラムを含むコンピュータプログラム製品を含み、このコンピュータプログラムは、フローチャートに示す方法を実行するためのプログラムコードを含む。この実施例では、このコンピュータプログラムは、通信部分1309を介してネットワークからダウンロードしてインストールし、及び/又は、取り外し可能媒体1311からインストールすることができる。このコンピュータプログラムは、中央処理ユニット(CPU)1301によって実行されると、本願のシステムで限定される様々な機能を実行する。
なお、本願の実施例に示すコンピュータ可読媒体は、コンピュータ可読信号媒体、又は、コンピュータ可読記憶媒体、又は、上記両者の任意の組合せであってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁、赤外線、又は半導体のシステム、装置又はデバイス、又は以上の任意の組合せであってよいがこれらに限られない。コンピュータ可読記憶媒体のより具体的な例は、1つ又は複数のワイヤを有する電気的接続、ポータブルコンピュータフロッピーディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(Erasable Programmable Read Only Memory、EPROM)、フラッシュメモリ、光ファイバ、ポータブルコンパクトフロッピーディスク読み出し専用メモリ(Compact Disc Read-Only Memory、CD-ROM)、光記憶デバイス、磁気記憶デバイス、又は上記の任意の適当な組合せを含んでもよいがこれらに限られない。本願では、コンピュータ可読記憶媒体は、プロクラムを含む又は記憶する任意の有形媒体であってもよく、このプログラムは、命令実行システム、装置又はデバイスにより使用されるか、又は、それと組み合わせて使用されてもよい。本願では、コンピュータ可読信号媒体は、ベースバンドにおいて又は搬送波の一部として伝播するデータ信号を含んでもよく、コンピュータ可読プログラムコードが記憶されている。このように伝播するデータ信号は、複数の形式を用いてもよく、電磁信号、光信号又は上記の任意の適当な組合せを含むがこれらに限られない。コンピュータ可読信号媒体は、さらに、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体体であってもよく、このコンピュータ可読媒体は、命令実行システム、装置又はデバイスによって使用されるか、又は、それと組み合わせて使用されるプログラムを送信、伝播又は転送することができる。コンピュータ可読媒体に含まれるプログラムコードは、任意の適当な媒体で転送されてもよく、無線、有線など、又は、上記の任意の適当な組合せを含むがこれらに限られない。
図面におけるフローチャート及びブロック図は、本願の各実施例に係るシステム、方法及びコンピュータプログラム製品の可能な形態のアーキテクチャ、機能及び動作を示す。フローチャート又はブロック図での各ブロックは、1つのモジュール、ブロック、又はコードの一部を表し得る。上記モジュール、ブロック、又はコードの一部に、規定された論理機能を実現するための1つ又は複数の実行可能な命令が含まれる。なお、代替的な形態によっては、ブロックにマーキングされた機能は、図面にマーキングされた順序と異なる順序で発生してもよい。例えば、連続的に示す2つのブロックは、関与する機能に応じて、実際には、実質的に並列に実行されてもよく、場合によっては逆の順序で実行されてもよい。また、ブロック図又はフローチャートでの各ブロック、及びブロック図又はフローチャートでのブロックの組合せは、規定された機能又は動作を実行するハードウェア・ベースの専用システムによって実現されてもよく、又は、専用ハードウェアとコンピュータ命令の組合せで実現されてもよいことにも留意されたい。
本願の実施例に説明された係るユニットはソフトウェアの形態で実現されてもよいし、ハードウェアの形態で実現されてもよく、説明されたユニットはプロセッサに設けられてもよい。これらのユニットの名称は、ある場合、該ユニット自体に対する限定を構成しない。
他の態様としては、本願は、コンピュータ可読媒体をさらに提供する。該コンピュータ可読媒体は、上記実施例で説明された電子機器に含まれるものであってもよく、独立に存在しており、該電子機器に組み立てられていないものであってもよい。上記コンピュータ可読媒体に1つ又は複数のプログラムが含まれ、上記1つ又は複数のプログラムが1つの該電子機器により実行されると、該電子機器に上記実施例に記載の方法を実現させる。
なお、以上に、動作実行用の機器のいくつかのモジュール又はユニットについて詳細に説明したが、この分割は強制的ではない。実際には、本願の実施形態によれば、上記で説明された2つ以上のモジュール又はユニットの特徴及び機能は、1つのモジュール又はユニットにおいて具体化されてもよい。逆に、上述した1つのモジュール又はユニットの特徴及び機能は、さらに複数のモジュール又はユニットに分割されて具体化されてもよい。
以上の実施形態の説明により、ここで説明された例示的な実施形態は、ソフトウェアによって実現されてもよく、ソフトウェアと必要なハードウェアの組み合わせによって実現されてもよいことを当業者が理解しやすい。従って、本願の実施形態による技術案は、ソフトウェア製品の形態で具現化されてもよく、該ソフトウェア製品は、1つの不揮発性記憶媒体(CD-ROM、USBディスク、モバイルディスクなどであってもよい)又はネットワークに記憶されてもよく、一台のコンピューティングデバイス(パソコン、サーバ、タッチ端末、又はネットワーク機器などであってもよい)に本願の実施形態による方法を実行させるいくつかの命令を含む。
当業者は、明細書を考慮し、ここに開示された実施形態を実施すると、本願の他の実施案を容易に想到できる。本願は、本願のいかなる変形、用途又は適応的な変化をカバーすることを意図しており、これらの変形、用途又は適応的な変化は、本願の一般的な原理に従っており、本願に開示されていない本技術分野における公知の常識又は慣用技術手段を含む。本願は、以上に説明されるとともに、図面に示す正確な構造に限られず、その範囲から逸脱することなく、様々な修正や変更を行うことができることが理解されるべきである。本願の範囲は、添付の特許請求の範囲のみによって制限される。
1100 画像処理装置
1102 抽出ユニット
1104 分割ユニット
1106 決定ユニット
1108 生成ユニット
1200 画像処理装置
1202 処理ユニット
1204 取得ユニット
1305 I/Oインターフェース
1306 入力部分
1307 出力部分
1308 記憶部分
1309 通信部分
1310 ドライバ
1311 取り外し可能媒体
本願は、コンピュータ及び通信技術分野に関し、具体的には、画像処理方法並びにその、装置、コンピュータプログラム及び電子機器に関する。

Claims (15)

  1. 処理対象の画像の特徴図を抽出するステップと、
    前記特徴図を複数のターゲット領域に分割するステップと、
    各前記ターゲット領域の特徴ベクトルに基づいて、各前記ターゲット領域のウェートを決定するステップと、
    各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するステップとを含む、ことを特徴とする画像処理方法。
  2. 前記特徴図を複数のターゲット領域に分割する前記ステップは、
    前記複数のターゲット領域を得るように、予め設定された領域分割パターンに基づいて前記特徴図を分割するステップ、又は、
    前記特徴図に対して関心領域(ROI)のプーリング操作を行うことで、ROIを前記特徴図にマッピングして前記複数のターゲット領域を得るステップを含む、ことを特徴とする請求項1に記載の画像処理方法。
  3. 予め設定された領域分割パターンに基づいて前記特徴図を分割する前記ステップは、
    予め設定された少なくとも1種の領域分割パターンに基づいて、前記特徴図を分割し、各種の前記領域分割パターンに対応する特徴図領域を得るステップと、
    各種の前記領域分割パターンに対応する特徴図領域を前記ターゲット領域とするステップとを含む、ことを特徴とする請求項2に記載の画像処理方法。
  4. 各前記ターゲット領域の特徴ベクトルに基づいて、各前記ターゲット領域のウェートを決定する前記ステップは、
    各前記ターゲット領域の特徴ベクトルに対して次元低減処理を行い、各前記ターゲット領域に対応する特徴スカラーを得るステップと、
    各前記ターゲット領域に対応する特徴スカラーに対して正規化処理を行い、各前記ターゲット領域のウェートを得るステップとを含む、ことを特徴とする請求項1に記載の画像処理方法。
  5. 各前記ターゲット領域の特徴ベクトルに対して次元低減処理を行い、各前記ターゲット領域に対応する特徴スカラーを得る前記ステップは、
    各前記ターゲット領域の特徴ベクトルを出力次元が1次元の全接続層に入力し、前記全接続層の出力に基づいて各前記ターゲット領域に対応する特徴スカラーを決定するステップを含む、ことを特徴とする請求項4に記載の画像処理方法。
  6. 各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成する前記ステップは、
    各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、各前記ターゲット領域に対して重み付け後の特徴ベクトルを演算するステップと、
    各前記ターゲット領域に対して重み付け後の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するステップとを含む、ことを特徴とする請求項1に記載の画像処理方法。
  7. 各前記ターゲット領域に対して重み付け後の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成する前記ステップは、
    各前記ターゲット領域に対して重み付け後の特徴ベクトルに対して統合処理を行い、前記処理対象の画像の特徴ベクトルを得るステップ、又は
    各前記ターゲット領域に対して重み付け後の特徴ベクトルに対して統合処理を行い、統合処理された特徴ベクトルに対して正規化処理を行い、前記処理対象の画像の特徴ベクトルを得るステップを含む、ことを特徴とする請求項6に記載の画像処理方法。
  8. 前記処理対象の画像の特徴ベクトルに基づいて、前記処理対象の画像とマッチングする画像を検索するステップをさらに含む、ことを特徴とする請求項1~請求項7のいずれか1項に記載の画像処理方法。
  9. 処理対象の画像を画像処理モデルに入力するステップであって、前記画像処理モデルは、畳み込みモジュールと、視覚的注意力モジュールと、特徴統合モジュールとを含み、前記畳み込みモジュールは、前記処理対象の画像の特徴図を抽出するためのものであり、前記視覚的注意力モジュールは、前記特徴図を複数のターゲット領域に分割し、各前記ターゲット領域の特徴ベクトルに基づいて各前記ターゲット領域のウェートを決定するためのものであり、前記特徴統合モジュールは、各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するためのものである、ステップと、
    前記画像処理モデルの前記処理対象の画像の特徴ベクトルを取得するステップとを含む、ことを特徴とする画像処理方法。
  10. 特徴ベクトルがマークされた画像サンプルを取得するステップと、
    前記画像サンプルにより前記画像処理モデルを訓練するステップとをさらに含む、ことを特徴とする請求項9に記載の画像処理方法。
  11. 前記畳み込みモジュールにおけるいずれかの畳み込み層により、前記処理対象の画像の特徴図を抽出する、ことを特徴とする請求項9又は10に記載の画像処理方法。
  12. 処理対象の画像の特徴図を抽出する抽出ユニットと、
    前記特徴図を複数のターゲット領域に分割する分割ユニットと、
    各前記ターゲット領域の特徴ベクトルに基づいて、各前記ターゲット領域のウェートを決定する決定ユニットと、
    各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成する生成ユニットとを含む、ことを特徴とする画像処理装置。
  13. 処理対象の画像を画像処理モデルに入力する処理ユニットであって、前記画像処理モデルは、畳み込みモジュールと、視覚的注意力モジュールと、特徴統合モジュールとを含み、前記畳み込みモジュールは、前記処理対象の画像の特徴図を抽出するためのものであり、前記視覚的注意力モジュールは、前記特徴図を複数のターゲット領域に分割し、各前記ターゲット領域の特徴ベクトルに基づいて各前記ターゲット領域のウェートを決定するためのものであり、前記特徴統合モジュールは、各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するためのものである、処理ユニットと、
    前記画像処理モデルにより生成された前記処理対象の画像の特徴ベクトルを取得する取得ユニットとを含む、ことを特徴とする画像処理装置。
  14. コンピュータプログラムが記憶されているコンピュータ可読媒体であって、
    前記コンピュータプログラムがプロセッサによって実行されると、請求項1~請求項8のいずれか1項に記載の画像処理方法を実現するか、又は、請求項9~請求項11のいずれか1項に記載の画像処理方法を実現させる、ことを特徴とするコンピュータ可読媒体。
  15. 1つ又は複数のプロセッサと、
    1つ又は複数のプログラムが記憶されているメモリであって、前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサによって実行されると、前記1つ又は複数のプロセッサに、請求項1~請求項8のいずれか1項に記載の画像処理方法を実現させるか、又は、請求項9~請求項11のいずれか1項に記載の画像処理方法を実現させるメモリとを含む、ことを特徴とする電子機器。
JP2021542181A 2019-05-06 2020-04-16 画像処理方法並びにその、装置、コンピュータプログラム及び電子機器 Active JP7163504B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910369974.XA CN110222220B (zh) 2019-05-06 2019-05-06 图像处理方法、装置、计算机可读介质及电子设备
CN201910369974.X 2019-05-06
PCT/CN2020/085021 WO2020224405A1 (zh) 2019-05-06 2020-04-16 图像处理方法、装置、计算机可读介质及电子设备

Publications (2)

Publication Number Publication Date
JP2022517835A true JP2022517835A (ja) 2022-03-10
JP7163504B2 JP7163504B2 (ja) 2022-10-31

Family

ID=67820356

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021542181A Active JP7163504B2 (ja) 2019-05-06 2020-04-16 画像処理方法並びにその、装置、コンピュータプログラム及び電子機器

Country Status (5)

Country Link
US (1) US11978241B2 (ja)
EP (1) EP3968180A4 (ja)
JP (1) JP7163504B2 (ja)
CN (1) CN110222220B (ja)
WO (1) WO2020224405A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222220B (zh) * 2019-05-06 2024-05-10 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读介质及电子设备
CN110472627B (zh) * 2019-07-02 2022-11-08 五邑大学 一种端到端的sar图像识别方法、装置及存储介质
CN110796594B (zh) * 2019-10-28 2021-11-09 腾讯科技(深圳)有限公司 一种图像生成方法、装置及设备
US11797603B2 (en) * 2020-05-01 2023-10-24 Magic Leap, Inc. Image descriptor network with imposed hierarchical normalization
CN111639654B (zh) * 2020-05-12 2023-12-26 博泰车联网(南京)有限公司 一种图像处理方法、装置及计算机存储介质
CN112052350B (zh) * 2020-08-25 2024-03-01 腾讯科技(深圳)有限公司 一种图片检索方法、装置、设备和计算机可读存储介质
CN112102167B (zh) * 2020-08-31 2024-04-26 深圳市航宇数字视觉科技有限公司 一种基于视觉感知的图像超分辨率方法
CN113256661A (zh) * 2021-06-23 2021-08-13 北京蜂巢世纪科技有限公司 图像处理方法、装置、设备、介质及程序产品
CN116051385A (zh) * 2021-10-28 2023-05-02 北京三星通信技术研究有限公司 图像处理方法、装置、电子设备及存储介质
CN115205120A (zh) * 2022-07-26 2022-10-18 中国电信股份有限公司 图像处理方法、图像处理装置、介质及电子设备
CN115019151B (zh) * 2022-08-05 2022-10-21 成都图影视讯科技有限公司 非显著特征区域加速型神经网络构架、方法和设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007079616A (ja) * 2005-09-09 2007-03-29 Canon Inc 情報検索装置、情報検索装置の制御方法、及び制御プログラム
JP2010211484A (ja) * 2009-03-10 2010-09-24 Nippon Telegr & Teleph Corp <Ntt> 存在確率による位置重みを考慮した類似画像検索装置、存在確率による位置重みを考慮した類似画像検索方法、存在確率による位置重みを考慮した類似画像検索プログラム
JP2010218479A (ja) * 2009-03-19 2010-09-30 Yahoo Japan Corp 画像検索装置
JP2012079186A (ja) * 2010-10-05 2012-04-19 Yahoo Japan Corp 画像検索装置、画像検索方法及びプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10354159B2 (en) * 2016-09-06 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in an image using a contextual multiscale fast region-based convolutional neural network
CN107169090A (zh) * 2017-05-12 2017-09-15 深圳市唯特视科技有限公司 一种利用内容环绕信息提取图像表征的特定对象检索方法
CN108229468B (zh) * 2017-06-28 2020-02-21 北京市商汤科技开发有限公司 车辆外观特征识别及车辆检索方法、装置、存储介质、电子设备
CN107577758B (zh) * 2017-08-31 2020-06-16 桂林电子科技大学 一种基于多区域交叉权值的图像卷积特征的生成方法
CN108171260B (zh) * 2017-12-15 2022-02-11 百度在线网络技术(北京)有限公司 一种图片识别方法及系统
CN110222220B (zh) * 2019-05-06 2024-05-10 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读介质及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007079616A (ja) * 2005-09-09 2007-03-29 Canon Inc 情報検索装置、情報検索装置の制御方法、及び制御プログラム
JP2010211484A (ja) * 2009-03-10 2010-09-24 Nippon Telegr & Teleph Corp <Ntt> 存在確率による位置重みを考慮した類似画像検索装置、存在確率による位置重みを考慮した類似画像検索方法、存在確率による位置重みを考慮した類似画像検索プログラム
JP2010218479A (ja) * 2009-03-19 2010-09-30 Yahoo Japan Corp 画像検索装置
JP2012079186A (ja) * 2010-10-05 2012-04-19 Yahoo Japan Corp 画像検索装置、画像検索方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
山下 隆義, イラストで学ぶ ディープラーニング 改訂第2版, vol. 改訂第2版, JPN6022028849, 19 November 2018 (2018-11-19), JP, pages 95 - 125, ISSN: 0004822211 *

Also Published As

Publication number Publication date
WO2020224405A1 (zh) 2020-11-12
EP3968180A1 (en) 2022-03-16
EP3968180A4 (en) 2022-07-06
US11978241B2 (en) 2024-05-07
JP7163504B2 (ja) 2022-10-31
CN110222220B (zh) 2024-05-10
CN110222220A (zh) 2019-09-10
US20210319243A1 (en) 2021-10-14

Similar Documents

Publication Publication Date Title
JP2022517835A (ja) 画像処理方法並びにその、装置、コンピュータプログラム及び電子機器
CN109522942B (zh) 一种图像分类方法、装置、终端设备和存储介质
EP3550568B1 (en) Graph convolution based gene prioritization on heterogeneous networks
CN107729935B (zh) 相似图片的识别方法和装置、服务器、存储介质
Zhao et al. Recognition of building group patterns using graph convolutional network
US20210012153A1 (en) Image processing method and apparatus, electronic device, and storage medium
US10528649B2 (en) Recognizing unseen fonts based on visual similarity
US20220270384A1 (en) Method for training adversarial network model, method for building character library, electronic device, and storage medium
WO2024036847A1 (zh) 图像处理方法和装置、电子设备和存储介质
CN113033580B (zh) 图像处理方法、装置、存储介质及电子设备
CN112395487A (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
CN113987119A (zh) 一种数据检索方法、跨模态数据匹配模型处理方法和装置
CN110633717A (zh) 一种目标检测模型的训练方法和装置
CN115271071A (zh) 基于图神经网络的知识图谱实体对齐方法、系统及设备
JP2022166215A (ja) 文字位置決めモデルのトレーニング方法及び文字位置決め方法
CN115238582A (zh) 知识图谱三元组的可靠性评估方法、系统、设备及介质
WO2024082827A1 (zh) 文本相似性度量方法、装置、设备、存储介质和程序产品
Shi et al. CEGAT: A CNN and enhanced-GAT based on key sample selection strategy for hyperspectral image classification
WO2021104274A1 (zh) 图文联合表征的搜索方法、系统、服务器和存储介质
CN105740313B (zh) 设计等值域图
WO2024045319A1 (zh) 人脸图像聚类方法、装置、电子设备及存储介质
CN110020195B (zh) 文章推荐方法及装置、存储介质、电子设备
CN108229572B (zh) 一种参数寻优方法及计算设备
CN114419327B (zh) 图像检测方法和图像检测模型的训练方法、装置
CN115169433A (zh) 基于元学习的知识图谱分类方法及相关设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210720

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221011

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221019

R150 Certificate of patent or registration of utility model

Ref document number: 7163504

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150