JP2023133274A - Roi検出モデルのトレーニング方法、検出方法、装置、機器および媒体 - Google Patents

Roi検出モデルのトレーニング方法、検出方法、装置、機器および媒体 Download PDF

Info

Publication number
JP2023133274A
JP2023133274A JP2023038084A JP2023038084A JP2023133274A JP 2023133274 A JP2023133274 A JP 2023133274A JP 2023038084 A JP2023038084 A JP 2023038084A JP 2023038084 A JP2023038084 A JP 2023038084A JP 2023133274 A JP2023133274 A JP 2023133274A
Authority
JP
Japan
Prior art keywords
roi
feature
region
tag
feature data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023038084A
Other languages
English (en)
Inventor
鵬原 呂
Peng Yuan Lu
森 範
Sen Fan
成全 章
Chengquan Zhang
▲コン▼ 姚
Kun Yao
鈞宇 韓
Junyu Han
経拓 劉
Jingtuo Liu
二鋭 丁
Er Rui Ding
井東 王
Jingdong Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023133274A publication Critical patent/JP2023133274A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

【課題】本開示は、ROI検出モデルのトレーニング方法、検出方法、装置、機器および媒体を提供し、人工知能の技術分野に関し、特に、コンピュータ視覚および深層学習技術に関する。【解決手段】具体的な実現形態として、サンプル画像に対して特徴抽出を行い、サンプル特徴データを取得し、サンプル特徴データに対して非線形マッピングを行い、第1特徴データと第2特徴データとを取得し、第1特徴データのタグROIの関連領域での第3特徴データおよび第2特徴データに基づき、領域間差分データを確定し、領域間差分データおよびタグROIの関連領域に基づき、ROI検出モデルのトレーニング待ちパラメータを調整する。本開示の技術によれば、ROI検出モデルの検出精度を向上させる。【選択図】図1C

Description

本開示は、人工知能の技術分野に関し、特に、コンピュータ視覚および深層学習技術に関し、具体的に、ROI検出モデルのトレーニング方法、検出方法、装置、機器および媒体に関する。
画像処理分野において、関心領域(region of interest、ROI)は、画像から選択された1つの画像領域であり、該領域は、画像分析における注目されている重点であり、画像に対する更なる処理の前提として該領域を絞り込むことは、画像処理時間を短縮し、画像処理精度を向上させることができる。
本開示は、ROI検出モデルのトレーニング方法、検出方法、装置、機器および媒体を提供する。
本開示の一態様によれば、
サンプル画像に対して特徴抽出を行い、サンプル特徴データを取得することと、
サンプル特徴データに対して非線形マッピングを行い、クエリ空間での特徴マッピング結果を指示する第1特徴データと、値空間での特徴マッピング結果を指示する第2特徴データとを取得することと、
第1特徴データのタグROIの関連領域での第3特徴データおよび第2特徴データに基づき、領域間差分データを確定することと、
領域間差分データおよびタグROIの関連領域に基づき、ROI検出モデルのトレーニング待ちパラメータを調整することと、を含む、
関心領域検出モデルのトレーニング方法を提供する。
本開示の別の態様によれば、
本開示の実施例に係るいずれかの関心領域検出モデルのトレーニング方法でトレーニングされた特徴抽出パラメータに基づいて検出待ち画像に対して特徴抽出を行い、予測特徴データを取得することと、
トレーニングされた復号化パラメータに基づいて予測特徴データを復号化処理し、ROI予測結果を取得することと、を含む、
関心領域検出方法を更に提供する。
本開示の別の態様によれば、
少なくとも1つのプロセッサと、
少なくとも1つのプロセッサに通信接続されたメモリと、を備える電子機器であって、
メモリに、少なくとも1つのプロセッサによって実行可能な命令が記憶され、
命令は、少なくとも1つのプロセッサが本開示の実施例に係るいずれかの関心領域検出モデルのトレーニング方法または本開示の実施例に係るいずれかの関心領域検出方法を実行可能であるように、少なくとも1つのプロセッサにより実行される、
電子機器を更に提供する。
本開示の別の態様によれば、
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
コンピュータ命令は、本開示の実施例に係るいずれかの関心領域検出モデルのトレーニング方法または本開示の実施例に係るいずれかの関心領域検出方法をコンピュータに実行させることに用いられる、
非一時的なコンピュータ可読記憶媒体を更に提供する。
本開示の技術によれば、関心領域検出モデルの検出精度を向上させる。
本開示に記載された内容は、本開示の実施例のキーとなるまたは重要な特徴を標識するためのものではなく、本開示の範囲を限定するものでもないことが理解されるべきである。本開示の他の特徴は、以下の明細書により容易に理解することができる。
図面は本形態をより良く理解するためのものであり、本開示を限定するものではない。
本開示の実施例に係るROI検出モデルの構造図である。 従来技術に係るROI検出モデルの構造図である。 本開示の実施例に係るROI検出モデルのトレーニング方法のフローチャートである。 本開示の実施例に係るROI検出モデルのトレーニング方法のフローチャートである。 本開示の実施例に係る特徴強調モジュールの構造図である。 本開示の実施例に係るROI検出モデルのトレーニング方法のフローチャートである。 本開示の実施例に係るテキスト領域検出モデルの構造図である。 本開示の実施例に係るROI検出方法のフローチャートである。 本開示の実施例に係るROI検出モデルのトレーニング装置の構造図である。 本開示の実施例に係るROI検出装置の構造図である。 本開示の実施例のROI検出モデルのトレーニング方法および/またはROI検出方法を実現するための電子機器のブロック図である。
以下、図面を参照しながら本開示の例示的な実施例について説明し、ここで、理解の便宜上、本開示の実施例に係る様々な細かい内容まで含まれているが、例示的なものに過ぎないと理解すべきである。同様に、以下の説明において、公知されている機能および構造の説明は、明確且つ簡潔にするために省略している。同様に、以下の説明において、公知されている機能および構造の説明は、明確且つ簡潔にするために省略している。
本開示に係る関心領域(region of interest、ROI)検出モデルのトレーニング方法は、予め構築された深層学習モデルをトレーニングすることで、該モデルにROI検出能力を持たせるという適用シーンに適用できる。ここで、ROIは、テキスト領域、顔領域、車両領域等のような画像内の予め設定されたターゲットが位置する領域であってもよく、必要に応じて予め設定されたターゲットの設定を行うことができる。本開示に係る各ROI検出モデルのトレーニング方法は、ROI検出モデルのトレーニング装置で実行することができ、該装置は、ソフトウェアおよび/またはハードウェアで実現することができ、具体的に、電子機器に構成される。
理解しやすいために、まず、ROI検出モデルの構造について簡単に説明する。
図1Aに示すROI検出モデルを参照し、特徴抽出モジュールおよび特徴強調モジュールを備える。ここで、特徴抽出モジュールは、入力された画像に対して特徴抽出を行うことに用いられ、特徴強調モジュールは、特徴抽出モジュールの出力結果に対して特徴強調を行うことにより、特徴強調モジュールの強調出力結果に基づいてROI検出モデルにおける特徴抽出モジュールおよび特徴強調モジュールのトレーニング待ちパラメータを最適化調整し、特徴抽出モジュールの特徴抽出能力を向上させることに用いられる。
更に、ROI検出モデルは、特徴抽出モジュールの出力結果に基づいてROI予測を行い、ROI予測結果および予め付されたタグROI領域に基づき、特徴抽出モジュールおよび復号化モジュールのトレーニング待ちパラメータを最適化調整するための復号化モジュールを更に備えてもよい。
図1Bを参照し、従来技術において、ROI検出モデルは、特徴抽出モジュールおよび復号化モジュールのみを備え、特徴抽出モジュールにより、入力された画像に対して特徴抽出を行い、復号化モジュールにより、特徴抽出モジュールの出力結果に基づいてROI予測を行い、ROI予測結果および予め付されたタグROI領域に基づき、特徴抽出モジュールおよび復号化モジュールのトレーニング待ちパラメータを最適化調整する。
本開示の図1Aに示すROI検出モデルと図1Bに示す従来技術のROI検出モデルとを比べることにより、本開示では特徴強調モジュールを導入して特徴抽出モジュールのトレーニング待ちパラメータの最適化を補助するため、特徴抽出モジュールの特徴抽出能力を向上させ、ROI検出モデルの検出能力の向上に寄与する。
以下、図1Aに示すROI検出モデルを基に、本開示に係るROI検出モデルのトレーニング方法について詳細に説明する。
図1Cに示すROI検出モデルのトレーニング方法を参照し、ここで、ROI検出モデルは、特徴抽出モジュールおよび特徴強調モジュールを備え、該方法は、以下のステップを含む。
S101において、サンプル画像に対して特徴抽出を行い、サンプル特徴データを取得する。
ここで、サンプル画像は、ROI検出モデルのトレーニングを行う時に使用するトレーニングサンプルである。トレーニングするモデルのモデル精度を確保するために、通常、サンプル画像の数は複数であり、種類は様々である。
ここで、サンプル特徴データは、サンプル画像を抽象化表示したものとして理解できる。
特徴抽出モジュールによりサンプル画像に対して特徴抽出を行い、サンプル画像内のROI関連情報を取得し、サンプル画像内のROI無関係情報を除外することが理解できる。
S102において、サンプル特徴データに対して非線形マッピングを行い、第1特徴データと第2特徴データとを取得する。
ここで、第1特徴データおよび第2特徴データは、サンプル特徴データを、特徴空間に非線形マッピングした結果と見なすことができる。ここで、第1特徴データは、サンプル特徴データのクエリ空間(querying spatial)での特徴マッピング結果を指示し、第2特徴データは、サンプル特徴データの値空間での特徴マッピング結果を指示し、なお、非線形マッピングの方式で第1特徴データおよび第2特徴データの確定を行うことは、ROI検出モデルのフィッティング能力の向上に寄与する。
第1特徴データと第2特徴データとが同じデータ、即ち、サンプル特徴データの空間マッピング結果であるため、第1特徴データおよび第2特徴データには、いずれもサンプル特徴データにおけるキーとなる情報が担持されている。
なお、第1特徴データに対応するクエリ空間と第2特徴データに対応する値空間とは同じであってもよいし、異なってもよく、本開示は、何ら限定するものではない。ROI検出モデルの柔軟性および汎用性を向上させるために、通常、特徴強調モジュールに2つの異なる非線形マッピング分岐を設け、第1特徴データおよび第2特徴データの確定をそれぞれ行い、大量のサンプル画像により、ROI検出モデルのトレーニング状況に対して同じ特徴空間または異なる特徴空間の非線形マッピングを行う。
S103において、第1特徴データのタグROIの関連領域での第3特徴データおよび第2特徴データに基づき、領域間差分データを確定する。
ここで、タグROIは、予め付されたサンプル画像内のROIであり、本開示は、具体的な付し方式を何ら限定するものではない。タグROIの関連領域は、サンプル画像の各領域内の、タグROIが位置する領域と一定の関連関係を有する領域であってもよく、例えば、タグROI自身の領域、またはタグROI内の局所領域であってもよい。1つの具体的な実現形態において、タグROI内の局所領域は、タグROIの中心領域であってもよい。
なお、第1特徴データのタグROIの関連領域での第3特徴データは、サンプル特徴データにおけるタグROIの関連領域のキーとなる情報の、クエリ空間でのマッピング結果として理解できる。第2特徴データに、サンプル特徴データのタグROIの関連領域およびタグROIの関連領域以外の他の領域での情報のクエリ空間でのマッピング結果が含まれるため、第3特徴データおよび第2特徴データのタグROIの関連領域での特徴データに基づいて確定された領域間差分データは、タグROIの関連領域とタグROIの関連領域以外の他の領域との間に担持される情報の比較差分を表すことができ、タグROIの関連領域をある程度で特徴強調する。
S104において、領域間差分データおよびタグROIの関連領域に基づき、ROI検出モデルのトレーニング待ちパラメータを調整する。
領域間差分データが、タグROIの関連領域を特徴強調した結果であるため、該特徴強調結果とタグROIの関連領域との整合性が高ければ高いほど、差分が小さければ小さいほど、ROI検出モデルにおける特徴抽出モジュールの特徴抽出能力および特徴強調モジュールの特徴強調能力が良くなることを表し、該特徴強調結果とタグROIの関連領域との整合性が低ければ低いほど、差分が大きければ大きいほど、ROI検出モデルにおける特徴抽出モジュールの特徴抽出能力または特徴強調モジュールの特徴強調能力が悪くなることを表す。これに鑑み、領域間差分データとタグROIの関連領域との間の差分状況に基づき、特徴抽出モジュールの特徴抽出パラメータおよび特徴強調モジュールの特徴強調パラメータのうちの少なくとも1つを含んでもよいROI検出モデルのトレーニング待ちパラメータを最適化することにより、特徴抽出モジュールの特徴抽出能力および特徴強調モジュールの特徴強調能力を絶えず向上させ、ROI検出モデルをトレーニングするという目的を達成することができる。
本開示の実施例は、サンプル画像を抽出することにより得られたサンプル特徴データに対して非線形マッピングを行い、クエリ空間での第1特徴データおよび値空間での第2特徴データを取得し、第1特徴データのタグROIの関連領域での第3特徴データおよび第2特徴データに対して領域間差分データの確定を行い、非線形マッピング結果のタグROIの関連領域および非関連領域での比較差分を表し、領域間差分データによりROI検出モデルに対してトレーニング待ちパラメータの調整を行うことで、ROI検出モデルをトレーニングするという目的を達成し、ROI検出モデルの特徴抽出能力を向上させ、無関係情報の抽出を低減するとともに、キーとなる情報の欠落を回避し、抽出された特徴の正確性および全面性を確保し、更にトレーニングされたROI検出モデルのROI検出能力を向上させる。
上記各技術案の基に、本開示は、1つの好ましい実施例を更に提供し、該好ましい実施例において、S103の領域間差分データの確定メカニズムを最適化改良する。なお、本好ましい実施例で開示されていない部分は、前述した各実施例の関連記述を参照することができる。
図2Aに示すROI検出モデルのトレーニング方法を参照し、以下のステップを含む。
S201において、サンプル画像に対して特徴抽出を行い、サンプル特徴データを取得する。
S202において、サンプル特徴データに対して非線形マッピングを行い、第1特徴データと第2特徴データとを取得する。
S203において、第1特徴データのタグROIの関連領域での第3特徴データに基づき、ROIグローバル特徴データを確定する。
ここで、ROIグローバル特徴データは、グローバルな視点からタグROIの関連領域のキーとなる情報を表すことに用いられる。
1つの好ましい実施例において、チャネルに従って第3特徴データの平均値を確定し、確定した結果をROIグローバル特徴データとすることができる。
しかし、タグROIの関連領域の全ての第3特徴データを処理することは、演算量を増加する。演算効率を向上させて演算コストを低減するために、別の好ましい実施例において、第3特徴データをサンプリングしてROI参照特徴データを取得し、ROI参照特徴データに基づいてROIグローバル特徴データを確定することもできる。ここで、ROI参照特徴データは少なくとも1セットであってもよく、本開示は、ROI参照特徴データの具体的な数を何ら限定するものではない。
なお、本開示は、サンプリング方式およびサンプリングレートを何ら限定するものではなく、当業者が必要に応じて設定または調整するか、または大量の試験により確定することができる。例えば、ランダムサンプリングの方式で設定数セットのROI参照特徴データを取得することができる。
好ましくは、ROI参照特徴データ内の1セットを選択して直接ROIグローバル特徴データとすることができる。または、好ましくは、チャネル次元に従い、少なくとも1セットのROI参照特徴データの平均値を確定し、確定した結果をROIグローバル特徴データとすることができる。
1つの具体的な実現形態において、ランダムサンプリングの方式により第3特徴データを無差別に扱い、チャネル次元に従い、各セットのROI参照特徴データの平均値を確定し、確定した結果をROIグローバル特徴データとし、キーとなる情報の見落としを回避し、ROIグローバル特徴データに担持された情報の正確性および全面性の向上に寄与する。
第3特徴データをサンプリング処理し、タグROIの関連領域での全量の第3特徴データの代わりにサンプリングで得られたROI参照特徴データを採用し、ROIグローバル特徴データの確定を行うことにより、演算量を著しく低減し、演算効率を向上させることが理解できる。
S204において、ROIグローバル特徴データおよび第2特徴データに基づき、領域間差分データを確定する。
ROIグローバル特徴データがグローバルな視点からタグROIの関連領域でのキーとなる情報を表すことができるため、クエリ空間のROIグローバル特徴データおよび値空間の第2特徴データに基づき、タグROIの関連領域と非関連領域との間の比較差分を表す領域間差分データを確定することができる。
1つの好ましい実施例において、ROIグローバル特徴データに基づいて第2特徴データに対して特徴強調を行い、ROI強調特徴データを取得し、ROI強調特徴データをアクティブ化処理し、領域間差分データを取得することができる。
ROIグローバル特徴データにより第2特徴データに対して特徴強調を行い、第2特徴データ内のタグROIと関連する領域の特徴を強め、第2特徴データ内のタグROIと無関係な領域の特徴(第1特徴データ内の第3特徴データ以外の他の特徴)を弱める。ROI強調特徴データをアクティブ化処理し、ROI強調特徴データを予め設定された特徴空間にマッピングすることにより、領域間差分データを取得する。ここで、予め設定された特徴空間は、当業者が必要または経験値に応じて確定または調整することができ、本開示は、何ら限定するものではなく、例えば、0-1空間であってもよい。本開示は、アクティブ化処理に使用されるアクティブ化関数についても何ら限定するものではなく、実際の必要に応じて設定または調整するか、または大量の試験により確定することができる。
予め設定された特徴空間が0-1空間である場合、領域間差分データは、第2特徴データとROIグローバル特徴データとの間の類似度を表すことに使用できる。画素点に対応する類似度の数が0に近づくと、該画素点の第2特徴値とROIグローバル特徴値との間の類似度が低くなり、即ち、対応する画素点がタグROIの非関連領域である確率が高くなることを表し、画素点に対応する類似度の数が1に近づくと、該画素点の第2特徴値とROIグローバル特徴値との間の類似度が高くなり、即ち、対応する画素点がタグROIの関連領域である確率が高くなることを表す。
上記技術案は、特徴強調およびアクティブ化処理を導入して領域間差分データの確定を行うことにより、領域間差分データの確定メカニズムを完備し、後でROI検出モデルのトレーニング待ちパラメータに対する調整にデータ支持を提供する。それと同時に、特徴強調およびアクティブ化処理が操作しやすいため、領域間差分データの確定効率を向上させ、演算量を低減することが理解できる。
更に、図2Bに示す特徴強調モジュールの構造模式図を参照しながら、領域間差分データの確定過程について詳細に説明する。
特徴抽出モジュールから出力されたサンプル特徴データFをクエリ空間(φは非線形マッピングパラメータであり、モデルのトレーニングにより得られる)に非線形マッピングし、H×W×C次元の第1特徴データFを取得し、サンプル特徴データFを値空間(φは非線形マッピングパラメータであり、モデルのトレーニングにより得られる)に非線形マッピングし、H×W×C次元の第2特徴データFを取得する。第1特徴データFのタグROIの関連領域での第3特徴データをランダムサンプリングし、N(N≧1)セットの1×C次元のROI参照特徴データFqrを取得し、チャネル次元に従ってNセットのROI参照特徴データFqrを平均値処理し、得た平均特徴を表示してROIグローバル特徴データFqmとし、ROIグローバル特徴データを転置処理し、C×1次元の転置結果Fqm’を取得する。H×W×C次元の第2特徴データFを平坦化処理し、(HW)×C次元の平坦化結果Fkfを取得し、平坦化結果Fkfおよび転置結果Fqm’を行列乗算演算し、(HW)×1次元の初期強調特徴Fを取得し、初期強調特徴Fを特徴再構成し、H×W次元のROI強調特徴データMを取得し、ROI強調特徴データMをアクティブ化処理し、H×W次元の行列間差分データMを取得する。
なお、本開示は、タグROIの関連領域の種類および数を何ら限定するものではない。異なるタグROIの関連領域は、前述した方式をそれぞれ採用して対応する領域間差分データを確定することができる。
S205において、領域間差分データおよびタグROIの関連領域に基づき、ROI検出モデルのトレーニング待ちパラメータを調整する。
本開示の実施例は、領域間差分データの確定操作を、第1特徴データのタグROIの関連領域での特徴データに基づいてROIグローバル特徴データを確定することで、第2特徴データおよびタグROIの関連領域のグローバル特徴を表すROIグローバル特徴データに基づき、クエリ空間および値空間でのタグROIの関連領域と非関連領域との間の領域間差分データを確定することに細分化することにより、領域間差分データの確定メカニズムを完備し、後でROI検出モデルのトレーニング待ちパラメータの調整にデータ支持を提供する。
上記各技術案の基に、本開示は、1つの好ましい実施例を更に提供し、該好ましい実施例において、S104のトレーニング待ちパラメータの調整メカニズムを最適化改良する。
図3に示すROI検出モデルのトレーニング方法を参照し、以下のステップを含む。
S301において、サンプル画像に対して特徴抽出を行い、サンプル特徴データを取得する。
S302において、サンプル特徴データに対して非線形マッピングを行い、第1特徴データと第2特徴データとを取得する。
S303において、第1特徴データのタグROIの関連領域での第3特徴データおよび第2特徴データに基づき、領域間差分データを確定する。
S304において、領域間差分データおよびタグROIの関連領域に基づき、ターゲット特徴抽出損失を確定する。
ここで、ターゲット特徴抽出損失は、特徴強調モジュールから出力された領域間差分データと、実際に期待されるタグROIの関連領域との差分の大きさを表し、特徴抽出モジュールの特徴抽出能力を側面から反映する。差分が大きい場合、特徴抽出モジュールの特徴抽出能力が弱く、キーとなる情報の欠落または無関係情報の抽出が存在する可能性があることを表し、差分が小さい場合、特徴抽出モジュールの特徴抽出能力が強いことを表す。
例示的には、領域間差分データとタグROIの関連領域との間の差分状況に基づき、ターゲット特徴抽出損失を確定することができる。
具体的には、予め設定された損失関数に基づき、領域間差分データおよびタグROIの関連領域により、ターゲット特徴抽出損失を確定することができる。ここで、予め設定された損失関数は、当業者が必要または経験値に応じて設定または調整するか、または大量の試験により繰り返し確定することができ、本開示は、これについて何ら限定するものではない。
なお、タグROIの関連領域が単一の領域である場合、1つのターゲット特徴抽出損失を確定することができる。タグROIの関連領域が少なくとも2つの領域を含む場合、タグROIの関連領域毎に、対応する特徴抽出損失を確定することができ、特徴抽出ネットワークの異なるタグROIの関連領域に対する特徴抽出能力を反映することに用いる。それに対応し、各特徴抽出損失に基づき、ターゲット特徴抽出損失を確定する。
好ましくは、タグROIの関連領域は、タグROIの全域の視点から特徴抽出モジュールの特徴抽出能力を測定するためのタグROIを含んでもよい。または、好ましくは、タグROIの関連領域は、タグROIの局所領域の視点から特徴抽出モジュールの特徴抽出能力を測定するためのタグROI内の局所領域を含んでもよい。ここで、タグROIの局所領域の数は、少なくとも1つであってもよい。例えば、タグROIの局所領域は、タグROIの中心領域であってもよい。
タグROIの関連領域を、タグROIおよび/またはタグROIの局所領域を含むように細分化することにより、後で確定する領域間差分データの豊富さおよび多様性を向上させ、ROI検出モデルのトレーニング方法の多様性の向上に寄与することが理解できる。
1つの好ましい実施例において、タグROIの関連領域がタグROIおよびタグROIの局所領域を含む場合、タグROIに対応する領域間差分データおよびタグROIに基づいて第1特徴抽出損失を確定し、タグROIの局所領域に対応する領域間差分データおよびタグROIの局所領域に基づいて第2特徴抽出損失を確定し、第1特徴抽出損失および第2特徴抽出損失に基づいてターゲット特徴抽出損失を確定することができる。
例示的には、第1予め設定された損失関数に基づき、タグROIに対応する領域間差分データおよびタグROIにより、第2特徴抽出損失を確定し、第2予め設定された損失関数に基づき、タグROIの局所領域に対応する領域間差分データおよびタグROIの局所領域により、第2特徴抽出損失を確定し、第1特徴抽出損失および第2特徴抽出損失の加重平均値に基づき、ターゲット特徴抽出損失を確定することができる。ここで、第1予め設定された損失関数および第2予め設定された損失関数は、当業者が必要または経験値に応じて設定または調整することができ、第1予め設定された損失関数と第2予め設定された損失関数との両者は、同じであってもよいし、異なってもよく、本開示は、何ら限定するものではない。ターゲット特徴抽出損失を確定する時、異なる特徴抽出損失に対応する重みは、当業者が必要または経験値に応じて設定または調整することができ、本開示は、重みの具体的な数を何ら限定するものではない。
なお、タグROIの局所領域の数が少なくとも1つである場合、対応する確定された第2特徴抽出損失の数も少なくとも1つである。
タグROIの関連領域を、タグROIおよびタグROIの局所領域を含む2種のデータに細分化することにより、上記データに基づいて異なる類別に対応する領域間差分データの確定を行い、領域間差分データの豊富さおよび多様性を向上させることが理解できる。それとともに、各類別の領域間差分データおよび対応するタグROIの関連領域にそれぞれ対して対応する特徴抽出損失の確定を行い、ターゲット特徴抽出損失の確定の基礎とし、計算過程が便利で迅速であり、計算量が小さく、ターゲット特徴抽出損失の計算効率を向上させる。
S305において、ターゲット特徴抽出損失に基づき、トレーニング待ち特徴抽出パラメータおよびトレーニング待ち特徴強調パラメータを調整する。
ここで、トレーニング待ち特徴抽出パラメータは、特徴抽出を行うための特徴抽出モジュールにおけるトレーニング待ちパラメータとして理解でき、トレーニング待ち特徴強調パラメータは、特徴強調(例えば、非線形マッピングおよび領域間差分データの確定)を行うための特徴強調モジュールにおけるトレーニング待ちパラメータとして理解できる。
ターゲット特徴抽出損失に基づき、特徴抽出モジュールおよび特徴強調モジュールのトレーニング待ちパラメータを調整することにより、ROI検出モデルにおける特徴抽出モジュールの特徴抽出効率を徐々に向上させ、特徴強調モジュールから出力された領域間差分データを対応するタグROIの関連領域に絶えず近づけ、更にROI検出モデルにおける特徴抽出モジュールの特徴抽出能力を向上させる。
具体的には、予め設定された勾配関数に基づき、ターゲット特徴抽出損失により、特徴抽出モジュールおよび特徴強調モジュールのトレーニング待ちパラメータを調整することができる。ここで、予め設定された勾配関数は、当業者が必要または経験値に応じて設定または調整するか、または大量の試験により確定することができ、本開示は、これについて何ら限定するものではない。
1つの好ましい実施例において、更に、ROI検出モデルにおける復号化モジュールから出力された予測ROIおよびタグROIに基づき、ターゲット予測損失を確定し、ターゲット予測損失に基づき、ROI検出モデルのトレーニング待ちパラメータを調整することができる。例えば、ターゲット予測損失に基づき、ROI検出モデルにおける特徴抽出モジュールの特徴抽出パラメータおよび/または復号化モジュールの復号化パラメータを調整することができる。
ターゲット予測損失およびターゲット特徴抽出損失に基づき、特徴抽出モジュールのトレーニング待ちパラメータを連携調整することにより、特徴抽出モジュールの特徴抽出能力を向上させるとともに、特徴抽出モジュールが抽出した特徴をROI検出のニーズに更に合致させることができ、ROI検出モデル全体の検出能力の向上に寄与することが理解できる。
本開示の実施例は、ROI検出モデルのトレーニング待ちパラメータに対する調整操作を、領域間差分データおよびタグROIの関連領域に基づいてターゲット特徴抽出損失を確定し、ROI検出モデルにおける特徴抽出モジュールの特徴抽出能力を表し、該ターゲット特徴抽出損失により特徴抽出モジュールおよび特徴強調モジュールのトレーニング待ちパラメータを調整することに細分化することにより、タグROIの関連領域と非関連領域との間の比較差分の特徴に対する特徴抽出モジュールの敏感性を向上させ、更に特徴抽出モジュールの特徴抽出能力を向上させ、ROI検出モデルの検出精度の向上に保障を提供する。
以下、タグROIをタグテキスト領域とし、それに対応し、タグROIの関連領域がタグテキスト領域およびタグテキスト中心領域を含むことを例とし、テキスト領域検出モデル(即ち、前述した関心領域検出モデル)のトレーニング過程について詳細に説明する。
図4に示すテキスト領域検出モデルの模式図を参照し、特徴抽出モジュール、特徴強調モジュール、および復号化モジュールを備える。ここで、特徴強調モジュールは、第1特徴強調ネットワークおよび第2特徴強調ネットワークを備える。
特徴抽出モジュールにより、入力されたサンプル画像に対して特徴抽出を行い、サンプル特徴データを取得する。
第1特徴強調ネットワークを介してサンプル特徴データに対して非線形マッピングを行い、第1クエリ空間での第1特徴データおよび第1値空間での第2特徴データをそれぞれ取得し、第1クエリ空間での第1特徴データのタグテキスト領域での特徴データを該第1クエリ空間での第3特徴データとし、第1特徴強調ネットワークを介して第1値空間での第2特徴データおよび第1クエリ空間での第3特徴データに基づき、第1領域間差分データを確定する。
第2特徴強調ネットワークを介してサンプル特徴データに対して非線形マッピングを行い、第2クエリ空間での第1特徴データおよび第2値空間での第2第2特徴データをそれぞれ取得し、第2クエリ空間での第1特徴データのタグテキスト中心領域での特徴データを該第2クエリ空間での第3特徴データとし、第2特徴強調ネットワークを介して第2値空間での第2特徴データおよび第2クエリ空間での第3特徴データに基づき、第2領域間差分データを確定する。
復号化モジュールによりサンプル特徴データを復号化処理し、テキスト領域分割画像を取得し、テキスト領域分割画像に対して2値化および連通領域の確定等の後処理を行った後、予測テキスト領域を取得する。
第1領域間差分データおよびタグテキスト領域に基づき、第1特徴抽出損失を確定し、第2領域間差分データおよびタグテキスト中心領域に基づき、第2特徴抽出損失を確定し、第1特徴抽出損失および第2特徴抽出損失に基づき、加重でターゲット特徴抽出損失を取得し、ターゲット特徴抽出損失に基づき、特徴抽出モジュールの特徴抽出パラメータおよび特徴強調モジュールの特徴強調パラメータを最適化する。
予測テキスト領域およびタグテキスト領域に基づき、予測損失を確定し、予測損失に基づき、特徴抽出モジュールの特徴抽出パラメータおよび復号化モジュールの復号化パラメータを最適化する。
なお、第1特徴強調ネットワークおよび第2特徴強調ネットワークにおける非線形マッピングを行う部分を統合することができ、即ち、第1特徴強調ネットワークと第2特徴強調ネットワークは、同じクエリ空間での第1特徴データおよび同じ値空間での第2特徴データを共有することで、データ演算量を低減する。
ここで、復号化モジュールは、従来技術のいずれかの復号化ネットワークを用いて実現することができ、本開示は、これについて何ら限定するものではない。例えば、復号化モジュールは、分割に基づく復号化モジュールであってもよく、即ち、サンプル特徴データに基づき、サンプル画像に対して「背景-テキスト中心領域-テキスト境界」の3分類を行い、サンプル画像における各画素点の分類結果を確定し、テキスト領域分割画像を取得し、テキスト領域分割画像を2値化し、連通領域を確定する等の後処理操作により、予測テキスト領域を取得する。
ここで、異なる特徴強調ネットワークが対応する領域間差分データの確定操作を行うことは、前述した各実施例における特徴強調モジュールの関連記述を参照することができ、ここで説明を省略する。
上記技術案は、タグテキスト領域に対応する第1領域間差分データおよびタグテキスト中心領域に対応する第2領域間差分データを導入してターゲット特徴抽出損失の確定を行い、ターゲット特徴抽出損失により特徴抽出モジュールのトレーニング待ちパラメータを絶えず最適化することにより、特徴抽出モジュールの特徴抽出能力を向上させ、更に、トレーニングするテキスト領域検出モデルの検出結果精度を向上させる。
上記各技術案の基に、本開示は、ROI検出方法の好ましい実施例を更に提供し、該好ましい実施例は、前述した実施例でトレーニングされたROI検出モデルを採用してROI検出を行うという適用シーンに適用される。本開示に係る各ROI検出方法は、ROI検出装置で実行することができ、該装置は、ソフトウェアおよび/またはハードウェアで実現することができ、具体的に電子機器に構成される。なお、ROI検出方法を実行する電子機器と、前述したROI検出モデルのトレーニング方法を実行する電子機器との両者は、同じであってもよいし、異なってもよく、本開示は、これについて何ら限定するものではない。
図5に示すROI検出方法を参照し、以下のステップを含む。
S501において、トレーニングされた特徴抽出パラメータに基づいて検出待ち画像に対して特徴抽出を行い、予測特徴データを取得する。
ここで、特徴抽出パラメータは、本開示の実施例に係る各ROI検出モデルのトレーニング方法を用いてトレーニングされる。
なお、ROI予測を行う時、トレーニングされたROI検出モデルを取得し、該ROI検出モデルにおけるトレーニングされた特徴抽出パラメータを用いて特徴抽出操作を実行し、ROI検出操作のデータ支持とすることができる。
ここで、ROI検出モデルの取得操作は、前述したトレーニングされた完全なROI検出モデルを直接取得して記憶してもよいし、前述したトレーニングされたROI検出モデルにおける特徴強調モジュールを除外し、除外後のROI検出モデルを記憶してもよい。それに対応し、記憶されたROI検出モデルを用いて特徴抽出および後続の復号化操作を実行する。除外後のROI検出モデルの記憶および使用を行うことにより、ROI検出モデルの記憶空間およびデータ演算量を低減することができ、本開示は、これについて何ら限定するものではないことが理解できる。
S502において、トレーニングされた復号化パラメータに基づいて予測特徴データを復号化処理し、ROI予測結果を取得する。
例示的には、ROI検出モデルにおける復号化モジュールにより、予測特徴データを復号化処理してROI分割画像を取得し、ROI分割画像を2値化し、2値化結果に対して連通領域を計算し、ROI予測結果を取得することができる。
本開示の実施例は、前述したトレーニングされた特徴抽出パラメータを用いて検出待ち画像に対して特徴抽出を行い、予測特徴データを取得し、トレーニングされた復号化パラメータに基づいて予測特徴データを復号化処理し、ROI検出結果を取得する。特徴抽出パラメータのトレーニング過程において、クエリ空間での第1特徴データおよび値空間での第2特徴データを導入してタグROIの関連領域と非関連領域との間の領域間差分データの確定を行い、領域間差分データに基づいてROI検出モデルにおける特徴抽出パラメータを含むトレーニング待ちパラメータを調整するため、トレーニングされた特徴抽出パラメータの特徴抽出能力をより良くさせ、ROI予測を行う時に、得られたROI予測結果の正確性も著しく向上させる。
上記各ROI検出モデルのトレーニング方法の実現として、本開示は、各ROI検出モデルのトレーニング方法を実行する実行装置の好ましい実施例を更に提供する。更に、図6に示すROI検出モデルのトレーニング装置600を参照し、特徴抽出モジュール601、特徴強調モジュール602、およびネットワークパラメータ調整モジュール603を備える。ここで、ROI検出モデルのトレーニング装置600は、ROI検出モデルに対してモデルのトレーニングを行うことに用いられ、ここで、ROI検出モデルは、特徴抽出モジュール601および特徴強調モジュール602を備える。
特徴抽出モジュール601は、サンプル画像に対して特徴抽出を行い、サンプル特徴データを取得することに用いられる。
特徴強調モジュール602は、サンプル特徴データに対して非線形マッピングを行い、第1特徴データと第2特徴データとをそれぞれ取得するに用いられる。
特徴強調モジュール602は、更に、第1特徴データおよび第2特徴データのタグROIの関連領域での特徴データに基づき、領域間差分データを確定することに用いられる。
ネットワークパラメータ調整モジュール603は、領域間差分データおよびタグROIの関連領域に基づき、ROI検出モデルのトレーニング待ちパラメータを調整することに用いられる。
本開示の実施例は、ROI検出モデルで、サンプル画像を抽出することにより得られたサンプル特徴データに対して非線形マッピングを行い、クエリ空間での第1特徴データおよび値空間での第2特徴データを取得し、第1特徴データのタグROIの関連領域での第3特徴データおよび第2特徴データに対して領域間差分データの確定を行い、非線形マッピング結果のタグROIの関連領域および非関連領域での比較差分を表し、領域間差分データによりROI検出モデルに対してトレーニング待ちパラメータの調整を行うことで、ROI検出モデルをトレーニングするという目的を達成し、ROI検出モデルにおける特徴抽出モジュールの特徴抽出能力を向上させ、無関係情報の抽出を低減するとともに、キーとなる情報の欠落を回避し、抽出された特徴の正確性および全面性を確保し、更にトレーニングされたROI検出モデルのROI検出能力を向上させる。
1つの好ましい実施例において、特徴強調モジュール602は、
第3特徴データに基づき、ROIグローバル特徴データを確定するためのROIグローバル特徴データ確定ユニットと、
ROIグローバル特徴データおよび第2特徴データに基づき、領域間差分データを確定するための領域間差分データ確定ユニットと、を備える。
1つの好ましい実施例において、領域間差分データ確定ユニットは、
ROIグローバル特徴データに基づいて第2特徴データに対して特徴強調を行い、ROI強調特徴データを取得するための特徴強調サブユニットと、
ROI強調特徴データをアクティブ化処理し、領域間差分データを取得するためのアクティブ化処理サブユニットと、を備える。
1つの好ましい実施例において、ROIグローバル特徴データ確定ユニットは、
第3特徴データをサンプリングし、ROI参照特徴データを取得するためのデータサンプリングサブユニットと、
ROI参照特徴データに基づき、ROIグローバル特徴データを確定するためのROIグローバル特徴データ確定サブユニットと、を備える。
1つの好ましい実施例において、ネットワークパラメータ調整モジュール603は、
領域間差分データおよびタグROIの関連領域に基づき、ターゲット特徴抽出損失を確定するためのターゲット特徴抽出損失確定ユニットと、
ターゲット特徴抽出損失に基づき、トレーニング待ち特徴抽出パラメータおよびトレーニング待ち特徴強調パラメータを調整するためのネットワークパラメータ調整ユニットと、を備える。
1つの好ましい実施例において、タグROIの関連領域は、タグROI、タグROIの局所領域の少なくとも1つを含む。
1つの好ましい実施例において、タグROIの関連領域がタグROIおよびタグROI内の局所領域を含む場合、ターゲット特徴抽出損失確定ユニットは、
タグROIに対応する領域間差分データおよびタグROIに基づき、第1特徴抽出損失を確定するための第1損失確定サブユニットと、
タグROIの局所領域に対応する領域間差分データおよびタグROIの局所領域に基づき、第2特徴抽出損失を確定するための第2損失確定サブユニットと、
第1特徴抽出損失および第2特徴抽出損失に基づき、ターゲット特徴抽出損失を確定するためのターゲット特徴抽出損失確定サブユニットと、を備える。
1つの好ましい実施例において、タグROIの局所領域は、タグROIの中心領域を含む。
上記ROI検出モデルのトレーニング装置は、本開示のいずれかの実施例に係るROI検出モデルのトレーニング方法を実行することができ、各ROI検出モデルのトレーニング方法の実行に対応する機能モジュールおよび有益な効果を備える。
上記各ROI予測方法の実現として、本開示は、各ROI検出方法を実行する実行装置の好ましい実施例を更に提供する。更に図7に示すROI検出装置700を参照し、特徴抽出モジュール701および復号化モジュール702を備える。
特徴抽出モジュール701は、本開示の実施例に係るいずれかのROI検出モデルのトレーニング装置でトレーニングされた特徴抽出パラメータに基づいて検出待ち画像に対して特徴抽出を行い、予測特徴データを取得することに用いられる。
復号化モジュール702は、トレーニングされた復号化パラメータに基づいて予測特徴データを復号化処理し、ROI予測結果を取得することに用いられる。
本開示の実施例は、トレーニングされた特徴抽出パラメータを用いて検出待ち画像に対して特徴抽出を行い、予測特徴データを取得し、トレーニングされた復号化パラメータに基づいて予測特徴データを復号化処理し、ROI予測結果を取得する。特徴抽出パラメータのトレーニング過程において、クエリ空間での第1特徴データおよび値空間での第2特徴データを導入してタグROIの関連領域と非関連領域との間の領域間差分データの確定を行い、領域間差分データに基づいてROI検出モデルにおける特徴抽出パラメータを含むトレーニング待ちパラメータを調整するため、トレーニングされた特徴抽出パラメータの特徴抽出能力をより良くさせ、ROI予測を行う時に、得られたROI予測結果の正確性も著しく向上させる。
上記ROI検出装置は、本開示のいずれかの実施例に係るROI検出方法を実行することができ、各ROI検出方法の実行に対応する機能モジュールおよび有益な効果を備える。
本開示の技術案に係るサンプル画像、検出待ち画像の収集、記憶、使用、加工、伝達、提供、および公開等は、いずれも関連法律法規の規定に該当し、公序良俗に反していない。
本開示の実施例によれば、本開示は、電子機器、可読記憶媒体、およびコンピュータプログラムを更に提供する。
図8は、本開示の実施例を実施するための例示的な電子機器800の模式的なブロック図を示す。電子機器は、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータのような様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯端末、携帯電話、スマートフォン、ウェララブル機器および他の類似する計算装置のような様々な形式の移動装置を表すこともできる。本開示に示されたコンポーネント、それらの接続、関係、およびそれらの機能は例示的なものに過ぎず、本開示に記載および/または要求される本開示の実現を限定するものではない。
図8に示すように、機器800は、計算ユニット801を備え、読み出し専用メモリ(ROM)802に記憶されたコンピュータプログラム、または記憶ユニット808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラムに基づき、様々な適当な動作および処理を実行することができる。RAM 803には、機器800の操作に必要な様々なプログラムおよびデータが記憶されてもよい。計算ユニット801、ROM 802およびRAM 803は、バス804を介して互いに接続されている。入力/出力(I/O)インタフェース805もバス804に接続されている。
機器800における複数のコンポーネントはI/Oインタフェース805に接続され、キーボード、マウス等のような入力ユニット806と、各種のディスプレイ、スピーカ等のような出力ユニット807と、磁気ディスク、光ディスク等のような記憶ユニット808と、ネットワークカード、モデム、無線通信送受信機等のような通信ユニット809とを備える。通信ユニット809は、機器800がインターネットのようなコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを許容する。
計算ユニット801は、処理および計算能力を有する汎用および/または専用の処理アセンブリであってもよい。計算ユニット801のいくつかの例は、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、各種の専用の人工知能(AI)コンピューティングチップ、各種の機械学習モデルアルゴリズムを実行する計算ユニット、デジタルシグナルプロセッサ(DSP)、および任意の適当なプロセッサ、コントローラ、マイクロコントローラ等を含んでもよいが、これらに限定されない。計算ユニット801は、上記様々な方法および処理、例えば、ROI検出モデルのトレーニング方法およびROI検出方法のうちの少なくとも1つを実行する。例えば、いくつかの実施例において、ROI検出モデルのトレーニング方法およびROI検出方法のうちの少なくとも1つは、コンピュータソフトウェアプログラムとして実現でき、有形的に記憶ユニット808のような機器可読媒体に含まれている。いくつかの実施例において、コンピュータプログラムの一部または全ては、ROM 802および/または通信ユニット809を介して機器800にロードおよび/またはインストールされ得る。コンピュータプログラムがRAM 303にロードされて計算ユニット801により実行されると、上記ROI検出モデルのトレーニング方法およびROI検出方法の1つまたは複数のステップを実行することができる。あるいは、他の実施例において、計算ユニット801は、他の任意の適当な方式(例えば、ファームウェアを介して)により、ROI検出モデルのトレーニング方法およびROI検出方法のうちの少なくとも1つを実行するように構成され得る。
本開示に記載されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準パーツ(ASSP)、システムオンチップのシステム(SOC)、複合プログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現できる。これらの様々な実施形態は以下を含んでもよい。1つまたは複数のコンピュータプログラムに実施され、該1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行および/または解釈することができ、該プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、且つデータおよび命令を、該ストレージシステム、該少なくとも1つの入力装置、および該少なくとも1つの出力装置に伝送することができる専用または汎用のプログラマブルプロセッサであってもよい。
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語の任意の組み合わせでコードできる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供でき、これにより、プログラムコードがプロセッサまたはコントローラにより実行されると、フローチャートおよび/またはブロック図で規定された機能/操作が実施される。プログラムコードは、完全に機器で実行されてもよいし、一部が機器で実行されてもよいし、独立したソフトウェアパッケージとして一部が機器で実行されて一部がリモート機器で実行されてもよいし、完全にリモート機器またはサーバで実行されてもよい。
本開示の明細書において、機器可読媒体は、命令実行システム、装置またはデバイスに使用される、または命令実行システム、装置またはデバイスと合わせて使用されるプログラムを含有または記憶できる有形的な媒体であってもよい。機器可読媒体は、機器可読信号媒体または機器可読記憶媒体であってもよい。機器可読媒体は、電子の、磁気の、光の、電磁気の、赤外線の、または半導体のシステム、装置またはデバイス、または上記内容の任意の適当な組み合わせを含んでもよいが、これらに限定されない。機器可読記憶媒体の更なる具体的な例は、1つまたは複数の線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用ディスク(CD-ROM)、光記憶デバイス、磁気記憶デバイス、または上記内容の任意の適当な組み合わせを含む。
ユーザとのインタラクションを提供するために、ここで説明するシステムおよび技術をコンピュータで実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、ユーザがそれにより入力をコンピュータに提供することができるキーボードおよび指向装置(例えば、マウスまたはトラックボール)とを有する。他の種類の装置は、更にユーザとのインタラクションを提供するために使用できる。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、且つ、任意の形式(音入力、音声入力または、触覚入力を含む)でユーザからの入力を受信することができる。
ここで説明するシステムおよび技術を、バックグラウンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、または中間コンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、またはフロントエンドコンポーネントを含むコンピューティングシステム(例えば、ユーザがそれによりここで説明するシステムおよび技術の実施形態とインタラクションできるグラフィカルユーザインタフェースまたはネットワークブラウザを有するユーザコンピュータ)、またはこのようなバックグラウンドコンポーネント、中間コンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムに実施することができる。任意の形式または媒体のデジタルデータ通信(例えば、通信ネットワーク)により、システムのコンポーネントを互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、ブロックチェーンネットワーク、およびインターネットを含む。
コンピューティングシステムはクライアントおよびサーバを含んでもよい。クライアントとサーバとは、一般的に互いに離れ、且つ、通常、通信ネットワークを介してインタラクションを行う。対応するコンピュータで実行されて互いにクライアント-サーバ関係を持つコンピュータプログラムにより、クライアントとサーバとの関係を生成する。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービス体系における1つのホスト製品であり、従来の物理ホストおよびVPSサービスに存在する管理しにくく、トラフィックの拡張性が弱いという欠陥を解決するために使用される。サーバは、分散型システムのサーバであってもよいし、ブロックチェーンを組み合わせたサーバであってもよい。
人工知能は、研究でコンピュータに人間のある思考過程および知能行動(例えば、学習、推理、思考、計画等)をシミュレートさせる学科であり、ハードウェアの面の技術があるとともに、ソフトウェアの面の技術もある。人工知能のハードウェア技術は、一般的に、センサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理等のような技術を含み、人工知能のソフトウェア技術は、主にコンピュータ視覚技術、音声識別技術、自然言語処理技術と機械学習/深層学習技術、ビッグデータ処理技術、ナレッジグラフ技術等のいくつかの方向を含む。
上記に示す様々な形式のフローを用い、ステップを並べ替え、追加または削除することができることを理解すべきである。例えば、本開示に記載された各ステップは、並列に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本開示に係る技術案の所望する結果を達成できる限り、本開示はここで限定しない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者は、設計要求および他の要因に基づき、様々な修正、組み合わせ、サブ組み合わせおよび代替が可能であることを理解すべできる。本発明の精神および原則内で行われる任意の修正、均等置換および改良等は、いずれも本開示の保護範囲内に含まれているべきである。

Claims (21)

  1. サンプル画像に対して特徴抽出を行い、サンプル特徴データを取得することと、
    前記サンプル特徴データに対して非線形マッピングを行い、クエリ空間での特徴マッピング結果を指示する第1特徴データと、値空間での特徴マッピング結果を指示する第2特徴データとを取得することと、
    前記第1特徴データのタグROIの関連領域での第3特徴データおよび前記第2特徴データに基づき、領域間差分データを確定することと、
    前記領域間差分データおよび前記タグROIの関連領域に基づき、前記ROI検出モデルのトレーニング待ち特徴抽出パラメータおよびトレーニング待ち特徴強調パラメータの少なくとも1つを調整することにより、トレーニングされた特徴抽出パラメータおよびトレーニングされた特徴強調パラメータの少なくとも1つを取得することと、を含む、
    関心領域ROI検出モデルのトレーニング方法。
  2. 前記第1特徴データのタグROIの関連領域での第3特徴データおよび前記第2特徴データに基づき、領域間差分データを確定することは、
    前記第3特徴データに基づき、ROIグローバル特徴データを確定することと、
    前記ROIグローバル特徴データおよび前記第2特徴データに基づき、前記領域間差分データを取得することと、を含む、
    請求項1に記載の方法。
  3. 前記ROIグローバル特徴データおよび前記第2特徴データに基づき、領域間差分データを確定することは、
    前記ROIグローバル特徴データに基づいて前記第2特徴データに対して特徴強調を行い、ROI強調特徴データを取得することと、
    前記ROI強調特徴データをアクティブ化処理し、前記領域間差分データを取得することと、を含む、
    請求項2に記載の方法。
  4. 前記第3特徴データに基づき、ROIグローバル特徴データを確定することは、
    前記第3特徴データをサンプリングし、ROI参照特徴データを取得することと、
    前記ROI参照特徴データに基づき、前記ROIグローバル特徴データを確定することと、を含む、
    請求項2に記載の方法。
  5. 前記領域間差分データおよび前記タグROIの関連領域に基づき、前記ROI検出モデルのトレーニング待ち特徴抽出パラメータおよびトレーニング待ち特徴強調パラメータの少なくとも1つを調整することにより、トレーニングされた特徴抽出パラメータおよびトレーニングされた特徴強調パラメータの少なくとも1つを取得することは、
    前記領域間差分データおよび前記タグROIの関連領域に基づき、ターゲット特徴抽出損失を確定することと、
    前記ターゲット特徴抽出損失に基づき、前記トレーニング待ち特徴抽出パラメータおよびトレーニング待ち特徴強調パラメータを調整することにより、トレーニングされた特徴抽出パラメータおよびトレーニングされた特徴強調パラメータを取得することと、を含む、
    請求項1から4のいずれか1項に記載の方法。
  6. 前記タグROIの関連領域は、前記タグROI、前記タグROIの局所領域の少なくとも1つを含む、
    請求項5に記載の方法。
  7. 前記タグROIの関連領域が前記タグROIおよび前記タグROIの局所領域を含む場合、前記領域間差分データおよび前記タグROIの関連領域に基づき、ターゲット特徴抽出損失を確定することは、
    前記タグROIに対応する領域間差分データおよび前記タグROIに基づき、第1特徴抽出損失を確定することと、
    前記タグROIの局所領域に対応する領域間差分データおよび前記タグROIの局所領域に基づき、第2特徴抽出損失を確定することと、
    前記第1特徴抽出損失および前記第2特徴抽出損失に基づき、前記ターゲット特徴抽出損失を確定することと、を含む、
    請求項6に記載の方法。
  8. 前記タグROIの局所領域は、前記タグROIの中心領域を含む、
    請求項6に記載の方法。
  9. 請求項1から4のいずれか1項に記載の方法でトレーニングされた特徴抽出パラメータに基づいて検出待ち画像に対して特徴抽出を行い、予測特徴データを取得することと、
    トレーニングされた復号化パラメータに基づいて前記予測特徴データを復号化処理し、ROI予測結果を取得することと、を含む、
    関心領域ROI検出方法。
  10. サンプル画像に対して特徴抽出を行い、サンプル特徴データを取得するための特徴抽出モジュールと、
    前記サンプル特徴データに対して非線形マッピングを行い、クエリ空間での特徴マッピング結果を指示する第1特徴データと、値空間での特徴マッピング結果を指示する第2特徴データとをそれぞれ取得するための特徴強調モジュールと、
    前記第1特徴データのタグROIの関連領域での第3特徴データおよび前記第2特徴データに基づき、領域間差分データを確定するための前記特徴強調モジュールと、
    前記領域間差分データおよび前記タグROIの関連領域に基づき、前記ROI検出モデルのトレーニング待ちパラメータを調整するためのネットワークパラメータ調整モジュールと、を備える、
    関心領域ROI検出モデルのトレーニング装置。
  11. 前記特徴強調モジュールは、
    前記第3特徴データに基づき、ROIグローバル特徴データを確定するためのROIグローバル特徴データ確定ユニットと、
    前記ROIグローバル特徴データおよび前記第2特徴データに基づき、領域間差分データを確定するための領域間差分データ確定ユニットと、を備える、
    請求項10に記載の装置。
  12. 前記領域間差分データ確定ユニットは、
    前記ROIグローバル特徴データに基づいて前記第2特徴データに対して特徴強調を行い、ROI強調特徴データを取得するための特徴強調サブユニットと、
    前記ROI強調特徴データをアクティブ化処理し、前記領域間差分データを取得するためのアクティブ化処理サブユニットと、を備える、
    請求項11に記載の装置。
  13. 前記ROIグローバル特徴データ確定ユニットは、
    前記第3特徴データをサンプリングし、ROI参照特徴データを取得するためのデータサンプリングサブユニットと、
    前記ROI参照特徴データに基づき、前記ROIグローバル特徴データを確定するためのROIグローバル特徴データ確定サブユニットと、を備える、
    請求項11に記載の装置。
  14. 前記ネットワークパラメータ調整モジュールは、
    前記領域間差分データおよび前記タグROIの関連領域に基づき、ターゲット特徴抽出損失を確定するためのターゲット特徴抽出損失確定ユニットと、
    前記ターゲット特徴抽出損失に基づき、トレーニング待ち特徴抽出パラメータおよびトレーニング待ち特徴強調パラメータを調整するためのネットワークパラメータ調整ユニットと、を備える、
    請求項10から13のいずれか1項に記載の装置。
  15. 前記タグROIの関連領域は、前記タグROI、前記タグROIの局所領域の少なくとも1つを含む、請求項14に記載の装置。
  16. 前記タグROIの関連領域が前記タグROIおよび前記タグROIの局所領域を含む場合、前記ターゲット特徴抽出損失確定ユニットは、
    前記タグROIに対応する領域間差分データおよび前記タグROIに基づき、第1特徴抽出損失を確定するための第1損失確定サブユニットと、
    前記タグROIの局所領域に対応する領域間差分データおよび前記タグROIの局所領域に基づき、第2特徴抽出損失を確定するための第2損失確定サブユニットと、
    前記第1特徴抽出損失および前記第2特徴抽出損失に基づき、前記ターゲット特徴抽出損失を確定するためのターゲット特徴抽出損失確定サブユニットと、を備える、
    請求項15に記載の装置。
  17. 前記タグROIの局所領域は、前記タグROIの中心領域を含む、
    請求項15に記載の装置。
  18. 請求項10から13のいずれか1項に記載の装置でトレーニングされた特徴抽出パラメータに基づいて検出待ち画像に対して特徴抽出を行い、予測特徴データを取得するための特徴抽出モジュールと、
    トレーニングされた復号化パラメータに基づいて前記予測特徴データを復号化処理し、ROI予測結果を取得するための復号化モジュールと、を備える、
    関心領域検出装置。
  19. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されたメモリと、を備える電子機器であって、
    前記メモリに、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、
    前記命令は、前記少なくとも1つのプロセッサが請求項1から4のいずれか1項に記載のROI検出モデルのトレーニング方法または請求項9に記載のROI検出方法を実行可能であるように、前記少なくとも1つのプロセッサにより実行される、
    電子機器。
  20. コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
    前記コンピュータ命令は、請求項1から4のいずれか1項に記載のROI検出モデルのトレーニング方法または請求項9に記載のROI検出方法をコンピュータに実行させることに用いられる、
    非一時的なコンピュータ可読記憶媒体。
  21. コンピュータに、請求項1から4のいずれか1項に記載のROI検出モデルのトレーニング方法、または、請求項9に記載のROI検出方法を実行させるためのプログラム。
JP2023038084A 2022-03-11 2023-03-10 Roi検出モデルのトレーニング方法、検出方法、装置、機器および媒体 Pending JP2023133274A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210239359.9A CN114612651B (zh) 2022-03-11 2022-03-11 Roi检测模型训练方法、检测方法、装置、设备和介质
CN202210239359.9 2022-03-11

Publications (1)

Publication Number Publication Date
JP2023133274A true JP2023133274A (ja) 2023-09-22

Family

ID=81863026

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023038084A Pending JP2023133274A (ja) 2022-03-11 2023-03-10 Roi検出モデルのトレーニング方法、検出方法、装置、機器および媒体

Country Status (4)

Country Link
US (1) US20230290126A1 (ja)
JP (1) JP2023133274A (ja)
KR (1) KR20230133808A (ja)
CN (1) CN114612651B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117746191B (zh) * 2024-02-07 2024-05-10 浙江啄云智能科技有限公司 以图搜图模型训练方法和以图搜图方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310775B (zh) * 2018-12-11 2023-08-25 Tcl科技集团股份有限公司 数据训练方法、装置、终端设备及计算机可读存储介质
CN111324793B (zh) * 2018-12-17 2024-02-23 地平线(上海)人工智能技术有限公司 对存储感兴趣区域的数据的操作进行控制的方法和装置
CN113379718B (zh) * 2021-06-28 2024-02-02 北京百度网讯科技有限公司 一种目标检测方法、装置、电子设备以及可读存储介质
CN113902899A (zh) * 2021-09-29 2022-01-07 北京百度网讯科技有限公司 训练方法、目标检测方法、装置、电子设备以及存储介质
CN113902897B (zh) * 2021-09-29 2022-08-23 北京百度网讯科技有限公司 目标检测模型的训练、目标检测方法、装置、设备和介质

Also Published As

Publication number Publication date
CN114612651A (zh) 2022-06-10
KR20230133808A (ko) 2023-09-19
CN114612651B (zh) 2023-07-21
US20230290126A1 (en) 2023-09-14

Similar Documents

Publication Publication Date Title
CN113326764B (zh) 训练图像识别模型和图像识别的方法和装置
JP2023541532A (ja) テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
CN115422389B (zh) 处理文本图像的方法及装置、神经网络的训练方法
JP2023531350A (ja) サンプル画像を増分する方法、画像検出モデルの訓練方法及び画像検出方法
CN114863437B (zh) 文本识别方法、装置、电子设备和存储介质
WO2023005253A1 (zh) 文本识别模型框架的训练方法、装置及系统
CN114724168A (zh) 深度学习模型的训练方法、文本识别方法、装置和设备
CN115546488B (zh) 信息分割方法、信息提取方法和信息分割模型的训练方法
CN116152833B (zh) 基于图像的表格还原模型的训练方法及表格还原方法
CN115861462A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
JP2023062150A (ja) 文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体
CN113869205A (zh) 对象检测方法、装置、电子设备和存储介质
JP2023133274A (ja) Roi検出モデルのトレーニング方法、検出方法、装置、機器および媒体
CN114898266A (zh) 训练方法、图像处理方法、装置、电子设备以及存储介质
CN114913325A (zh) 语义分割方法、装置及计算机程序产品
CN114724144B (zh) 文本识别方法、模型的训练方法、装置、设备及介质
CN114419327B (zh) 图像检测方法和图像检测模型的训练方法、装置
CN114842541A (zh) 模型的训练及人脸识别方法、装置、设备以及存储介质
CN115565186A (zh) 文字识别模型的训练方法、装置、电子设备和存储介质
CN115116080A (zh) 表格解析方法、装置、电子设备和存储介质
CN114943995A (zh) 人脸识别模型的训练方法、人脸识别方法及装置
CN113780239A (zh) 虹膜识别方法、装置、电子设备和计算机可读介质
CN113989152A (zh) 图像增强方法、装置、设备以及存储介质
CN114820686B (zh) 抠图的方法、装置、电子设备及存储介质
CN116311271B (zh) 文本图像的处理方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240213