JP2023530796A - 認識モデルトレーニング方法、認識方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム - Google Patents

認識モデルトレーニング方法、認識方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP2023530796A
JP2023530796A JP2022544196A JP2022544196A JP2023530796A JP 2023530796 A JP2023530796 A JP 2023530796A JP 2022544196 A JP2022544196 A JP 2022544196A JP 2022544196 A JP2022544196 A JP 2022544196A JP 2023530796 A JP2023530796 A JP 2023530796A
Authority
JP
Japan
Prior art keywords
target object
prediction data
recognition
image
recognition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022544196A
Other languages
English (en)
Inventor
翔 博 蘇
健 王
昊 孫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023530796A publication Critical patent/JP2023530796A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • G06V40/45Detection of the body part being alive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本発明は、認識モデルトレーニング方法、認識方法、装置、デバイス及び記憶媒体、ディープラーニング、コンピュータ視覚技術分野に関する。具体的な実現手段は以下のとおりである。処理対象画像をトレーニング対象である認識モデルに入力し、前記トレーニング対象である認識モデルの特徴出力層により、前記処理対象画像の少なくとも一枚の特徴図を出力し、前記トレーニング対象である認識モデルのヘッドにより、前記少なくとも一枚の特徴図に基づいて前記処理対象画像における第一目標物体の予測データ、及び前記処理対象画像における前記第一目標物体に関連する第二目標物体の予測データを取得し、第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、前記トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを取得する。本開示の実施により、認識モデルの認識効率及び認識効果を向上させることができる。

Description

本願は、2021年05月28日に中国特許庁に提出した、出願番号が202110591890.8であり、発明名称が「認識モデルトレーニング方法、認識方法、装置、デバイス及び記憶媒体」である中国特許出願の優先権を主張し、その全ての内容が引用により本願に組み込まれる。
本開示は、人工知能技術分野に関し、特にディープラーニング、コンピュータ視覚技術分野に関し、スマート都市、スマート交通シーンに応用することができる。
目標認識は、画像処理の重要な手段及び目的であり、目標認識により、ビデオ、静的画面における物体、人体、動物体などの目標物体を認識することができ、認識結果に基づいて身分認証、安全検査などの様々な用途を実現する。
コンピュータ技術の発展に伴い、目標認識技術に応用する必要がある様々なシーンでは、応用目的の多様化、認識される目標物体の多様化に伴い、多重モデルによって目標物体認識の目的を実現する必要がある。如何にして処理対象画像を処理するモデルの効率を向上させるかは、改善する必要がある問題である。
本発明は、認識モデルトレーニング方法、認識方法、装置、デバイス及び記憶媒体を提供する。
本開示の一態様によれば、認識モデルトレーニング方法を提供し、
処理対象画像をトレーニング対象である認識モデルに入力することと、
トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力することと、
トレーニング対象である認識モデルのヘッドにより、少なくとも一枚の特徴図に基づいて処理対象画像における第一目標物体の予測データ、及び処理対象画像における第一目標物体の予測データに関連する第二目標物体の予測データを取得することと、
第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを取得することと、を含む。
本開示の別の態様によれば、認識方法を提供し、
認識対象画像を認識モデルに入力し、認識対象画像における第一目標物体の予測データと第一目標物体に関連する第二目標物体の予測データを取得することを含み、認識モデルは、本開示のいずれか一つの実施例が提供するトレーニングされた認識モデルである。
本開示の別の態様によれば、認識モデルトレーニング装置を提供し、
処理対象画像をトレーニング対象である認識モデルに入力する第一入力モジュールと、
トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力する特徴図モジュールと、
トレーニング対象である認識モデルのヘッドにより、少なくとも一枚の特徴図に基づいて処理対象画像における第一目標物体の予測データ、及び処理対象画像における第一目標物体の予測データに関連する第二目標物体の予測データを取得する予測データモジュールと、
第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを取得するトレーニングモジュールと、を含む。
本開示の別の態様によれば、認識装置を提供し、
認識対象画像を認識モデルに入力し、認識対象画像における第一目標物体の予測データ及び第一目標物体に関連する第二目標物体の予測データを取得する第二入力モジュールを含み、認識モデルは、本開示のいずれか一つの実施例が提供するトレーニングされた認識モデルである。
本開示の別の態様によれば、電子デバイスを提供し、
少なくとも一つのプロセッサと、
該少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
該メモリに該少なくとも一つのプロセッサにより実行可能な命令が記憶され、該少なくとも一つのプロセッサが本開示のいずれか一つの実施例における方法を実行できるように、該命令が該少なくとも一つのプロセッサにより実行される。
本開示の別の態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体を提供し、該コンピュータ命令はコンピュータに本開示のいずれか一つの実施例における方法を実行させるために用いられる。
本開示の別の態様によれば、コンピュータプログラム製品を提供し、コンピュータプログラムを含み、該コンピュータプログラムがプロセッサにより実行される時に本開示のいずれかの一つの実施例における方法を実現する。
本開示の技術によれば、トレーニング対象である認識モデルにより第一目標物体及び第二目標物体の予測データを取得し、予測データ及び標識データに基づいてトレーニング対象である認識モデルを最適化してトレーニングし、得られた認識モデルは第一目標物体及び第一目標物体に関連する第二目標物体を認識し、少なくとも二種類の目標物体の関連認識を実現することができ、認識対象画像に提供される情報を十分に利用し、少ないモデル数で多くの認識結果を出力し、モデルの配置及び認識効率を向上させる。
理解すべきものとして、本部分に記載された内容は本開示の実施例のキー又は重要な特徴を認識することを意図するものではなく、本開示の範囲を限定するものではない。本開示の他の特徴は、以下の説明により容易に理解されるであろう。
図面は、本解決手段をよりよく理解するために用いられ、本開示を限定するものではない。
図1は、本開示の一実施例に係る認識モデルトレーニング方法の概略図である。 図2は、本開示の別の一実施例に係る認識モデルトレーニング方法の概略図である。 図3は、本開示のさらに別の一実施例に係る認識モデルトレーニング方法の概略図である。 図4は、本開示の一例示に係る認識モデルトレーニング方法の概略図である。 図5は、本開示の別の一例示に係る認識モデルトレーニング方法の概略図である。 図6は、本開示の一例示に係るデータ処理概略図である。 図7は、本開示の一例示に係る認識概略図である。 図8は、本開示の一実施例に係る認識モデルトレーニング装置の概略図である。 図9は、本開示の別の一実施例に係る認識モデルトレーニング装置の概略図である。 図10は、本開示のさらに別の一実施例に係る認識モデルトレーニング装置の概略図である。 図11は、本開示の一実施例に係る認識モデルトレーニング装置の概略図である。 図12は、本開示の一実施例に係る認識モデルトレーニング装置の概略図である。 図13は、本開示の実施例に係る認識モデルトレーニング方法を実現するための電子デバイスのブロック図である。
以下に図面を参照して本開示の例示的な実施例を説明し、ここで、理解しやすくするように、本開示の実施例の様々な詳細を含み、それらを例示的なものと考えるべきである。したがって、当業者として理解できるように、ここで説明した実施例に対して様々な変更及び修正を行うことができ、本開示の範囲及び精神から逸脱することはない。同様に、明確かつ簡単に説明するために、以下の説明において公知の機能及び構造に対する説明を省略する。
本開示の実施例は、まず、認識モデルトレーニング方法を提供し、図1に示すように、
ステップS11:処理対象画像をトレーニング対象である認識モデルに入力することと、
ステップS12:トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力することと、
ステップS13:トレーニング対象である認識モデルのヘッド(Head)により、少なくとも一枚の特徴図に基づいて処理対象画像における第一目標物体の予測データ、及び処理対象画像における第一目標物体の予測データに関連する第二目標物体の予測データを取得することと、
ステップS14:第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを取得することと、を含む。
本実施例において、処理対象画像は、認識する必要がある目標物体を含む画像であってもよい。認識する必要がある目標物体は、例えば人物、顔、人の目、人体、動物、静物などのいかなる物体であってもよい。
トレーニング対象である認識モデルの特徴出力層が二枚以上の特徴図を出力する場合、二枚以上の特徴図のサイズが異なる。
本実施例において、トレーニング対象である認識モデルのヘッドは、トレーニング対象である認識モデルにおける一層の構造であってもよい。トレーニング対象である認識モデルの特徴出力層が少なくとも一枚の特徴図を出力した後、少なくとも一枚の特徴図がトレーニング対象である認識モデルのヘッドに入力され、トレーニング対象である認識モデルのヘッドから第一目標物体の予測データと第二目標物体の予測データを出力する。
本実施例において、第一目標物体及び第二目標物体は、認識対象画像における目標物体であってもよい。第一目標物体は、第二目標物体と幾何学的相関等の相関関係がある目標物体であってもよい。
例えば、第一目標物体が顔である場合、第二目標物体は顔に関連する人体であってもよく、すなわち、第一目標物体がA人物の顔である場合、第二目標物体はA人物の人体であってもよい。さらに例えば、第一目標物体が人の目である場合、第二目標物体は人の目に関連する顔であってもよく、すなわち第一目標物体がA人物の目である場合、第二目標物体はA人物の顔であってもよい。
本実施例において、第一目標物体と第二目標物体との間に、互いに含むか又は含まれるかの関係が存在することができる。
第一目標物体の予測データは、第一目標物体の認識データ、例えば第一目標物体の認識対象画像に存在するか否か、存在位置などを含むことができる。
第一目標物体の予測データは、さらに第一目標物体の特徴、属性、品質などのデータを含むことができる。例えば、第一目標物体の大きさレベル、完全度レベル、外形レベルなどである。
第一目標物体の予測データは、複数種類の予測データを含んでもよい。
本実施例において、第一目標物体の予測データと第二目標物体の予測データの種類は同じであっても異なっていてもよい。
トレーニング対象である認識モデルのヘッドにより、少なくとも一枚の特徴図に基づいて、処理対象画像における第一目標物体の予測データ、及び第二目標物体の予測データを取得することは、特徴図の各画素に対して、第一目標物体を予測するためのデータ及び第二目標物体を予測するためのデータを出力し、全ての画素のデータに基づいて、第一目標物体の予測データ及び第二目標物体の予測データを取得することであってもよい。
第一目標物体の予測データ及び第二目標物体の予測データは、スマート都市、スマート交通等のシーンに用いることができる。
本実施例において、トレーニング対象である認識モデルにより、第一目標物体及び第二目標物体の予測データを取得し、予測データ及び標識データに基づいて、トレーニング対象である認識モデルに対して最適化及びトレーニングを行い、得られた認識モデルは第一目標物体及び第一目標物体に関連する第二目標物体を認識し、少なくとも二種類の目標物体の関連認識を実現することができ、認識対象画像に提供された情報を十分に利用し、少ないモデル数で多くの認識結果を出力し、モデルの配置及び認識効率を向上させる。
一実施形態において、第一目標物体の予測データは、第一目標物体の分類予測データと第一目標物体の属性予測データを含み、第二目標物体の予測データは、第二目標物体の予測データと第二目標物体の属性予測データを含む。
本実施例において、第一目標物体の分類予測データは、認識対象画像のある領域が第一目標物体であるか否かを判断するために用いられる。第一目標物体の属性予測データは、第一目標物体の認識対象画像における提示品質を判定するためのパラメータであってよい。例えば、の分類予測データは、第一目標物体の判定データであってもよく、例えば画像に第一目標物体、第一目標物体を囲むアンカーポイントボックスなどが存在するか否かである。
第二目標物体の分類予測データは、第一目標物体の分類予測データと同じであってもよく、第一目標物体の分類予測データと異なってもよい。第二目標物体の属性予測データは、第一目標物体の属性予測データと同じであってもよく、第一目標物体の属性予測データと異なってもよい。
本実施例において、第一目標物体の分類予測データ、第一目標物体の属性予測データを取得することができ、第二目標物体の分類予測データ及び属性予測データも取得することでき、それにより少なくとも二つの認識する必要がある関連目標物体を連合して出力することができ、それにより、少ないモデルにより多くの目標物体の認識結果を取得することができるだけでなく、第一目標物体と第二目標物体を認識する過程は互いに融合することができ、より良好な認識効果を達成する。
一実施形態において、図2に示すように、トレーニング対象である認識モデルのヘッドにより、第一目標物体の予測データ、及び第一目標物体の予測データに関連する第二目標物体の予測データを出力することは、
ステップS21:特徴図の各画素に対して、第一目標物体のアンカーポイントボックス予測データ及び第二目標物体のアンカーポイントボックス予測データを出力することと、
ステップS22:第一目標物体のアンカーポイントボックス予測データと第二目標物体のアンカーポイントボックス予測データに基づいて、第一目標物体の予測データと第二目標物体の予測データを出力することと、を含む。
本実施例において、特徴図の各画素に対して、第一目標物体のアンカーポイントボックス予測データは、画素が第一目標物体である確率などのデータを含むことができる。第二目標物体のアンカーポイントボックス予測データは、第一目標物体のアンカーポイントボックス予測データと同じであってよい。
第一目標物体のアンカーポイントボックス予測データに基づいて、特徴図において第一目標物体の境界点を決定し、それにより第一目標物体を囲むアンカーポイントボックスを形成し、アンカーポイントボックスに基づいて第一目標物体の予測データを決定することができる。第二目標物体の予測データに対して、第一目標物体の予測データと同様に生成することができる。
上記ステップS21及びS22は、トレーニング対象である認識モデルのヘッドによって実行されてもよい。
本実施例において、特徴図の各画素に対して第一目標物体と第二目標物体の予測データを予測するためのアンカーポイントボックス予測データを生成することができ、それにより、その後、目標物体を囲むアンカーポイントボックスを取得することができ、アンカーポイントボックスなどの情報に基づいてより正確に第一目標物体および第二目標物体の予測データを出力する。
一実施形態において、第一目標物体は顔であり、第二目標物体は人体である。
セキュリティビックデータシステムなどのシーンで、常に監視ビデオストリームに出現する自然人に対して検出追跡を行い、その中のキーフレーム画像を記憶して記録する必要がある。ここで、キーフレーム画像は顔、人体のうちの少なくとも一つを含み、後続の顔及び/又は人体検索に用いることができる。本開示の実施例は、第一目標物体が顔であり、第二目標物体が人体であるように設定することができ、それによりビデオストリームのキャプチャシステムにおける人体顔検出に用いることができ、同一自然人に属する人体と顔を関連付けるとともに、連続的な自然人軌跡を含む一つのセグメントのビデオにおいて、認識に最適な一つのフレーム画像を選択してデータベースに記憶し、その後の追跡、検索、セキュリティ等の操作に重要で高品質の情報を提供する。
本実施例において、認識対象画像における顔及び顔に関連する人体を認識し、それにより関連認識を実現することができる。
一実施形態において、特徴出力層は、バックボーンネットワーク及び特徴ピラミッドネットワークを含み、トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力し、図3に示すように、
ステップS31:バックボーンネットワーク(Backbone)により、処理対象画像の複数枚の第一特徴図を出力することと、
ステップS32:複数枚の第一特徴図におけるN枚の第二特徴図を特徴ピラミッドネットワーク(Feature Pyramid Network、FPN)に入力し、Nは1以上の整数であることと、
ステップS33:特徴ピラミッドネットワークにより、N枚の第三特徴図を出力することと、
ステップS34:N枚の第三特徴図を特徴図とすることと、を含む。
本実施例において、N枚の第二特徴図は、第一特徴図におけるサイズが小さいN枚の第一特徴図に基づいて生成されてもよい。例えば、バックボーンネットワークは、F1、F2、F3、F4、F5という5枚の第一特徴図を出力し、ここで、F1-F5のサイズが徐々に小さくなり、特徴ピラミッドネットワークは、F3、F4、F5に基づいて、それぞれF6、F7、F8という三枚の第二特徴図を出力する。
バックボーンネットワークは、多層CNN(Convolutional Neural Networks、畳み込みニューラルネットワーク)サブネットワークを含むことができ、トレーニング対象である認識モデルに入力される認識対象画像に畳み込み操作を行い、複数枚の第一特徴図を取得することができる。
特徴ピラミッドネットワークは、N枚の第一特徴図に対してさらなる畳み込み操作などの処理を行うことができ、それにより認識対象画像における高級語義情報を特徴図に融合し、N枚の第二特徴図を得る。
N枚の第二特徴図は、サイズの大きさがそれぞれ異なる特徴図であってもよく、認識対象画像において異なるサイズを呈する目標物体を認識することに用いられ、例えば、小さいサイズの特徴図は、大きいサイズの目標物体を認識することに用いられ、大きいサイズの特徴図は、小さいサイズの目標物体を認識するために用いられる。
本実施例において、トレーニング対象である認識モデルのバックボーンネットワーク及び特徴ピラミッドネットワークにより、認識対象画像の特徴図を取得することができ、それによりその後に特徴図に基づいて第一目標物体および関連する第二目標物体の認識及び関連データ予測を行うことができる。
本開示の実施例は、画像認識方法をさらに提供し、図4に示すように、
ステップS41:認識対象画像を認識モデルに入力し、認識対象画像における第一目標物体の予測データと第一目標物体に関連する第二目標物体の予測データを取得し、認識モデルは本開示のいずれか一実施例に提供されるトレーニングされた認識モデルであることを含む。
本実施例において、トレーニングされた認識モデルを利用して認識対象画像を認識し、関連する第一目標物体と第二目標物体の予測データを取得することができ、それにより少ないモデルによって多くの予測結果を取得することができる。
一つの実施形態において、認識対象画像は、認識対象ビデオにおけるフレーム画像であり、認識方法は
第一目標物体の予測データと第二目標物体の予測データに基づいて、認識対象ビデオにおけるキーフレーム画像を取得することをさらに含む。
本実施例において、第一目標物体の予測データと第二目標物体の予測データに基づいて、認識対象ビデオにおける第一目標物体と第二目標物体の全体品質が最もよい画像フレームをキーフレーム画像として決定することができる。
さらに、第一目標物体の予測データ及び第二目標物体の予測データに基づいて、認識対象ビデオにおける第一目標物体及び第二目標物体の全体品質が最もよい画像フレームをそれぞれ第一目標物体キー画像フレーム及び第二目標物体のキー画像フレームとして決定することができる。
本実施例において、第一目標物体と第二目標物体の予測データにより、認識対象ビデオにおけるキー画像フレームを取得し、それによりキー画像フレームに基づいて、顔認識、生体認識、人体認識、顔追跡、人体追跡等の操作を行うことができ、スマートセキュリティ、スマート認識等の様々なシーン及び分野に応用され、より良好な使用効果を取得することができる。
本開示の一例示において、認識モデルトレーニング方法は顔及び人体認識に適用することができ、図5に示すステップを含むことができる:
ステップS51:認識対象画像を取得する。
具体的には、監視又は他のシーンカメラのリアルタイムビデオストリームに対して画像フレームを抽出することができ、フレームごとに抽出してもよく、間隔を設定して抽出してもよい。抽出された画像フレームは、まず、前処理され、例えば416×416という固定サイズにスケーリングされ、統一的なRGB平均値(例えば[104、117、123])を減算することにより、各認識対象画像のサイズ及びRGB平均値がトレーニング対象である認識モデルのトレーニング過程において統一され、それによりトレーニングされた認識されたモデルのロバスト性を強化する。
ステップS52:認識対象画像を認識モデルに入力する。
前処理された認識対象画像はトレーニング対象である認識モデルに送信されて計算されることができる。
ステップS53:認識対象画像の特徴図を取得する。
トレーニング対象である認識モデルの入力データは、上記ステップS52で前処理された画像であってもよく、バックボーンネットワークの処理により、異なるディープ及びスケールの第一特徴図を取得する。バックボーンネットワークの構造は、YOLO統合リアルタイム目標検出(You Only Look Once: Unified, Real-Time Object Detection)モデルのバックボーンネットワークと同じであってもよく、具体的には畳み込み演算機能を有するサブネットワークを含み、サブネットワークは例えばDarkNet、ResNetなどのネットワークであってもよい。
バックボーンネットワークから出力された第一特徴図におけるサイズが小さいN枚を、特徴ピラミッドネットワークに入力する。FPNを介してバックボーンネットワークから出力されたN枚の第一特徴図を、対応的な経路により互いに融合し、最終的にN個の異なるスケールの特徴図を取得する。これらのN個の異なるサイズの特徴図は、それぞれ画像における大きいから小さいまでの異なるスケールの目標を感知することに用いられる。
ステップS54:第一目標物体予測データ及び第二目標物体予測データを取得する。
本例示において、特徴ピラミッドネットワークの後にトレーニング対象である認識モデルのヘッドが接続され、ヘッドは、いくつかの畳み込み層-活性化層-バッチ処理層の組み合わせを含むことができる。
本例示において、各特徴画像の画素位置に少なくとも一種の異なる大きさの比率のアンカーポイントボックスを生成してアンカーポイントボックスを基礎として一つの結果を回帰することができる。各アンカーポイントボックスには長さが(5+N+M)の中間出力データが対応する。中間出力データのチャネル数は(5+N+M)であり、該アンカーフレームに基づいて目標検出ボックスに対する予測(conf、x、y、w、h、class)及び属性の予測値を示す。confは該アンカーポイントボックスに目標が含まれる信頼度を示し、x、y、w、hは、正規化された検出ボックス座標及びスケールであり、classは、次元がNであるベクトルであり、目標があるクラスに属する確率の該クラスインデックスのベクトル内の値を示し、属性の予測値は長さがMであるベクトルである。
人体と顔との関連関係は、同一の自然人に属する人体ボックスと顔ボックスが関連関係がある一組の人体-顔ボックスであるように定義されることができる。トレーニング目標を生成する時、各人体ボックスの中心点に対応するアンカーポイント(画素)に人体ボックスのタグを生成し、同時に該人体ボックスに対応する自然人が画像中に顔が出現すると、同じアンカーポイントで該人体に関連する顔ボックスを生成する。
予測際に、前処理を完了した後の画像をネットワークに入力し、画像における全ての人体ボックス及び該人体に対応する顔ボックス、及び人体ボックスに対応する属性及び顔ボックスに対応する属性を取得する。人体ボックスに対応する属性は、切断するか否か、異常であるか否か、遮蔽程度及び向きを含むことができる。顔ボックスに対応する属性は、質量、ピッチ角、ヨー角及びロール角を含むことができる。
人体ボックスと顔ボックスを利用して連合追跡を行い、軌跡から、切断がなく、異常がなく、遮蔽程度が低い異なる向きの人体キーフレームを選択して記憶して入庫し、品質スコアが高く、角度が小さい顔キーフレーム画像を選択して記憶して入庫し、入庫されたキーフレーム画像が後続の顔検索などの目標物体に関連する操作に用いられることができる。
本開示の実施例は、顔及び/又は認識に適用することができる場合、認識対象画像のみに一回のディープラーニングモデル抽出を行い、認識対象画像上の全ての人体及び顔の検出ボックス、人体属性、顔属性、及び人体と顔との対応関係を取得することができる。単一段階モデルを利用して関連検出及び属性結果の出力を同時に行うことに比べて、本開示の実施例は、計算リソースのオーバーヘッドを最大限に低減し、同時にモデルから顔と人体との関連関係を直接的に出力し、顔と人体との関連判断を単独で行う必要がない。
本開示の一例示において、認識モデルの構造は、図6に示すように、バックボーンネットワーク61、特徴ピラミッドネットワーク(FPN)62、ヘッド63を含む。モデルトレーニング段階において、ヘッド63から出力されたデータに基づいて、トレーニング対象である認識モデルを最適化するための損失(Loss)を取得することができる。バックボーンネットワーク61により、認識対象画像に基づいて複数枚の第一特徴図を出力し、具体的にはC1、C2、C3、C4、C5であってもよく、サイズ関係は、C1>C2>C3>C4>C5である。FPN 62を経て、C3、C4、C5を融合して計算し、例えば、C3に対応する順序に基づいて、処理された第一特徴図における少なくとも一枚を融合し、第二特徴図P3を出力し、C4に対応する順序に基づいて、処理された第一特徴図における少なくとも一枚を融合し、第二特徴図P4を出力し、C5に対応する順序に基づいて、処理された第一特徴図における少なくとも一枚を融合し、第二特徴図P5を出力する。ヘッド63は畳み込み層conv3×3を含み、ヘッドの出力チャンネル数は入力チャンネル数の2倍であり、出力データはそれぞれ顔予測データconv3×3C、3(K+5+4)、人体予測データconv3×3C、3(K+5+4)ということである。
ここで、Cは、ヘッドに入力された特徴チャネル数であり、kはクラス数であり、5は(x、y、w、h、conf)であり、4は顔の三つの角度及び品質であり、11は人体の4つの属性に対応するベクトルである:正常であるか否か(いいえ、はい)、切断するか否か(いいえ、はい)、遮蔽程度(遮蔽がなく、わずかに遮蔽する、重度に遮蔽する)、向き(正面、背面、左側面、右側面)。
顔予測データ及び人体予測データに基づいて、顔ボックス(Face Box)、顔スコア(Face Score)、顔角度(Face Angle)、顔品質(Face Quality)という顔の品質関連データ、及び人体ボックス(Human Box)、人体スコア(Human Score)、人体品質(Human Quality)という人体の品質関連データをそれぞれ得ることができる。
例えば、図7に示す認識結果に基づいて、顔ボックス71と人体ボックス72を取得し、同時に正常な人体、遮蔽がなく、切断がなく、正面という顔と人体の品質関連データを取得することができる。認識対象ビデオにおける連合NMS(Non-Maximum Suppression、非極大抑制値)が最も大きいフレーム画像をキーフレーム画像として選択することができる。
本開示の実施例は、認識モデルトレーニング装置をさらに提供し、図8に示すように、
処理対象画像をトレーニング対象である認識モデルに入力する第一入力モジュール81と、
トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力する特徴図モジュール82と、
トレーニング対象である認識モデルのヘッドにより、少なくとも一枚の特徴図に基づいて処理対象画像における第一目標物体の予測データ、及び処理対象画像における第一目標物体の予測データに関連する第二目標物体の予測データを取得する予測データモジュール83と、
第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを得るトレーニングモジュール84と、を含む。
一実施形態において、第一目標物体の予測データは第一目標物体の分類予測データと第一目標物体の属性予測データを含み、第二目標物体の予測データは第二目標物体の予測データと第二目標物体の属性予測データを含む。
一実施形態において、図9に示すように、予測データモジュールは、
特徴図の各画素に対して、第一目標物体のアンカーポイントボックス予測データ及び第二目標物体のアンカーポイントボックス予測データを出力する第一予測ユニット91と、
第一目標物体のアンカーポイントボックス予測データ及び第二目標物体のアンカーポイントボックス予測データに基づいて、第一目標物体の予測データ及び第二目標物体の予測データを出力する第二予測ユニット92と、を含む。
一実施形態において、第一目標物体は顔であり、第二目標物体は人体である。
一実施形態において、図10に示すように、特徴出力層はバックボーンネットワーク及び特徴ピラミッドネットワークを含み、特徴図モジュールは、
バックボーンネットワークにより、処理対象画像の複数枚の第一特徴図を出力する第一特徴図ユニット101と、
複数枚の第一特徴図におけるN枚(Nが1以上の整数である)の第二特徴図を特徴ピラミッドネットワークに入力する第一特徴図入力ユニット102と、
特徴ピラミッドネットワークにより、N枚の第二特徴図を出力する第二特徴図ユニット103と、
N枚の第二特徴図を特徴図とする第二特徴図処理ユニット104と、を含む。
本開示の実施例は、画像認識装置をさらに提供し、図11に示すように、
認識対象画像を認識モデルに入力し、認識対象画像における第一目標物体の予測データ及び第一目標物体に関連する第二目標物体の予測データを取得する第二入力モジュール111を含み、認識モデルが本開示のいずれか一実施例に提供されるトレーニングされた認識モデルである。
一実施形態において、認識対象画像は認識対象ビデオにおけるフレーム画像である。図12に示すように、認識装置は、
第一目標物体の予測データ及び第二目標物体の予測データに基づいて、認識対象ビデオにおけるキーフレーム画像を取得するキーフレーム画像モジュール121をさらに含む。
本開示の実施例の各装置における各ユニット、モジュール又はサブモジュールの機能は、上記方法実施例における対応説明を参照することができ、ここでは説明を省略する。
本開示の実施例によれば、本開示は、さらに、電子デバイス、読み取り可能な記憶媒体及びコンピュータプログラム製品を提供する。
図13は、本開示の実施例を実施可能な例示電子デバイス130の概略的なブロック図を示す。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを表示することを意図する。電子デバイスは、さらに、様々な形式の移動装置を表示することができ、例えば、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置である。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定するものではない。
図13に示すように、電池機器130は計算ユニット131を含み、リードオンリーメモリ(ROM)132に記憶されたコンピュータプログラム又は記憶ユニット138からランダムアクセスメモリ(RAM)133にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。RAM 133において、さらに電子デバイス130の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット131、ROM 132、およびRAM 133は、バス134により相互に接続されている。バス134には、さらに、入出力インタフェース135が接続されている。
電子デバイス130における複数の部品はI/Oインタフェース135に接続され、例えばキーボード、マウス等の入力ユニット136と、例えば様々な種別のディスプレイ、スピーカ等の出力ユニット137と、例えば磁気ディスク、光ディスク等の記憶ユニット138と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット139と、を含む。通信ユニット139は、電子デバイス130がインターネット等のコンピュータネットワークおよび/または各種の電気通信網を介して他の装置と情報/データをやり取りすることを可能にする。
計算ユニット131は、各種の処理および計算能力を有する汎用および/または専用の処理モジュールであってもよい。計算ユニット131の例示としては、中央処理ユニット(CPU)、グラフィックスプロセッシングユニット(GPU)、各種専用の人工知能(AI)計算チップ、各種動作機械学習モデルアルゴリズムの計算ユニット、デジタルシグナルプロセッサ(DSP)、任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されるものではない。計算ユニット131は、上記説明した各方法及び処理を実行し、例えば認識モデルトレーニング方法である。例えば、いくつかの実施例において、認識モデルトレーニング方法は、コンピュータソフトウェアプログラムとして実現され、それは機械可読媒体、例えば記憶ユニット138に有形的に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部はROM 132及び/又は通信ユニット139を介して電子デバイス130にロード及び/又はインストールされる。コンピュータプログラムがRAM 133にロードされかつ計算ユニット131により実行される場合、上記の認識モデルトレーニング方法の一つ又は複数のステップを実行することができる。代替的に、他の実施例において、計算ユニット131は他の任意の適切な方式(例えば、ファームウェア)により認識モデルトレーニング方法を実行するように構成されてもよい。
本明細書で説明したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、チップオンシステムのシステム(SOC)、負荷プログラマブルロジック装置(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は以下を含むことができ、一つ又は複数のコンピュータプログラムにおいて実施し、該一つ又は複数のコンピュータプログラムは少なくとも一つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行され及び/又は解釈され、該プログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも一つの入力装置、及び該少なくとも一つの出力装置に伝送することができる。
本開示の方法を実施するためのプログラムコードは一つ又は複数の言語の任意の組み合わせで作成することができる。これらのプログラムコードは汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供することができ、それによりプログラムコードはプロセッサ又はコントローラにより実行される時にフローチャート及び/又はブロック図に規定された機能/操作が実施される。プログラムコードは機器に完全に実行され、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行されかつ遠隔機器で部分的に実行されるか又は完全に遠隔機器又はサーバで実行される。
本開示のコンテキストにおいて、機械可読媒体は有形の媒体であってもよく、それは命令実行システム、装置又はデバイスの使用又は命令実行システム、装置又はデバイスと組み合わせて使用されるプログラムを含むか又は記憶することができる。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又はデバイス、又は上記内容の任意の適切な組み合わせを含むがそれらに限定されない。機械可読記憶媒体のより具体的な例は一つ以上の線に基づく電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、便利式コンパクトリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記コンテンツの任意の適切な組み合わせを含む。
ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)、及びキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)であって、ユーザは該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができるものを有する。他の種別の装置はさらにユーザとの対話を提供することに用いられ、例えば、ユーザに提供されたフィードバックはいかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(声入力、音声入力又は、触覚入力を含む)でユーザからの入力を受信することができる。
ここで説明されたシステム及び技術はバックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品の任意の組み合わせを含むコンピューティングシステムに実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例は以下を含み、ローカル領域ネットワーク(LAN)、ワイド領域ネットワーク(WAN)及びインターネット。
コンピュータシステムは、クライアント及びサーバを含むことができる。クライアントとサーバとは一般的に離れており、通常、通信ネットワークを介して相互対話する。クライアントとサーバとの関係は、相応的なコンピュータ上で動作し、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。
理解すべきことは、以上に示した様々な形式のフローを使用し、ステップを改めてソーティングし、追加するか又は削除するであってもよい。例えば、本開示に記載の各ステップは並列的に実行されてもよいし異なる順序で実行されてもよく、本開示の技術的解決手段の所望の結果を実現することができれば、本明細書はここで限定されない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば理解すべきことは、設計要件及び他の要因に基づいて、様々な修正、、サブ組み合わせ及び代替を行うことができることである。本開示の精神と原則内で行われた任意の修正、均等置換及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。
以上は本発明の好ましい実施形態だけであり、指摘すべきこととして、上記好ましい実施形態は本発明を限定するものと見なされるべきではなく、本発明の保護範囲は特許請求の範囲に限定された範囲を基準とすべきである。本分野の当業者にとって、本発明の精神及び範囲から逸脱することなく、さらにいくつかの改善及び修飾を行うことができ、これらの改善及び修飾も本発明の保護範囲と見なされるべきである。
本願は、2021年05月28日に中国特許庁に提出した、出願番号が202110591890.8であり、発明名称が「認識モデルトレーニング方法、認識方法、装置、デバイス及び記憶媒体」である中国特許出願の優先権を主張し、その全ての内容が引用により本願に組み込まれる。
本開示は、人工知能技術分野に関し、特にディープラーニング、コンピュータ視覚技術分野に関し、スマート都市、スマート交通シーンに応用することができる。
目標認識は、画像処理の重要な手段及び目的であり、目標認識により、ビデオ、静的画面における物体、人体、動物体などの目標物体を認識することができ、認識結果に基づいて身分認証、安全検査などの様々な用途を実現する。
コンピュータ技術の発展に伴い、目標認識技術に応用する必要がある様々なシーンでは、応用目的の多様化、認識される目標物体の多様化に伴い、多重モデルによって目標物体認識の目的を実現する必要がある。如何にして処理対象画像を処理するモデルの効率を向上させるかは、改善する必要がある問題である。
本発明は、認識モデルトレーニング方法、認識方法、装置、電子デバイス記憶媒体及びコンピュータプログラムを提供する。
本開示の一態様によれば、認識モデルトレーニング方法を提供し、
処理対象画像をトレーニング対象である認識モデルに入力することと、
トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力することと、
トレーニング対象である認識モデルのヘッドにより、少なくとも一枚の特徴図に基づいて処理対象画像における第一目標物体の予測データ、及び処理対象画像における第一目標物体に関連する第二目標物体の予測データを取得することと、
第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを取得することと、を含む。
本開示の別の態様によれば、認識方法を提供し、
認識対象画像を認識モデルに入力し、認識対象画像における第一目標物体の予測データと第一目標物体に関連する第二目標物体の予測データを取得することを含み、認識モデルは、本開示のいずれか一つの実施例が提供するトレーニングされた認識モデルである。
本開示の別の態様によれば、認識モデルトレーニング装置を提供し、
処理対象画像をトレーニング対象である認識モデルに入力する第一入力モジュールと、
トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力する特徴図モジュールと、
トレーニング対象である認識モデルのヘッドにより、少なくとも一枚の特徴図に基づいて処理対象画像における第一目標物体の予測データ、及び処理対象画像における第一目標物体に関連する第二目標物体の予測データを取得する予測データモジュールと、
第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを取得するトレーニングモジュールと、を含む。
本開示の別の態様によれば、認識装置を提供し、
認識対象画像を認識モデルに入力し、認識対象画像における第一目標物体の予測データ及び第一目標物体に関連する第二目標物体の予測データを取得する第二入力モジュールを含み、認識モデルは、本開示のいずれか一つの実施例が提供するトレーニングされた認識モデルである。
本開示の別の態様によれば、電子デバイスを提供し、
少なくとも一つのプロセッサと、
該少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
該メモリに該少なくとも一つのプロセッサにより実行可能な命令が記憶され、該少なくとも一つのプロセッサが本開示のいずれか一つの実施例における方法を実行できるように、該命令が該少なくとも一つのプロセッサにより実行される。
本開示の別の態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体を提供し、該コンピュータ命令はコンピュータに本開示のいずれか一つの実施例における方法を実行させるために用いられる。
本開示の別の態様によれば、コンピュータプログラムを提供し、該コンピュータプログラムがプロセッサにより実行される時に本開示のいずれかの一つの実施例における方法を実現する。
本開示の技術によれば、トレーニング対象である認識モデルにより第一目標物体及び第二目標物体の予測データを取得し、予測データ及び標識データに基づいてトレーニング対象である認識モデルを最適化してトレーニングし、得られた認識モデルは第一目標物体及び第一目標物体に関連する第二目標物体を認識し、少なくとも二種類の目標物体の関連認識を実現することができ、認識対象画像に提供される情報を十分に利用し、少ないモデル数で多くの認識結果を出力し、モデルの配置及び認識効率を向上させる。
理解すべきものとして、本部分に記載された内容は本開示の実施例のキー又は重要な特徴を認識することを意図するものではなく、本開示の範囲を限定するものではない。本開示の他の特徴は、以下の説明により容易に理解されるであろう。
図1は、本開示の一実施例に係る認識モデルトレーニング方法の概略図である。 図2は、本開示の別の一実施例に係る認識モデルトレーニング方法の概略図である。 図3は、本開示のさらに別の一実施例に係る認識モデルトレーニング方法の概略図である。 図4は、本開示の一例示に係る認識モデルトレーニング方法の概略図である。 図5は、本開示の別の一例示に係る認識モデルトレーニング方法の概略図である。 図6は、本開示の一例示に係るデータ処理概略図である。 図7は、本開示の一例示に係る認識概略図である。 図8は、本開示の一実施例に係る認識モデルトレーニング装置の概略図である。 図9は、本開示の別の一実施例に係る認識モデルトレーニング装置の概略図である。 図10は、本開示のさらに別の一実施例に係る認識モデルトレーニング装置の概略図である。 図11は、本開示の一実施例に係る認識モデルトレーニング装置の概略図である。 図12は、本開示の一実施例に係る認識モデルトレーニング装置の概略図である。 図13は、本開示の実施例に係る認識モデルトレーニング方法を実現するための電子デバイスのブロック図である。
以下に図面を参照して本開示の例示的な実施例を説明し、ここで、理解しやすくするように、本開示の実施例の様々な詳細を含み、それらを例示的なものと考えるべきである。したがって、当業者として理解できるように、ここで説明した実施例に対して様々な変更及び修正を行うことができ、本開示の範囲及び精神から逸脱することはない。同様に、明確かつ簡単に説明するために、以下の説明において公知の機能及び構造に対する説明を省略する。
本開示の実施例は、まず、認識モデルトレーニング方法を提供し、図1に示すように、
ステップS11:処理対象画像をトレーニング対象である認識モデルに入力することと、
ステップS12:トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力することと、
ステップS13:トレーニング対象である認識モデルのヘッド(Head)により、少なくとも一枚の特徴図に基づいて処理対象画像における第一目標物体の予測データ、及び処理対象画像における第一目標物体の予測データに関連する第二目標物体の予測データを取得することと、
ステップS14:第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを取得することと、を含む。
本実施例において、処理対象画像は、認識する必要がある目標物体を含む画像であってもよい。認識する必要がある目標物体は、例えば人物、顔、人の目、人体、動物、静物などのいかなる物体であってもよい。
トレーニング対象である認識モデルの特徴出力層が二枚以上の特徴図を出力する場合、二枚以上の特徴図のサイズが異なる。
本実施例において、トレーニング対象である認識モデルのヘッドは、トレーニング対象である認識モデルにおける一層の構造であってもよい。トレーニング対象である認識モデルの特徴出力層が少なくとも一枚の特徴図を出力した後、少なくとも一枚の特徴図がトレーニング対象である認識モデルのヘッドに入力され、トレーニング対象である認識モデルのヘッドから第一目標物体の予測データと第二目標物体の予測データを出力する。
本実施例において、第一目標物体及び第二目標物体は、認識対象画像における目標物体であってもよい。第一目標物体は、第二目標物体と幾何学的相関等の相関関係がある目標物体であってもよい。
例えば、第一目標物体が顔である場合、第二目標物体は顔に関連する人体であってもよく、すなわち、第一目標物体がA人物の顔である場合、第二目標物体はA人物の人体であってもよい。さらに例えば、第一目標物体が人の目である場合、第二目標物体は人の目に関連する顔であってもよく、すなわち第一目標物体がA人物の目である場合、第二目標物体はA人物の顔であってもよい。
本実施例において、第一目標物体と第二目標物体との間に、互いに含むか又は含まれるかの関係が存在することができる。
第一目標物体の予測データは、第一目標物体の認識データ、例えば第一目標物体の認識対象画像に存在するか否か、存在位置などを含むことができる。
第一目標物体の予測データは、さらに第一目標物体の特徴、属性、品質などのデータを含むことができる。例えば、第一目標物体の大きさレベル、完全度レベル、外形レベルなどである。
第一目標物体の予測データは、複数種類の予測データを含んでもよい。
本実施例において、第一目標物体の予測データと第二目標物体の予測データの種類は同じであっても異なっていてもよい。
トレーニング対象である認識モデルのヘッドにより、少なくとも一枚の特徴図に基づいて、処理対象画像における第一目標物体の予測データ、及び第二目標物体の予測データを取得することは、特徴図の各画素に対して、第一目標物体を予測するためのデータ及び第二目標物体を予測するためのデータを出力し、全ての画素のデータに基づいて、第一目標物体の予測データ及び第二目標物体の予測データを取得することであってもよい。
第一目標物体の予測データ及び第二目標物体の予測データは、スマート都市、スマート交通等のシーンに用いることができる。
本実施例において、トレーニング対象である認識モデルにより、第一目標物体及び第二目標物体の予測データを取得し、予測データ及び標識データに基づいて、トレーニング対象である認識モデルに対して最適化及びトレーニングを行い、得られた認識モデルは第一目標物体及び第一目標物体に関連する第二目標物体を認識し、少なくとも二種類の目標物体の関連認識を実現することができ、認識対象画像に提供された情報を十分に利用し、少ないモデル数で多くの認識結果を出力し、モデルの配置及び認識効率を向上させる。
一実施形態において、第一目標物体の予測データは、第一目標物体の分類予測データと第一目標物体の属性予測データを含み、第二目標物体の予測データは、第二目標物体の分類予測データと第二目標物体の属性予測データを含む。
本実施例において、第一目標物体の分類予測データは、認識対象画像のある領域が第一目標物体であるか否かを判断するために用いられる。第一目標物体の属性予測データは、第一目標物体の認識対象画像における提示品質を判定するためのパラメータであってよい。例えば、第一目標物体の分類予測データは、第一目標物体の判定データであってもよく、例えば画像に第一目標物体、第一目標物体を囲むアンカーポイントボックスなどが存在するか否かである。
第二目標物体の分類予測データは、第一目標物体の分類予測データと同じであってもよく、第一目標物体の分類予測データと異なってもよい。第二目標物体の属性予測データは、第一目標物体の属性予測データと同じであってもよく、第一目標物体の属性予測データと異なってもよい。
本実施例において、第一目標物体の分類予測データ、第一目標物体の属性予測データを取得することができ、第二目標物体の分類予測データ及び属性予測データも取得することでき、それにより少なくとも二つの認識する必要がある関連目標物体を連合して出力することができ、それにより、少ないモデルにより多くの目標物体の認識結果を取得することができるだけでなく、第一目標物体と第二目標物体を認識する過程は互いに融合することができ、より良好な認識効果を達成する。
一実施形態において、図2に示すように、トレーニング対象である認識モデルのヘッドにより、第一目標物体の予測データ、及び第一目標物体の予測データに関連する第二目標物体の予測データを出力することは、
ステップS21:特徴図の各画素に対して、第一目標物体のアンカーポイントボックス予測データ及び第二目標物体のアンカーポイントボックス予測データを出力することと、
ステップS22:第一目標物体のアンカーポイントボックス予測データと第二目標物体のアンカーポイントボックス予測データに基づいて、第一目標物体の予測データと第二目標物体の予測データを出力することと、を含む。
本実施例において、特徴図の各画素に対して、第一目標物体のアンカーポイントボックス予測データは、画素が第一目標物体である確率などのデータを含むことができる。第二目標物体のアンカーポイントボックス予測データは、第一目標物体のアンカーポイントボックス予測データと同じであってよい。
第一目標物体のアンカーポイントボックス予測データに基づいて、特徴図において第一目標物体の境界点を決定し、それにより第一目標物体を囲むアンカーポイントボックスを形成し、アンカーポイントボックスに基づいて第一目標物体の予測データを決定することができる。第二目標物体の予測データに対して、第一目標物体の予測データと同様に生成することができる。
上記ステップS21及びS22は、トレーニング対象である認識モデルのヘッドによって実行されてもよい。
本実施例において、特徴図の各画素に対して第一目標物体と第二目標物体の予測データを予測するためのアンカーポイントボックス予測データを生成することができ、それにより、その後、目標物体を囲むアンカーポイントボックスを取得することができ、アンカーポイントボックスなどの情報に基づいてより正確に第一目標物体および第二目標物体の予測データを出力する。
一実施形態において、第一目標物体は顔であり、第二目標物体は人体である。
セキュリティビックデータシステムなどのシーンで、常に監視ビデオストリームに出現する自然人に対して検出追跡を行い、その中のキーフレーム画像を記憶して記録する必要がある。ここで、キーフレーム画像は顔、人体のうちの少なくとも一つを含み、後続の顔及び/又は人体検索に用いることができる。本開示の実施例は、第一目標物体が顔であり、第二目標物体が人体であるように設定することができ、それによりビデオストリームのキャプチャシステムにおける人体顔検出に用いることができ、同一自然人に属する人体と顔を関連付けるとともに、連続的な自然人軌跡を含む一つのセグメントのビデオにおいて、認識に最適な一つのフレーム画像を選択してデータベースに記憶し、その後の追跡、検索、セキュリティ等の操作に重要で高品質の情報を提供する。
本実施例において、認識対象画像における顔及び顔に関連する人体を認識し、それにより関連認識を実現することができる。
一実施形態において、特徴出力層は、バックボーンネットワーク及び特徴ピラミッドネットワークを含み、トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力し、図3に示すように、
ステップS31:バックボーンネットワーク(Backbone)により、処理対象画像の複数枚の第一特徴図を出力することと、
ステップS32:複数枚の第一特徴図におけるN枚の第特徴図を特徴ピラミッドネットワーク(Feature Pyramid Network、FPN)に入力し、Nは1以上の整数であることと、
ステップS33:特徴ピラミッドネットワークにより、N枚の第特徴図を出力することと、
ステップS34:N枚の第特徴図を特徴図とすることと、を含む。
本実施例において、N枚の第二特徴図は、第一特徴図におけるサイズが小さいN枚の第一特徴図に基づいて生成されてもよい。例えば、バックボーンネットワークは、F1、F2、F3、F4、F5という5枚の第一特徴図を出力し、ここで、F1-F5のサイズが徐々に小さくなり、特徴ピラミッドネットワークは、F3、F4、F5に基づいて、それぞれF6、F7、F8という三枚の第二特徴図を出力する。
バックボーンネットワークは、多層CNN(Convolutional Neural Networks、畳み込みニューラルネットワーク)サブネットワークを含むことができ、トレーニング対象である認識モデルに入力される認識対象画像に畳み込み操作を行い、複数枚の第一特徴図を取得することができる。
特徴ピラミッドネットワークは、N枚の第一特徴図に対してさらなる畳み込み操作などの処理を行うことができ、それにより認識対象画像における高級語義情報を特徴図に融合し、N枚の第二特徴図を得る。
N枚の第二特徴図は、サイズの大きさがそれぞれ異なる特徴図であってもよく、認識対象画像において異なるサイズを呈する目標物体を認識することに用いられ、例えば、小さいサイズの特徴図は、大きいサイズの目標物体を認識することに用いられ、大きいサイズの特徴図は、小さいサイズの目標物体を認識するために用いられる。
本実施例において、トレーニング対象である認識モデルのバックボーンネットワーク及び特徴ピラミッドネットワークにより、認識対象画像の特徴図を取得することができ、それによりその後に特徴図に基づいて第一目標物体および関連する第二目標物体の認識及び関連データ予測を行うことができる。
本開示の実施例は、画像認識方法をさらに提供し、図4に示すように、
ステップS41:認識対象画像を認識モデルに入力し、認識対象画像における第一目標物体の予測データと第一目標物体に関連する第二目標物体の予測データを取得し、認識モデルは本開示のいずれか一実施例に提供されるトレーニングされた認識モデルであることを含む。
本実施例において、トレーニングされた認識モデルを利用して認識対象画像を認識し、関連する第一目標物体と第二目標物体の予測データを取得することができ、それにより少ないモデルによって多くの予測結果を取得することができる。
一つの実施形態において、認識対象画像は、認識対象ビデオにおけるフレーム画像であり、認識方法は
第一目標物体の予測データと第二目標物体の予測データに基づいて、認識対象ビデオにおけるキーフレーム画像を取得することをさらに含む。
本実施例において、第一目標物体の予測データと第二目標物体の予測データに基づいて、認識対象ビデオにおける第一目標物体と第二目標物体の全体品質が最もよい画像フレームをキーフレーム画像として決定することができる。
さらに、第一目標物体の予測データ及び第二目標物体の予測データに基づいて、認識対象ビデオにおける第一目標物体及び第二目標物体の全体品質が最もよい画像フレームをそれぞれ第一目標物体キー画像フレーム及び第二目標物体のキー画像フレームとして決定することができる。
本実施例において、第一目標物体と第二目標物体の予測データにより、認識対象ビデオにおけるキー画像フレームを取得し、それによりキー画像フレームに基づいて、顔認識、生体認識、人体認識、顔追跡、人体追跡等の操作を行うことができ、スマートセキュリティ、スマート認識等の様々なシーン及び分野に応用され、より良好な使用効果を取得することができる。
本開示の一例示において、認識モデルトレーニング方法は顔及び人体認識に適用することができ、図5に示すステップを含むことができる:
ステップS51:認識対象画像を取得する。
具体的には、監視又は他のシーンカメラのリアルタイムビデオストリームに対して画像フレームを抽出することができ、フレームごとに抽出してもよく、間隔を設定して抽出してもよい。抽出された画像フレームは、まず、前処理され、例えば416×416という固定サイズにスケーリングされ、統一的なRGB平均値(例えば[104、117、123])を減算することにより、各認識対象画像のサイズ及びRGB平均値がトレーニング対象である認識モデルのトレーニング過程において統一され、それによりトレーニングされた認識されたモデルのロバスト性を強化する。
ステップS52:認識対象画像を認識モデルに入力する。
前処理された認識対象画像はトレーニング対象である認識モデルに送信されて計算されることができる。
ステップS53:認識対象画像の特徴図を取得する。
トレーニング対象である認識モデルの入力データは、上記ステップS52で前処理された画像であってもよく、バックボーンネットワークの処理により、異なるディープ及びスケールの第一特徴図を取得する。バックボーンネットワークの構造は、YOLO統合リアルタイム目標検出(You Only Look Once: Unified, Real-Time Object Detection)モデルのバックボーンネットワークと同じであってもよく、具体的には畳み込み演算機能を有するサブネットワークを含み、サブネットワークは例えばDarkNet、ResNetなどのネットワークであってもよい。
バックボーンネットワークから出力された第一特徴図におけるサイズが小さいN枚を、特徴ピラミッドネットワークに入力する。FPNを介してバックボーンネットワークから出力されたN枚の第一特徴図を、対応的な経路により互いに融合し、最終的にN個の異なるスケールの特徴図を取得する。これらのN個の異なるサイズの特徴図は、それぞれ画像における大きいから小さいまでの異なるスケールの目標を感知することに用いられる。
ステップS54:第一目標物体予測データ及び第二目標物体予測データを取得する。
本例示において、特徴ピラミッドネットワークの後にトレーニング対象である認識モデルのヘッドが接続され、ヘッドは、いくつかの畳み込み層-活性化層-バッチ処理層の組み合わせを含むことができる。
本例示において、各特徴画像の画素位置に少なくとも一種の異なる大きさの比率のアンカーポイントボックスを生成してアンカーポイントボックスを基礎として一つの結果を回帰することができる。各アンカーポイントボックスには長さが(5+N+M)の中間出力データが対応する。中間出力データのチャネル数は(5+N+M)であり、該アンカーフレームに基づいて目標検出ボックスに対する予測(conf、x、y、w、h、class)及び属性の予測値を示す。confは該アンカーポイントボックスに目標が含まれる信頼度を示し、x、y、w、hは、正規化された検出ボックス座標及びスケールであり、classは、次元がNであるベクトルであり、目標があるクラスに属する確率の該クラスインデックスのベクトル内の値を示し、属性の予測値は長さがMであるベクトルである。
人体と顔との関連関係は、同一の自然人に属する人体ボックスと顔ボックスが関連関係がある一組の人体-顔ボックスであるように定義されることができる。トレーニング目標を生成する時、各人体ボックスの中心点に対応するアンカーポイント(画素)に人体ボックスのタグを生成し、同時に該人体ボックスに対応する自然人が画像中に顔が出現すると、同じアンカーポイントで該人体に関連する顔ボックスを生成する。
予測際に、前処理を完了した後の画像をネットワークに入力し、画像における全ての人体ボックス及び該人体に対応する顔ボックス、及び人体ボックスに対応する属性及び顔ボックスに対応する属性を取得する。人体ボックスに対応する属性は、切断するか否か、異常であるか否か、遮蔽程度及び向きを含むことができる。顔ボックスに対応する属性は、質量、ピッチ角、ヨー角及びロール角を含むことができる。
人体ボックスと顔ボックスを利用して連合追跡を行い、軌跡から、切断がなく、異常がなく、遮蔽程度が低い異なる向きの人体キーフレームを選択して記憶して入庫し、品質スコアが高く、角度が小さい顔キーフレーム画像を選択して記憶して入庫し、入庫されたキーフレーム画像が後続の顔検索などの目標物体に関連する操作に用いられることができる。
本開示の実施例は、顔及び/又は認識に適用することができる場合、認識対象画像のみに一回のディープラーニングモデル抽出を行い、認識対象画像上の全ての人体及び顔の検出ボックス、人体属性、顔属性、及び人体と顔との対応関係を取得することができる。単一段階モデルを利用して関連検出及び属性結果の出力を同時に行うことに比べて、本開示の実施例は、計算リソースのオーバーヘッドを最大限に低減し、同時にモデルから顔と人体との関連関係を直接的に出力し、顔と人体との関連判断を単独で行う必要がない。
本開示の一例示において、認識モデルの構造は、図6に示すように、バックボーンネットワーク61、特徴ピラミッドネットワーク(FPN)62、ヘッド63を含む。モデルトレーニング段階において、ヘッド63から出力されたデータに基づいて、トレーニング対象である認識モデルを最適化するための損失(Loss)を取得することができる。バックボーンネットワーク61により、認識対象画像に基づいて複数枚の第一特徴図を出力し、具体的にはC1、C2、C3、C4、C5であってもよく、サイズ関係は、C1>C2>C3>C4>C5である。FPN 62を経て、C3、C4、C5を融合して計算し、例えば、C3に対応する順序に基づいて、処理された第一特徴図における少なくとも一枚を融合し、第二特徴図P3を出力し、C4に対応する順序に基づいて、処理された第一特徴図における少なくとも一枚を融合し、第二特徴図P4を出力し、C5に対応する順序に基づいて、処理された第一特徴図における少なくとも一枚を融合し、第二特徴図P5を出力する。ヘッド63は畳み込み層conv3×3を含み、ヘッドの出力チャンネル数は入力チャンネル数の2倍であり、出力データはそれぞれ顔予測データconv3×3C、3(K+5+4)、人体予測データconv3×3C、3(K+5+4)ということである。
ここで、Cは、ヘッドに入力された特徴チャネル数であり、kはクラス数であり、5は(x、y、w、h、conf)であり、4は顔の三つの角度及び品質であり、11は人体の4つの属性に対応するベクトルである:正常であるか否か(いいえ、はい)、切断するか否か(いいえ、はい)、遮蔽程度(遮蔽がなく、わずかに遮蔽する、重度に遮蔽する)、向き(正面、背面、左側面、右側面)。
顔予測データ及び人体予測データに基づいて、顔ボックス(Face Box)、顔スコア(Face Score)、顔角度(Face Angle)、顔品質(Face Quality)という顔の品質関連データ、及び人体ボックス(Human Box)、人体スコア(Human Score)、人体品質(Human Quality)という人体の品質関連データをそれぞれ得ることができる。
例えば、図7に示す認識結果に基づいて、顔ボックス71と人体ボックス72を取得し、同時に正常な人体、遮蔽がなく、切断がなく、正面という顔と人体の品質関連データを取得することができる。認識対象ビデオにおける連合NMS(Non-Maximum Suppression、非極大抑制値)が最も大きいフレーム画像をキーフレーム画像として選択することができる。
本開示の実施例は、認識モデルトレーニング装置をさらに提供し、図8に示すように、
処理対象画像をトレーニング対象である認識モデルに入力する第一入力モジュール81と、
トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力する特徴図モジュール82と、
トレーニング対象である認識モデルのヘッドにより、少なくとも一枚の特徴図に基づいて処理対象画像における第一目標物体の予測データ、及び処理対象画像における第一目標物体の予測データに関連する第二目標物体の予測データを取得する予測データモジュール83と、
第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを得るトレーニングモジュール84と、を含む。
一実施形態において、第一目標物体の予測データは第一目標物体の分類予測データと第一目標物体の属性予測データを含み、第二目標物体の予測データは第二目標物体の分類予測データと第二目標物体の属性予測データを含む。
一実施形態において、図9に示すように、予測データモジュールは、
特徴図の各画素に対して、第一目標物体のアンカーポイントボックス予測データ及び第二目標物体のアンカーポイントボックス予測データを出力する第一予測ユニット91と、
第一目標物体のアンカーポイントボックス予測データ及び第二目標物体のアンカーポイントボックス予測データに基づいて、第一目標物体の予測データ及び第二目標物体の予測データを出力する第二予測ユニット92と、を含む。
一実施形態において、第一目標物体は顔であり、第二目標物体は人体である。
一実施形態において、図10に示すように、特徴出力層はバックボーンネットワーク及び特徴ピラミッドネットワークを含み、特徴図モジュールは、
バックボーンネットワークにより、処理対象画像の複数枚の第一特徴図を出力する第一特徴図ユニット101と、
複数枚の第一特徴図におけるN枚(Nが1以上の整数である)の第二特徴図を特徴ピラミッドネットワークに入力する第一特徴図入力ユニット102と、
特徴ピラミッドネットワークにより、N枚の第二特徴図を出力する第二特徴図ユニット103と、
N枚の第二特徴図を特徴図とする第二特徴図処理ユニット104と、を含む。
本開示の実施例は、画像認識装置をさらに提供し、図11に示すように、
認識対象画像を認識モデルに入力し、認識対象画像における第一目標物体の予測データ及び第一目標物体に関連する第二目標物体の予測データを取得する第二入力モジュール111を含み、認識モデルが本開示のいずれか一実施例に提供されるトレーニングされた認識モデルである。
一実施形態において、認識対象画像は認識対象ビデオにおけるフレーム画像である。図12に示すように、認識装置は、
第一目標物体の予測データ及び第二目標物体の予測データに基づいて、認識対象ビデオにおけるキーフレーム画像を取得するキーフレーム画像モジュール121をさらに含む。
本開示の実施例の各装置における各ユニット、モジュール又はサブモジュールの機能は、上記方法実施例における対応説明を参照することができ、ここでは説明を省略する。
本開示の実施例によれば、本開示は、さらに、電子デバイス、読み取り可能な記憶媒体及びコンピュータプログラム製品を提供する。
図13は、本開示の実施例を実施可能な例示電子デバイス130の概略的なブロック図を示す。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを表示することを意図する。電子デバイスは、さらに、様々な形式の移動装置を表示することができ、例えば、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置である。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定するものではない。
図13に示すように、電池機器130は計算ユニット131を含み、リードオンリーメモリ(ROM)132に記憶されたコンピュータプログラム又は記憶ユニット138からランダムアクセスメモリ(RAM)133にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。RAM 133において、さらに電子デバイス130の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット131、ROM 132、およびRAM 133は、バス134により相互に接続されている。バス134には、さらに、入出力インタフェース135が接続されている。
電子デバイス130における複数の部品はI/Oインタフェース135に接続され、例えばキーボード、マウス等の入力ユニット136と、例えば様々な種別のディスプレイ、スピーカ等の出力ユニット137と、例えば磁気ディスク、光ディスク等の記憶ユニット138と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット139と、を含む。通信ユニット139は、電子デバイス130がインターネット等のコンピュータネットワークおよび/または各種の電気通信網を介して他の装置と情報/データをやり取りすることを可能にする。
計算ユニット131は、各種の処理および計算能力を有する汎用および/または専用の処理モジュールであってもよい。計算ユニット131の例示としては、中央処理ユニット(CPU)、グラフィックスプロセッシングユニット(GPU)、各種専用の人工知能(AI)計算チップ、各種動作機械学習モデルアルゴリズムの計算ユニット、デジタルシグナルプロセッサ(DSP)、任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されるものではない。計算ユニット131は、上記説明した各方法及び処理を実行し、例えば認識モデルトレーニング方法である。例えば、いくつかの実施例において、認識モデルトレーニング方法は、コンピュータソフトウェアプログラムとして実現され、それは機械可読媒体、例えば記憶ユニット138に有形的に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部はROM 132及び/又は通信ユニット139を介して電子デバイス130にロード及び/又はインストールされる。コンピュータプログラムがRAM 133にロードされかつ計算ユニット131により実行される場合、上記の認識モデルトレーニング方法の一つ又は複数のステップを実行することができる。代替的に、他の実施例において、計算ユニット131は他の任意の適切な方式(例えば、ファームウェア)により認識モデルトレーニング方法を実行するように構成されてもよい。
本明細書で説明したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、チップオンシステムのシステム(SOC)、負荷プログラマブルロジック装置(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は以下を含むことができ、一つ又は複数のコンピュータプログラムにおいて実施し、該一つ又は複数のコンピュータプログラムは少なくとも一つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行され及び/又は解釈され、該プログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも一つの入力装置、及び該少なくとも一つの出力装置に伝送することができる。
本開示の方法を実施するためのプログラムコードは一つ又は複数の言語の任意の組み合わせで作成することができる。これらのプログラムコードは汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供することができ、それによりプログラムコードはプロセッサ又はコントローラにより実行される時にフローチャート及び/又はブロック図に規定された機能/操作が実施される。プログラムコードは機器に完全に実行され、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行されかつ遠隔機器で部分的に実行されるか又は完全に遠隔機器又はサーバで実行される。
本開示のコンテキストにおいて、機械可読媒体は有形の媒体であってもよく、それは命令実行システム、装置又はデバイスの使用又は命令実行システム、装置又はデバイスと組み合わせて使用されるプログラムを含むか又は記憶することができる。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又はデバイス、又は上記内容の任意の適切な組み合わせを含むがそれらに限定されない。機械可読記憶媒体のより具体的な例は一つ以上の線に基づく電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、便利式コンパクトリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記コンテンツの任意の適切な組み合わせを含む。
ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)、及びキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)であって、ユーザは該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができるものを有する。他の種別の装置はさらにユーザとの対話を提供することに用いられ、例えば、ユーザに提供されたフィードバックはいかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(声入力、音声入力又は、触覚入力を含む)でユーザからの入力を受信することができる。
ここで説明されたシステム及び技術はバックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品の任意の組み合わせを含むコンピューティングシステムに実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例は以下を含み、ローカル領域ネットワーク(LAN)、ワイド領域ネットワーク(WAN)及びインターネット。
コンピュータシステムは、クライアント及びサーバを含むことができる。クライアントとサーバとは一般的に離れており、通常、通信ネットワークを介して相互対話する。クライアントとサーバとの関係は、相応的なコンピュータ上で動作し、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。
理解すべきことは、以上に示した様々な形式のフローを使用し、ステップを改めてソーティングし、追加するか又は削除するであってもよい。例えば、本開示に記載の各ステップは並列的に実行されてもよいし異なる順序で実行されてもよく、本開示の技術的解決手段の所望の結果を実現することができれば、本明細書はここで限定されない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば理解すべきことは、設計要件及び他の要因に基づいて、様々な修正、、サブ組み合わせ及び代替を行うことができることである。本開示の精神と原則内で行われた任意の修正、均等置換及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。
以上は本発明の好ましい実施形態だけであり、指摘すべきこととして、上記好ましい実施形態は本発明を限定するものと見なされるべきではなく、本発明の保護範囲は特許請求の範囲に限定された範囲を基準とすべきである。本分野の当業者にとって、本発明の精神及び範囲から逸脱することなく、さらにいくつかの改善及び修飾を行うことができ、これらの改善及び修飾も本発明の保護範囲と見なされるべきである。

Claims (17)

  1. 処理対象画像をトレーニング対象である認識モデルに入力することと、
    前記トレーニング対象である認識モデルの特徴出力層により、前記処理対象画像の少なくとも一枚の特徴図を出力することと、
    前記トレーニング対象である認識モデルのヘッドにより、前記少なくとも一枚の特徴図に基づいて前記処理対象画像における第一目標物体の予測データ、及び前記処理対象画像における前記第一目標物体の予測データに関連する第二目標物体の予測データを取得することと、
    第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、前記トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを取得することと、を含む
    認識モデルトレーニング方法。
  2. 前記第一目標物体の予測データは、前記第一目標物体の分類予測データと前記第一目標物体の属性予測データを含み、前記第二目標物体の予測データは、前記第二目標物体の予測データと前記第二目標物体の属性予測データを含む
    請求項1に記載の方法。
  3. 前記トレーニング対象である認識モデルのヘッドにより、第一目標物体の予測データ、及び前記第一目標物体の予測データに関連する第二目標物体の予測データを出力することは、
    前記特徴図の各画素に対して、前記第一目標物体のアンカーポイントボックス予測データと前記第二目標物体のアンカーポイントボックス予測データを出力することと、
    前記第一目標物体のアンカーポイントボックス予測データと前記第二目標物体のアンカーポイントボックス予測データに基づいて、前記第一目標物体の予測データと前記第二目標物体の予測データを出力することと、を含む
    請求項1または2に記載の方法。
  4. 前記第一目標物体は顔であり、前記第二目標物体は人体である
    請求項1~3のいずれか一項に記載の方法。
  5. 前記特徴出力層はバックボーンネットワーク及び特徴ピラミッドネットワークを含み、
    前記トレーニング対象である認識モデルの特徴出力層により、前記処理対象画像の少なくとも一枚の特徴図を出力することは、
    前記バックボーンネットワークにより、前記処理対象画像の複数枚の第一特徴図を出力することと、
    前記複数枚の第一特徴図におけるN枚(Nが1以上の整数である)の第二特徴図を前記特徴ピラミッドネットワークに入力することと、
    前記特徴ピラミッドネットワークにより、N枚の第三特徴図を出力することと、
    前記N枚の第三特徴図を前記特徴図とすることと、を含む
    請求項1~4のいずれか一項に記載の方法。
  6. 認識対象画像を認識モデルに入力し、前記認識対象画像における第一目標物体の予測データと前記第一目標物体に関連する第二目標物体の予測データを取得することを含み、
    前記認識モデルは請求項1~5のいずれか一項に記載のトレーニングされた認識モデルである
    認識方法。
  7. 前記認識対象画像は認識対象ビデオにおけるフレーム画像であり、
    前記方法は、
    前記第一目標物体の予測データと前記第二目標物体の予測データに基づいて、前記認識対象ビデオにおけるキーフレーム画像を取得することをさらに含む
    請求項6に記載の方法。
  8. 処理対象画像をトレーニング対象である認識モデルに入力する第一入力モジュールと、
    前記トレーニング対象である認識モデルの特徴出力層により、前記処理対象画像の少なくとも一枚の特徴図を出力する特徴図モジュールと、
    前記トレーニング対象である認識モデルのヘッドにより、前記少なくとも一枚の特徴図に基づいて前記処理対象画像における第一目標物体の予測データ、及び前記処理対象画像における前記第一目標物体の予測データに関連する第二目標物体の予測データを取得する予測データモジュールと、
    第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、前記トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを取得するトレーニングモジュールと、を含む
    認識モデルトレーニング装置。
  9. 前記第一目標物体の予測データは、前記第一目標物体の分類予測データと前記第一目標物体の属性予測データを含み、前記第二目標物体の予測データは、前記第二目標物体の予測データと前記第二目標物体の属性予測データを含む
    請求項8に記載の装置。
  10. 前記予測データモジュールは、
    前記特徴図の各画素に対して、前記第一目標物体のアンカーポイントボックス予測データと前記第二目標物体のアンカーポイントボックス予測データを出力する第一予測ユニットと、
    前記第一目標物体のアンカーポイントボックス予測データと前記第二目標物体のアンカーポイントボックス予測データに基づいて、前記第一目標物体の予測データと前記第二目標物体の予測データを出力する第二予測ユニットと、を含む
    請求項8または9に記載の装置。
  11. 前記第一目標オブジェクトは顔であり、前記第二目標オブジェクトは人体である
    請求項8~10のいずれか一項に記載の装置。
  12. 前記特徴出力層はバックボーンネットワーク及び特徴ピラミッドネットワークを含み、
    前記特徴図モジュールは、
    前記バックボーンネットワークにより、処理対象画像の複数枚の第一特徴図を出力する第一特徴図ユニットと、
    前記複数枚の第一特徴図におけるN枚(Nが1以上の整数である)の第二特徴図を前記特徴ピラミッドネットワークに入力する第一特徴図入力ユニットと、
    前記特徴ピラミッドネットワークにより、N枚の第三特徴図を出力する第二特徴図ユニットと、
    前記N枚の第三特徴図を前記特徴図とする第二特徴図処理ユニットと、を含む
    請求項8~11のいずれか一項に記載の装置。
  13. 認識対象画像を認識モデルに入力し、前記認識対象画像における第一目標物体の予測データと前記第一目標物体に関連する第二目標物体の予測データを取得する第二入力モジュールを含み、
    前記認識モデルは請求項8~12のいずれか一項に記載のトレーニングされた認識モデルである
    認識装置。
  14. 前記認識対象画像は認識対象ビデオにおけるフレーム画像であり、
    前記装置は、
    前記第一目標物体の予測データと前記第二目標物体の予測データに基づいて、前記認識対象ビデオにおけるキーフレーム画像を取得するキーフレーム画像モジュールをさらに含む
    請求項13に記載の装置。
  15. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されるメモリと、を含み、
    前記メモリに、前記少なくとも1つのプロセッサにより実行可能な命令が記憶され、前記少なくとも1つのプロセッサが請求項1~7のいずれか一項に記載の方法を実行可能であるように、前記命令が前記少なくとも1つのプロセッサにより実行される
    電子デバイス。
  16. コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
    前記コンピュータ命令はコンピュータに請求項1~7のいずれか一項に記載の方法を実行させる
    コンピュータ可読記憶媒体。
  17. プロセッサにより実行される時に請求項1~7のいずれか一項に記載の方法を実現するコンピュータプログラムを含む
    コンピュータプログラム製品。
JP2022544196A 2021-05-28 2022-01-29 認識モデルトレーニング方法、認識方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム Pending JP2023530796A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110591890.8A CN113326773A (zh) 2021-05-28 2021-05-28 识别模型训练方法、识别方法、装置、设备及存储介质
CN202110591890.8 2021-05-28
PCT/CN2022/075119 WO2022247343A1 (zh) 2021-05-28 2022-01-29 识别模型训练方法、识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
JP2023530796A true JP2023530796A (ja) 2023-07-20

Family

ID=77422175

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022544196A Pending JP2023530796A (ja) 2021-05-28 2022-01-29 認識モデルトレーニング方法、認識方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム

Country Status (4)

Country Link
JP (1) JP2023530796A (ja)
KR (1) KR20220110321A (ja)
CN (1) CN113326773A (ja)
WO (1) WO2022247343A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326773A (zh) * 2021-05-28 2021-08-31 北京百度网讯科技有限公司 识别模型训练方法、识别方法、装置、设备及存储介质
CN113901911B (zh) * 2021-09-30 2022-11-04 北京百度网讯科技有限公司 图像识别、模型训练方法、装置、电子设备及存储介质
CN114239761B (zh) * 2022-02-25 2022-05-10 北京鉴智科技有限公司 一种目标检测模型训练方法和装置
CN114998575A (zh) * 2022-06-29 2022-09-02 支付宝(杭州)信息技术有限公司 训练和使用目标检测模型的方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150030255A1 (en) * 2013-07-25 2015-01-29 Canon Kabushiki Kaisha Method and apparatus for classifying pixels in an input image and image processing system
US20190130583A1 (en) * 2017-10-30 2019-05-02 Qualcomm Incorporated Still and slow object tracking in a hybrid video analytics system
US20190171870A1 (en) * 2017-12-03 2019-06-06 Facebook, Inc. Optimizations for Dynamic Object Instance Detection, Segmentation, and Structure Mapping
CN111144215A (zh) * 2019-11-27 2020-05-12 北京迈格威科技有限公司 图像处理方法、装置、电子设备及存储介质
JP2020106970A (ja) * 2018-12-26 2020-07-09 オムロン株式会社 人検出装置および人検出方法
US20200250453A1 (en) * 2019-01-31 2020-08-06 Adobe Inc. Content-aware selection
WO2020221990A1 (en) * 2019-04-30 2020-11-05 Huawei Technologies Co., Ltd. Facial localisation in images

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845432B (zh) * 2017-02-07 2019-09-17 深圳市深网视界科技有限公司 一种人脸与人体共同检测的方法和设备
CN110634120B (zh) * 2018-06-05 2022-06-03 杭州海康威视数字技术股份有限公司 一种车辆损伤判别方法及装置
US11429842B2 (en) * 2019-02-24 2022-08-30 Microsoft Technology Licensing, Llc Neural network for skeletons from input images
CN110210304B (zh) * 2019-04-29 2021-06-11 北京百度网讯科技有限公司 用于目标检测和跟踪的方法及系统
CN110502986A (zh) * 2019-07-12 2019-11-26 平安科技(深圳)有限公司 识别图像中人物位置方法、装置、计算机设备和存储介质
CN111428875A (zh) * 2020-03-11 2020-07-17 北京三快在线科技有限公司 图像识别方法、装置及相应模型训练方法、装置
CN111612820B (zh) * 2020-05-15 2023-10-13 北京百度网讯科技有限公司 多目标跟踪方法、特征提取模型的训练方法和装置
CN111640140B (zh) * 2020-05-22 2022-11-25 北京百度网讯科技有限公司 目标跟踪方法、装置、电子设备及计算机可读存储介质
US10902290B1 (en) * 2020-08-04 2021-01-26 Superb Ai Co., Ltd. Methods for training auto labeling device and performing auto labeling related to object detection while performing automatic verification by using uncertainty scores and devices using the same
CN112597837B (zh) * 2020-12-11 2024-05-28 北京百度网讯科技有限公司 图像检测方法、装置、设备、存储介质和计算机程序产品
CN113326773A (zh) * 2021-05-28 2021-08-31 北京百度网讯科技有限公司 识别模型训练方法、识别方法、装置、设备及存储介质
CN113901911B (zh) * 2021-09-30 2022-11-04 北京百度网讯科技有限公司 图像识别、模型训练方法、装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150030255A1 (en) * 2013-07-25 2015-01-29 Canon Kabushiki Kaisha Method and apparatus for classifying pixels in an input image and image processing system
US20190130583A1 (en) * 2017-10-30 2019-05-02 Qualcomm Incorporated Still and slow object tracking in a hybrid video analytics system
US20190171870A1 (en) * 2017-12-03 2019-06-06 Facebook, Inc. Optimizations for Dynamic Object Instance Detection, Segmentation, and Structure Mapping
JP2020106970A (ja) * 2018-12-26 2020-07-09 オムロン株式会社 人検出装置および人検出方法
US20200250453A1 (en) * 2019-01-31 2020-08-06 Adobe Inc. Content-aware selection
WO2020221990A1 (en) * 2019-04-30 2020-11-05 Huawei Technologies Co., Ltd. Facial localisation in images
CN111144215A (zh) * 2019-11-27 2020-05-12 北京迈格威科技有限公司 图像处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2022247343A1 (zh) 2022-12-01
CN113326773A (zh) 2021-08-31
KR20220110321A (ko) 2022-08-05

Similar Documents

Publication Publication Date Title
JP2023530796A (ja) 認識モデルトレーニング方法、認識方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム
US20180114071A1 (en) Method for analysing media content
JP2023541532A (ja) テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
CN114550177B (zh) 图像处理的方法、文本识别方法及装置
JP7394809B2 (ja) ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム
WO2022227768A1 (zh) 动态手势识别方法、装置、设备以及存储介质
CN111666960A (zh) 图像识别方法、装置、电子设备及可读存储介质
US20230030431A1 (en) Method and apparatus for extracting feature, device, and storage medium
JP7393472B2 (ja) 陳列シーン認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム
KR20220153088A (ko) 비디오 태그 추천 모델의 트레이닝 방법 및 비디오 태그 확정 방법
CN113014988B (zh) 视频处理方法、装置、设备以及存储介质
CN111178323B (zh) 基于视频的群体行为识别方法、装置、设备及存储介质
JP7401606B2 (ja) 仮想オブジェクトリップ駆動方法、モデル訓練方法、関連装置及び電子機器
CN115359383B (zh) 跨模态特征提取、检索以及模型的训练方法、装置及介质
CN113901909B (zh) 基于视频的目标检测方法、装置、电子设备和存储介质
WO2022227765A1 (zh) 生成图像修复模型的方法、设备、介质及程序产品
JP2023543015A (ja) ビデオ検出方法、装置、電子機器及び記憶媒体
US20230017578A1 (en) Image processing and model training methods, electronic device, and storage medium
US20230143452A1 (en) Method and apparatus for generating image, electronic device and storage medium
KR20220126264A (ko) 비디오 흔들림 검출 방법, 장치, 전자 기기 및 저장 매체
CN111985374A (zh) 人脸定位方法、装置、电子设备及存储介质
JP2023527615A (ja) 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム
US20230245429A1 (en) Method and apparatus for training lane line detection model, electronic device and storage medium
JP2023543964A (ja) 画像処理方法、画像処理装置、電子機器、記憶媒体およびコンピュータプログラム
CN115761839A (zh) 人脸活体检测模型的训练方法、人脸活体检测方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220720

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231114

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240611