JP2023530796A - 認識モデルトレーニング方法、認識方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム - Google Patents
認識モデルトレーニング方法、認識方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2023530796A JP2023530796A JP2022544196A JP2022544196A JP2023530796A JP 2023530796 A JP2023530796 A JP 2023530796A JP 2022544196 A JP2022544196 A JP 2022544196A JP 2022544196 A JP2022544196 A JP 2022544196A JP 2023530796 A JP2023530796 A JP 2023530796A
- Authority
- JP
- Japan
- Prior art keywords
- target object
- prediction data
- recognition
- image
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000012549 training Methods 0.000 title claims abstract description 74
- 238000004590 computer program Methods 0.000 title claims description 20
- 238000012545 processing Methods 0.000 claims description 35
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 36
- 238000004891 communication Methods 0.000 description 16
- 238000001514 detection method Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000012986 modification Methods 0.000 description 10
- 230000004048 modification Effects 0.000 description 10
- 239000013598 vector Substances 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 241001465754 Metazoa Species 0.000 description 4
- 238000002266 amputation Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000006467 substitution reaction Methods 0.000 description 4
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 2
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 2
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 2
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000001747 exhibiting effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/40—Spoof detection, e.g. liveness detection
- G06V40/45—Detection of the body part being alive
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/12—Bounding box
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
Description
処理対象画像をトレーニング対象である認識モデルに入力することと、
トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力することと、
トレーニング対象である認識モデルのヘッドにより、少なくとも一枚の特徴図に基づいて処理対象画像における第一目標物体の予測データ、及び処理対象画像における第一目標物体の予測データに関連する第二目標物体の予測データを取得することと、
第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを取得することと、を含む。
認識対象画像を認識モデルに入力し、認識対象画像における第一目標物体の予測データと第一目標物体に関連する第二目標物体の予測データを取得することを含み、認識モデルは、本開示のいずれか一つの実施例が提供するトレーニングされた認識モデルである。
処理対象画像をトレーニング対象である認識モデルに入力する第一入力モジュールと、
トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力する特徴図モジュールと、
トレーニング対象である認識モデルのヘッドにより、少なくとも一枚の特徴図に基づいて処理対象画像における第一目標物体の予測データ、及び処理対象画像における第一目標物体の予測データに関連する第二目標物体の予測データを取得する予測データモジュールと、
第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを取得するトレーニングモジュールと、を含む。
認識対象画像を認識モデルに入力し、認識対象画像における第一目標物体の予測データ及び第一目標物体に関連する第二目標物体の予測データを取得する第二入力モジュールを含み、認識モデルは、本開示のいずれか一つの実施例が提供するトレーニングされた認識モデルである。
少なくとも一つのプロセッサと、
該少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
該メモリに該少なくとも一つのプロセッサにより実行可能な命令が記憶され、該少なくとも一つのプロセッサが本開示のいずれか一つの実施例における方法を実行できるように、該命令が該少なくとも一つのプロセッサにより実行される。
ステップS11:処理対象画像をトレーニング対象である認識モデルに入力することと、
ステップS12:トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力することと、
ステップS13:トレーニング対象である認識モデルのヘッド(Head)により、少なくとも一枚の特徴図に基づいて処理対象画像における第一目標物体の予測データ、及び処理対象画像における第一目標物体の予測データに関連する第二目標物体の予測データを取得することと、
ステップS14:第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを取得することと、を含む。
本実施例において、第一目標物体の予測データと第二目標物体の予測データの種類は同じであっても異なっていてもよい。
ステップS21:特徴図の各画素に対して、第一目標物体のアンカーポイントボックス予測データ及び第二目標物体のアンカーポイントボックス予測データを出力することと、
ステップS22:第一目標物体のアンカーポイントボックス予測データと第二目標物体のアンカーポイントボックス予測データに基づいて、第一目標物体の予測データと第二目標物体の予測データを出力することと、を含む。
セキュリティビックデータシステムなどのシーンで、常に監視ビデオストリームに出現する自然人に対して検出追跡を行い、その中のキーフレーム画像を記憶して記録する必要がある。ここで、キーフレーム画像は顔、人体のうちの少なくとも一つを含み、後続の顔及び/又は人体検索に用いることができる。本開示の実施例は、第一目標物体が顔であり、第二目標物体が人体であるように設定することができ、それによりビデオストリームのキャプチャシステムにおける人体顔検出に用いることができ、同一自然人に属する人体と顔を関連付けるとともに、連続的な自然人軌跡を含む一つのセグメントのビデオにおいて、認識に最適な一つのフレーム画像を選択してデータベースに記憶し、その後の追跡、検索、セキュリティ等の操作に重要で高品質の情報を提供する。
ステップS31:バックボーンネットワーク(Backbone)により、処理対象画像の複数枚の第一特徴図を出力することと、
ステップS32:複数枚の第一特徴図におけるN枚の第二特徴図を特徴ピラミッドネットワーク(Feature Pyramid Network、FPN)に入力し、Nは1以上の整数であることと、
ステップS33:特徴ピラミッドネットワークにより、N枚の第三特徴図を出力することと、
ステップS34:N枚の第三特徴図を特徴図とすることと、を含む。
ステップS41:認識対象画像を認識モデルに入力し、認識対象画像における第一目標物体の予測データと第一目標物体に関連する第二目標物体の予測データを取得し、認識モデルは本開示のいずれか一実施例に提供されるトレーニングされた認識モデルであることを含む。
第一目標物体の予測データと第二目標物体の予測データに基づいて、認識対象ビデオにおけるキーフレーム画像を取得することをさらに含む。
ステップS51:認識対象画像を取得する。
前処理された認識対象画像はトレーニング対象である認識モデルに送信されて計算されることができる。
トレーニング対象である認識モデルの入力データは、上記ステップS52で前処理された画像であってもよく、バックボーンネットワークの処理により、異なるディープ及びスケールの第一特徴図を取得する。バックボーンネットワークの構造は、YOLO統合リアルタイム目標検出(You Only Look Once: Unified, Real-Time Object Detection)モデルのバックボーンネットワークと同じであってもよく、具体的には畳み込み演算機能を有するサブネットワークを含み、サブネットワークは例えばDarkNet、ResNetなどのネットワークであってもよい。
本例示において、特徴ピラミッドネットワークの後にトレーニング対象である認識モデルのヘッドが接続され、ヘッドは、いくつかの畳み込み層-活性化層-バッチ処理層の組み合わせを含むことができる。
処理対象画像をトレーニング対象である認識モデルに入力する第一入力モジュール81と、
トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力する特徴図モジュール82と、
トレーニング対象である認識モデルのヘッドにより、少なくとも一枚の特徴図に基づいて処理対象画像における第一目標物体の予測データ、及び処理対象画像における第一目標物体の予測データに関連する第二目標物体の予測データを取得する予測データモジュール83と、
第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを得るトレーニングモジュール84と、を含む。
特徴図の各画素に対して、第一目標物体のアンカーポイントボックス予測データ及び第二目標物体のアンカーポイントボックス予測データを出力する第一予測ユニット91と、
第一目標物体のアンカーポイントボックス予測データ及び第二目標物体のアンカーポイントボックス予測データに基づいて、第一目標物体の予測データ及び第二目標物体の予測データを出力する第二予測ユニット92と、を含む。
一実施形態において、図10に示すように、特徴出力層はバックボーンネットワーク及び特徴ピラミッドネットワークを含み、特徴図モジュールは、
バックボーンネットワークにより、処理対象画像の複数枚の第一特徴図を出力する第一特徴図ユニット101と、
複数枚の第一特徴図におけるN枚(Nが1以上の整数である)の第二特徴図を特徴ピラミッドネットワークに入力する第一特徴図入力ユニット102と、
特徴ピラミッドネットワークにより、N枚の第二特徴図を出力する第二特徴図ユニット103と、
N枚の第二特徴図を特徴図とする第二特徴図処理ユニット104と、を含む。
認識対象画像を認識モデルに入力し、認識対象画像における第一目標物体の予測データ及び第一目標物体に関連する第二目標物体の予測データを取得する第二入力モジュール111を含み、認識モデルが本開示のいずれか一実施例に提供されるトレーニングされた認識モデルである。
第一目標物体の予測データ及び第二目標物体の予測データに基づいて、認識対象ビデオにおけるキーフレーム画像を取得するキーフレーム画像モジュール121をさらに含む。
処理対象画像をトレーニング対象である認識モデルに入力することと、
トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力することと、
トレーニング対象である認識モデルのヘッドにより、少なくとも一枚の特徴図に基づいて処理対象画像における第一目標物体の予測データ、及び処理対象画像における第一目標物体に関連する第二目標物体の予測データを取得することと、
第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを取得することと、を含む。
認識対象画像を認識モデルに入力し、認識対象画像における第一目標物体の予測データと第一目標物体に関連する第二目標物体の予測データを取得することを含み、認識モデルは、本開示のいずれか一つの実施例が提供するトレーニングされた認識モデルである。
処理対象画像をトレーニング対象である認識モデルに入力する第一入力モジュールと、
トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力する特徴図モジュールと、
トレーニング対象である認識モデルのヘッドにより、少なくとも一枚の特徴図に基づいて処理対象画像における第一目標物体の予測データ、及び処理対象画像における第一目標物体に関連する第二目標物体の予測データを取得する予測データモジュールと、
第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを取得するトレーニングモジュールと、を含む。
認識対象画像を認識モデルに入力し、認識対象画像における第一目標物体の予測データ及び第一目標物体に関連する第二目標物体の予測データを取得する第二入力モジュールを含み、認識モデルは、本開示のいずれか一つの実施例が提供するトレーニングされた認識モデルである。
少なくとも一つのプロセッサと、
該少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
該メモリに該少なくとも一つのプロセッサにより実行可能な命令が記憶され、該少なくとも一つのプロセッサが本開示のいずれか一つの実施例における方法を実行できるように、該命令が該少なくとも一つのプロセッサにより実行される。
ステップS11:処理対象画像をトレーニング対象である認識モデルに入力することと、
ステップS12:トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力することと、
ステップS13:トレーニング対象である認識モデルのヘッド(Head)により、少なくとも一枚の特徴図に基づいて処理対象画像における第一目標物体の予測データ、及び処理対象画像における第一目標物体の予測データに関連する第二目標物体の予測データを取得することと、
ステップS14:第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを取得することと、を含む。
本実施例において、第一目標物体の予測データと第二目標物体の予測データの種類は同じであっても異なっていてもよい。
ステップS21:特徴図の各画素に対して、第一目標物体のアンカーポイントボックス予測データ及び第二目標物体のアンカーポイントボックス予測データを出力することと、
ステップS22:第一目標物体のアンカーポイントボックス予測データと第二目標物体のアンカーポイントボックス予測データに基づいて、第一目標物体の予測データと第二目標物体の予測データを出力することと、を含む。
セキュリティビックデータシステムなどのシーンで、常に監視ビデオストリームに出現する自然人に対して検出追跡を行い、その中のキーフレーム画像を記憶して記録する必要がある。ここで、キーフレーム画像は顔、人体のうちの少なくとも一つを含み、後続の顔及び/又は人体検索に用いることができる。本開示の実施例は、第一目標物体が顔であり、第二目標物体が人体であるように設定することができ、それによりビデオストリームのキャプチャシステムにおける人体顔検出に用いることができ、同一自然人に属する人体と顔を関連付けるとともに、連続的な自然人軌跡を含む一つのセグメントのビデオにおいて、認識に最適な一つのフレーム画像を選択してデータベースに記憶し、その後の追跡、検索、セキュリティ等の操作に重要で高品質の情報を提供する。
ステップS31:バックボーンネットワーク(Backbone)により、処理対象画像の複数枚の第一特徴図を出力することと、
ステップS32:複数枚の第一特徴図におけるN枚の第一特徴図を特徴ピラミッドネットワーク(Feature Pyramid Network、FPN)に入力し、Nは1以上の整数であることと、
ステップS33:特徴ピラミッドネットワークにより、N枚の第二特徴図を出力することと、
ステップS34:N枚の第二特徴図を特徴図とすることと、を含む。
ステップS41:認識対象画像を認識モデルに入力し、認識対象画像における第一目標物体の予測データと第一目標物体に関連する第二目標物体の予測データを取得し、認識モデルは本開示のいずれか一実施例に提供されるトレーニングされた認識モデルであることを含む。
第一目標物体の予測データと第二目標物体の予測データに基づいて、認識対象ビデオにおけるキーフレーム画像を取得することをさらに含む。
ステップS51:認識対象画像を取得する。
前処理された認識対象画像はトレーニング対象である認識モデルに送信されて計算されることができる。
トレーニング対象である認識モデルの入力データは、上記ステップS52で前処理された画像であってもよく、バックボーンネットワークの処理により、異なるディープ及びスケールの第一特徴図を取得する。バックボーンネットワークの構造は、YOLO統合リアルタイム目標検出(You Only Look Once: Unified, Real-Time Object Detection)モデルのバックボーンネットワークと同じであってもよく、具体的には畳み込み演算機能を有するサブネットワークを含み、サブネットワークは例えばDarkNet、ResNetなどのネットワークであってもよい。
本例示において、特徴ピラミッドネットワークの後にトレーニング対象である認識モデルのヘッドが接続され、ヘッドは、いくつかの畳み込み層-活性化層-バッチ処理層の組み合わせを含むことができる。
処理対象画像をトレーニング対象である認識モデルに入力する第一入力モジュール81と、
トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力する特徴図モジュール82と、
トレーニング対象である認識モデルのヘッドにより、少なくとも一枚の特徴図に基づいて処理対象画像における第一目標物体の予測データ、及び処理対象画像における第一目標物体の予測データに関連する第二目標物体の予測データを取得する予測データモジュール83と、
第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを得るトレーニングモジュール84と、を含む。
特徴図の各画素に対して、第一目標物体のアンカーポイントボックス予測データ及び第二目標物体のアンカーポイントボックス予測データを出力する第一予測ユニット91と、
第一目標物体のアンカーポイントボックス予測データ及び第二目標物体のアンカーポイントボックス予測データに基づいて、第一目標物体の予測データ及び第二目標物体の予測データを出力する第二予測ユニット92と、を含む。
一実施形態において、図10に示すように、特徴出力層はバックボーンネットワーク及び特徴ピラミッドネットワークを含み、特徴図モジュールは、
バックボーンネットワークにより、処理対象画像の複数枚の第一特徴図を出力する第一特徴図ユニット101と、
複数枚の第一特徴図におけるN枚(Nが1以上の整数である)の第二特徴図を特徴ピラミッドネットワークに入力する第一特徴図入力ユニット102と、
特徴ピラミッドネットワークにより、N枚の第二特徴図を出力する第二特徴図ユニット103と、
N枚の第二特徴図を特徴図とする第二特徴図処理ユニット104と、を含む。
認識対象画像を認識モデルに入力し、認識対象画像における第一目標物体の予測データ及び第一目標物体に関連する第二目標物体の予測データを取得する第二入力モジュール111を含み、認識モデルが本開示のいずれか一実施例に提供されるトレーニングされた認識モデルである。
第一目標物体の予測データ及び第二目標物体の予測データに基づいて、認識対象ビデオにおけるキーフレーム画像を取得するキーフレーム画像モジュール121をさらに含む。
Claims (17)
- 処理対象画像をトレーニング対象である認識モデルに入力することと、
前記トレーニング対象である認識モデルの特徴出力層により、前記処理対象画像の少なくとも一枚の特徴図を出力することと、
前記トレーニング対象である認識モデルのヘッドにより、前記少なくとも一枚の特徴図に基づいて前記処理対象画像における第一目標物体の予測データ、及び前記処理対象画像における前記第一目標物体の予測データに関連する第二目標物体の予測データを取得することと、
第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、前記トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを取得することと、を含む
認識モデルトレーニング方法。 - 前記第一目標物体の予測データは、前記第一目標物体の分類予測データと前記第一目標物体の属性予測データを含み、前記第二目標物体の予測データは、前記第二目標物体の予測データと前記第二目標物体の属性予測データを含む
請求項1に記載の方法。 - 前記トレーニング対象である認識モデルのヘッドにより、第一目標物体の予測データ、及び前記第一目標物体の予測データに関連する第二目標物体の予測データを出力することは、
前記特徴図の各画素に対して、前記第一目標物体のアンカーポイントボックス予測データと前記第二目標物体のアンカーポイントボックス予測データを出力することと、
前記第一目標物体のアンカーポイントボックス予測データと前記第二目標物体のアンカーポイントボックス予測データに基づいて、前記第一目標物体の予測データと前記第二目標物体の予測データを出力することと、を含む
請求項1または2に記載の方法。 - 前記第一目標物体は顔であり、前記第二目標物体は人体である
請求項1~3のいずれか一項に記載の方法。 - 前記特徴出力層はバックボーンネットワーク及び特徴ピラミッドネットワークを含み、
前記トレーニング対象である認識モデルの特徴出力層により、前記処理対象画像の少なくとも一枚の特徴図を出力することは、
前記バックボーンネットワークにより、前記処理対象画像の複数枚の第一特徴図を出力することと、
前記複数枚の第一特徴図におけるN枚(Nが1以上の整数である)の第二特徴図を前記特徴ピラミッドネットワークに入力することと、
前記特徴ピラミッドネットワークにより、N枚の第三特徴図を出力することと、
前記N枚の第三特徴図を前記特徴図とすることと、を含む
請求項1~4のいずれか一項に記載の方法。 - 認識対象画像を認識モデルに入力し、前記認識対象画像における第一目標物体の予測データと前記第一目標物体に関連する第二目標物体の予測データを取得することを含み、
前記認識モデルは請求項1~5のいずれか一項に記載のトレーニングされた認識モデルである
認識方法。 - 前記認識対象画像は認識対象ビデオにおけるフレーム画像であり、
前記方法は、
前記第一目標物体の予測データと前記第二目標物体の予測データに基づいて、前記認識対象ビデオにおけるキーフレーム画像を取得することをさらに含む
請求項6に記載の方法。 - 処理対象画像をトレーニング対象である認識モデルに入力する第一入力モジュールと、
前記トレーニング対象である認識モデルの特徴出力層により、前記処理対象画像の少なくとも一枚の特徴図を出力する特徴図モジュールと、
前記トレーニング対象である認識モデルのヘッドにより、前記少なくとも一枚の特徴図に基づいて前記処理対象画像における第一目標物体の予測データ、及び前記処理対象画像における前記第一目標物体の予測データに関連する第二目標物体の予測データを取得する予測データモジュールと、
第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、前記トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを取得するトレーニングモジュールと、を含む
認識モデルトレーニング装置。 - 前記第一目標物体の予測データは、前記第一目標物体の分類予測データと前記第一目標物体の属性予測データを含み、前記第二目標物体の予測データは、前記第二目標物体の予測データと前記第二目標物体の属性予測データを含む
請求項8に記載の装置。 - 前記予測データモジュールは、
前記特徴図の各画素に対して、前記第一目標物体のアンカーポイントボックス予測データと前記第二目標物体のアンカーポイントボックス予測データを出力する第一予測ユニットと、
前記第一目標物体のアンカーポイントボックス予測データと前記第二目標物体のアンカーポイントボックス予測データに基づいて、前記第一目標物体の予測データと前記第二目標物体の予測データを出力する第二予測ユニットと、を含む
請求項8または9に記載の装置。 - 前記第一目標オブジェクトは顔であり、前記第二目標オブジェクトは人体である
請求項8~10のいずれか一項に記載の装置。 - 前記特徴出力層はバックボーンネットワーク及び特徴ピラミッドネットワークを含み、
前記特徴図モジュールは、
前記バックボーンネットワークにより、処理対象画像の複数枚の第一特徴図を出力する第一特徴図ユニットと、
前記複数枚の第一特徴図におけるN枚(Nが1以上の整数である)の第二特徴図を前記特徴ピラミッドネットワークに入力する第一特徴図入力ユニットと、
前記特徴ピラミッドネットワークにより、N枚の第三特徴図を出力する第二特徴図ユニットと、
前記N枚の第三特徴図を前記特徴図とする第二特徴図処理ユニットと、を含む
請求項8~11のいずれか一項に記載の装置。 - 認識対象画像を認識モデルに入力し、前記認識対象画像における第一目標物体の予測データと前記第一目標物体に関連する第二目標物体の予測データを取得する第二入力モジュールを含み、
前記認識モデルは請求項8~12のいずれか一項に記載のトレーニングされた認識モデルである
認識装置。 - 前記認識対象画像は認識対象ビデオにおけるフレーム画像であり、
前記装置は、
前記第一目標物体の予測データと前記第二目標物体の予測データに基づいて、前記認識対象ビデオにおけるキーフレーム画像を取得するキーフレーム画像モジュールをさらに含む
請求項13に記載の装置。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されるメモリと、を含み、
前記メモリに、前記少なくとも1つのプロセッサにより実行可能な命令が記憶され、前記少なくとも1つのプロセッサが請求項1~7のいずれか一項に記載の方法を実行可能であるように、前記命令が前記少なくとも1つのプロセッサにより実行される
電子デバイス。 - コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令はコンピュータに請求項1~7のいずれか一項に記載の方法を実行させる
コンピュータ可読記憶媒体。 - プロセッサにより実行される時に請求項1~7のいずれか一項に記載の方法を実現するコンピュータプログラムを含む
コンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110591890.8A CN113326773A (zh) | 2021-05-28 | 2021-05-28 | 识别模型训练方法、识别方法、装置、设备及存储介质 |
CN202110591890.8 | 2021-05-28 | ||
PCT/CN2022/075119 WO2022247343A1 (zh) | 2021-05-28 | 2022-01-29 | 识别模型训练方法、识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023530796A true JP2023530796A (ja) | 2023-07-20 |
Family
ID=77422175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022544196A Pending JP2023530796A (ja) | 2021-05-28 | 2022-01-29 | 認識モデルトレーニング方法、認識方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP2023530796A (ja) |
KR (1) | KR20220110321A (ja) |
CN (1) | CN113326773A (ja) |
WO (1) | WO2022247343A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326773A (zh) * | 2021-05-28 | 2021-08-31 | 北京百度网讯科技有限公司 | 识别模型训练方法、识别方法、装置、设备及存储介质 |
CN113901911B (zh) * | 2021-09-30 | 2022-11-04 | 北京百度网讯科技有限公司 | 图像识别、模型训练方法、装置、电子设备及存储介质 |
CN114239761B (zh) * | 2022-02-25 | 2022-05-10 | 北京鉴智科技有限公司 | 一种目标检测模型训练方法和装置 |
CN114998575A (zh) * | 2022-06-29 | 2022-09-02 | 支付宝(杭州)信息技术有限公司 | 训练和使用目标检测模型的方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150030255A1 (en) * | 2013-07-25 | 2015-01-29 | Canon Kabushiki Kaisha | Method and apparatus for classifying pixels in an input image and image processing system |
US20190130583A1 (en) * | 2017-10-30 | 2019-05-02 | Qualcomm Incorporated | Still and slow object tracking in a hybrid video analytics system |
US20190171870A1 (en) * | 2017-12-03 | 2019-06-06 | Facebook, Inc. | Optimizations for Dynamic Object Instance Detection, Segmentation, and Structure Mapping |
CN111144215A (zh) * | 2019-11-27 | 2020-05-12 | 北京迈格威科技有限公司 | 图像处理方法、装置、电子设备及存储介质 |
JP2020106970A (ja) * | 2018-12-26 | 2020-07-09 | オムロン株式会社 | 人検出装置および人検出方法 |
US20200250453A1 (en) * | 2019-01-31 | 2020-08-06 | Adobe Inc. | Content-aware selection |
WO2020221990A1 (en) * | 2019-04-30 | 2020-11-05 | Huawei Technologies Co., Ltd. | Facial localisation in images |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845432B (zh) * | 2017-02-07 | 2019-09-17 | 深圳市深网视界科技有限公司 | 一种人脸与人体共同检测的方法和设备 |
CN110634120B (zh) * | 2018-06-05 | 2022-06-03 | 杭州海康威视数字技术股份有限公司 | 一种车辆损伤判别方法及装置 |
US11429842B2 (en) * | 2019-02-24 | 2022-08-30 | Microsoft Technology Licensing, Llc | Neural network for skeletons from input images |
CN110210304B (zh) * | 2019-04-29 | 2021-06-11 | 北京百度网讯科技有限公司 | 用于目标检测和跟踪的方法及系统 |
CN110502986A (zh) * | 2019-07-12 | 2019-11-26 | 平安科技(深圳)有限公司 | 识别图像中人物位置方法、装置、计算机设备和存储介质 |
CN111428875A (zh) * | 2020-03-11 | 2020-07-17 | 北京三快在线科技有限公司 | 图像识别方法、装置及相应模型训练方法、装置 |
CN111612820B (zh) * | 2020-05-15 | 2023-10-13 | 北京百度网讯科技有限公司 | 多目标跟踪方法、特征提取模型的训练方法和装置 |
CN111640140B (zh) * | 2020-05-22 | 2022-11-25 | 北京百度网讯科技有限公司 | 目标跟踪方法、装置、电子设备及计算机可读存储介质 |
US10902290B1 (en) * | 2020-08-04 | 2021-01-26 | Superb Ai Co., Ltd. | Methods for training auto labeling device and performing auto labeling related to object detection while performing automatic verification by using uncertainty scores and devices using the same |
CN112597837B (zh) * | 2020-12-11 | 2024-05-28 | 北京百度网讯科技有限公司 | 图像检测方法、装置、设备、存储介质和计算机程序产品 |
CN113326773A (zh) * | 2021-05-28 | 2021-08-31 | 北京百度网讯科技有限公司 | 识别模型训练方法、识别方法、装置、设备及存储介质 |
CN113901911B (zh) * | 2021-09-30 | 2022-11-04 | 北京百度网讯科技有限公司 | 图像识别、模型训练方法、装置、电子设备及存储介质 |
-
2021
- 2021-05-28 CN CN202110591890.8A patent/CN113326773A/zh active Pending
-
2022
- 2022-01-29 JP JP2022544196A patent/JP2023530796A/ja active Pending
- 2022-01-29 WO PCT/CN2022/075119 patent/WO2022247343A1/zh active Application Filing
- 2022-01-29 KR KR1020227025100A patent/KR20220110321A/ko not_active Application Discontinuation
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150030255A1 (en) * | 2013-07-25 | 2015-01-29 | Canon Kabushiki Kaisha | Method and apparatus for classifying pixels in an input image and image processing system |
US20190130583A1 (en) * | 2017-10-30 | 2019-05-02 | Qualcomm Incorporated | Still and slow object tracking in a hybrid video analytics system |
US20190171870A1 (en) * | 2017-12-03 | 2019-06-06 | Facebook, Inc. | Optimizations for Dynamic Object Instance Detection, Segmentation, and Structure Mapping |
JP2020106970A (ja) * | 2018-12-26 | 2020-07-09 | オムロン株式会社 | 人検出装置および人検出方法 |
US20200250453A1 (en) * | 2019-01-31 | 2020-08-06 | Adobe Inc. | Content-aware selection |
WO2020221990A1 (en) * | 2019-04-30 | 2020-11-05 | Huawei Technologies Co., Ltd. | Facial localisation in images |
CN111144215A (zh) * | 2019-11-27 | 2020-05-12 | 北京迈格威科技有限公司 | 图像处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2022247343A1 (zh) | 2022-12-01 |
CN113326773A (zh) | 2021-08-31 |
KR20220110321A (ko) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023530796A (ja) | 認識モデルトレーニング方法、認識方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム | |
US20180114071A1 (en) | Method for analysing media content | |
JP2023541532A (ja) | テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム | |
CN114550177B (zh) | 图像处理的方法、文本识别方法及装置 | |
JP7394809B2 (ja) | ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム | |
WO2022227768A1 (zh) | 动态手势识别方法、装置、设备以及存储介质 | |
CN111666960A (zh) | 图像识别方法、装置、电子设备及可读存储介质 | |
US20230030431A1 (en) | Method and apparatus for extracting feature, device, and storage medium | |
JP7393472B2 (ja) | 陳列シーン認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
KR20220153088A (ko) | 비디오 태그 추천 모델의 트레이닝 방법 및 비디오 태그 확정 방법 | |
CN113014988B (zh) | 视频处理方法、装置、设备以及存储介质 | |
CN111178323B (zh) | 基于视频的群体行为识别方法、装置、设备及存储介质 | |
JP7401606B2 (ja) | 仮想オブジェクトリップ駆動方法、モデル訓練方法、関連装置及び電子機器 | |
CN115359383B (zh) | 跨模态特征提取、检索以及模型的训练方法、装置及介质 | |
CN113901909B (zh) | 基于视频的目标检测方法、装置、电子设备和存储介质 | |
WO2022227765A1 (zh) | 生成图像修复模型的方法、设备、介质及程序产品 | |
JP2023543015A (ja) | ビデオ検出方法、装置、電子機器及び記憶媒体 | |
US20230017578A1 (en) | Image processing and model training methods, electronic device, and storage medium | |
US20230143452A1 (en) | Method and apparatus for generating image, electronic device and storage medium | |
KR20220126264A (ko) | 비디오 흔들림 검출 방법, 장치, 전자 기기 및 저장 매체 | |
CN111985374A (zh) | 人脸定位方法、装置、电子设备及存储介质 | |
JP2023527615A (ja) | 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム | |
US20230245429A1 (en) | Method and apparatus for training lane line detection model, electronic device and storage medium | |
JP2023543964A (ja) | 画像処理方法、画像処理装置、電子機器、記憶媒体およびコンピュータプログラム | |
CN115761839A (zh) | 人脸活体检测模型的训练方法、人脸活体检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220720 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220720 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230801 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231027 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231114 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240611 |