JP2023530796A

JP2023530796A - 認識モデルトレーニング方法、認識方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム

Info

Publication number: JP2023530796A
Application number: JP2022544196A
Authority: JP
Inventors: 翔博蘇; 健王; 昊孫
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-05-28
Filing date: 2022-01-29
Publication date: 2023-07-20
Also published as: WO2022247343A1; CN113326773A; KR20220110321A

Abstract

本発明は、認識モデルトレーニング方法、認識方法、装置、デバイス及び記憶媒体、ディープラーニング、コンピュータ視覚技術分野に関する。具体的な実現手段は以下のとおりである。処理対象画像をトレーニング対象である認識モデルに入力し、前記トレーニング対象である認識モデルの特徴出力層により、前記処理対象画像の少なくとも一枚の特徴図を出力し、前記トレーニング対象である認識モデルのヘッドにより、前記少なくとも一枚の特徴図に基づいて前記処理対象画像における第一目標物体の予測データ、及び前記処理対象画像における前記第一目標物体に関連する第二目標物体の予測データを取得し、第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、前記トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを取得する。本開示の実施により、認識モデルの認識効率及び認識効果を向上させることができる。

Description

本願は、２０２１年０５月２８日に中国特許庁に提出した、出願番号が２０２１１０５９１８９０.８であり、発明名称が「認識モデルトレーニング方法、認識方法、装置、デバイス及び記憶媒体」である中国特許出願の優先権を主張し、その全ての内容が引用により本願に組み込まれる。

本開示は、人工知能技術分野に関し、特にディープラーニング、コンピュータ視覚技術分野に関し、スマート都市、スマート交通シーンに応用することができる。

目標認識は、画像処理の重要な手段及び目的であり、目標認識により、ビデオ、静的画面における物体、人体、動物体などの目標物体を認識することができ、認識結果に基づいて身分認証、安全検査などの様々な用途を実現する。

コンピュータ技術の発展に伴い、目標認識技術に応用する必要がある様々なシーンでは、応用目的の多様化、認識される目標物体の多様化に伴い、多重モデルによって目標物体認識の目的を実現する必要がある。如何にして処理対象画像を処理するモデルの効率を向上させるかは、改善する必要がある問題である。

本発明は、認識モデルトレーニング方法、認識方法、装置、デバイス及び記憶媒体を提供する。

本開示の一態様によれば、認識モデルトレーニング方法を提供し、
処理対象画像をトレーニング対象である認識モデルに入力することと、
トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力することと、
トレーニング対象である認識モデルのヘッドにより、少なくとも一枚の特徴図に基づいて処理対象画像における第一目標物体の予測データ、及び処理対象画像における第一目標物体の予測データに関連する第二目標物体の予測データを取得することと、
第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを取得することと、を含む。

本開示の別の態様によれば、認識方法を提供し、
認識対象画像を認識モデルに入力し、認識対象画像における第一目標物体の予測データと第一目標物体に関連する第二目標物体の予測データを取得することを含み、認識モデルは、本開示のいずれか一つの実施例が提供するトレーニングされた認識モデルである。

本開示の別の態様によれば、認識モデルトレーニング装置を提供し、
処理対象画像をトレーニング対象である認識モデルに入力する第一入力モジュールと、
トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力する特徴図モジュールと、
トレーニング対象である認識モデルのヘッドにより、少なくとも一枚の特徴図に基づいて処理対象画像における第一目標物体の予測データ、及び処理対象画像における第一目標物体の予測データに関連する第二目標物体の予測データを取得する予測データモジュールと、
第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを取得するトレーニングモジュールと、を含む。

本開示の別の態様によれば、認識装置を提供し、
認識対象画像を認識モデルに入力し、認識対象画像における第一目標物体の予測データ及び第一目標物体に関連する第二目標物体の予測データを取得する第二入力モジュールを含み、認識モデルは、本開示のいずれか一つの実施例が提供するトレーニングされた認識モデルである。

本開示の別の態様によれば、電子デバイスを提供し、
少なくとも一つのプロセッサと、
該少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
該メモリに該少なくとも一つのプロセッサにより実行可能な命令が記憶され、該少なくとも一つのプロセッサが本開示のいずれか一つの実施例における方法を実行できるように、該命令が該少なくとも一つのプロセッサにより実行される。

本開示の別の態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体を提供し、該コンピュータ命令はコンピュータに本開示のいずれか一つの実施例における方法を実行させるために用いられる。

本開示の別の態様によれば、コンピュータプログラム製品を提供し、コンピュータプログラムを含み、該コンピュータプログラムがプロセッサにより実行される時に本開示のいずれかの一つの実施例における方法を実現する。

本開示の技術によれば、トレーニング対象である認識モデルにより第一目標物体及び第二目標物体の予測データを取得し、予測データ及び標識データに基づいてトレーニング対象である認識モデルを最適化してトレーニングし、得られた認識モデルは第一目標物体及び第一目標物体に関連する第二目標物体を認識し、少なくとも二種類の目標物体の関連認識を実現することができ、認識対象画像に提供される情報を十分に利用し、少ないモデル数で多くの認識結果を出力し、モデルの配置及び認識効率を向上させる。

理解すべきものとして、本部分に記載された内容は本開示の実施例のキー又は重要な特徴を認識することを意図するものではなく、本開示の範囲を限定するものではない。本開示の他の特徴は、以下の説明により容易に理解されるであろう。

図面は、本解決手段をよりよく理解するために用いられ、本開示を限定するものではない。

図１は、本開示の一実施例に係る認識モデルトレーニング方法の概略図である。図２は、本開示の別の一実施例に係る認識モデルトレーニング方法の概略図である。図３は、本開示のさらに別の一実施例に係る認識モデルトレーニング方法の概略図である。図４は、本開示の一例示に係る認識モデルトレーニング方法の概略図である。図５は、本開示の別の一例示に係る認識モデルトレーニング方法の概略図である。図６は、本開示の一例示に係るデータ処理概略図である。図７は、本開示の一例示に係る認識概略図である。図８は、本開示の一実施例に係る認識モデルトレーニング装置の概略図である。図９は、本開示の別の一実施例に係る認識モデルトレーニング装置の概略図である。図１０は、本開示のさらに別の一実施例に係る認識モデルトレーニング装置の概略図である。図１１は、本開示の一実施例に係る認識モデルトレーニング装置の概略図である。図１２は、本開示の一実施例に係る認識モデルトレーニング装置の概略図である。図１３は、本開示の実施例に係る認識モデルトレーニング方法を実現するための電子デバイスのブロック図である。

以下に図面を参照して本開示の例示的な実施例を説明し、ここで、理解しやすくするように、本開示の実施例の様々な詳細を含み、それらを例示的なものと考えるべきである。したがって、当業者として理解できるように、ここで説明した実施例に対して様々な変更及び修正を行うことができ、本開示の範囲及び精神から逸脱することはない。同様に、明確かつ簡単に説明するために、以下の説明において公知の機能及び構造に対する説明を省略する。

本開示の実施例は、まず、認識モデルトレーニング方法を提供し、図１に示すように、
ステップＳ１１：処理対象画像をトレーニング対象である認識モデルに入力することと、
ステップＳ１２：トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力することと、
ステップＳ１３：トレーニング対象である認識モデルのヘッド（Ｈｅａｄ）により、少なくとも一枚の特徴図に基づいて処理対象画像における第一目標物体の予測データ、及び処理対象画像における第一目標物体の予測データに関連する第二目標物体の予測データを取得することと、
ステップＳ１４：第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを取得することと、を含む。

本実施例において、処理対象画像は、認識する必要がある目標物体を含む画像であってもよい。認識する必要がある目標物体は、例えば人物、顔、人の目、人体、動物、静物などのいかなる物体であってもよい。

トレーニング対象である認識モデルの特徴出力層が二枚以上の特徴図を出力する場合、二枚以上の特徴図のサイズが異なる。

本実施例において、トレーニング対象である認識モデルのヘッドは、トレーニング対象である認識モデルにおける一層の構造であってもよい。トレーニング対象である認識モデルの特徴出力層が少なくとも一枚の特徴図を出力した後、少なくとも一枚の特徴図がトレーニング対象である認識モデルのヘッドに入力され、トレーニング対象である認識モデルのヘッドから第一目標物体の予測データと第二目標物体の予測データを出力する。

本実施例において、第一目標物体及び第二目標物体は、認識対象画像における目標物体であってもよい。第一目標物体は、第二目標物体と幾何学的相関等の相関関係がある目標物体であってもよい。

例えば、第一目標物体が顔である場合、第二目標物体は顔に関連する人体であってもよく、すなわち、第一目標物体がＡ人物の顔である場合、第二目標物体はＡ人物の人体であってもよい。さらに例えば、第一目標物体が人の目である場合、第二目標物体は人の目に関連する顔であってもよく、すなわち第一目標物体がＡ人物の目である場合、第二目標物体はＡ人物の顔であってもよい。

本実施例において、第一目標物体と第二目標物体との間に、互いに含むか又は含まれるかの関係が存在することができる。

第一目標物体の予測データは、第一目標物体の認識データ、例えば第一目標物体の認識対象画像に存在するか否か、存在位置などを含むことができる。

第一目標物体の予測データは、さらに第一目標物体の特徴、属性、品質などのデータを含むことができる。例えば、第一目標物体の大きさレベル、完全度レベル、外形レベルなどである。

第一目標物体の予測データは、複数種類の予測データを含んでもよい。
本実施例において、第一目標物体の予測データと第二目標物体の予測データの種類は同じであっても異なっていてもよい。

トレーニング対象である認識モデルのヘッドにより、少なくとも一枚の特徴図に基づいて、処理対象画像における第一目標物体の予測データ、及び第二目標物体の予測データを取得することは、特徴図の各画素に対して、第一目標物体を予測するためのデータ及び第二目標物体を予測するためのデータを出力し、全ての画素のデータに基づいて、第一目標物体の予測データ及び第二目標物体の予測データを取得することであってもよい。

第一目標物体の予測データ及び第二目標物体の予測データは、スマート都市、スマート交通等のシーンに用いることができる。

本実施例において、トレーニング対象である認識モデルにより、第一目標物体及び第二目標物体の予測データを取得し、予測データ及び標識データに基づいて、トレーニング対象である認識モデルに対して最適化及びトレーニングを行い、得られた認識モデルは第一目標物体及び第一目標物体に関連する第二目標物体を認識し、少なくとも二種類の目標物体の関連認識を実現することができ、認識対象画像に提供された情報を十分に利用し、少ないモデル数で多くの認識結果を出力し、モデルの配置及び認識効率を向上させる。

一実施形態において、第一目標物体の予測データは、第一目標物体の分類予測データと第一目標物体の属性予測データを含み、第二目標物体の予測データは、第二目標物体の予測データと第二目標物体の属性予測データを含む。

本実施例において、第一目標物体の分類予測データは、認識対象画像のある領域が第一目標物体であるか否かを判断するために用いられる。第一目標物体の属性予測データは、第一目標物体の認識対象画像における提示品質を判定するためのパラメータであってよい。例えば、の分類予測データは、第一目標物体の判定データであってもよく、例えば画像に第一目標物体、第一目標物体を囲むアンカーポイントボックスなどが存在するか否かである。

第二目標物体の分類予測データは、第一目標物体の分類予測データと同じであってもよく、第一目標物体の分類予測データと異なってもよい。第二目標物体の属性予測データは、第一目標物体の属性予測データと同じであってもよく、第一目標物体の属性予測データと異なってもよい。

本実施例において、第一目標物体の分類予測データ、第一目標物体の属性予測データを取得することができ、第二目標物体の分類予測データ及び属性予測データも取得することでき、それにより少なくとも二つの認識する必要がある関連目標物体を連合して出力することができ、それにより、少ないモデルにより多くの目標物体の認識結果を取得することができるだけでなく、第一目標物体と第二目標物体を認識する過程は互いに融合することができ、より良好な認識効果を達成する。

一実施形態において、図２に示すように、トレーニング対象である認識モデルのヘッドにより、第一目標物体の予測データ、及び第一目標物体の予測データに関連する第二目標物体の予測データを出力することは、
ステップＳ２１：特徴図の各画素に対して、第一目標物体のアンカーポイントボックス予測データ及び第二目標物体のアンカーポイントボックス予測データを出力することと、
ステップＳ２２：第一目標物体のアンカーポイントボックス予測データと第二目標物体のアンカーポイントボックス予測データに基づいて、第一目標物体の予測データと第二目標物体の予測データを出力することと、を含む。

本実施例において、特徴図の各画素に対して、第一目標物体のアンカーポイントボックス予測データは、画素が第一目標物体である確率などのデータを含むことができる。第二目標物体のアンカーポイントボックス予測データは、第一目標物体のアンカーポイントボックス予測データと同じであってよい。

第一目標物体のアンカーポイントボックス予測データに基づいて、特徴図において第一目標物体の境界点を決定し、それにより第一目標物体を囲むアンカーポイントボックスを形成し、アンカーポイントボックスに基づいて第一目標物体の予測データを決定することができる。第二目標物体の予測データに対して、第一目標物体の予測データと同様に生成することができる。

上記ステップＳ２１及びＳ２２は、トレーニング対象である認識モデルのヘッドによって実行されてもよい。

本実施例において、特徴図の各画素に対して第一目標物体と第二目標物体の予測データを予測するためのアンカーポイントボックス予測データを生成することができ、それにより、その後、目標物体を囲むアンカーポイントボックスを取得することができ、アンカーポイントボックスなどの情報に基づいてより正確に第一目標物体および第二目標物体の予測データを出力する。

一実施形態において、第一目標物体は顔であり、第二目標物体は人体である。
セキュリティビックデータシステムなどのシーンで、常に監視ビデオストリームに出現する自然人に対して検出追跡を行い、その中のキーフレーム画像を記憶して記録する必要がある。ここで、キーフレーム画像は顔、人体のうちの少なくとも一つを含み、後続の顔及び／又は人体検索に用いることができる。本開示の実施例は、第一目標物体が顔であり、第二目標物体が人体であるように設定することができ、それによりビデオストリームのキャプチャシステムにおける人体顔検出に用いることができ、同一自然人に属する人体と顔を関連付けるとともに、連続的な自然人軌跡を含む一つのセグメントのビデオにおいて、認識に最適な一つのフレーム画像を選択してデータベースに記憶し、その後の追跡、検索、セキュリティ等の操作に重要で高品質の情報を提供する。

本実施例において、認識対象画像における顔及び顔に関連する人体を認識し、それにより関連認識を実現することができる。

一実施形態において、特徴出力層は、バックボーンネットワーク及び特徴ピラミッドネットワークを含み、トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力し、図３に示すように、
ステップＳ３１：バックボーンネットワーク（Ｂａｃｋｂｏｎｅ）により、処理対象画像の複数枚の第一特徴図を出力することと、
ステップＳ３２：複数枚の第一特徴図におけるＮ枚の第二特徴図を特徴ピラミッドネットワーク（ＦｅａｔｕｒｅＰｙｒａｍｉｄＮｅｔｗｏｒｋ、ＦＰＮ）に入力し、Ｎは１以上の整数であることと、
ステップＳ３３：特徴ピラミッドネットワークにより、Ｎ枚の第三特徴図を出力することと、
ステップＳ３４：Ｎ枚の第三特徴図を特徴図とすることと、を含む。

本実施例において、Ｎ枚の第二特徴図は、第一特徴図におけるサイズが小さいＮ枚の第一特徴図に基づいて生成されてもよい。例えば、バックボーンネットワークは、Ｆ１、Ｆ２、Ｆ３、Ｆ４、Ｆ５という５枚の第一特徴図を出力し、ここで、Ｆ１-Ｆ５のサイズが徐々に小さくなり、特徴ピラミッドネットワークは、Ｆ３、Ｆ４、Ｆ５に基づいて、それぞれＦ６、Ｆ７、Ｆ８という三枚の第二特徴図を出力する。

バックボーンネットワークは、多層ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、畳み込みニューラルネットワーク）サブネットワークを含むことができ、トレーニング対象である認識モデルに入力される認識対象画像に畳み込み操作を行い、複数枚の第一特徴図を取得することができる。

特徴ピラミッドネットワークは、Ｎ枚の第一特徴図に対してさらなる畳み込み操作などの処理を行うことができ、それにより認識対象画像における高級語義情報を特徴図に融合し、Ｎ枚の第二特徴図を得る。

Ｎ枚の第二特徴図は、サイズの大きさがそれぞれ異なる特徴図であってもよく、認識対象画像において異なるサイズを呈する目標物体を認識することに用いられ、例えば、小さいサイズの特徴図は、大きいサイズの目標物体を認識することに用いられ、大きいサイズの特徴図は、小さいサイズの目標物体を認識するために用いられる。

本実施例において、トレーニング対象である認識モデルのバックボーンネットワーク及び特徴ピラミッドネットワークにより、認識対象画像の特徴図を取得することができ、それによりその後に特徴図に基づいて第一目標物体および関連する第二目標物体の認識及び関連データ予測を行うことができる。

本開示の実施例は、画像認識方法をさらに提供し、図４に示すように、
ステップＳ４１：認識対象画像を認識モデルに入力し、認識対象画像における第一目標物体の予測データと第一目標物体に関連する第二目標物体の予測データを取得し、認識モデルは本開示のいずれか一実施例に提供されるトレーニングされた認識モデルであることを含む。

本実施例において、トレーニングされた認識モデルを利用して認識対象画像を認識し、関連する第一目標物体と第二目標物体の予測データを取得することができ、それにより少ないモデルによって多くの予測結果を取得することができる。

一つの実施形態において、認識対象画像は、認識対象ビデオにおけるフレーム画像であり、認識方法は
第一目標物体の予測データと第二目標物体の予測データに基づいて、認識対象ビデオにおけるキーフレーム画像を取得することをさらに含む。

本実施例において、第一目標物体の予測データと第二目標物体の予測データに基づいて、認識対象ビデオにおける第一目標物体と第二目標物体の全体品質が最もよい画像フレームをキーフレーム画像として決定することができる。

さらに、第一目標物体の予測データ及び第二目標物体の予測データに基づいて、認識対象ビデオにおける第一目標物体及び第二目標物体の全体品質が最もよい画像フレームをそれぞれ第一目標物体キー画像フレーム及び第二目標物体のキー画像フレームとして決定することができる。

本実施例において、第一目標物体と第二目標物体の予測データにより、認識対象ビデオにおけるキー画像フレームを取得し、それによりキー画像フレームに基づいて、顔認識、生体認識、人体認識、顔追跡、人体追跡等の操作を行うことができ、スマートセキュリティ、スマート認識等の様々なシーン及び分野に応用され、より良好な使用効果を取得することができる。

本開示の一例示において、認識モデルトレーニング方法は顔及び人体認識に適用することができ、図５に示すステップを含むことができる：
ステップＳ５１：認識対象画像を取得する。

具体的には、監視又は他のシーンカメラのリアルタイムビデオストリームに対して画像フレームを抽出することができ、フレームごとに抽出してもよく、間隔を設定して抽出してもよい。抽出された画像フレームは、まず、前処理され、例えば４１６×４１６という固定サイズにスケーリングされ、統一的なＲＧＢ平均値（例えば[１０４、１１７、１２３]）を減算することにより、各認識対象画像のサイズ及びＲＧＢ平均値がトレーニング対象である認識モデルのトレーニング過程において統一され、それによりトレーニングされた認識されたモデルのロバスト性を強化する。

ステップＳ５２：認識対象画像を認識モデルに入力する。
前処理された認識対象画像はトレーニング対象である認識モデルに送信されて計算されることができる。

ステップＳ５３：認識対象画像の特徴図を取得する。
トレーニング対象である認識モデルの入力データは、上記ステップＳ５２で前処理された画像であってもよく、バックボーンネットワークの処理により、異なるディープ及びスケールの第一特徴図を取得する。バックボーンネットワークの構造は、ＹＯＬＯ統合リアルタイム目標検出（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ: Ｕｎｉｆｉｅｄ, Ｒｅａｌ－ＴｉｍｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎ）モデルのバックボーンネットワークと同じであってもよく、具体的には畳み込み演算機能を有するサブネットワークを含み、サブネットワークは例えばＤａｒｋＮｅｔ、ＲｅｓＮｅｔなどのネットワークであってもよい。

バックボーンネットワークから出力された第一特徴図におけるサイズが小さいＮ枚を、特徴ピラミッドネットワークに入力する。ＦＰＮを介してバックボーンネットワークから出力されたＮ枚の第一特徴図を、対応的な経路により互いに融合し、最終的にＮ個の異なるスケールの特徴図を取得する。これらのＮ個の異なるサイズの特徴図は、それぞれ画像における大きいから小さいまでの異なるスケールの目標を感知することに用いられる。

ステップＳ５４：第一目標物体予測データ及び第二目標物体予測データを取得する。
本例示において、特徴ピラミッドネットワークの後にトレーニング対象である認識モデルのヘッドが接続され、ヘッドは、いくつかの畳み込み層-活性化層-バッチ処理層の組み合わせを含むことができる。

本例示において、各特徴画像の画素位置に少なくとも一種の異なる大きさの比率のアンカーポイントボックスを生成してアンカーポイントボックスを基礎として一つの結果を回帰することができる。各アンカーポイントボックスには長さが（５＋Ｎ＋Ｍ）の中間出力データが対応する。中間出力データのチャネル数は（５＋Ｎ＋Ｍ）であり、該アンカーフレームに基づいて目標検出ボックスに対する予測（ｃｏｎｆ、ｘ、ｙ、ｗ、ｈ、ｃｌａｓｓ）及び属性の予測値を示す。ｃｏｎｆは該アンカーポイントボックスに目標が含まれる信頼度を示し、ｘ、ｙ、ｗ、ｈは、正規化された検出ボックス座標及びスケールであり、ｃｌａｓｓは、次元がＮであるベクトルであり、目標があるクラスに属する確率の該クラスインデックスのベクトル内の値を示し、属性の予測値は長さがＭであるベクトルである。

人体と顔との関連関係は、同一の自然人に属する人体ボックスと顔ボックスが関連関係がある一組の人体-顔ボックスであるように定義されることができる。トレーニング目標を生成する時、各人体ボックスの中心点に対応するアンカーポイント（画素）に人体ボックスのタグを生成し、同時に該人体ボックスに対応する自然人が画像中に顔が出現すると、同じアンカーポイントで該人体に関連する顔ボックスを生成する。

予測際に、前処理を完了した後の画像をネットワークに入力し、画像における全ての人体ボックス及び該人体に対応する顔ボックス、及び人体ボックスに対応する属性及び顔ボックスに対応する属性を取得する。人体ボックスに対応する属性は、切断するか否か、異常であるか否か、遮蔽程度及び向きを含むことができる。顔ボックスに対応する属性は、質量、ピッチ角、ヨー角及びロール角を含むことができる。

人体ボックスと顔ボックスを利用して連合追跡を行い、軌跡から、切断がなく、異常がなく、遮蔽程度が低い異なる向きの人体キーフレームを選択して記憶して入庫し、品質スコアが高く、角度が小さい顔キーフレーム画像を選択して記憶して入庫し、入庫されたキーフレーム画像が後続の顔検索などの目標物体に関連する操作に用いられることができる。

本開示の実施例は、顔及び／又は認識に適用することができる場合、認識対象画像のみに一回のディープラーニングモデル抽出を行い、認識対象画像上の全ての人体及び顔の検出ボックス、人体属性、顔属性、及び人体と顔との対応関係を取得することができる。単一段階モデルを利用して関連検出及び属性結果の出力を同時に行うことに比べて、本開示の実施例は、計算リソースのオーバーヘッドを最大限に低減し、同時にモデルから顔と人体との関連関係を直接的に出力し、顔と人体との関連判断を単独で行う必要がない。

本開示の一例示において、認識モデルの構造は、図６に示すように、バックボーンネットワーク６１、特徴ピラミッドネットワーク（ＦＰＮ）６２、ヘッド６３を含む。モデルトレーニング段階において、ヘッド６３から出力されたデータに基づいて、トレーニング対象である認識モデルを最適化するための損失（Ｌｏｓｓ）を取得することができる。バックボーンネットワーク６１により、認識対象画像に基づいて複数枚の第一特徴図を出力し、具体的にはＣ１、Ｃ２、Ｃ３、Ｃ４、Ｃ５であってもよく、サイズ関係は、Ｃ１＞Ｃ２＞Ｃ３＞Ｃ４＞Ｃ５である。ＦＰＮ６２を経て、Ｃ３、Ｃ４、Ｃ５を融合して計算し、例えば、Ｃ３に対応する順序に基づいて、処理された第一特徴図における少なくとも一枚を融合し、第二特徴図Ｐ３を出力し、Ｃ４に対応する順序に基づいて、処理された第一特徴図における少なくとも一枚を融合し、第二特徴図Ｐ４を出力し、Ｃ５に対応する順序に基づいて、処理された第一特徴図における少なくとも一枚を融合し、第二特徴図Ｐ５を出力する。ヘッド６３は畳み込み層ｃｏｎｖ３×３を含み、ヘッドの出力チャンネル数は入力チャンネル数の２倍であり、出力データはそれぞれ顔予測データｃｏｎｖ３×３Ｃ、３（Ｋ＋５＋４）、人体予測データｃｏｎｖ３×３Ｃ、３（Ｋ＋５＋４）ということである。

ここで、Ｃは、ヘッドに入力された特徴チャネル数であり、ｋはクラス数であり、５は（ｘ、ｙ、ｗ、ｈ、ｃｏｎｆ）であり、４は顔の三つの角度及び品質であり、１１は人体の４つの属性に対応するベクトルである：正常であるか否か（いいえ、はい）、切断するか否か（いいえ、はい）、遮蔽程度（遮蔽がなく、わずかに遮蔽する、重度に遮蔽する）、向き（正面、背面、左側面、右側面）。

顔予測データ及び人体予測データに基づいて、顔ボックス（ＦａｃｅＢｏｘ）、顔スコア（ＦａｃｅＳｃｏｒｅ）、顔角度（ＦａｃｅＡｎｇｌｅ）、顔品質（Face Quality）という顔の品質関連データ、及び人体ボックス（ＨｕｍａｎＢｏｘ）、人体スコア（ＨｕｍａｎＳｃｏｒｅ）、人体品質（ＨｕｍａｎＱｕａｌｉｔｙ）という人体の品質関連データをそれぞれ得ることができる。

例えば、図７に示す認識結果に基づいて、顔ボックス７１と人体ボックス７２を取得し、同時に正常な人体、遮蔽がなく、切断がなく、正面という顔と人体の品質関連データを取得することができる。認識対象ビデオにおける連合ＮＭＳ（Ｎｏｎ－ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ、非極大抑制値）が最も大きいフレーム画像をキーフレーム画像として選択することができる。

本開示の実施例は、認識モデルトレーニング装置をさらに提供し、図８に示すように、
処理対象画像をトレーニング対象である認識モデルに入力する第一入力モジュール８１と、
トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力する特徴図モジュール８２と、
トレーニング対象である認識モデルのヘッドにより、少なくとも一枚の特徴図に基づいて処理対象画像における第一目標物体の予測データ、及び処理対象画像における第一目標物体の予測データに関連する第二目標物体の予測データを取得する予測データモジュール８３と、
第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを得るトレーニングモジュール８４と、を含む。

一実施形態において、第一目標物体の予測データは第一目標物体の分類予測データと第一目標物体の属性予測データを含み、第二目標物体の予測データは第二目標物体の予測データと第二目標物体の属性予測データを含む。

一実施形態において、図９に示すように、予測データモジュールは、
特徴図の各画素に対して、第一目標物体のアンカーポイントボックス予測データ及び第二目標物体のアンカーポイントボックス予測データを出力する第一予測ユニット９１と、
第一目標物体のアンカーポイントボックス予測データ及び第二目標物体のアンカーポイントボックス予測データに基づいて、第一目標物体の予測データ及び第二目標物体の予測データを出力する第二予測ユニット９２と、を含む。

一実施形態において、第一目標物体は顔であり、第二目標物体は人体である。
一実施形態において、図１０に示すように、特徴出力層はバックボーンネットワーク及び特徴ピラミッドネットワークを含み、特徴図モジュールは、
バックボーンネットワークにより、処理対象画像の複数枚の第一特徴図を出力する第一特徴図ユニット１０１と、
複数枚の第一特徴図におけるＮ枚（Ｎが１以上の整数である）の第二特徴図を特徴ピラミッドネットワークに入力する第一特徴図入力ユニット１０２と、
特徴ピラミッドネットワークにより、Ｎ枚の第二特徴図を出力する第二特徴図ユニット１０３と、
Ｎ枚の第二特徴図を特徴図とする第二特徴図処理ユニット１０４と、を含む。

本開示の実施例は、画像認識装置をさらに提供し、図１１に示すように、
認識対象画像を認識モデルに入力し、認識対象画像における第一目標物体の予測データ及び第一目標物体に関連する第二目標物体の予測データを取得する第二入力モジュール１１１を含み、認識モデルが本開示のいずれか一実施例に提供されるトレーニングされた認識モデルである。

一実施形態において、認識対象画像は認識対象ビデオにおけるフレーム画像である。図１２に示すように、認識装置は、
第一目標物体の予測データ及び第二目標物体の予測データに基づいて、認識対象ビデオにおけるキーフレーム画像を取得するキーフレーム画像モジュール１２１をさらに含む。

本開示の実施例の各装置における各ユニット、モジュール又はサブモジュールの機能は、上記方法実施例における対応説明を参照することができ、ここでは説明を省略する。

本開示の実施例によれば、本開示は、さらに、電子デバイス、読み取り可能な記憶媒体及びコンピュータプログラム製品を提供する。

図１３は、本開示の実施例を実施可能な例示電子デバイス１３０の概略的なブロック図を示す。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを表示することを意図する。電子デバイスは、さらに、様々な形式の移動装置を表示することができ、例えば、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置である。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び／又は要求された本開示の実現を限定するものではない。

図１３に示すように、電池機器１３０は計算ユニット１３１を含み、リードオンリーメモリ（ＲＯＭ）１３２に記憶されたコンピュータプログラム又は記憶ユニット１３８からランダムアクセスメモリ（ＲＡＭ）１３３にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。ＲＡＭ１３３において、さらに電子デバイス１３０の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット１３１、ＲＯＭ１３２、およびＲＡＭ１３３は、バス１３４により相互に接続されている。バス１３４には、さらに、入出力インタフェース１３５が接続されている。

電子デバイス１３０における複数の部品はＩ／Ｏインタフェース１３５に接続され、例えばキーボード、マウス等の入力ユニット１３６と、例えば様々な種別のディスプレイ、スピーカ等の出力ユニット１３７と、例えば磁気ディスク、光ディスク等の記憶ユニット１３８と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット１３９と、を含む。通信ユニット１３９は、電子デバイス１３０がインターネット等のコンピュータネットワークおよび／または各種の電気通信網を介して他の装置と情報／データをやり取りすることを可能にする。

計算ユニット１３１は、各種の処理および計算能力を有する汎用および／または専用の処理モジュールであってもよい。計算ユニット１３１の例示としては、中央処理ユニット（ＣＰＵ）、グラフィックスプロセッシングユニット（ＧＰＵ）、各種専用の人工知能（ＡＩ）計算チップ、各種動作機械学習モデルアルゴリズムの計算ユニット、デジタルシグナルプロセッサ（ＤＳＰ）、任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されるものではない。計算ユニット１３１は、上記説明した各方法及び処理を実行し、例えば認識モデルトレーニング方法である。例えば、いくつかの実施例において、認識モデルトレーニング方法は、コンピュータソフトウェアプログラムとして実現され、それは機械可読媒体、例えば記憶ユニット１３８に有形的に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部はＲＯＭ１３２及び／又は通信ユニット１３９を介して電子デバイス１３０にロード及び／又はインストールされる。コンピュータプログラムがＲＡＭ１３３にロードされかつ計算ユニット１３１により実行される場合、上記の認識モデルトレーニング方法の一つ又は複数のステップを実行することができる。代替的に、他の実施例において、計算ユニット１３１は他の任意の適切な方式（例えば、ファームウェア）により認識モデルトレーニング方法を実行するように構成されてもよい。

本明細書で説明したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、専用集積回路（ＡＳＩＣ）、専用標準製品（ＡＳＳＰ）、チップオンシステムのシステム（ＳＯＣ）、負荷プログラマブルロジック装置（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は以下を含むことができ、一つ又は複数のコンピュータプログラムにおいて実施し、該一つ又は複数のコンピュータプログラムは少なくとも一つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行され及び／又は解釈され、該プログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも一つの入力装置、及び該少なくとも一つの出力装置に伝送することができる。

本開示の方法を実施するためのプログラムコードは一つ又は複数の言語の任意の組み合わせで作成することができる。これらのプログラムコードは汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供することができ、それによりプログラムコードはプロセッサ又はコントローラにより実行される時にフローチャート及び／又はブロック図に規定された機能／操作が実施される。プログラムコードは機器に完全に実行され、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行されかつ遠隔機器で部分的に実行されるか又は完全に遠隔機器又はサーバで実行される。

本開示のコンテキストにおいて、機械可読媒体は有形の媒体であってもよく、それは命令実行システム、装置又はデバイスの使用又は命令実行システム、装置又はデバイスと組み合わせて使用されるプログラムを含むか又は記憶することができる。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又はデバイス、又は上記内容の任意の適切な組み合わせを含むがそれらに限定されない。機械可読記憶媒体のより具体的な例は一つ以上の線に基づく電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、便利式コンパクトリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又は上記コンテンツの任意の適切な組み合わせを含む。

ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、CRT（陰極線管）又はLCD（液晶ディスプレイ）モニタ）、及びキーボード及びポインティングデバイス（例えば、マウス又はトラックボール）であって、ユーザは該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができるものを有する。他の種別の装置はさらにユーザとの対話を提供することに用いられ、例えば、ユーザに提供されたフィードバックはいかなる形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、かついかなる形式（声入力、音声入力又は、触覚入力を含む）でユーザからの入力を受信することができる。

ここで説明されたシステム及び技術はバックグラウンド部品を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア部品を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド部品を含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる）、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品の任意の組み合わせを含むコンピューティングシステムに実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によりシステムの部品を互いに接続することができる。通信ネットワークの例は以下を含み、ローカル領域ネットワーク（ＬＡＮ）、ワイド領域ネットワーク（ＷＡＮ）及びインターネット。

コンピュータシステムは、クライアント及びサーバを含むことができる。クライアントとサーバとは一般的に離れており、通常、通信ネットワークを介して相互対話する。クライアントとサーバとの関係は、相応的なコンピュータ上で動作し、クライアント－サーバの関係を有するコンピュータプログラムによって生成される。

理解すべきことは、以上に示した様々な形式のフローを使用し、ステップを改めてソーティングし、追加するか又は削除するであってもよい。例えば、本開示に記載の各ステップは並列的に実行されてもよいし異なる順序で実行されてもよく、本開示の技術的解決手段の所望の結果を実現することができれば、本明細書はここで限定されない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば理解すべきことは、設計要件及び他の要因に基づいて、様々な修正、、サブ組み合わせ及び代替を行うことができることである。本開示の精神と原則内で行われた任意の修正、均等置換及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

以上は本発明の好ましい実施形態だけであり、指摘すべきこととして、上記好ましい実施形態は本発明を限定するものと見なされるべきではなく、本発明の保護範囲は特許請求の範囲に限定された範囲を基準とすべきである。本分野の当業者にとって、本発明の精神及び範囲から逸脱することなく、さらにいくつかの改善及び修飾を行うことができ、これらの改善及び修飾も本発明の保護範囲と見なされるべきである。

本発明は、認識モデルトレーニング方法、認識方法、装置、電子デバイス、記憶媒体及びコンピュータプログラムを提供する。

本開示の一態様によれば、認識モデルトレーニング方法を提供し、
処理対象画像をトレーニング対象である認識モデルに入力することと、
トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力することと、
トレーニング対象である認識モデルのヘッドにより、少なくとも一枚の特徴図に基づいて処理対象画像における第一目標物体の予測データ、及び処理対象画像における第一目標物体に関連する第二目標物体の予測データを取得することと、
第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを取得することと、を含む。

本開示の別の態様によれば、認識モデルトレーニング装置を提供し、
処理対象画像をトレーニング対象である認識モデルに入力する第一入力モジュールと、
トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力する特徴図モジュールと、
トレーニング対象である認識モデルのヘッドにより、少なくとも一枚の特徴図に基づいて処理対象画像における第一目標物体の予測データ、及び処理対象画像における第一目標物体に関連する第二目標物体の予測データを取得する予測データモジュールと、
第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを取得するトレーニングモジュールと、を含む。

本開示の別の態様によれば、コンピュータプログラムを提供し、該コンピュータプログラムがプロセッサにより実行される時に本開示のいずれかの一つの実施例における方法を実現する。

一実施形態において、第一目標物体の予測データは、第一目標物体の分類予測データと第一目標物体の属性予測データを含み、第二目標物体の予測データは、第二目標物体の分類予測データと第二目標物体の属性予測データを含む。

本実施例において、第一目標物体の分類予測データは、認識対象画像のある領域が第一目標物体であるか否かを判断するために用いられる。第一目標物体の属性予測データは、第一目標物体の認識対象画像における提示品質を判定するためのパラメータであってよい。例えば、第一目標物体の分類予測データは、第一目標物体の判定データであってもよく、例えば画像に第一目標物体、第一目標物体を囲むアンカーポイントボックスなどが存在するか否かである。

一実施形態において、特徴出力層は、バックボーンネットワーク及び特徴ピラミッドネットワークを含み、トレーニング対象である認識モデルの特徴出力層により、処理対象画像の少なくとも一枚の特徴図を出力し、図３に示すように、
ステップＳ３１：バックボーンネットワーク（Ｂａｃｋｂｏｎｅ）により、処理対象画像の複数枚の第一特徴図を出力することと、
ステップＳ３２：複数枚の第一特徴図におけるＮ枚の第一特徴図を特徴ピラミッドネットワーク（ＦｅａｔｕｒｅＰｙｒａｍｉｄＮｅｔｗｏｒｋ、ＦＰＮ）に入力し、Ｎは１以上の整数であることと、
ステップＳ３３：特徴ピラミッドネットワークにより、Ｎ枚の第二特徴図を出力することと、
ステップＳ３４：Ｎ枚の第二特徴図を特徴図とすることと、を含む。

一実施形態において、第一目標物体の予測データは第一目標物体の分類予測データと第一目標物体の属性予測データを含み、第二目標物体の予測データは第二目標物体の分類予測データと第二目標物体の属性予測データを含む。

Claims

処理対象画像をトレーニング対象である認識モデルに入力することと、
前記トレーニング対象である認識モデルの特徴出力層により、前記処理対象画像の少なくとも一枚の特徴図を出力することと、
前記トレーニング対象である認識モデルのヘッドにより、前記少なくとも一枚の特徴図に基づいて前記処理対象画像における第一目標物体の予測データ、及び前記処理対象画像における前記第一目標物体の予測データに関連する第二目標物体の予測データを取得することと、
第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、前記トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを取得することと、を含む
認識モデルトレーニング方法。
前記第一目標物体の予測データは、前記第一目標物体の分類予測データと前記第一目標物体の属性予測データを含み、前記第二目標物体の予測データは、前記第二目標物体の予測データと前記第二目標物体の属性予測データを含む
請求項１に記載の方法。
前記トレーニング対象である認識モデルのヘッドにより、第一目標物体の予測データ、及び前記第一目標物体の予測データに関連する第二目標物体の予測データを出力することは、
前記特徴図の各画素に対して、前記第一目標物体のアンカーポイントボックス予測データと前記第二目標物体のアンカーポイントボックス予測データを出力することと、
前記第一目標物体のアンカーポイントボックス予測データと前記第二目標物体のアンカーポイントボックス予測データに基づいて、前記第一目標物体の予測データと前記第二目標物体の予測データを出力することと、を含む
請求項１または２に記載の方法。
前記第一目標物体は顔であり、前記第二目標物体は人体である
請求項１～３のいずれか一項に記載の方法。
前記特徴出力層はバックボーンネットワーク及び特徴ピラミッドネットワークを含み、
前記トレーニング対象である認識モデルの特徴出力層により、前記処理対象画像の少なくとも一枚の特徴図を出力することは、
前記バックボーンネットワークにより、前記処理対象画像の複数枚の第一特徴図を出力することと、
前記複数枚の第一特徴図におけるＮ枚（Ｎが１以上の整数である）の第二特徴図を前記特徴ピラミッドネットワークに入力することと、
前記特徴ピラミッドネットワークにより、Ｎ枚の第三特徴図を出力することと、
前記Ｎ枚の第三特徴図を前記特徴図とすることと、を含む
請求項１～４のいずれか一項に記載の方法。
認識対象画像を認識モデルに入力し、前記認識対象画像における第一目標物体の予測データと前記第一目標物体に関連する第二目標物体の予測データを取得することを含み、
前記認識モデルは請求項１～５のいずれか一項に記載のトレーニングされた認識モデルである
認識方法。
前記認識対象画像は認識対象ビデオにおけるフレーム画像であり、
前記方法は、
前記第一目標物体の予測データと前記第二目標物体の予測データに基づいて、前記認識対象ビデオにおけるキーフレーム画像を取得することをさらに含む
請求項６に記載の方法。
処理対象画像をトレーニング対象である認識モデルに入力する第一入力モジュールと、
前記トレーニング対象である認識モデルの特徴出力層により、前記処理対象画像の少なくとも一枚の特徴図を出力する特徴図モジュールと、
前記トレーニング対象である認識モデルのヘッドにより、前記少なくとも一枚の特徴図に基づいて前記処理対象画像における第一目標物体の予測データ、及び前記処理対象画像における前記第一目標物体の予測データに関連する第二目標物体の予測データを取得する予測データモジュールと、
第一目標物体の予測データ、第二目標物体の予測データ、第一目標物体の標識データ及び第二目標物体の標識データに基づいて、前記トレーニング対象である認識モデルを最適化し、トレーニングされた認識モデルを取得するトレーニングモジュールと、を含む
認識モデルトレーニング装置。
前記第一目標物体の予測データは、前記第一目標物体の分類予測データと前記第一目標物体の属性予測データを含み、前記第二目標物体の予測データは、前記第二目標物体の予測データと前記第二目標物体の属性予測データを含む
請求項８に記載の装置。
前記予測データモジュールは、
前記特徴図の各画素に対して、前記第一目標物体のアンカーポイントボックス予測データと前記第二目標物体のアンカーポイントボックス予測データを出力する第一予測ユニットと、
前記第一目標物体のアンカーポイントボックス予測データと前記第二目標物体のアンカーポイントボックス予測データに基づいて、前記第一目標物体の予測データと前記第二目標物体の予測データを出力する第二予測ユニットと、を含む
請求項８または９に記載の装置。
前記第一目標オブジェクトは顔であり、前記第二目標オブジェクトは人体である
請求項８～１０のいずれか一項に記載の装置。
前記特徴出力層はバックボーンネットワーク及び特徴ピラミッドネットワークを含み、
前記特徴図モジュールは、
前記バックボーンネットワークにより、処理対象画像の複数枚の第一特徴図を出力する第一特徴図ユニットと、
前記複数枚の第一特徴図におけるＮ枚（Ｎが１以上の整数である）の第二特徴図を前記特徴ピラミッドネットワークに入力する第一特徴図入力ユニットと、
前記特徴ピラミッドネットワークにより、Ｎ枚の第三特徴図を出力する第二特徴図ユニットと、
前記Ｎ枚の第三特徴図を前記特徴図とする第二特徴図処理ユニットと、を含む
請求項８～１１のいずれか一項に記載の装置。
認識対象画像を認識モデルに入力し、前記認識対象画像における第一目標物体の予測データと前記第一目標物体に関連する第二目標物体の予測データを取得する第二入力モジュールを含み、
前記認識モデルは請求項８～１２のいずれか一項に記載のトレーニングされた認識モデルである
認識装置。
前記認識対象画像は認識対象ビデオにおけるフレーム画像であり、
前記装置は、
前記第一目標物体の予測データと前記第二目標物体の予測データに基づいて、前記認識対象ビデオにおけるキーフレーム画像を取得するキーフレーム画像モジュールをさらに含む
請求項１３に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されるメモリと、を含み、
前記メモリに、前記少なくとも１つのプロセッサにより実行可能な命令が記憶され、前記少なくとも１つのプロセッサが請求項１～７のいずれか一項に記載の方法を実行可能であるように、前記命令が前記少なくとも１つのプロセッサにより実行される
電子デバイス。
コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令はコンピュータに請求項１～７のいずれか一項に記載の方法を実行させる
コンピュータ可読記憶媒体。
プロセッサにより実行される時に請求項１～７のいずれか一項に記載の方法を実現するコンピュータプログラムを含む
コンピュータプログラム製品。