JP2021514499A - ターゲットオブジェクト処理方法、装置、電子機器及び記憶媒体 - Google Patents

ターゲットオブジェクト処理方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP2021514499A
JP2021514499A JP2020533136A JP2020533136A JP2021514499A JP 2021514499 A JP2021514499 A JP 2021514499A JP 2020533136 A JP2020533136 A JP 2020533136A JP 2020533136 A JP2020533136 A JP 2020533136A JP 2021514499 A JP2021514499 A JP 2021514499A
Authority
JP
Japan
Prior art keywords
data
processing module
scene
processing
edge device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020533136A
Other languages
English (en)
Other versions
JP2021514499A5 (ja
JP7064593B2 (ja
Inventor
シーシン ハン
シーシン ハン
ユー グオ
ユー グオ
ホンウェイ チン
ホンウェイ チン
ユー ジャオ
ユー ジャオ
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド, ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Publication of JP2021514499A publication Critical patent/JP2021514499A/ja
Publication of JP2021514499A5 publication Critical patent/JP2021514499A5/ja
Application granted granted Critical
Publication of JP7064593B2 publication Critical patent/JP7064593B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Electrical Discharge Machining, Electrochemical Machining, And Combined Machining (AREA)
  • Multi-Process Working Machines And Systems (AREA)
  • Supplying Of Containers To The Packaging Station (AREA)

Abstract

本開示はターゲットオブジェクト処理方法、装置、電子機器及び記憶媒体に関する。前記方法は、第1データを第1処理モジュールに入力して、予測されたデータラベリング結果を得るステップと、前記データラベリング結果を第2処理モジュールに入力して、前記データラベリング結果に基づいてシーン自己適応の増分学習を行って、前記第2データのシーンへ順応したニューラルネットワークを得るステップと、ターゲットオブジェクトを含むデータ及び前記ニューラルネットワークに従って、前記ターゲットオブジェクトに対応するシーンへの処理を実現するステップと、を含む。

Description

(関連出願の相互参照)
本願は、出願番号が201910098735.5で、出願日が2019年1月31日である中国特許出願に基づいて提出され、且つこの中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
本開示は、コンピュータビジョン技術に関し、特に、ターゲットオブジェクト処理方法、装置、電子機器及び記憶媒体に関する。
関連技術において、クラウドでモデル訓練を行うことで訓練データを取得するようになっているが、得られた訓練データは実際の適用シーンのデータとの間に相違性が存在し、更に、異なる適用シーンの検出要求が異なっているので、クラウドでモデル訓練を行うことで得られた訓練データは全ての適用シーンに適合するというわけでない。
なお、適用シーン毎にデータを取得して訓練するのは、実施不可能であるか、コストが高すぎることである。
本開示は、ターゲットオブジェクト処理の技術的解決手段を提供する。
本開示の第1態様によれば、エッジデバイス側に適用され、第1データのラベリングのための第1処理モジュールと第2データのシーンへの順応のための第2処理モジュールを前記エッジデバイス側に配置する方法であって、
前記第1データを前記第1処理モジュールに入力して、予測されたデータラベリング結果を得るステップと、
前記データラベリング結果を前記第2処理モジュールに入力して、前記データラベリング結果に基づいてシーン自己適応の増分学習を行って、前記第2データのシーンへ順応したニューラルネットワークを得るステップと、
ターゲットオブジェクトを含むデータ及び前記ニューラルネットワークに従って、前記ターゲットオブジェクトに対応するシーンへの処理を実現するステップと、を含むターゲットオブジェクト処理方法を提供する。
可能な一実施形態では、前記方法は、
前記シーンが現在の第1シーンであり、前記データラベリング結果に基づいて第1シーンの自己適応の増分学習を行って、前記第1シーンへ順応したニューラルネットワークを得た後、前記シーンが前記第1シーンから第2シーンに変換されたことを監視するステップと、
前記第2処理モジュール中のパラメータのパラメータリセットをトリガするステップと、
前記データラベリング結果に基づいて前記第2シーンの自己適応の増分学習を行って、前記第2シーンへ順応したニューラルネットワークを得るステップと、を更に含む。
可能な一実施形態では、前記ニューラルネットワークを得るステップの前に、前記方法は、
前記第2処理モジュール中のパラメータが更新される場合に、制限条件に基づいて前記パラメータ更新を制約するステップを更に含む。
可能な一実施形態では、第1データを前記第1処理モジュールに入力して、予測されたデータラベリング結果を得る前記ステップは、
前記第1処理モジュールによるシーンデータの予測に基づいて、予測規則を得るステップと、
前記予測規則に基づいて前記第1データをラベリングして、予測されたデータラベリング結果を得るステップと、を含む。
可能な一実施形態では、前記予測されたデータラベリング結果が、前記第1処理モジュールを構成するデータサンプル訓練ネットワーク出力層の第1出力に由来するものであり、及び/又は、
前記予測されたデータラベリング結果が、前記第1処理モジュールを構成するデータサンプル訓練ネットワーク出力層の第1出力及び中間層の第2出力に由来するものである。
可能な一実施形態では、前記方法は、前記第1データを前記第1処理モジュールに入力する前に、サンプリングパラメータに基づいて前記第1データを選択して、処理される第1データを得るステップを更に含み、
前記ニューラルネットワークを取得するステップの前に、前記方法は、
前記処理される第1データについては、前記第1処理モジュールと前記第2処理モジュールがそれぞれ出力した予測結果が大きく相違する場合に、前記処理される第1データのうち、予測結果が大きく相違する1フレーム又は複数フレームの第1データに対して前記エッジデバイス側で前記シーン自己適応の増分学習を行うステップを更に含む。
可能な一実施形態では、前記処理される第1データのうち、予測結果が大きく相違する1フレーム又は複数フレームの第1データに対して前記エッジデバイス側で前記シーン自己適応の増分学習を行う前記ステップは、
前記1フレーム又は複数フレームの第1データに対して前記第1処理モジュールが取得した1つ又は複数のデータラベリング結果を前記第2処理モジュールに出力するステップと、
1つ又は複数のデータラベリング結果に基づいて前記第2処理モジュールを訓練して前記第2処理モジュール中のパラメータを更新するステップと、
予め設定されたポリシーによって前記サンプリングパラメータの数値を増加するステップと、を含む。
可能な一実施形態では、前記方法は、前記第1データを前記第1処理モジュールに入力する前に、サンプリングパラメータに基づいて前記第1データを選択して、処理される第1データを得るステップを更に含み、
前記ニューラルネットワークを取得するステップの前に、前記方法は、
前記処理される第1データについては、前記第1処理モジュールと前記第2処理モジュールがそれぞれ出力した予測結果が小さく相違する場合に、予め設定されたポリシーによって前記サンプリングパラメータの数値を減少するステップを更に含む。
可能な一実施形態では、前記方法は、前記第1データを前記第1処理モジュールに入力する前に、前記第1データ中の一部のデータをオンラインテスト集合とするステップを更に含み、
前記ニューラルネットワークを取得するステップの前に、前記方法は、
前記オンラインテスト集合中の第1データについては、前記第1処理モジュールと前記第2処理モジュールがそれぞれ出力した予測結果が大きく相違する場合に、前記第2処理モジュール中のパラメータをリセットするステップを更に含む。
可能な一実施形態では、前記方法は、前記ニューラルネットワークが得られた後、
複数の領域のエッジデバイスを監視して、アイドル状態の第1エッジデバイスを取得するステップと、
第1エッジデバイスに対応するエッジデバイス処理能力に従って、前記第2処理モジュールに第2データのシーンへの順応の自己適応増分訓練を実行するステップと、を更に含む。
可能な一実施形態では、前記方法は、前記ニューラルネットワークが得られた後、
複数の領域のエッジデバイスを監視して、複数のエッジデバイス処理能力を取得するステップと、
前記複数のエッジデバイスのそれぞれに対応するエッジデバイス処理能力及び現在リソース消費に基づいて、前記複数のエッジデバイスから前記エッジデバイス処理能力が最も高い第2エッジデバイスを選定するステップと、
前記第2エッジデバイスに対応するエッジデバイス処理能力に従って、前記第2処理モジュールに第2データのシーンへの順応の自己適応増分訓練を実行するステップと、を更に含む。
本開示の第2態様によれば、エッジデバイス側に配置される装置であって、
入力された第1データに基づいて、予測されたデータラベリング結果を得るように構成される第1処理モジュールと、
入力されたデータラベリング結果に基づいてシーン自己適応の増分学習を行って、前記第2データのシーンへ順応したニューラルネットワークを得るように構成される第2処理モジュールと、
ターゲットオブジェクトを含むデータ及び前記ニューラルネットワークに従って、前記ターゲットオブジェクトに対応するシーンへの処理を実現するように構成される第3処理モジュールと、を含むターゲットオブジェクト処理装置を提供する。
可能な一実施形態では、前記装置は、
前記シーンが現在の第1シーンであり、前記データラベリング結果に基づいて第1シーンの自己適応の増分学習を行って、前記第1シーンへ順応したニューラルネットワークを得た後、前記シーンが前記第1シーンから第2シーンに変換されたことを監視するように構成される監視モジュールと、
前記第2処理モジュール中のパラメータのパラメータリセットをトリガするように構成されるリセットトリガモジュールと、を更に含み、
前記第2処理モジュールは、更に、前記データラベリング結果に基づいて前記第2シーンの自己適応の増分学習を行って、前記第2シーンへ順応したニューラルネットワークを得るように構成される。
可能な一実施形態では、前記装置は、
パラメータが更新される場合に、制限条件に基づいて前記パラメータ更新を制約するように構成されるパラメータ更新モジュールを更に含む。
可能な一実施形態では、前記第1処理モジュールは、更に、
シーンデータについての予測に基づいて、予測規則を得、
前記予測規則に基づいて前記第1データをラベリングして、予測されたデータラベリング結果を得るように構成される。
可能な一実施形態では、前記予測されたデータラベリング結果が、前記第1処理モジュールを構成するデータサンプル訓練ネットワーク出力層の第1出力に由来するものであり、及び/又は、
前記予測されたデータラベリング結果が、前記第1処理モジュールを構成するデータサンプル訓練ネットワーク出力層の第1出力及び中間層の第2出力に由来するものである。
可能な一実施形態では、前記装置は、
前記第1データを前記第1処理モジュールに入力する前に、サンプリングパラメータに基づいて前記第1データを選択して、処理される第1データを得るように構成される第4処理モジュールを更に含み、
前記装置は、
前記処理される第1データについては、前記第1処理モジュールと前記第2処理モジュールがそれぞれ出力した予測結果が大きく相違する場合に、前記処理される第1データのうち、予測結果が大きく相違する1フレーム又は複数フレームの第1データに対して前記エッジデバイス側で前記シーン自己適応の増分学習を行うように構成される第5処理モジュールを更に含む。
可能な一実施形態では、前記第5処理モジュールは、更に、
前記1フレーム又は複数フレームの第1データに対して前記第1処理モジュールが取得した1つ又は複数のデータラベリング結果を前記第2処理モジュールに出力し、
1つ又は複数のデータラベリング結果に基づいて前記第2処理モジュールを訓練して前記第2処理モジュール中のパラメータを更新し、
予め設定されたポリシーによって前記サンプリングパラメータの数値を増加するように構成される。
可能な一実施形態では、前記装置は、
前記第1データを前記第1処理モジュールに入力する前に、サンプリングパラメータに基づいて前記第1データを選択して、処理される第1データを得るように構成される第6処理モジュールを更に含み、
前記装置は、
前記処理される第1データについては、前記第1処理モジュールと前記第2処理モジュールがそれぞれ出力した予測結果が小さく相違する場合に、予め設定されたポリシーによって前記サンプリングパラメータの数値を減少するように構成される第7処理モジュールを更に含む。
可能な一実施形態では、前記装置は、
前記第1データを前記第1処理モジュールに入力する前に、前記第1データ中の一部のデータをオンラインテスト集合とするように構成される第8処理モジュールを更に含み、
前記装置は、
前記オンラインテスト集合中の第1データについては、前記第1処理モジュールと前記第2処理モジュールがそれぞれ出力した予測結果が大きく相違する場合に、前記第2処理モジュール中のパラメータをリセットするように構成される第9処理モジュールを更に含む。
可能な一実施形態では、前記装置は、
前記ニューラルネットワークが得られた後、複数の領域のエッジデバイスを監視して、アイドル状態の第1エッジデバイスを取得するように構成される第1デバイス監視モジュールと、
第1エッジデバイスに対応するエッジデバイス処理能力に従って、前記第2処理モジュールに第2データのシーンへの順応の自己適応増分訓練を実行するように構成される第1訓練処理モジュールと、を更に含む。
可能な一実施形態では、前記装置は、
前記ニューラルネットワークが得られた後、複数の領域のエッジデバイスを監視して、複数のエッジデバイス処理能力を取得するように構成される第2デバイス監視モジュールと、
前記複数のエッジデバイスのそれぞれに対応するエッジデバイス処理能力及び現在リソース消費に基づいて、前記複数のエッジデバイスから前記エッジデバイス処理能力が最も高い第2エッジデバイスを選定するように構成されるデバイス選定処理モジュールと、
前記第2エッジデバイスに対応するエッジデバイス処理能力に従って、前記第2処理モジュールに第2データのシーンへの順応の自己適応増分訓練を実行するように構成される第2訓練処理モジュールと、を更に含む。
本開示の第3態様によれば、
プロセッサと、
プロセッサ実行可能コマンドを記憶するためのメモリと、を含み、
前記プロセッサが上記のいずれか一項に記載の方法を実行するように構成される電子機器を提供する。
本開示の第4態様によれば、実行可能なコマンドが記憶されているコンピュータ記憶媒体であって、前記実行可能なコマンドがプロセッサにより実行される時に上記のいずれか一項に記載の方法を実現するコンピュータ記憶媒体を提供する。
本開示では、第1データのラベリングのための第1処理モジュールと第2データのシーンへの順応のための第2処理モジュールをエッジデバイス側に配置し、前記第1データを前記第1処理モジュールに入力して予測されたデータラベリング結果を得、前記データラベリング結果を前記第2処理モジュールに入力して前記データラベリング結果に基づいてシーン自己適応の増分学習を行って、第2データのシーンへ順応したニューラルネットワークを得、ターゲットオブジェクトを含むデータ及び前記ニューラルネットワークに従ってターゲットオブジェクト対応シーンへの処理を実現する。本開示のシーン自己適応の増分学習を採用して第2データのシーンへ順応したニューラルネットワークが得られた後、ターゲットオブジェクトを含むデータ及び前記ニューラルネットワークに従ってターゲットオブジェクト対応シーンへの処理を実現してよく(例えば、ターゲットオブジェクトが顔又は人体である時に、人体又は顔の画像検出処理を実現する)、得られた訓練データは実際の適用シーンのデータとの相違が大きくなく、適用シーンの処理要求を満足すると共に、コストを低くすることができる。
以上の一般説明と以下の詳細説明は解釈するための例示的なものに過ぎず、本開示を制限しないことを理解すべきである。
以下の図面と関連付けられた例示的な実施例に対する詳細な説明によれば、本開示の他の特徴および態様は明確になる。
例示的な一実施例によるターゲットオブジェクト処理方法のフローチャート1である。 例示的な一実施例によるターゲットオブジェクト処理方法のフローチャート2である。 例示的な一実施例によるターゲットオブジェクト処理方法のフローチャート3である。 例示的な一実施例によるターゲットオブジェクト処理方法のフローチャート4である。 例示的な一実施例によるターゲットオブジェクト処理装置のブロック図1である。 例示的な一実施例によるターゲットオブジェクト処理装置のブロック図2である。 例示的な一実施例による電子機器800のブロック図である。 例示的な一実施例による電子機器900のブロック図である。
図面は明細書に組み込まれて明細書の一部を構成し、これらの図面は本開示に合致する実施例を示し、明細書と共に本開示の技術的手段を説明するために用いられる。
以下に図面を参照しながら本開示の様々な例示的実施例、特徴および態様を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を表す。図面において実施例の様々な態様を示したが、特に断らない限り、比例に従って図面を作る必要がない。
ここの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明したいかなる実施例も他の実施例より優れたものと理解すべきではない。
本明細書の用語の「及び/又は」は、関連対象の関連関係を記述するためのものに過ぎず、3種の関係が存在可能であることを示し、例えば、A及び/又はBは、Aが単独して存在し、AとBが同時に存在し、Bが単独して存在するという3種の場合を示してもよい。また、本明細書の用語の「少なくとも1種」は多種のうちのいずれか1種又は多種のうちの少なくとも2種の任意の組合を示し、例えば、A、B、Cのうちの少なくとも1種を含むということは、A、B及びCから構成される集合から選択されるいずれか1つ又は複数の要素を含むことを示してもよい。
また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的詳細を示す。当業者であれば、何らかの具体的詳細がなくなるにも関わらず、本開示は同様に実施できるということを理解すべきである。いくつかの実施例では、本開示の趣旨を強調するよう、当業者に既知の方法、手段、要素および回路に対する詳細な説明を省略する。
関連技術において、増分学習とは、新しいデータを加え続けて訓練する過程でモデルの新しいデータでのより好ましい効果を図るモデル訓練手法である。増分学習方法は、一般的には2種(又は多種)の異なるデータ集合上で訓練する。2種のデータ集合を例とすれば、まずデータ集合A上で訓練し、次にデータ集合Bを用いて訓練し、その注目点はデータ集合B上で好ましい予測効果を遂げると共に、データ集合A上で基本的に変化しない予測効果を保持することである。
データ集合B上で訓練する過程で、モデルパラメータのデータ集合Aでの重要程度を予測することによって、この部分のパラメータのデータ集合Bでの訓練の時の勾配重みを制御する。実際にはモデルのデータ集合B(エッジデバイス側の適用シーン)での効果がより好ましいことが期待されるが、データA(クラウドオンラインテスト集合)での効果が注目されない。
データによって進む機械学習は、一般的にはデータが近似する入力を処理、訓練する時に効果が優れるが、入力され、訓練されるデータが大きく相違する時に、その特徴が一般の特徴に対して空間関係的にひどく変化したので、一般のモデルは好ましい効果を遂げられないことがある。適用シーン毎にデータを収集し訓練するのは実施不可能であるか、コストが高いことであり、本開示の以下の各実施例を採用すれば、シーン自己適応の増分学習が実現され、このシーン自己適応の増分学習方法を採用すれば、エッジデバイスに内蔵されたオンラインモデル(Sモデルという)に加えて、精度が高いが速度が実用性を満たさないオフラインモデル(Tモデルという)が設計されている。エッジデバイスを適用シーンに配置した後、Tモデルによって応用シーンのデータを予測してデータをラベリングし、Sモデルをこの適用シーンに適応させてより優れる処理性能を取得するように、エッジデバイス上でSモデルを増分訓練する。他には、できる限り少ない反復回数でSモデルの性能を最大程度で向上させるように、異なる学習ポリシーを設計してよい。シーンが変換される場合に、モデル初期の性能を保証するようにSモデルをリセットしてから、新しい適用シーンでモデルの処理性能を訓練、向上する。
図1は例示的な一実施例によるターゲットオブジェクト処理方法のフローチャート1であり、このターゲットオブジェクト処理方法は、ターゲットオブジェクト処理装置に用いられるものであって、第1データのラベリングのための第1処理モジュールと第2データのシーンへの順応のための第2処理モジュールがエッジデバイス側に配置される。例えば、ターゲットオブジェクト処理装置は、ユーザ側装置(User Equipment:UE)、携帯機器、セル方式の携帯無線電話、無線電話、携帯情報端末(Personal Digital Assistant:PDA)、携帯型デバイス、計算装置、車載装置、ウエアラブル装置等の端末装置又はサーバ又は他の処理装置により実行してもよい。ある可能な実施形態では、このターゲットオブジェクトの処理はプロセッサによってメモリに記憶されたコンピュータ読取可能コマンドを呼び出して実現されてもよい。図1に示すように、このプロセスは、
第1データを第1処理モジュールに入力して、予測されたデータラベリング結果を得るステップS11と、
データラベリング結果を第2処理モジュールに入力して、データラベリング結果に基づいてシーン自己適応の増分学習を行って、第2データのシーンへ順応したニューラルネットワークを得るステップS12と、
ターゲットオブジェクトを含むデータ及びこのニューラルネットワークによって、ターゲットオブジェクト対応シーンへの処理を実現するステップS13と、を含む。
本開示では、第1処理モジュールと第2処理モジュールは演算モデルに基づいて得られてよい。例えば、第1処理モジュールはTモデルであってよく、第2処理モジュールはSモデルであってよい。第1データはターゲットオブジェクトから取得された生データであり、例えば、画像検出に適用するシーンにおいて、第1データは、人体画像データ及び顔画像データを含んでもよく、人体画像データと顔画像データの中のいずれか一方のみを含んでもよい。ここで、Tモデルはオフラインモデルであってよく、Sモデルはオンラインモデルであってよい。第2データはシーンへの順応のためのシーンデータである。
本開示を適用するシーンは、目標検出、目標認識、実例分割、超解像、強化学習等のシーンを含む。監視シーンでの目標検出を例とすれば、現在、知能化撮影装置は全てエッジデバイス上で顔又は人体の検出を行うようになっている。計算能力に限界があるので、大きいモデルが利用不可能である。異なるエリアの監視シーンには大きい相違点があり、デバイス上の汎用モデルは各種シーンでも好適な性能を図ることを実現できない。しかし、ターゲットオブジェクトを取得するための取得装置(例えば、撮影装置)の位置を一定にした後、そのシーンが一定になる(背景が比較単一になる)。目標認識、実例分割、超解像、強化学習等のシーンにおいて、具体的な実施形態が相違するが、シーンへ順応しにくい問題がいずれにも存在し、即ち、シーン毎にモデルを訓練すればコストが高過ぎ、一方、取得装置(例えば、撮影装置)の位置が一定になった後、ターゲットオブジェクトに対する処理タスク(例えば、目標検出)が簡単になり、本開示の上記図1の処理手順を採用すれば、エッジデバイスのアイドル時間での計算能力を用いて、モデルを特定シーンに応じて増分訓練して、特定シーンでのタスク処理能力(例えば、目標検出の検出率)を効果的に高めることができる。
選択可能な実施形態では、目標検出シーンにおいて、第1データは、人体画像データ又は顔画像データを含む。人体画像データ又は顔画像データのラベリングのためのTモデル及び第2データのシーンへの順応のためのSモデルをエッジデバイス(例えば、エッジノード)側に配置し、人体画像データ又は顔画像データをTモデルに入力し、予測されたデータラベリング結果を得る。データラベリング結果をSモデルに入力して、データラベリング結果に基づいてシーン自己適応の増分学習を行って、第2データのシーンへ順応したニューラルネットワークを得、例えば、目標検出のシーンにおいて、ターゲットオブジェクトを含むデータ及び前記ニューラルネットワークに従って人体画像又は顔画像の検出を実現してよい。
本開示は、データを人工でラベリングすることに頼らないので、オンライン増分学習が可能になる。Tモデル及びSモデルのエッジデバイス側及びクラウドでのオンライン反復が可能になり、製品が納品された後様々な適用シーンに適応可能であり、性能が高くなり、また、Tモデル及びSモデルのエッジデバイス側での反復を可能にしたことを例とすれば、インターネットが不要であるので、情報漏洩が発生しにくいので、ユーザのプライバシーが保護される。製品を安全保護、携帯電話、自動運転等の適用シーンに用いれば、オンライン増分学習によってモデルの個別化自己適応更新、モデルの再訓練を実現することができる。
一例において、監視シーンでの目標検出にとっては、現在、知能化撮影装置は全てエッジデバイス上で顔、人体の検出を行うようになっている。エッジデバイスの処理能力(計算能力)に限界があるので、大きいモデルが利用不可能である。また、異なるエリアの監視シーンには大きい相違点があり、エッジデバイス上の汎用モデルは各種監視シーンでも好適な性能を図ることを実現できない。エッジデバイスが固定された後、そのシーンが一定になり、相対的単一なものになる。以上に鑑みて、Tモデルは精度がSモデルより高いが、サンプルデータが多いため、大きいモデルとなり、処理速度が相対的遅く、Sモデルは精度が高くないが、処理速度が速いので、TモデルとSモデルを組み合わせてサンプルデータの訓練学習を行うことで、所望の処理要求に応えられるようになる。TモデルとSモデルをエッジデバイス側に配置すれば、エッジデバイス側をクラウドに接続しなくても画像データの検出処理を独立して完了することができる。クラウドに接続せず、エッジデバイス側で全過程を完了できるので、ユーザのプライバシーデータが保護される。Tモデルによって適用シーンのデータを予測してデータをラベリングすることで、人工によるデータラベリングに頼らなくなり、データラベリング結果をSモデルのデータ訓練、例えばエッジデバイス側での増分訓練に用いることで、シーン自己適応の増分学習を実現し、Sモデルを適用シーンに適応させ、モデル性能を高める目的を達成した。第2データのシーンへ順応したニューラルネットワークが得られ、例えば、目標検出の適用シーンにおいて、ターゲットオブジェクトを含むデータ及び前記ニューラルネットワークに従って画像データの検出を実現することができ、得られた訓練データは実際の適用シーンのデータとの相違性が大きくなく、適用シーンの検出要求を満たすと共に、コストを低くすることができる。適用シーン毎にデータを取得し訓練する必要がなく、全ての適用シーンに適合する。
図2は例示的な一実施例によるターゲットオブジェクト処理方法のフローチャート2であり、このターゲットオブジェクト処理方法はターゲットオブジェクト処理装置に用いられるものであり、例えば、ターゲットオブジェクト処理装置はユーザ側装置(UE)、携帯機器、端末、セル方式の携帯無線電話、無線電話、携帯情報端末(PDA)、携帯型デバイス、計算装置、車載装置、ウエアラブル装置等の端末装置又はサーバ又は他の処理装置により実行してもよい。ある可能な実施形態では、このターゲットオブジェクト処理はプロセッサによってメモリに記憶されたコンピュータ読取可能コマンドを呼び出して実現されてもよい。第1データのラベリングのための第1処理モジュールと第2データのシーンへの順応のための第2処理モジュールを前記エッジデバイス側に配置するステップは、図2に示すように、
第1データを第1処理モジュールに入力して、予測されたデータラベリング結果を得るステップS21と、
シーンが現在の第1シーンであり、前記データラベリング結果に基づいて第1シーンの自己適応の増分学習を行って、第1シーンへ順応したニューラルネットワークを得、ターゲットオブジェクトを含むデータ及びこのニューラルネットワークによって、ターゲットオブジェクトに対応する第1シーンへの処理を実現するステップS22と、
シーンが第1シーンから第2シーンに変換されたことが監視される場合、第2処理モジュール中のパラメータのパラメータリセットをトリガするステップS23と、
データラベリング結果に基づいて第2シーンの自己適応の増分学習を行って、第2シーンへ順応したニューラルネットワークを得、ターゲットオブジェクトを含むデータ及びこのニューラルネットワークによって、ターゲットオブジェクトに対応する第2シーンへの処理を実現するステップS24と、を含む。
本開示では、第1処理モジュール及び第2処理モジュールは、演算モデルに基づいて得られてよい。例えば、第1処理モジュールはTモデルであってよく、第2処理モジュールはSモデルであってよい。目標検出シーンにおいて、第1データは、人体画像データ及び顔画像データを含んでもよく、人体画像データ及び顔画像データの中のいずれか一方のみを含んでもよい。ここで、Tモデルはオフラインモデルであってよく、Sモデルはオンラインモデルであってよい。Tモデル及びSモデルは、2つの異なる規模のネットワークモデルであってもよい。Tモデルとしては、強い予測能力を有するように、大きいネットワーク構造を用いてよく、Sモデルは適用シーンの製品に使用される実際モデルとなる。新しく導入されるデータについては、先にTモデルで予測し、得られた予測結果をラベリング結果とし、小さいモデルの訓練学習に用いる。シーンが変換される場合に、Sモデルをリセットすることで、モデルの初期性能を保証した上で、新しい適用シーンでモデルの処理性能を訓練、向上する。
Sモデルを制限することで、Sモデルの初期性能を保証でき、その後で新しい適用シーンで訓練してモデルの処理性能を高める。選択可能な実施形態では、前記第2処理モジュール中のパラメータが更新される場合に、制限条件に基づいて前記パラメータ更新を制約する。例えば、重み行列によって実現してよく、その目的は、第2処理モジュール(Sモデル)が変化する過程で一部の初期状態(配置された直後のもの)を保留して、パラメータが固定化した特徴を保留して、現在シーンへの多過ぎる注目による過剰適合等の問題の回避に寄与することである。
選択可能な実施形態では、第1データを前記第1処理モジュールに入力して、予測されたデータラベリング結果を得る前記ステップは、前記第1処理モジュールによる前記シーンデータの予測に基づいて、予測規則を得るステップと、前記予測規則に基づいて前記第1データをラベリングして、予測されたデータラベリング結果を得るステップと、を含む。
選択可能な実施形態では、第1処理モジュールによって得られた予測データラベリング結果は、以下の少なくとも2つのところからのものであってよい。第1処理モジュールは、ラベリングソースと理解可能である。
1.第1処理モジュールの出力結果を第2処理モジュールの入力とする場合に、予測されたデータラベリング結果が、前記第1処理モジュールを構成するデータサンプル訓練ネットワーク出力層の第1出力に由来するものである。
2.第1処理モジュールの出力結果及び中間層の出力結果を第2処理モジュールの入力とする場合に、予測されたデータラベリング結果が、前記第1処理モジュールを構成するデータサンプル訓練ネットワーク出力層の第1出力及び中間層の第2出力に由来するものである。
図3は例示的な一実施例によるターゲットオブジェクト処理方法のフローチャート3であり、このターゲットオブジェクト処理方法はターゲットオブジェクト処理装置に用いられるものであり、例えば、ターゲットオブジェクト処理装置は、ユーザ側装置(UE)、携帯機器、セル方式の携帯無線電話、無線電話、携帯情報端末(PDA)、携帯型デバイス、計算装置、車載装置、ウエアラブル装置等の端末装置又はサーバ又は他の処理装置により実行してもよい。ある可能な実施形態では、このターゲットオブジェクト処理はプロセッサによってメモリに記憶されたコンピュータ読取可能コマンドを呼び出して実現されてもよい。図3に示すように、このプロセスは、以下のステップを含む。
ステップS31において、第1データを第1処理モジュールに入力する前に、サンプリングパラメータに基づいて前記第1データを選択して、処理される第1データを得る。
例えば、前記サンプリングパラメータがサンプリング周波数である。
ステップS32において、前記処理される第1データについては、第1処理モジュールと第2処理モジュールがそれぞれ出力した予測結果が大きく相違する場合に、前記処理される第1データのうち、予測結果が大きく相違する1フレーム又は複数フレームの第1データを取得する。
大きく相違する標準はユーザの要求又は設計要求に応じて設定し、又は調整することが可能であるのを説明する必要がある。
ステップS33において、前記1フレーム又は複数フレームの第1データに対して第1処理モジュールが取得した1つ又は複数のデータラベリング結果を第2処理モジュールに出力する。
ステップS34において、1つ又は複数のデータラベリング結果に基づいて第2処理モジュールを訓練して第2処理モジュール中のパラメータを更新し、予め設定されたポリシーによって前記サンプリングパラメータの数値を増加する。
上記ステップS31〜S34によって、前記エッジデバイス側で前記シーン自己適応の増分学習を行って、前記第2データのシーンへ順応したニューラルネットワークを得るのは、選択可能な実施形態である。
別の選択可能な実施形態では、サンプリングパラメータ(例えば、サンプリング周波数)に基づいて前記第1データを選択して、処理される第1データを得る。処理される第1データについては、第1処理モジュールと前記第2処理モジュールがそれぞれ出力した予測結果が小さく相違する場合に、予め設定されたポリシーによってサンプリングパラメータの数値を減少する。
選択可能な一実施形態では、前記方法は、第1データを第1処理モジュールに入力する前に、第1データ中の一部のデータをオンラインテスト集合として、オンラインテスト集合中の第1データについて、第1処理モジュールと第2処理モジュールがそれぞれ出力した予測結果が大きく相違する場合に、第2処理モジュール中のパラメータをリセットするステップを更に含む。
選択可能な一実施形態では、前記方法は、シーン自己適応の増分学習を行ってニューラルネットワークを得た後、このニューラルネットワークを用いてある適用シーンを処理する場合に、複数の領域のエッジデバイスを監視して、アイドル状態の第1エッジデバイスを取得し、第1エッジデバイスに対応するエッジデバイス処理能力に従って、前記第2処理モジュールに第2データのシーンへの順応の自己適応増分訓練を実行するステップを更に含む。
選択可能な別の実施形態では、前記方法は、シーン自己適応の増分学習を行ってニューラルネットワークを得た後、このニューラルネットワークを用いてある適用シーンを処理する場合に、複数の領域のエッジデバイスを監視して、複数のエッジデバイス処理能力を取得し、前記複数のエッジデバイスのそれぞれに対応する自分の処理能力及び現在リソース消費に基づいて、前記複数のエッジデバイスから処理能力が高い第2エッジデバイスを選定ステップと、第2エッジデバイスに対応するエッジデバイス処理能力に従って、前記第2処理モジュールに第2データのシーンへの順応の自己適応増分訓練を実行するステップと、を更に含む。
上記の2つの選択可能な実施形態を用いれば、特定のシーンに応じてモデルに増分訓練を実施することができ、特定シーンでのターゲットオブジェクト検出の検出率が効果的に高められ、エッジデバイスの処理能力が強くなり、自己適応増分訓練の処理速度及び処理効率も高くなる。
図4は例示的な一実施例によるターゲットオブジェクト処理方法のフローチャート4である、このターゲットオブジェクト処理方法はターゲットオブジェクト処理装置に用いられるものであり、例えば、ターゲットオブジェクト処理装置は、ユーザ側装置(UE)、携帯機器、セル方式の携帯無線電話、無線電話、携帯情報端末(PDA)、携帯型デバイス、計算装置、車載装置、ウエアラブル装置等の端末装置又はサーバ又は他の処理装置により実行してもよい。ある可能な実施形態では、このターゲットオブジェクト処理はプロセッサによってメモリに記憶されたコンピュータ読取可能コマンドを呼び出して実現されてもよい。図4に示すように、このプロセスは、以下のステップを含む。
一例において、第1処理モジュールをTモデルとし、第2処理モジュールをSモデルとし、SモデルとTモデルをエッジデバイス側に配置し、エッジデバイス側を具体的な適用シーン、例えば目標検出シーンに配置し、サンプルデータを訓練することによってシーンデータの自己適応の増分学習を実現する。例えば、テスト集合(例えば、オンラインテスト集合)から定期的に新しいデータを選択し、予め設定されたサンプリング周波数fを取得し、このサンプリング周波数fで新しいデータ中の一部の画像(図4で破線矢印で示す)を選択し、一部の選択された画像データをそれぞれエッジデバイス側に配置されたSモデルとTモデルに送信して予測する。モデル蒸留評価器によって2つのモデル(SモデルとTモデル)の相違を比較する。TモデルとSモデルの出力した予測結果が大きく相違する場合に、予測結果が大きく相違する画像データに対してエッジデバイス側での訓練を行い、即ち、Tモデルの出力したこのフレームの画像のラベリング結果によってSモデルを訓練し且つパラメータを更新し、更に予め設定されたポリシーによってサンプリング周波数fを増加する。例えば、Sモデルの現在パラメータをθ*とし、損失関数は、クラウドの損失関数以外に、式(1)によって計算して得られた制約モデルがある。
Figure 2021514499
(1)
この制約モデルを採用すれば、クラウド訓練結果を多く忘れることがなく、式(1)において、λは固定化重みの重要性を示し、λをゼロにしてモデルの固定化を放棄してもよい。2つのモデル(SモデルとTモデル)が出力した予測結果が小さく相違する場合に、このサンプリング周波数fを小さくし、又は維持する。訓練写真が経時的に蓄積されることで、Sモデルはより好ましく適用シーンに適応するようになり、即ち、Tモデルの出力をSモデルのデータ訓練学習に用いて、シーン自己適応の増分学習が実現され、それによってシーンデータへ順応した検出結果を得ることができ、この検出結果に基づいてターゲットオブジェクトの検出が実現される。
また、予め設定された方式で、一部の選択された画像データをオンラインテスト集合(図4で太い実線矢印で示す)として、テスト評価器によって2つのモデル(SモデルとTモデル)の相違を比較する。SモデルとTモデルによる同一オンラインテスト集合の予測結果が大きく相違する場合に、元のSモデルのパラメータθを改めてロードして、モデル性能を保証するようにしてもよい。適用シーンを変更する必要がある場合に、このシステムの新しいシーンでの効果が元のシーンに影響されないように、元のSモデルのパラメータθを改めてロードしてもよい。
本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて、組合せ後の実施例を形成することができることが理解され、紙数に限りがあるので、本開示では詳細な説明を省略する。
具体的な実施形態の上記方法において、各ステップの記述順序は厳しい実行順序であるというわけではなく、実施プロセスの何の制限にもならなく、各ステップの具体的な実行順序はその機能と可能な内在的論理に依存することが当業者に理解される。
また、本開示はターゲットオブジェクト処理装置、電子機器、コンピュータ読取可能記憶媒体、プログラムを更に提供し、それらはいずれも本開示で提供されるいずれか1種のターゲットオブジェクト処理方法を実現することに利用可能であり、対応する技術的解決手段及び説明については方法部分の対応の記載を参照してもよく、ここで詳細な説明を省略する。
図5は例示的な一実施例によるターゲットオブジェクト処理装置のブロック図1であり、図5に示すように、本開示の実施例のターゲットオブジェクト処理装置は、エッジデバイス側に配置されるものであって、入力された第1データに基づいて、予測されたデータラベリング結果を得るように構成される第1処理モジュール201と、入力されたデータラベリング結果に基づいてシーン自己適応の増分学習を行って、前記第2データのシーンへ順応したニューラルネットワークを得るように構成される第2処理モジュール202と、ターゲットオブジェクトを含むデータ及び前記ニューラルネットワークに従って、前記ターゲットオブジェクトに対応するシーンへの処理を実現するように構成される第3処理モジュール203と、含む。
図6は例示的な一実施例によるターゲットオブジェクト処理装置のブロック図2であり、図6に示すように、本開示の実施例のターゲットオブジェクト処理装置は、エッジデバイス側に配置されるものであって、入力された第1データに基づいて、予測されたデータラベリング結果を得るように構成される第1処理モジュール201と、入力されたデータラベリング結果に基づいてシーン自己適応の増分学習を行って、前記第2データのシーンへ順応したニューラルネットワークを得るように構成される第2処理モジュール202と、ターゲットオブジェクトを含むデータ及び前記ニューラルネットワークに従って、前記ターゲットオブジェクトに対応するシーンへの処理を実現するように構成される第3処理モジュール203と、前記シーンが現在の第1シーンであり、前記データラベリング結果に基づいて第1シーンの自己適応の増分学習を行って、前記第1シーンへ順応したニューラルネットワークを得た後、シーンが前記第1シーンから第2シーンに変換されたことを監視するように構成される監視モジュール204と、前記第2処理モジュール202中のパラメータのパラメータリセットをトリガするように構成されるリセットトリガモジュール205と、を含み、第2処理モジュール202は、更に、前記データラベリング結果に基づいて前記第2シーンの自己適応の増分学習を行って、前記第2シーンへ順応したニューラルネットワークを得るように構成される。
可能な一実施形態では、この装置は、パラメータが更新される場合に、制限条件に基づいて前記パラメータ更新を制約するように構成されるパラメータ更新モジュール206(図6に図示されていない)を更に含む。
可能な一実施形態では、第1処理モジュール201は、更に、シーンデータについての予測に基づいて、予測規則を得、前記予測規則に基づいて前記第1データをラベリングして、予測されたデータラベリング結果を得るように構成される。
可能な一実施形態では、予測されたデータラベリング結果が、前記第1処理モジュールを構成するデータサンプル訓練ネットワーク出力層の第1出力に由来するものであり、及び/又は、予測されたデータラベリング結果が、前記第1処理モジュールを構成するデータサンプル訓練ネットワーク出力層の第1出力及び中間層の第2出力に由来するものである。
可能な一実施形態では、この装置は、前記第1データを第1処理モジュール201に入力する前に、サンプリングパラメータに基づいて前記第1データを選択して、処理される第1データを得るように構成される第4処理モジュール207(図6に図示されていない)を更に含む。この装置は、前記処理される第1データについては、第1処理モジュール201と第2処理モジュール202がそれぞれ出力した予測結果が大きく相違する場合に、前記処理される第1データのうち、予測結果が大きく相違する1フレーム又は複数フレームの第1データに対して前記エッジデバイス側で前記シーン自己適応の増分学習を行うように構成される第5処理モジュール208(図6に図示されていない)を更に含む。
可能な一実施形態では、第5処理モジュール208は、更に、前記1フレーム又は複数フレームの第1データに対して第1処理モジュール201が取得した1つ又は複数のデータラベリング結果を第2処理モジュール202に出力し、1つ又は複数のデータラベリング結果に基づいて前記第2処理モジュール202を訓練して第2処理モジュール202中のパラメータを更新し、予め設定されたポリシーによって前記サンプリングパラメータの数値を増加するように構成される。
可能な一実施形態では、この装置は、前記第1データを第1処理モジュール201に入力する前に、サンプリングパラメータに基づいて前記第1データを選択して、処理される第1データを得るように構成される第6処理モジュール209(図6に図示されていない)を更に含む。この装置は、前記処理される第1データについては、第1処理モジュール201と第2処理モジュール202がそれぞれ出力した予測結果が小さく相違する場合に、予め設定されたポリシーによって前記サンプリングパラメータの数値を減少するように構成される第7処理モジュール210(図6に図示されていない)を更に含む。
可能な一実施形態では、この装置は、前記第1データを第1処理モジュール201に入力する前に、前記第1データ中の一部のデータをオンラインテスト集合とするように構成される第8処理モジュール211(図6に図示されていない)を更に含む。この装置は、オンラインテスト集合中の第1データについて、第1処理モジュール201と第2処理モジュール202がそれぞれ出力した予測結果が大きく相違する場合に、第2処理モジュール202中のパラメータをリセットするように構成される第9処理モジュール212(図6に図示されていない)を更に含む。
可能な一実施形態では、この装置は、前記ニューラルネットワークが得られた後、複数の領域のエッジデバイスを監視して、アイドル状態の第1エッジデバイスを取得するように構成される第1デバイス監視モジュール213(図6に図示されていない)と、第1エッジデバイスに対応するエッジデバイス処理能力に従って、第2処理モジュール202に第2データのシーンへの順応の自己適応増分訓練を実行するように構成される第1訓練処理モジュール214(図6に図示されていない)と、を更に含む。
可能な一実施形態では、この装置は、前記ニューラルネットワークが得られた後、複数の領域のエッジデバイスを監視して、複数のエッジデバイス処理能力を取得するように構成される第2デバイス監視モジュール215(図6に図示されていない)と、前記複数のエッジデバイスのそれぞれに対応する自分の処理能力及び現在リソース消費に基づいて、前記複数のエッジデバイスから処理能力が高い第2エッジデバイスを選定するように構成されるデバイス選定処理モジュール216(図6に図示されていない)と、第2エッジデバイスに対応するエッジデバイス処理能力に従って、第2処理モジュール202に第2データのシーンへの順応の自己適応増分訓練を実行するように構成される第2訓練処理モジュール217(図6に図示されていない)と、を更に含む。
いくつかの実施例では、本開示の実施例で提供された装置に備えた機能又はモジュールは、上記方法実施例に記載の方法を実行するために用いられ、その具体的な実施形態については上記方法実施例の説明を参照してもよく、簡単化するために、ここで重複説明は割愛する。
本開示の実施例は、更に、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドがプロセッサにより実行される時に上記方法を実現するコンピュータ読取可能記憶媒体を提供する。コンピュータ読取可能記憶媒体は、不揮発性コンピュータ読取可能記憶媒体であってよい。
本開示の実施例は、更に、プロセッサと、プロセッサ実行可能コマンドを記憶するためのメモリと、を含み、前記プロセッサが上記方法を実行するように構成される電子機器を提供する。
ここで、電子機器は、端末、サーバ又は他の形態のデバイスとして提供されてよい。
図7は例示的な一実施例に基づいて示した電子機器800のブロック図である。例えば、装置800は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレット装置、医療機器、フィットネス器具、パーソナル・デジタル・アシスタントなどの端末であってよい。
図7を参照すると、電子機器800は処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O,Input/Output)インタフェース812、センサコンポーネント814、および通信コンポーネント816の一つ以上を含むことができる。
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、上記方法の全てまたは一部のステップを完了するために、一つ以上のプロセッサ820を含んで命令を実行することができる。また、処理コンポーネント802は、他のコンポーネントとの対話のために、一つ以上のモジュールを含むことができる。例えば、処理コンポーネント802は、マルチメディアコンポーネント808との対話のために、マルチメディアモジュールを含むことができる。
メモリ804は電子機器800での動作をサポートするために様々なタイプのデータを記憶するように構成される。これらのデータの例は電子機器800において運用するためのあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM:Static Random−Access Memory)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM:Electrically−Erasable Programmable Read Only Memory)、消去可能なプログラマブル読み取り専用メモリ(EPROM:Erasable Programmable Read Only Memory)、プログラマブル読み取り専用メモリ(PROM:Programmable read−only memory)、読み取り専用メモリ(ROM:Read Only Memory)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または非揮発性記憶機器またはそれらの組み合わせによって実現できる。
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含むことができる。
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インタフェースを提供する画面を含む。いくつかの実施例では、画面は液晶ディスプレイ(LCD:Liquid Crystal Display)およびタッチパネル(TP:Touch Panel)を含むことができる。画面がタッチパネルを含む場合、ユーザからの入力信号を受信するために、タッチ画面として実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャを検知するために、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出することもできる。いくつかの実施例では、マルチメディアコンポーネント808は前面カメラおよび/または後面カメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび/または後面カメラは外部のマルチメディアデータを受信することができる。各前面カメラおよび後面カメラは固定された光学レンズ系または焦点距離および光学ズーム能力を有するものであってもよい。
オーディオコンポーネント810はオーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、電子機器800が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成されたマイク((microphone:MIC)を含む。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816によって送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
I/Oインタフェース812は処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含むことができるが、これらに限定されない。
センサコンポーネント814は電子機器800に各面での状態評価を提供するための一つ以上のセンサを含む。例えば、センサコンポーネント814は電子機器800のオン/オフ状態、コンポーネントの相対的位置決め、例えば前記コンポーネントが電子機器800の表示装置およびキーパッドであることを検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するために用いられるように構成された近接センサを含む。センサコンポーネント814はさらに、相補型金属酸化物半導体(CMOS:Complementary Metal Oxide Semiconductor)又は電荷結合素子(CCD:Charge−coupled Device)イメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含むことができる。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを含むことができる。
通信コンポーネント816は電子機器800と他の機器との間の有線または無線通信を実現するように配置される。電子機器800は通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は放送チャネルによって外部の放送管理システムの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC:Near Field Communication)モジュールを含む。例えば、NFCモジュールでは無線周波数識別(RFID:Radio Frequency Identification)技術、赤外線データ協会(IrDA:Infrared Data Association)技術、超広帯域(UWB:Ultra Wide Band)技術、ブルートゥース(BT:Blue Tooth)技術および他の技術によって実現できる。
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、デジタル信号プロセッサ(DSP:Digital Signal Processor)、デジタル信号処理デバイス(DSPD:Digital Signal Processing Device)、プログラマブルロジックデバイス(PLD:Programmable Logic Device)、フィールドプログラマブルゲートアレイ(FPGA:Field Programmable Gate Array)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現し、上記方法を実行するために用いることができる。
例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は電子機器800のプロセッサ820によって実行して上記方法を完了することができる。
図8は例示的な一実施例に基づいて示した電子機器900のブロック図である。例えば、電子機器900はサーバとして提供できる。図8を参照すると、電子機器900は、さらに一つ以上のプロセッサを含む処理コンポーネント922、および、処理コンポーネント922によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ932を代表とするメモリ資源を含む。メモリ932に記憶されたアプリケーションプログラムはそれぞれが1グループの命令に対応する一つ以上のモジュールを含むことができる。また、処理コンポーネント922は命令を実行し、それによって上記方法を実行するように構成される。
電子機器900はさらに、電子機器900の電源管理を実行するように構成された電源コンポーネント926、電子機器900をネットワークにアクセスするように構成された有線または無線ネットワークインタフェース950、および入出力(I/O)インタフェース958を含むことができる。電子機器900はメモリ932に記憶されたオペレーティングシステム、例えばWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ932が提供され、上記コンピュータプログラム命令は電子機器900の処理コンポーネント922によって実行して上記方法を完了することができる。
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品はプロセッサに本開示の各態様を実現させるためのコンピュータ読み取り可能プログラム命令がロードされているコンピュータ読み取り可能記憶媒体を含むことができる。
コンピュータ読み取り可能記憶媒体は命令実行機器により使用される命令を保存および記憶可能な有形機器であってもよい。コンピュータ読み取り可能記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能記憶媒体のさらに具体的な例(非包括的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM:Random Access Memory)、読み取り専用メモリ(ROM:Read Only Memory)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM:Static Random−Access Memory)、携帯型コンパクトディスク読み取り専用メモリ(CD−ROM:Compact Disc−Read Only Memory)、デジタル多用途ディスク(DVD:Digital Versatile Disc)、メモリスティック、フロッピーディスク、機械的符号化装置、例えば命令が記憶されているせん孔カードまたはスロット内突起構造、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ読み取り可能記憶媒体は瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
ここで記述したコンピュータ読み取り可能プログラム命令はコンピュータ読み取り可能記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークによって外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含むことができる。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ読み取り可能プログラム命令を受信し、該コンピュータ読み取り可能プログラム命令を転送し、各計算/処理機器内のコンピュータ読み取り可能記憶媒体に記憶する。
本開示の動作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ(ISA:Instruction Set Architecture)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのターゲットオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ読み取り可能プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN:Local Area Network)または広域ネットワーク(WAN:Wide Area Network)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ読み取り可能プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA:Field−Programmable Gate Array)またはプログラマブル論理アレイ(PLA:Programmable Logic Array)などの電子回路をパーソナライズすることで、該電子回路はコンピュータ読み取り可能プログラム命令を実行し、それにより本開示の各態様を実現できるようになる。
なお、ここで本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各態様を説明しが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ読み取り可能プログラム命令によって実現できることを理解すべきである。
これらのコンピュータ読み取り可能プログラム命令は、機械を製造するために、共通コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、これらの命令はコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行され、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する手段を創出する。また、これらのコンピュータ読み取り可能プログラム命令は、コンピュータ読み取り可能記憶媒体に記憶し、それによってコンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよく、それにより、中に保存された命令を有するコンピュータ読み取り可能記憶媒体は、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各態様を実現する命令を含む製品を備える。
コンピュータ読み取り可能プログラムはコンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードすることにより、コンピュータ実施プロセスを生成するように、コンピュータ、他のプログラマブルデータ処理装置または他の機器において一連の動作ステップを実行させるようにしてもよく、それにより、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令はフローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
図面のうちフローチャートおよびブロック図は本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの置換としての実現形態では、ブロックに表記される機能は図面に付したものと異なる順序で実現してもよい。例えば、二つの連続的なブロックは実質的に同時に実行してもよく、また、係る機能によって、それらは逆な順序で実行してもよい場合がある。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことに注意すべきである。
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または市場における技術への技術的改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。
本開示の実施例の技術的解決手段において、第1データを第1処理モジュールに入力して予測されたデータラベリング結果を得、前記データラベリング結果を第2処理モジュールに入力して前記データラベリング結果に基づいてシーン自己適応の増分学習を行って、第2データのシーンへ順応したニューラルネットワークを得、ターゲットオブジェクトを含むデータ及び前記ニューラルネットワークに従って前記ターゲットオブジェクトに対応するシーンへの処理を実現し、それによって、ターゲットオブジェクトを含むデータ及び前記ニューラルネットワークに従ってターゲットオブジェクト対応シーンへの処理を実現し、得られた訓練データは実際の適用シーンのデータとの相違が大きくなく、適用シーンの処理要求を満足すると共に、コストを低くすることができる。

Claims (24)

  1. エッジデバイス側に適用され、第1データのラベリングのための第1処理モジュールと第2データのシーンへの順応のための第2処理モジュールを前記エッジデバイス側に配置する方法であって、
    前記第1データを前記第1処理モジュールに入力して、予測されたデータラベリング結果を得るステップと、
    前記データラベリング結果を前記第2処理モジュールに入力して、前記データラベリング結果に基づいてシーン自己適応の増分学習を行って、前記第2データのシーンへ順応したニューラルネットワークを得るステップと、
    ターゲットオブジェクトを含むデータ及び前記ニューラルネットワークに従って、前記ターゲットオブジェクトに対応するシーンへの処理を実現するステップと、を含むターゲットオブジェクト処理方法。
  2. 前記シーンが現在の第1シーンであり、前記データラベリング結果に基づいて第1シーンの自己適応の増分学習を行って、前記第1シーンへ順応したニューラルネットワークを得た後、前記シーンが前記第1シーンから第2シーンに変換されたことを監視するステップと、
    前記第2処理モジュール中のパラメータのパラメータリセットをトリガするステップと、
    前記データラベリング結果に基づいて前記第2シーンの自己適応の増分学習を行って、前記第2シーンへ順応したニューラルネットワークを得るステップと、を更に含む請求項1に記載の方法。
  3. 前記ニューラルネットワークを得るステップの前に、
    前記第2処理モジュール中のパラメータが更新される場合に、制限条件に基づいて前記パラメータ更新を制約するステップを更に含む請求項1又は2に記載の方法。
  4. 第1データを前記第1処理モジュールに入力して、予測されたデータラベリング結果を得る前記ステップは、
    前記第1処理モジュールによるシーンデータの予測に基づいて、予測規則を得るステップと、
    前記予測規則に基づいて前記第1データをラベリングして、予測されたデータラベリング結果を得るステップと、を含む請求項1に記載の方法。
  5. 前記予測されたデータラベリング結果が、前記第1処理モジュールを構成するデータサンプル訓練ネットワーク出力層の第1出力に由来するものであり、及び/又は、
    前記予測されたデータラベリング結果が、前記第1処理モジュールを構成するデータサンプル訓練ネットワーク出力層の第1出力及び中間層の第2出力に由来するものである請求項1〜4のいずれか一項に記載の方法。
  6. 前記第1データを前記第1処理モジュールに入力する前に、サンプリングパラメータに基づいて前記第1データを選択して、処理される第1データを得るステップを更に含み、
    前記ニューラルネットワークを取得するステップの前に、
    前記処理される第1データについては、前記第1処理モジュールと前記第2処理モジュールがそれぞれ出力した予測結果が大きく相違する場合に、前記処理される第1データのうち、予測結果が大きく相違する1フレーム又は複数フレームの第1データに対して前記エッジデバイス側で前記シーン自己適応の増分学習を行うステップを更に含む請求項1に記載の方法。
  7. 前記処理される第1データのうち、予測結果が大きく相違する1フレーム又は複数フレームの第1データに対して前記エッジデバイス側で前記シーン自己適応の増分学習を行う前記ステップは、
    前記1フレーム又は複数フレームの第1データに対して前記第1処理モジュールが取得した1つ又は複数のデータラベリング結果を前記第2処理モジュールに出力するステップと、
    1つ又は複数のデータラベリング結果に基づいて前記第2処理モジュールを訓練して前記第2処理モジュール中のパラメータを更新するステップと、
    予め設定されたポリシーによって前記サンプリングパラメータの数値を増加するステップと、を含む請求項6に記載の方法。
  8. 前記第1データを第1処理モジュールに入力する前に、サンプリングパラメータに基づいて前記第1データを選択して、処理される第1データを得るステップを更に含み、
    前記ニューラルネットワークを取得するステップの前に、
    前記処理される第1データについては、前記第1処理モジュールと前記第2処理モジュールがそれぞれ出力した予測結果が小さく相違する場合に、予め設定されたポリシーによって前記サンプリングパラメータの数値を減少するステップを更に含む請求項1に記載の方法。
  9. 前記第1データを第1処理モジュールに入力する前に、前記第1データ中の一部のデータをオンラインテスト集合とするステップを更に含み、
    前記ニューラルネットワークを取得するステップの前に、
    前記オンラインテスト集合中の第1データについては、前記第1処理モジュールと前記第2処理モジュールがそれぞれ出力した予測結果が大きく相違する場合に、前記第2処理モジュール中のパラメータをリセットするステップを更に含む請求項1に記載の方法。
  10. 前記ニューラルネットワークが得られた後、
    複数の領域のエッジデバイスを監視して、アイドル状態の第1エッジデバイスを取得するステップと、
    前記第1エッジデバイスに対応するエッジデバイス処理能力に従って、前記第2処理モジュールに第2データのシーンへの順応の自己適応増分訓練を実行するステップと、を更に含む請求項1〜9のいずれか一項に記載の方法。
  11. 前記ニューラルネットワークが得られた後、
    複数の領域のエッジデバイスを監視して、複数のエッジデバイス処理能力を取得するステップと、
    前記複数のエッジデバイスのそれぞれに対応するエッジデバイス処理能力及び現在リソース消費に基づいて、前記複数のエッジデバイスから前記エッジデバイス処理能力が最も高い第2エッジデバイスを選定するステップと、
    前記第2エッジデバイスに対応するエッジデバイス処理能力に従って、前記第2処理モジュールに第2データのシーンへの順応の自己適応増分訓練を実行するステップと、を更に含む請求項1〜9のいずれか一項に記載の方法。
  12. エッジデバイス側に配置される装置であって、
    入力された第1データに基づいて、予測されたデータラベリング結果を得るように構成される第1処理モジュールと、
    入力されたデータラベリング結果に基づいてシーン自己適応の増分学習を行って、前記第2データのシーンへ順応したニューラルネットワークを得るように構成される第2処理モジュールと、
    ターゲットオブジェクトを含むデータ及び前記ニューラルネットワークに従って、前記ターゲットオブジェクトに対応するシーンへの処理を実現するように構成される第3処理モジュールと、を含むターゲットオブジェクト処理装置。
  13. 前記シーンが現在の第1シーンであり、前記データラベリング結果に基づいて第1シーンの自己適応の増分学習を行って、前記第1シーンへ順応したニューラルネットワークを得た後、前記シーンが前記第1シーンから第2シーンに変換されたことを監視するように構成される監視モジュールと、
    前記第2処理モジュール中のパラメータのパラメータリセットをトリガするように構成されるリセットトリガモジュールと、を更に含み、
    前記第2処理モジュールは、更に、前記データラベリング結果に基づいて前記第2シーンの自己適応の増分学習を行って、前記第2シーンへ順応したニューラルネットワークを得るように構成される請求項12に記載の装置。
  14. パラメータが更新される場合に、制限条件に基づいて前記パラメータ更新を制約するように構成されるパラメータ更新モジュールを更に含む請求項12又は13に記載の装置。
  15. 前記第1処理モジュールは、更に、
    シーンデータについての予測に基づいて、予測規則を得、
    前記予測規則に基づいて前記第1データをラベリングして、予測されたデータラベリング結果を得るように構成される請求項12に記載の装置。
  16. 前記予測されたデータラベリング結果が、前記第1処理モジュールを構成するデータサンプル訓練ネットワーク出力層の第1出力に由来するものであり、及び/又は、
    前記予測されたデータラベリング結果が、前記第1処理モジュールを構成するデータサンプル訓練ネットワーク出力層の第1出力及び中間層の第2出力に由来するものである請求項12〜15のいずれか一項に記載の装置。
  17. 前記第1データを前記第1処理モジュールに入力する前に、サンプリングパラメータに基づいて前記第1データを選択して、処理される第1データを得るように構成される第4処理モジュールを更に含み、
    前記処理される第1データについては、前記第1処理モジュールと前記第2処理モジュールがそれぞれ出力した予測結果が大きく相違する場合に、前記処理される第1データのうち、予測結果が大きく相違する1フレーム又は複数フレームの第1データに対して前記エッジデバイス側で前記シーン自己適応の増分学習を行うように構成される第5処理モジュールを更に含む請求項12に記載の装置。
  18. 前記第5処理モジュールは、更に、
    前記1フレーム又は複数フレームの第1データに対して前記第1処理モジュールが取得した1つ又は複数のデータラベリング結果を前記第2処理モジュールに出力し、
    1つ又は複数のデータラベリング結果に基づいて前記第2処理モジュールを訓練して前記第2処理モジュール中のパラメータを更新し、
    予め設定されたポリシーによって前記サンプリングパラメータの数値を増加するように構成される請求項17に記載の装置。
  19. 前記第1データを前記第1処理モジュールに入力する前に、サンプリングパラメータに基づいて前記第1データを選択して、処理される第1データを得るように構成される第6処理モジュールを更に含み、
    前記処理される第1データについては、前記第1処理モジュールと前記第2処理モジュールがそれぞれ出力した予測結果が小さく相違する場合に、予め設定されたポリシーによって前記サンプリングパラメータの数値を減少するように構成される第7処理モジュールを更に含む請求項12に記載の装置。
  20. 前記第1データを前記第1処理モジュールに入力する前に、前記第1データ中の一部のデータをオンラインテスト集合とするように構成される第8処理モジュールを更に含み、
    前記オンラインテスト集合中の第1データについては、前記第1処理モジュールと前記第2処理モジュールがそれぞれ出力した予測結果が大きく相違する場合に、前記第2処理モジュール中のパラメータをリセットするように構成される第9処理モジュールを更に含む請求項12に記載の装置。
  21. 前記ニューラルネットワークが得られた後、複数の領域のエッジデバイスを監視して、アイドル状態の第1エッジデバイスを取得するように構成される第1デバイス監視モジュールと、
    第1エッジデバイスに対応するエッジデバイス処理能力に従って、前記第2処理モジュールに第2データのシーンへの順応の自己適応増分訓練を実行するように構成される第1訓練処理モジュールと、を更に含む請求項12〜20のいずれか一項に記載の装置。
  22. 前記ニューラルネットワークが得られた後、複数の領域のエッジデバイスを監視して、複数のエッジデバイス処理能力を取得するように構成される第2デバイス監視モジュールと、
    前記複数のエッジデバイスのそれぞれに対応するエッジデバイス処理能力及び現在リソース消費に基づいて、前記複数のエッジデバイスから前記エッジデバイス処理能力が最も高い第2エッジデバイスを選定するように構成されるデバイス選定処理モジュールと、
    第2エッジデバイスに対応するエッジデバイス処理能力に従って、前記第2処理モジュールに第2データのシーンへの順応の自己適応増分訓練を実行するように構成される第2訓練処理モジュールと、を更に含む請求項12〜20のいずれか一項に記載の装置。
  23. プロセッサと、
    プロセッサ実行可能コマンドを記憶するためのメモリと、を含み、
    前記プロセッサが請求項1〜11のいずれか一項に記載の方法を実行するように構成される電子機器。
  24. 実行可能なコマンドが記憶されているコンピュータ記憶媒体であって、前記実行可能なコマンドがプロセッサにより実行される時に請求項1〜11のいずれか一項に記載の方法を実現するコンピュータ記憶媒体。
JP2020533136A 2019-01-31 2019-08-19 ターゲットオブジェクト処理方法、装置、電子機器及び記憶媒体 Active JP7064593B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910098735.5A CN109766954B (zh) 2019-01-31 2019-01-31 一种目标对象处理方法、装置、电子设备及存储介质
CN201910098735.5 2019-01-31
PCT/CN2019/101448 WO2020155609A1 (zh) 2019-01-31 2019-08-19 一种目标对象处理方法、装置、电子设备及存储介质

Publications (3)

Publication Number Publication Date
JP2021514499A true JP2021514499A (ja) 2021-06-10
JP2021514499A5 JP2021514499A5 (ja) 2021-07-26
JP7064593B2 JP7064593B2 (ja) 2022-05-10

Family

ID=66455838

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020533136A Active JP7064593B2 (ja) 2019-01-31 2019-08-19 ターゲットオブジェクト処理方法、装置、電子機器及び記憶媒体

Country Status (7)

Country Link
US (1) US11403489B2 (ja)
JP (1) JP7064593B2 (ja)
KR (1) KR20200096556A (ja)
CN (1) CN109766954B (ja)
SG (1) SG11202005886RA (ja)
TW (1) TWI772668B (ja)
WO (1) WO2020155609A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019211134A1 (en) * 2018-05-02 2019-11-07 Telefonaktiebolaget Lm Ericsson (Publ) First network node, third network node, and methods performed thereby, for handling a performance of a radio access network
CN109766954B (zh) * 2019-01-31 2020-12-04 北京市商汤科技开发有限公司 一种目标对象处理方法、装置、电子设备及存储介质
CN110147836B (zh) 2019-05-13 2021-07-02 腾讯科技(深圳)有限公司 模型训练方法、装置、终端及存储介质
CN112417986B (zh) * 2020-10-30 2023-03-10 四川天翼网络股份有限公司 一种基于深度神经网络模型的半监督在线人脸识别方法及系统
US20220172064A1 (en) * 2020-12-02 2022-06-02 Htc Corporation Machine learning method and machine learning device for eliminating spurious correlation
CN112419413B (zh) * 2020-12-07 2024-01-05 萱闱(北京)生物科技有限公司 终端设备的运动方向监测方法、介质、装置和计算设备
CN113240119B (zh) * 2021-04-08 2024-03-19 南京大学 一种用于游戏ai策略解释的跨模型蒸馏装置
CN113205120B (zh) * 2021-04-20 2023-11-24 北京百度网讯科技有限公司 数据标注方法、装置、电子设备及可读存储介质
CN113111878B (zh) * 2021-04-30 2022-03-18 中北大学 一种复杂背景下的红外弱小目标检测方法
CN113364543B (zh) * 2021-06-03 2022-03-15 厦门大学 一种基于联邦强化学习的边缘计算模型训练方法
CN114572233B (zh) * 2022-03-25 2022-11-29 阿波罗智能技术(北京)有限公司 基于模型集合的预测方法、电子设备及自动驾驶车辆
CN116050433B (zh) * 2023-02-13 2024-03-26 北京百度网讯科技有限公司 自然语言处理模型的场景适配方法、装置、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764269A (zh) * 2018-04-03 2018-11-06 华南理工大学 一种基于时空约束增量学习的跨数据集行人再识别方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998010307A1 (en) * 1996-09-09 1998-03-12 Dennis Jay Dupray Location of a mobile station
TW200415524A (en) * 2002-10-24 2004-08-16 Univ Duke Binary prediction tree modeling with many predictors and its uses in clinical and genomic applications
US8582807B2 (en) * 2010-03-15 2013-11-12 Nec Laboratories America, Inc. Systems and methods for determining personal characteristics
CN103366163B (zh) * 2013-07-15 2016-07-20 北京丰华联合科技有限公司 基于增量学习的人脸检测系统和方法
US20160066894A1 (en) * 2014-03-21 2016-03-10 Razzberry Inc. Health state monitoring device
US9619753B2 (en) * 2014-12-30 2017-04-11 Winbond Electronics Corp. Data analysis system and method
US10878320B2 (en) * 2015-07-22 2020-12-29 Qualcomm Incorporated Transfer learning in neural networks
CN106097346B (zh) * 2016-06-13 2019-08-27 中国科学技术大学 一种自学习的视频火灾探测方法
CN106529485A (zh) * 2016-11-16 2017-03-22 北京旷视科技有限公司 用于获取训练数据的方法及装置
CN106919980B (zh) * 2017-01-24 2020-02-07 南京大学 一种基于神经节分化的增量式目标识别系统
US11017291B2 (en) * 2017-04-28 2021-05-25 Intel Corporation Training with adaptive runtime and precision profiling
CN107358257B (zh) * 2017-07-07 2019-07-16 华南理工大学 一种大数据场景下可增量学习的图像分类训练方法
CN107944374A (zh) * 2017-11-20 2018-04-20 北京奇虎科技有限公司 视频数据中特定对象检测方法及装置、计算设备
CN108229591B (zh) * 2018-03-15 2020-09-22 北京市商汤科技开发有限公司 神经网络自适应训练方法和装置、设备、程序和存储介质
CN108545556B (zh) * 2018-05-02 2019-10-01 中国科学院计算技术研究所 基于神经网络的信息处理装置及方法
CN108764487B (zh) * 2018-05-29 2022-07-08 北京百度网讯科技有限公司 用于生成模型的方法和装置、用于识别信息的方法和装置
CN109242013B (zh) * 2018-08-28 2021-06-08 北京九狐时代智能科技有限公司 一种数据标注方法、装置、电子设备及存储介质
CN109224442B (zh) * 2018-09-03 2021-06-11 腾讯科技(深圳)有限公司 虚拟场景的数据处理方法、装置及存储介质
US11158286B2 (en) * 2018-10-05 2021-10-26 Disney Enterprises, Inc. Machine learning color science conversion
EP3867810A1 (en) * 2018-10-15 2021-08-25 Flir Commercial Systems, Inc. Deep learning inference systems and methods for imaging systems
US10867210B2 (en) * 2018-12-21 2020-12-15 Waymo Llc Neural networks for coarse- and fine-object classifications
CN109766954B (zh) * 2019-01-31 2020-12-04 北京市商汤科技开发有限公司 一种目标对象处理方法、装置、电子设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764269A (zh) * 2018-04-03 2018-11-06 华南理工大学 一种基于时空约束增量学习的跨数据集行人再识别方法

Also Published As

Publication number Publication date
WO2020155609A1 (zh) 2020-08-06
CN109766954B (zh) 2020-12-04
US20200311476A1 (en) 2020-10-01
CN109766954A (zh) 2019-05-17
KR20200096556A (ko) 2020-08-12
JP7064593B2 (ja) 2022-05-10
TW202030648A (zh) 2020-08-16
SG11202005886RA (en) 2020-11-27
TWI772668B (zh) 2022-08-01
US11403489B2 (en) 2022-08-02

Similar Documents

Publication Publication Date Title
JP7064593B2 (ja) ターゲットオブジェクト処理方法、装置、電子機器及び記憶媒体
US20210019562A1 (en) Image processing method and apparatus and storage medium
CN110598504B (zh) 图像识别方法及装置、电子设备和存储介质
EP3188066B1 (en) A method and an apparatus for managing an application
CN109919300B (zh) 神经网络训练方法及装置以及图像处理方法及装置
JP2022517914A (ja) 顔と手を関連付けて検出する方法及び装置、電子機器、記憶媒体及びコンピュータプログラム
TWI773945B (zh) 錨點確定方法、電子設備和儲存介質
CN109165738B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
JP2021529398A (ja) ビデオ処理方法及び装置、電子機器並びに記憶媒体
KR20210090691A (ko) 데이터 처리 방법 및 장치, 전자 기기 및 기억 매체
EP3107262B1 (en) Method and device for detecting website hijacking
CN109117874A (zh) 操作行为预测方法及装置
US20170300211A1 (en) Method and apparatus for displaying status information of application
CN112668707B (zh) 运算方法、装置及相关产品
CN109214175B (zh) 基于样本特征训练分类器的方法、装置及存储介质
CN111783898B (zh) 图像识别模型的训练、图像识别方法、装置及设备
JP2022515274A (ja) 検出器の配置方法、検出器の配置装置及び非一時的コンピュータ可読記憶媒体
CN109447258B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
CN110648657B (zh) 一种语言模型训练方法、构建方法和装置
CN111988622B (zh) 视频预测方法及装置、电子设备和存储介质
CN108984294B (zh) 资源调度方法、装置及存储介质
CN115512116A (zh) 图像分割模型优化方法、装置、电子设备及可读存储介质
CN111008606B (zh) 图像预测方法及装置、电子设备和存储介质
CN113344131A (zh) 网络训练方法及装置、电子设备和存储介质
CN110765943A (zh) 网络训练、识别方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200616

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220419

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220422

R150 Certificate of patent or registration of utility model

Ref document number: 7064593

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150