JP7357114B2 - 生体検出モデルのトレーニング方法、装置、電子機器および記憶媒体 - Google Patents

生体検出モデルのトレーニング方法、装置、電子機器および記憶媒体 Download PDF

Info

Publication number
JP7357114B2
JP7357114B2 JP2022088153A JP2022088153A JP7357114B2 JP 7357114 B2 JP7357114 B2 JP 7357114B2 JP 2022088153 A JP2022088153 A JP 2022088153A JP 2022088153 A JP2022088153 A JP 2022088153A JP 7357114 B2 JP7357114 B2 JP 7357114B2
Authority
JP
Japan
Prior art keywords
training
data
detection model
test set
living body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022088153A
Other languages
English (en)
Other versions
JP2022116231A (ja
Inventor
ジャン グオシュヨン
ワーン コォヤオ
フオン ハオチュヨン
ユエ ハイシヤオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022116231A publication Critical patent/JP2022116231A/ja
Application granted granted Critical
Publication of JP7357114B2 publication Critical patent/JP7357114B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

本開示は人工知能技術分野に関し、具体的には、コンピュータ視覚と深層学習技術の分野に関し、顔認識などのシーンに応用することができる。
顔生体検出は、すなわち1枚の画像が真の人間の撮影であるか否かを区別することであり、顔認識システムの基本モジュールであり、顔認識システムの安全性を保証する。深層学習技術を用いた顔生体検出方法は、現在、当分野の主流であり、従来の方法に比べて精度が大幅に向上している。しかしながら、実際の応用では、顔アタックサンプルの多様化により、様々なアタック方式は絶えず出現し、最適化されたモデルはまだ見ていない新しいアタックに対して抵抗能力が非常に限られており、トレーニングコストが高く、効率が低い。
本開示は生体検出モデルのトレーニング方法、装置、電子機器および記憶媒体を提供する。
本開示の一態様によれば、生体検出モデルをトレーニングするためのトレーニングセットおよびテストセットを構築することと、前記トレーニングセットに基づいて予め設定された生体検出モデルをトレーニングし、第1生体検出モデルを取得することと、前記テストセットに基づいて第1生体検出モデルをトレーニングし、テスト結果を生成することと、前記テスト結果に基づいて前記テストセットを分析し、第1サンプルデータを取得することと、第1サンプルデータに基づいて、トレーニングセット、テストセットを更新して、前記生体検出モデルをさらにトレーニングすることとを含む生体検出モデルのトレーニング方法を提供する。
本開示の他の一態様によれば、生体検出モデルをトレーニングするためのトレーニングセットおよびテストセットを構築するための構築モジュールと、前記トレーニングセットに基づいて予め設定された生体検出モデルをトレーニングし、第1生体検出モデルを取得し、前記テストセットに基づいて第1生体検出モデルをトレーニングし、テスト結果を生成するためのトレーニングモジュールと、前記テスト結果に基づいて前記テストセットを分析し、第1サンプルデータを取得するためのサンプル取得モジュールと、第1サンプルデータに基づいて、トレーニングセット、テストセットを更新して、前記生体検出モデルをさらにトレーニングするための更新モジュールとを含む生体検出モデルのトレーニング装置を提供する。
本開示の別の態様によれば、電子機器を提供し、前記電子機器は、少なくとも1つのプロセッサ、および前記少なくとも1つのプロセッサに通信接続されたメモリを含み、前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに以上に記載の方法を実行させる。
本開示の別の態様によれば、コンピュータに以上に記載の方法を実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体を提供する。
本開示の別の態様によれば、プロセッサによって実行されると、以上に記載の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。
本開示はデータ層からサンプルマイニングの思想を導入し、大量の冗長性の、指導意義のないサンプルを効果的に減少させ、モデルトレーニング効率を向上させることができる。
理解すべきことは、この部分に説明される内容が、本開示の実施例の要点または重要な特徴を示すことを意図しておらず、本開示の保護範囲を限定するためのものではないことである。本開示の他の特徴は、以下の明細書によって理解されやすくなる。
図面は、本発明をより良く理解するためのものであり、本開示に対する制限を構成しない。
本発明の第1実施例による生体検出モデルのトレーニング方法を示す図である。 本発明の第2実施例による生体検出モデルのトレーニング方法を示す図である。 本開示の第3実施例による生体検出モデルのトレーニング装置の構成を示す図である。 本開示の実施例に係る生体検出モデルのトレーニング方法を実現するための電子機器のブロック図である。
以下、図面に合わせて本開示の例示的な実施例を説明して、それに含まれる本開示の実施例における様々な詳細が理解を助けるためので、それらは単なる例示的なものと考えられるべきである。したがって、当業者であれば、本開示の範囲および精神から逸脱することなく、本明細書で説明される実施例に対して様々な変更および修正を行うことができることを理解すべきである。同様に、明瞭と簡潔のために、以下の説明では公知の機能および構造についての説明を省略する。
本開示の実施例では、新データは生体検出モデルが最適化された後に新しく出現する新しい顔アタックサンプルデータを指す。元データとは、生体検出モデルが本来トレーニングされる際に用いられるデータを意味する。
本開示はハードサンプルマイニングに基づく生体検出モデルのトレーニング方法を提供し、新データと元データとの混合を用いてモデルを再トレーニングすることでモデルの破滅的な忘れ問題による精度損失を解決し、同時にハードサンプルマイニングの思想に基づいて、トレーニングサンプルにおけるハードサンプルの割合を向上させることによって、冗長サンプルを減少し、モデルトレーニング効率を向上させ、また、モデルをハードサンプルに一層注目させ、モデルの検査性能を向上させる。
図1は、本開示の第1実施例による生体検出モデルのトレーニング方法を示す図である。図1に示すように、本開示の第1実施例に係る生体検出モデルのトレーニング方法は、以下のステップを含む。
ステップ101では、生体検出モデルをトレーニングするためのトレーニングセットおよびテストセットを構築する。
前記生体検出モデルをトレーニングするためのトレーニングセットおよびテストセットを構築することは、混合データセットに基づいてトレーニングセットおよびテストセットを構築することを含み、前記混合データセットは新データおよび元データを含む。
新データおよび元データを用いて混合データセットを構成し、かつ混合データセットに基づいてトレーニングセットおよびテストセットを構築することにより、モデルの破滅的な忘れ問題による精度損失を解決することができる。
前記混合データセットに基づいてトレーニングセットおよびテストセットを構築することは、前記混合データセットにおいてランダムサンプリングを行うことと、サンプリングされたデータをトレーニングセットとして構成することと、サンプリングされたデータ以外のデータをテストセットとして構成することを含む。
混合データセットにおいてランダムサンプリングを行うことにより初期トレーニングセットおよび初期テストセットを構成することで、モデルに対するトレーニング効果をより良く実現することができる。
前記混合データセットにおいてランダムサンプリングを行うことは、予め設定されたハイパーパラメータの初期サンプリングレートに基づいて、前記混合データセットにおいてランダムサンプリングを行うことを含む。
ランダムサンプリングのハイパーパラメータの初期サンプリングレートを設定することにより、ランダムサンプリングの指標を具体的に限定することができる。
ここで、本実施例では、前記ハイパーパラメータの初期サンプリングレートは0%より大きくかつ50%より小さい値をとる。もちろん、実際の応用では、必要に応じてハイパーパラメータの初期サンプリングレートに他の設定を行ってもよく、本開示はこれについて限定しない。
ハイパーパラメータの初期サンプリングレートの値を選択することによって、実際の応用のガイドラインを提供し、本開示の実施例の具体的な実現方法を提供し、実際の応用における選択を容易にする。
ステップ102では、前記トレーニングセットに基づいて予め設定された生体検出モデルをトレーニングし、第1生体検出モデルを取得する。
ステップ103では、前記テストセットに基づいて第1生体検出モデルをトレーニングし、テスト結果を生成する。
ステップ104では、前記テスト結果に基づいて前記テストセットを分析し、第1サンプルデータを取得する。
本開示の実施例では、前記テスト結果に基づいて前記テストセットを分析し、第1サンプルデータを取得することは、テスト結果に基づいてテストセットにおけるデータを採点して予測スコアを取得し、前記予測スコアに基づいてテストセットにおけるデータをソーティングし、前記予測スコアが所定閾値を満たすデータを第1サンプルデータとして確定することを含む。
したがって、本発明の実施例は第1サンプルデータを取得する具体的な実現方法を実現し、第1サンプルデータすなわちハードサンプルデータのマイニングを実現し、これによってマイニングされた第1サンプルデータを用いてモデルをトレーニングすることができ、トレーニングサンプルにおけるハードサンプルの割合を向上させることによって、冗長サンプルを減少させ、モデルトレーニング効率を向上させ、同時にモデルをハードサンプルに一層注目させ、モデルの検出性能を向上させる。
ステップ105では、第1サンプルデータに基づいて、トレーニングセット、テストセットを更新して、前記生体検出モデルをさらにトレーニングする。
前記第1サンプルデータに基づいてトレーニングセット、テストセットを更新することは、第1サンプルデータにおいてそれぞれ一部のサンプルデータを抽出してトレーニングセットおよびテストセットに加え、更新後のトレーニングセットと更新後のテストセットを構成することを含む。
本開示の実施例は第1サンプルデータすなわちハードサンプルデータのそれぞれにおいて一部のサンプルデータを抽出して更新後のトレーニングセットおよび更新後のテストセットを構成することによって、トレーニング過程全体に使用されるデータは完全な新データプラス元データではなく、その中の一部のサンプルであり、さらにハードサンプルであってもよく、トレーニングサンプルにおけるハードサンプルの割合を向上させることによって、冗長サンプルを減少させ、モデルトレーニング効率を向上させると同時に、モデルをハードサンプルに一層注目させ、モデルの検出性能を向上させる。
第1サンプルデータにおいてそれぞれ一部のサンプルデータを抽出してトレーニングセットおよびテストセットに加え、更新後のトレーニングセットと更新後のテストセットを構成することは、前記第1サンプルデータにおいて、予め設定されたサンプリングレートで第2サンプルデータを抽出し、抽出された第2サンプルデータをトレーニングセットに加え、更新後のトレーニングセットを構成し、第2サンプルデータを除く第1サンプルデータをテストセットに加え、更新後のテストセットを構成することと、予め設定されたサンプリングレートを予め設定された減衰率で減衰更新し、減衰更新後のサンプリングレートを取得することと、更新されたトレーニングセットと更新されたテストセットに基づいて生体検出モデルをトレーニングすることと、トレーニングステップを反復的に実行し、生体検出モデルが予め設定された精度に収束したと判断すると、トレーニングを停止し、最終的にトレーニングされた生体検出モデルを出力することとを含む。
本開示の実施例では、前記予め設定されたサンプリングレートは、0%より大きくかつ30%より小さい値をとる。もちろん、実際の応用では、必要に応じて予め設定されたサンプリングレートに他の設定を行ってもよく、本開示はこれについて限定しない。サンプリングレート値の参考を与えることによって、本開示の具体的な実施例の実現を示し、実際の応用のガイドラインを提供し、実際の応用における選択を容易にする。
トレーニング過程全体で使われるデータは完全な新データプラス元データではなく、その中の一部のサンプルであり、トレーニング過程で次第にデータをトレーニングセットに加えるが、加えた割合は指数的に減衰するため、ハードサンプルマイニングに基づくトレーニング方法で使われるデータは完全な全データよりはるかに小さく、これはモデルのトレーニング効率を大幅に向上させる。
図2に示すように、本発明の第2実施例による生体検出モデルのトレーニング方法を示す図である。前記生体検出モデルのトレーニング方法は以下のステップを含む。
ステップ201では、データセットΦ、初期サンプリングレートρを入力し、ハードサンプルレート
(外1)
Figure 0007357114000001
を設定し、減衰率εを設定し、新データ+元データの混合データセットΦを含むモデルトレーニングの入力を与え、ハイパーパラメータの初期サンプリングレートρを設定し、モデルの初期開始トレーニングのトレーニングセットの分割に使用し、データセットΦにおいて、ハイパーパラメータの初期サンプリングレートρで定量のデータをランダムにサンプリングして初期トレーニングセットΦtrainを構成し、ハイパーパラメータの初期サンプリングレートρは0%より大きくかつ50%より小さい値をとる。ハードサンプルレート
(外2)
Figure 0007357114000002
を設定し、データにおけるハードサンプルの割合を仮定するために用いられ、0%より大きくかつ30%より小さい値をとる。減衰率εを設定し、ハードサンプルレートの減衰を特徴付けるために用いられ、モデルが次第に収束するにつれて、データ中に残っているハードサンプルの割合が次第に減少し、したがって、減衰率はハードサンプルレートの減衰程度を特徴付けるために用いられる。ここでは、ハイパーパラメータの初期サンプリングレート、ハードサンプルレート、減衰率はすべて応用ニーズに応じて人為的に設定することができる。このようにして様々な異なる応用ニーズを満たすことができ、より良いモデルトレーニング効果を達成する。
ステップ202では、ハイパーパラメータの初期サンプリングレートρに基づいてデータセットΦを均一に用いて初期トレーニングセット
(外3)
Figure 0007357114000003
を構成し、残りのデータは初期テストセット
(外4)
Figure 0007357114000004
を構成するために使用される。
ステップ203では、Φtrainにおいてモデルをトレーニングし、Φtestにおいてモデルをテストし、Φtestにおけるサンプルを予測スコアに従ってソーティングする。
モデルは、まずトレーニングセットΦtrainにおいて一定の反復回数のトレーニングを行い、続いてモデルを初期テストセットにおいてテストし、テストセットにおけるサンプルに対してサンプル予測スコアを採点し、予測スコアをソーティングし、ソーティングを行う目的はハードサンプルを選択することであり、閾値を設定することによって、この所定閾値の要件を満たすものをハードサンプルと確定することができる。このようにハードサンプルの確定方法を設定することで、ハードサンプルをよりうまく見つけることができる。理論的には、正のサンプルの予測スコアは1であり、負のサンプルの予測スコアは0であり、正のサンプルの予測スコアが1よりもはるかに小さい(例えば、0.5よりも小さい)場合、このサンプルはハードサンプルと考えられる。同様に、負のサンプルの予測スコアが0よりはるかに大きい場合、このサンプルもハードサンプルと考えられる。
ステップ204では、Φtestにおけるサンプルにハードサンプル抽出を行い、トレーニングセットおよびテストセットを、
(外5)
Figure 0007357114000005

(外6)
Figure 0007357114000006

(外7)
Figure 0007357114000007
のように更新する。
設定されたハードサンプルレートに応じて、Φtestにおいて、予測スコアに基づいて、低予測スコアの正のサンプルと高予測スコアの負のサンプルを抽出し、サンプリングレートはハードサンプルレート
(外8)
Figure 0007357114000008
であり、抽出されたサンプルをトレーニングセットに戻し、それによってトレーニングセット
(外9)
Figure 0007357114000009
とテストセット
(外10)
Figure 0007357114000010
を更新し、それと同時に、ハードサンプルレートを
(外11)
Figure 0007357114000011
のように減衰更新する。
ステップ205では、モデルが予め設定された精度に収束したか否かを判断し、そうであれば終了し、トレーニングを停止し、そうでなければステップ203に移行して実行する。
モデルは漸進的なハードサンプルマイニングという方法を用いるため、抽出されるサンプルは大きい確率でモデルがハードサンプルと考えるものであり、トレーニング過程において、ハードサンプルを絶えず抽出してトレーニングセットに戻すため、トレーニングセットにおけるハードサンプルの割合は次第に増大する。ハードサンプルトレーニングは効果的であるため、モデルの予め設定された精度はかなり向上する。
本開示のキーポイントは、モデルへのハードサンプルマイニングのモデリング過程であり、漸進式ハードサンプルマイニングの思想を通じて、トレーニングサンプルにおけるハードサンプルの割合を向上させ、トレーニングセットにおける冗長サンプルを減少させ、それによってモデルのトレーニング効率を向上させる。また、モデルの性能も向上させ、すなわち、ハードサンプルを用いてより良いトレーニング効果を達成するため、モデル予測の正確率を向上させる。従来のトレーニング方式と比較して、漸進式ハードサンプルマイニングのトレーニング方法を用いて、トレーニングコストを大幅に削減することができ、生体検出モデルを後期に絶えず迅速に反復最適化させることができる。
以上から分かるように、本開示はハードサンプルマイニングに基づいて生体検出モデルをトレーニングする方法を設計し、この方法は漸進的にエンドからエンドまで動的にハードサンプルを選択してトレーニングすることを実現でき、大量の冗長性の指導意義のないサンプルを効果的に減少させることができ、これによって生体検出のトレーニング効率を向上させ、さらに検出モデルの性能を向上させることができる。
顔の生体検出は顔関連分野の基礎技術の一つであり、安全、出勤考査、金融、セキュリティ通行などの多くのシーンに応用されている。現在の多くの業務に広く応用されている。本開示を用いて生体モデル後期の最適化コストを削減し、最適化効率を向上させ、データ増加に伴うモデルの成長効果を最大限に提供する。トレーニング効率を向上させるために、トレーニング時間を減少させ、効率が高くなれば、データを増やしてよりうまくトレーニングすることができ、トレーニングできるデータがますます多くなり、データの成長性がよくなり、業務項目の更なる普及に有利である。
本開示で設計するトレーニング方法は任意の顔生体の深層学習ニューラルネットワークモデルの最適化に応用することができ、モデルの最適化効率を向上させることに役立つ。この方法はハードサンプルの割合を向上させることによって顔生体検出モデルの性能を向上させ、定期的に継続的に最適化する必要のある顔生体検出モデルの応用シーンに応用することができる。
図3に示すように、本開示の第3実施例による生体検出モデルのトレーニング装置の構成を示す図であり、前記生体検出モデルのトレーニング装置は、生体検出モデルをトレーニングするためのトレーニングセットおよびテストセットを構築するための構築モジュール301と、前記トレーニングセットに基づいて予め設定された生体検出モデルをトレーニングし、第1生体検出モデルを取得し、前記テストセットに基づいて第1生体検出モデルをトレーニングし、テスト結果を生成するためのトレーニングモジュール302と、前記テスト結果に基づいて前記テストセットを分析し、第1サンプルデータを取得するためのサンプル取得モジュール303と、第1サンプルデータに基づいて、トレーニングセット、テストセットを更新して、前記生体検出モデルをさらにトレーニングするための更新モジュール304とを含む。
本開示の実施例では、前記構築モジュール301が生体検出モデルをトレーニングするためのトレーニングセットおよびテストセットを構築することは、混合データセットに基づいてトレーニングセットおよびテストセットを構築することを含み、前記混合データセットは新データおよび元データを含む。
本開示の実施例では、前記構築モジュール301が混合データセットに基づいてトレーニングセットおよびテストセットを構築することは、前記混合データセットにおいてランダムサンプリングを行うことと、サンプリングされたデータをトレーニングセットとして構成することと、サンプリングされたデータ以外のデータをテストセットとして構成することとを含む。
本開示の実施例では、前記サンプル取得モジュール303が前記テスト結果に基づいて前記テストセットを分析し、第1サンプルデータを取得することは、テスト結果に基づいてテストセットにおけるデータを採点して予測スコアを取得し、前記予測スコアに基づいてテストセットにおけるデータをソートし、前記予測スコアが所定閾値を満たすデータを第1サンプルデータとして確定することを含む。
本開示の実施例では、前記サンプル取得モジュール303が第1サンプルデータに基づいてトレーニングセット、テストセットを更新することは、第1サンプルデータにおいてそれぞれ一部のサンプルデータを抽出してトレーニングセットおよびテストセットに加え、更新後のトレーニングセットと更新後のテストセットを構成することを含む。
本開示の実施例では、前記サンプル取得モジュール303が第1サンプルデータにおいてそれぞれ一部のサンプルデータを抽出してトレーニングセットおよびテストセットに加え、更新後のトレーニングセットと更新後のテストセットを構成することは、前記第1サンプルデータにおいて、予め設定されたサンプリングレートで第2サンプルデータを抽出し、抽出された第2サンプルデータをトレーニングセットに加え、更新後のトレーニングセットを構成し、第2サンプルデータを除く第1サンプルデータをテストセットに加え、更新後のテストセットを構成することと、予め設定されたサンプリングレートを予め設定された減衰率で減衰更新し、減衰更新後のサンプリングレートを取得することと、更新されたトレーニングセットと更新されたテストセットに基づいて生体検出モデルをトレーニングすることと、トレーニングステップを反復的に実行し、生体検出モデルが予め設定された精度に収束したと判断すると、トレーニングを停止し、最終的にトレーニングされた生体検出モデルを出力することとを含む。
本開示の実施例では、前記構築モジュール301が前記混合データセットにおいてランダムサンプリングを行うことは、予め設定されたハイパーパラメータの初期サンプリングレートに基づいて、前記混合データセットにおいてランダムサンプリングを行うことを含む。
本開示の実施例では、前記構築モジュール301が予め設定されたハイパーパラメータの初期サンプリングレートに基づいて、前記混合データセットにおいてランダムサンプリングを行うことは、前記ハイパーパラメータの初期サンプリングレートが、0%より大きくかつ50%より小さい値をとることを含む。
本開示の実施例では、前記サンプル取得モジュール303が0%より大きくかつ30%より小さい値をとる、予め設定されたサンプルレートを予め設定された減衰率で減衰更新するために用いられる。
本開示の技術案では、係るユーザ個人情報の収集、記憶、使用、加工、伝送、提供と公開などの処理は、すべて関連法律法規の規定に符合し、かつ公序良俗に違反しない。
本開示の実施例によれば、本開示は、電子機器、コンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体およびコンピュータプログラム製品をさらに提供する。
図4は本開示の実施例を実施できる例示的な電子機器400を示すブロック図である。電子機器は、様々な形態のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ワークステーション、パーソナル・デジタル・アシスタント、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器は更に、様々な形態の移動装置、例えば、個人デジタルプロセッサ、セルラー電話、スマートフォン、着用可能な装置とその他の類似する計算装置を示してもよい。本明細書に示される部品、これらの接続関係およびこれらの機能は例示的なものに過ぎず、本明細書に説明した本開示および/または請求した本開示の実現を制限しない。
図4に示すように、機器400は、計算ユニット401を含み、それはリードオンリーメモリ(ROM)402に記憶されるコンピュータプログラムまた記憶ユニット408からランダムアクセスメモリ(RAM)403にロードされるコンピュータプログラムによって、種々の適当な操作と処理を実行することができる。RAM 403において、更に機器400を操作するために必要な様々なプログラムとデータを記憶してもよい。計算ユニット401、ROM 402およびRAM 403はバス404によって互いに接続される。入力/出力(I/O)インターフェース405もバス404に接続される。
機器400における複数の部品はI/Oインターフェース405に接続され、複数の部品は、キーボード、マウスなどの入力ユニット406、様々なタイプのディスプレイ、スピーカーなどの出力ユニット407、磁気ディスク、光ディスクなどの記憶ユニット408、およびネットワークカード、モデム、無線通信送受信機などの通信ユニット409を含む。通信ユニット409は、機器400が例えばインターネットなどのコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にする。
計算ユニット401は処理および計算能力を有する様々な汎用および/または専用の処理コンポーネントであってもよい。計算ユニット401の例には、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適当なプロセッサ、コントローラ、マイクロコントローラなどが含まれるがこれらに限定されないことである。計算ユニット401は、例えば生体検出モジュールトレーニング方法などの以上に記載の各方法および処理を実行する。例えば、いくつかの実施例では、生体検出モジュールトレーニング方法はコンピュータソフトウェアプログラムとして実現されてもよく、機械可読媒体、例えば、記憶ユニット408に有形に含まれる。いくつかの実施例では、コンピュータプログラムの一部または全てはROM 402および/または通信ユニット409を経由して機器400にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM 403にロードされて計算ユニット401によって実行される場合、以上で説明される生体検出モジュールトレーニング方法の1つまたは複数のステップを実行することができる。代替的に、別の実施例では、計算ユニット401は他のいかなる適切な方式で(例えば、ファームウェアにより)生体検出モジュールトレーニング方法を実行するように構成されてもよい。
本明細書で上述したシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、ロードプログラマブル論理デバイス(CPLD)、ソフトウェア・ハードウェア、ファームウェア、ソフトウェア、および/またはこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は、1つまたは複数のコンピュータプログラムに実施され、この1つまたは複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行しおよび/または解釈してもよく、このプログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、少なくとも1つの出力装置からデータと命令を受信し、データと命令をこの記憶システム、この少なくとも1つの入力装置、この少なくとも1つの出力装置に送信してもよいこと、を含んでもよい。
本開示の方法を実施するプログラムコードは1つまたは複数のプログラミング言語のいかなる組み合わせで書かれてもよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータまたは他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供してよく、よってプログラムコードはプロセッサまたはコントローラにより実行される時にフローチャートおよび/またはブロック図に規定の機能/操作を実施する。プログラムコードは完全に機械で実行されてよく、部分的に機械で実行されてよく、独立ソフトウェアパッケージとして部分的に機械で実行されかつ部分的に遠隔機械で実行されてよく、または完全に遠隔機械またはサーバで実行されてもよい。
本開示のコンテキストにおいて、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置またはデバイスに使用されるまたは命令実行システム、装置またはデバイスに結合されて使用されるプログラムを具備または記憶してもよい。機械可読媒体は機械可読信号媒体または機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、または半導体システム、装置またはデバイス、または上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つまたは複数のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、または上記内容のいかなる適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、このコンピュータは、ユーザに情報を表示する表示装置(例えば、CRT(陰極線管、Cathode Ray Tube)またはLCD(液晶ディスプレイ、Liquid Crystal Display)監視モニタ)およびキーボードとポインティング装置(例えば、マウスやトラックボール)を備え、ユーザはこのキーボードとこのポインティング装置を介してコンピュータに入力してもよい。その他の種類の装置は更に、ユーザとのインタラクションを提供してもよい。例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、いかなる形態(音入力、音声入力、または触覚入力を含む)でユーザからの入力を受信してもよい。
ここで述べたシステムや技術は、バックステージ部材を含む計算システム(例えば、データサーバとして)や、ミドルウェア部材を含む計算システム(例えば、アプリケーションサーバ)や、フロントエンド部材を含む計算システム(例えば、グラフィカルユーザインタフェースやウェブブラウザを有するユーザコンピュータ、ユーザが、そのグラフィカルユーザインタフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクティブを実現できる)、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、任意の形式や媒体のデジタルデータ通信(例えば、通信ネットワーク)により相互に接続されてもよい。通信ネットワークの一例は、例えば、ローカルネットワーク(LAN)、広域ネットワーク(WAN)、インターネットを含む。
コンピュータシステムは、クライアント側とサーバを含んでもよい。クライアント側とサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互にクライアント側-サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアント側とサーバの関係を生成する。サーバは、クラウドサーバであってもよく、分散型システムのサーバでも、またはブロックチェーンと組み合わせたサーバであってもよい。
理解すべきことは、前述した様々な形態のフローを用いて、ステップを改めて順位付け、増加又削除してもよいことである。例えば、本開示に記載された各ステップは、並行して実行してもよいし、順次実行してもよいし、異なる順序で実行させてもよいし、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。
以上に記載の具体的な実施形態は、本開示の特許請求の範囲を限定するものではない。当業者が理解すべきことは、設計要求と他の要因に基づいて、様々な修正、組み合わせ、一部の組み合わせと代替を行うことができることである。本開示における精神および原則から逸脱することなく行われるいかなる修正、同等物による置換や改良などは、いずれも本開示の保護範囲に含まれるものである。

Claims (17)

  1. 生体検出モデルのトレーニング装置が実行する、生体検出モデルのトレーニング方法であって、
    生体検出モデルをトレーニングするためのトレーニングセットおよびテストセットを構築することと、
    前記トレーニングセットに基づいて、予め設定された生体検出モデルをトレーニングし、第1生体検出モデルを取得することと、
    前記テストセットに基づいて第1生体検出モデルをトレーニングし、テスト結果を生成することと、
    前記テスト結果に基づいて前記テストセットを分析し、第1サンプルデータを取得することと、
    第1サンプルデータに基づいて、トレーニングセット、テストセットを更新して、前記生体検出モデルをさらにトレーニングすることとを含み、
    前記第1サンプルデータに基づいてトレーニングセット、テストセットを更新することは、第1サンプルデータにおいてそれぞれ一部のサンプルデータを抽出してトレーニングセットおよびテストセットに加え、更新後のトレーニングセットと更新後のテストセットを構成することを含み、
    第1サンプルデータにおいてそれぞれ一部のサンプルデータを抽出してトレーニングセットおよびテストセットに加え、更新後のトレーニングセットと更新後のテストセットを構成することは、
    前記第1サンプルデータにおいて、予め設定されたサンプリングレートで第2サンプルデータを抽出し、抽出された第2サンプルデータをトレーニングセットに加え、更新後のトレーニングセットを構成し、第2サンプルデータを除く第1サンプルデータをテストセットに加え、更新後のテストセットを構成することと、
    予め設定されたサンプリングレートを予め設定された減衰率で減衰更新し、減衰更新後のサンプリングレートを取得することと、
    更新されたトレーニングセットと更新されたテストセットに基づいて生体検出モデルをトレーニングすることと、
    トレーニングステップを反復的に実行し、生体検出モデルが予め設定された精度に収束したと判断すると、トレーニングを停止し、トレーニングされた生体検出モデルを出力することとを含む生体検出モデルのトレーニング方法。
  2. 前記生体検出モデルをトレーニングするためのトレーニングセットおよびテストセットを構築することは、混合データセットに基づいてトレーニングセットおよびテストセットを構築することを含み、前記混合データセットは新データおよび元データを含む請求項1に記載の方法。
  3. 前記混合データセットに基づいてトレーニングセットおよびテストセットを構築することは、前記混合データセットにおいてランダムサンプリングを行うことと、サンプリングされたデータをトレーニングセットとして構成することと、サンプリングされたデータ以外のデータをテストセットとして構成することとを含む、請求項2に記載の方法。
  4. 前記テスト結果に基づいて前記テストセットを分析し、第1サンプルデータを取得することは、
    テスト結果に基づいてテストセットにおけるデータを採点して予測スコアを取得し、前記予測スコアに基づいてテストセットにおけるデータをソーティングし、前記予測スコアが所定閾値を満たすデータを第1サンプルデータとして確定することを含む請求項1に記載の方法。
  5. 前記混合データセットにおいてランダムサンプリングを行うことは、予め設定されたハイパーパラメータの初期サンプリングレートに基づいて、前記混合データセットにおいてランダムサンプリングを行うことを含む請求項3に記載の方法。
  6. 前記ハイパーパラメータの初期サンプリングレートは、0%より大きくかつ50%より小さい値をとる請求項に記載の方法。
  7. 前記予め設定されたサンプリングレートは、0%より大きくかつ30%より小さい値をとる請求項に記載の方法。
  8. 生体検出モデルのトレーニング装置であって、
    生体検出モデルをトレーニングするためのトレーニングセットおよびテストセットを構築するための構築モジュールと、
    前記トレーニングセットに基づいて予め設定された生体検出モデルをトレーニングし、第1生体検出モデルを取得し、前記テストセットに基づいて第1生体検出モデルをトレーニングし、テスト結果を生成するためのトレーニングモジュールと、
    前記テスト結果に基づいて前記テストセットを分析し、第1サンプルデータを取得するためのサンプル取得モジュールと、
    第1サンプルデータに基づいて、トレーニングセット、テストセットを更新して、前記生体検出モデルをさらにトレーニングするための更新モジュールとを含み、
    前記更新モジュールは、第1サンプルデータにおいてそれぞれ一部のサンプルデータを抽出してトレーニングセットおよびテストセットに加え、更新後のトレーニングセットと更新後のテストセットを構成し、
    前記更新モジュールは、
    前記第1サンプルデータにおいて、予め設定されたサンプリングレートで第2サンプルデータを抽出し、抽出された第2サンプルデータをトレーニングセットに加え、更新後のトレーニングセットを構成し、第2サンプルデータを除く第1サンプルデータをテストセットに加え、更新後のテストセットを構成し、
    予め設定されたサンプリングレートを予め設定された減衰率で減衰更新し、減衰更新後のサンプリングレートを取得し、
    更新されたトレーニングセットと更新されたテストセットに基づいて生体検出モデルをトレーニングし、
    トレーニングステップを反復的に実行し、生体検出モデルが予め設定された精度に収束したと判断すると、トレーニングを停止し、最終的にトレーニングされた生体検出モデルを出力する生体検出モデルのトレーニング装置。
  9. 前記構築モジュールが生体検出モデルをトレーニングするためのトレーニングセットおよびテストセットを構築することは、混合データセットに基づいてトレーニングセットおよびテストセットを構築することを含み、前記混合データセットは新データおよび元データを含む請求項に記載の装置。
  10. 前記構築モジュールが混合データセットに基づいてトレーニングセットおよびテストセットを構築することは、前記混合データセットにおいてランダムサンプリングを行うことと、サンプリングされたデータをトレーニングセットとして構成することと、サンプリングされたデータ以外のデータをテストセットとして構成することとを含む請求項に記載の装置。
  11. 前記サンプル取得モジュールが前記テスト結果に基づいて前記テストセットを分析し、第1サンプルデータを取得することは、
    テスト結果に基づいてテストセットにおけるデータを採点して予測スコアを取得し、前記予測スコアに基づいてテストセットにおけるデータをソーティングし、前記予測スコアが所定閾値を満たすデータを第1サンプルデータとして確定することを含む請求項に記載の装置。
  12. 前記構築モジュールが前記混合データセットにおいてランダムサンプリングを行うことは、予め設定されたハイパーパラメータの初期サンプリングレートに基づいて、前記混合データセットにおいてランダムサンプリングを行うことを含む請求項10に記載の装置。
  13. 前記構築モジュールが予め設定されたハイパーパラメータの初期サンプリングレートに基づいて、前記混合データセットにおいてランダムサンプリングを行うことは、前記ハイパーパラメータの初期サンプリングレートが、0%より大きくかつ50%より小さい値をとることを含む請求項12に記載の装置。
  14. 前記サンプル取得モジュールは、0%より大きくかつ30%より小さい予め設定されたサンプルレートを予め設定された減衰率で減衰更新するために用いられる請求項に記載の装置。
  15. 電子機器であって、
    少なくとも1つのプロセッサ、および
    前記少なくとも1つのプロセッサに通信接続されたメモリを含み、
    前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに請求項1乃至7の何れかに記載の方法を実行させる電子機器。
  16. コンピュータに請求項1乃至7の何れかに記載の方法を実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体。
  17. プロセッサによって実行されると、請求項1乃至7の何れかに記載の方法を実現するコンピュータプログラム。
JP2022088153A 2021-09-02 2022-05-31 生体検出モデルのトレーニング方法、装置、電子機器および記憶媒体 Active JP7357114B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111026802.6A CN114120452A (zh) 2021-09-02 2021-09-02 一种活体检测模型训练方法、装置、电子设备及存储介质
CN202111026802.6 2021-09-02

Publications (2)

Publication Number Publication Date
JP2022116231A JP2022116231A (ja) 2022-08-09
JP7357114B2 true JP7357114B2 (ja) 2023-10-05

Family

ID=80441245

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022088153A Active JP7357114B2 (ja) 2021-09-02 2022-05-31 生体検出モデルのトレーニング方法、装置、電子機器および記憶媒体

Country Status (3)

Country Link
JP (1) JP7357114B2 (ja)
KR (1) KR20220078538A (ja)
CN (1) CN114120452A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114495291B (zh) * 2022-04-01 2022-07-12 杭州魔点科技有限公司 活体检测的方法、系统、电子装置和存储介质
CN115512813B (zh) * 2022-09-20 2023-08-04 海南金域医学检验中心有限公司 样本监测方法、模型训练方法、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017111731A (ja) 2015-12-18 2017-06-22 キヤノンマーケティングジャパン株式会社 情報処理システム、情報処理方法、プログラム
JP2017224184A (ja) 2016-06-16 2017-12-21 株式会社日立製作所 機械学習装置
US20200202253A1 (en) 2018-12-19 2020-06-25 Fronteo, Inc. Computer, configuration method, and program

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933414B (zh) * 2015-06-23 2018-06-05 中山大学 一种基于wld-top的活体人脸检测方法
CN108549854B (zh) * 2018-03-28 2019-04-30 中科博宏(北京)科技有限公司 一种人脸活体检测方法
CN110956255B (zh) * 2019-11-26 2023-04-07 中国医学科学院肿瘤医院 难样本挖掘方法、装置、电子设备及计算机可读存储介质
CN112215280B (zh) * 2020-10-12 2022-03-15 西安交通大学 一种基于元骨干网络的小样本图像分类方法
CN112348082B (zh) * 2020-11-06 2021-11-09 上海依智医疗技术有限公司 深度学习模型构建方法、影像处理方法及可读存储介质
CN112651458B (zh) * 2020-12-31 2024-04-02 深圳云天励飞技术股份有限公司 分类模型的训练方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017111731A (ja) 2015-12-18 2017-06-22 キヤノンマーケティングジャパン株式会社 情報処理システム、情報処理方法、プログラム
JP2017224184A (ja) 2016-06-16 2017-12-21 株式会社日立製作所 機械学習装置
US20200202253A1 (en) 2018-12-19 2020-06-25 Fronteo, Inc. Computer, configuration method, and program
JP2020101856A (ja) 2018-12-19 2020-07-02 株式会社Fronteo コンピュータ、構成方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
原 佑輔 ほか,車載カメラを用いたCNNによる方向別歩行者頭部検出法の提案 Proposal of Head Detection Method Based on CNN Using Drive Recorders,情報処理学会 研究報告 高度交通システムとスマートコミュニティ(ITS) 2016-ITS-067 [online] ,日本,情報処理学会,2017年

Also Published As

Publication number Publication date
KR20220078538A (ko) 2022-06-10
CN114120452A (zh) 2022-03-01
JP2022116231A (ja) 2022-08-09

Similar Documents

Publication Publication Date Title
CN112560501B (zh) 语义特征的生成方法、模型训练方法、装置、设备及介质
JP7357114B2 (ja) 生体検出モデルのトレーニング方法、装置、電子機器および記憶媒体
JP2022018095A (ja) マルチモーダル事前訓練モデル取得方法、装置、電子デバイス及び記憶媒体
CN114970522B (zh) 语言模型的预训练方法、装置、设备、存储介质
US20220374678A1 (en) Method for determining pre-training model, electronic device and storage medium
US20230084055A1 (en) Method for generating federated learning model
US20230073994A1 (en) Method for extracting text information, electronic device and storage medium
US20220237376A1 (en) Method, apparatus, electronic device and storage medium for text classification
WO2023178965A1 (zh) 一种意图识别方法、装置、电子设备及存储介质
US20230124389A1 (en) Model Determination Method and Electronic Device
CN112784589A (zh) 一种训练样本的生成方法、装置及电子设备
JP7369228B2 (ja) ユーザ興味画像の生成方法、装置、電子機器及び記憶媒体
CN114861059A (zh) 资源推荐方法、装置、电子设备及存储介质
US20230206007A1 (en) Method for mining conversation content and method for generating conversation content evaluation model
US20230070966A1 (en) Method for processing question, electronic device and storage medium
CN115186738B (zh) 模型训练方法、装置和存储介质
WO2022227760A1 (zh) 图像检索方法、装置、电子设备及计算机可读存储介质
EP4020327A2 (en) Method and apparatus for training data processing model, electronic device and storage medium
CN113641724B (zh) 知识标签挖掘方法、装置、电子设备及存储介质
CN114842541A (zh) 模型的训练及人脸识别方法、装置、设备以及存储介质
CN114119972A (zh) 模型获取及对象处理方法、装置、电子设备及存储介质
CN114358198A (zh) 实例分割方法、装置及电子设备
CN114281990A (zh) 文档分类方法及装置、电子设备和介质
CN113408632A (zh) 提高图像分类准确性的方法、装置、电子设备及存储介质
CN113033179A (zh) 知识获取方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220531

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230925

R150 Certificate of patent or registration of utility model

Ref document number: 7357114

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150