JP2022006189A - 画像処理方法、事前トレーニングモデルのトレーニング方法、装置及び電子機器 - Google Patents

画像処理方法、事前トレーニングモデルのトレーニング方法、装置及び電子機器 Download PDF

Info

Publication number
JP2022006189A
JP2022006189A JP2021178829A JP2021178829A JP2022006189A JP 2022006189 A JP2022006189 A JP 2022006189A JP 2021178829 A JP2021178829 A JP 2021178829A JP 2021178829 A JP2021178829 A JP 2021178829A JP 2022006189 A JP2022006189 A JP 2022006189A
Authority
JP
Japan
Prior art keywords
training
image
model
image processing
video clips
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021178829A
Other languages
English (en)
Other versions
JP7267379B2 (ja
Inventor
リ,チョウ
Chao Li
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022006189A publication Critical patent/JP2022006189A/ja
Application granted granted Critical
Publication of JP7267379B2 publication Critical patent/JP7267379B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

【課題】本出願は、画像処理方法、事前トレーニングモデルのトレーニング方法、装置、及び電子機器を開示し、深層学習、コンピュータビジョン技術の分野に関する。【解決手段】具体的な実現案は、以下のとおりである。トレーニングされた事前トレーニングモデルを取得し、当該事前トレーニングモデルが、トレーニングされた事前トレーニングモデルから出力された画像特徴が、第1の画像特徴距離と第2の画像特徴距離との差が最小であることを満たすように、複数のフレームのトレーニング画像を使用してトレーニングされ、さらに、汎用的な事前トレーニングモデル及びターゲット画像処理タスクに基づいて、対応する画像処理モデルを生成し、ターゲット処理タスクに対応する画像処理モデルの生成効率を向上させ、生成された画像処理モデルを使用して、ターゲット画像に対してターゲット画像処理タスクを実行し、画像処理モデルがターゲット画像処理タスクに対応するため、画像処理の効果と効率を向上させる。【選択図】図1

Description

本出願は、画像処理技術の分野に関し、具体的に深層学習、コンピュータビジョン技術の分野に関し、さらに、画像処理方法、事前トレーニングモデルのトレーニング方法、装置、及び電子機器に関する。
ニューラルネットワークに基づく画像処理技術は長年にわたって発展しており、画像処理のニーズに応じて、トレーニング済みの画像処理モデルを使用して画像処理と認識を行い、しかしながら、異なる画像処理タスクは、異なる画像処理ニーズを有し、決まった画像処理モデルを使用して画像処理を行うと、異なるシナリオにおける画像処理ニーズを満たすことができず、そのため、どのように画像処理の効果を高めるかは早急に解決すべき技術的課題である。
本出願は、画像処理の効果を向上させるための画像処理方法、事前トレーニングモデルのトレーニング方法、装置、及び電子機器を提供する。
本出願の一態様によれば、画像処理方法を提供し、トレーニングされた事前トレーニングモデルを取得するステップであって、前記事前トレーニングモデルは、トレーニングされた事前トレーニングモデルから出力された画像特徴が、第1の画像特徴距離と第2の画像特徴距離との差が最小であることを満たすように、複数のフレームのトレーニング画像を使用してトレーニングされ、前記第1の画像特徴距離は、同じビデオクリップから抽出されたトレーニング画像の画像特徴間の距離であり、前記第2の画像距離は、異なるビデオクリップから抽出されたトレーニング画像の画像特徴間の距離であるステップと、前記事前トレーニングモデルに基づいて、ターゲット画像処理タスクを実行する画像処理モデルを生成するステップと、前記画像処理モデルを使用して、ターゲット画像に対してターゲット画像処理タスクを実行するステップと、を含む。
本出願の別の態様によれば、事前トレーニングモデルのトレーニング方法を提供し、複数のビデオクリップを取得するステップと、前記複数のビデオクリップから複数フレームのトレーニング画像を抽出して、トレーニングセットを取得するステップであって、各前記ビデオクリップから少なくとも2フレームの前記トレーニング画像を抽出するステップと、前記トレーニングセットを使用して、画像特徴抽出のための事前トレーニングモデルに対してマルチラウンドのトレーニングを実行するステップと、を含み、各ラウンドのトレーニングは、前記トレーニングセットから、少なくとも2つのビデオクリップから抽出された各トレーニング画像を選択することと、このラウンドで選択された各前記トレーニング画像を前記事前トレーニングモデルに入力して、出力された画像特徴を取得することと、このラウンドで選択された各前記トレーニング画像の画像特徴に基づいて、同じビデオクリップに属するトレーニング画像間の第1の画像特徴距離を決定し、異なるビデオクリップに属するトレーニング画像間の第2の画像特徴距離を決定し、前記第1の画像特徴距離と前記第2の画像特徴距離とに基づいて、前記前記第1の画像特徴距離と前記第2の画像特徴距離との差が最小となるように、前記事前トレーニングモデルのモデルパラメータを調整することと、を含む。
本出願の別の態様によれば、画像処理装置を提供し、トレーニングされた事前トレーニングモデルを取得するための取得モジュールであって、前記事前トレーニングモデルは、トレーニングされた事前トレーニングモデルから出力された画像特徴が、第1の画像特徴距離と第2の画像特徴距離との差が最小であることを満たすように、複数のフレームのトレーニング画像を使用してトレーニングされ、前記第1の画像特徴距離は、同じビデオクリップから抽出されたトレーニング画像の画像特徴間の距離であり、前記第2の画像距離は、異なるビデオクリップから抽出されたトレーニング画像の画像特徴間の距離である取得モジュールと、前記事前トレーニングモデルに基づいて、ターゲット画像処理タスクを実行する画像処理モデルを生成するための生成モジュールと、前記画像処理モデルを使用して、ターゲット画像に対してターゲット画像処理タスクを実行するための処理モジュールと、を含む。
本出願の別の態様によれば、事前トレーニングモデルのトレーニング装置を提供し、複数のビデオクリップを取得するための取得モジュールと、前記複数のビデオクリップから複数フレームのトレーニング画像を抽出して、トレーニングセットを取得するための抽出モジュールであって、各前記ビデオクリップから少なくとも2フレームの前記トレーニング画像を抽出する抽出モジュールと、前記トレーニングセットを使用して、画像特徴抽出のための事前トレーニングモデルに対してマルチラウンドのトレーニングを実行するためのトレーニングモジュールと、を含み、各ラウンドのトレーニングは、前記トレーニングセットから、少なくとも2つのビデオクリップから抽出された各トレーニング画像を選択することと、このラウンドで選択された各前記トレーニング画像を前記事前トレーニングモデルに入力して、出力された画像特徴を取得することと、このラウンドで選択された各前記トレーニング画像の画像特徴に基づいて、同じビデオクリップに属するトレーニング画像間の第1の画像特徴距離を決定し、異なるビデオクリップに属するトレーニング画像間の第2の画像特徴距離を決定し、前記第1の画像特徴距離と前記第2の画像特徴距離とに基づいて、前記第1の画像特徴距離と前記第2の画像特徴距離との差が最小となるように、前記事前トレーニングモデルのモデルパラメータを調整することと、を含む。
本出願の別の態様によれば、電子機器を提供し、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが一態様に記載の画像処理方法、または別の態様に記載の事前トレーニングモデルのトレーニング方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
本出願の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに一態様に記載の画像処理方法、または別の態様に記載の事前トレーニングモデルのトレーニング方法を実行させる。
本出願の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータに一態様に記載の画像処理方法、または別の態様に記載の事前トレーニングモデルのトレーニング方法を実行させる。
なお、本部分に記載された内容は、本出願の実施例の肝心または重要な特徴を限定することを意図するものではなく、本出願の範囲を限定することを意図するものでもない。本出願の他の特徴は、以下の説明によって容易に理解されやすくなる。
図面は、本技術案をよりよく理解するために使用され、本出願を限定するものではない。
本出願の実施例によって提供される画像処理方法の概略フローチャートである。 本出願の実施例によって提供される別の画像処理方法の概略フローチャートである。 本出願の実施例によって提供される画像処理モデルの概略構成図である。 本出願の実施例によって提供される事前トレーニングモデルのトレーニング方法の概略フローチャートである。 本出願の実施例によって提供される画像処理す装置の概略構成図である。 本出願の実施例によって提供される事前トレーニングモデルのトレーニング装置の概略構成図である。 本出願の実施例に係る電子機器のブロック図である。
以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
以下、図面を参照して、本出願の実施例に係る画像処理方法、事前トレーニングモデルのトレーニング方法、装置、及び電子機器について説明する。
図1は、本出願の実施例によって提供される画像処理方法の概略フローチャートである。
図1に示すように、この方法は、以下のステップ101~103を含む。
ステップ101、トレーニングされた事前トレーニングモデルを取得し、事前トレーニングモデルは、トレーニングされた事前トレーニングモデルから出力された画像特徴が、第1画像特徴距離と第2画像特徴距離との差が最小であることを満たすように、複数のフレームのトレーニング画像を使用してトレーニングされ、ここで、第1の画像特徴距離は、同じビデオクリップから抽出されたトレーニング画像の画像特徴間の距離であり、第2の画像特徴距離は、異なるビデオクリップから抽出されたトレーニング画像の画像特徴間の距離である。
本実施例における事前トレーニングモデルは、トレーニングのときに、深層学習の方法によってトレーニングすることができ、他の機械学習方法と比較して、深層学習がビッグデータセット上のパフォーマンスがより良い。本実施例における事前トレーニングモデルは、複数のビデオクリップから抽出された複数フレームのトレーニング画像をトレーニングセットとして事前トレーニングモデルに入力し、事前トレーニングモデルから出力された結果が予め設定された閾値を満たすまで、事前トレーニングモデルに対して反復トレーニングを行うように事前トレーニングモデルのパラメータを継続的に調整し、その後、トレーニングが終了する手段を用いるため、大量の画像データに基づいて、汎用的な事前トレーニングモデルを生成することを実現し、そして、後続にこの汎用的な事前トレーニングモデルに基づいて、対応するターゲット画像処理モデルの生成効率を向上させることができる。
ここで、事前トレーニングモデルのトレーニング方法については、後続の事前トレーニングモデルのトレーニング方法についての実施例では詳細に説明するが、本実施例では説明を省略する。
ステップ102、事前トレーニングモデルに基づいて、ターゲット画像処理タスクを実行する画像処理モデルを生成する。
ターゲット画像処理タスクは、画像分類タスク、ターゲット検出タスク、またはオブジェクト認識タスクを含む。
本出願では、事前トレーニングモデルが生成された後、事前トレーニングモデルが予め生成された汎用モデルであるため、ターゲット画像処理タスクに対応する画像セットに基づいて、対応するターゲット画像処理タスクを実行する画像処理モデルを迅速に生成し、ターゲット画像処理タスクに対応する画像処理モデルの生成の効率を向上させる。
ここで、画像処理モデルは、畳み込みニューラルネットワークモデルCNN(Convolutional Neural Neural Networks,CNN)であってもよいし、深層ニューラルネットワークモデルDNN(Deep Neural Networks,DNN)であってもよく、本実施例では限定されない。
ステップ103、画像処理モデルを使用して、ターゲット画像に対してターゲット画像処理タスクを実行する。
本実施例の画像処理モデルは、事前トレーニングによって取得された汎用的な事前トレーニングモデルに基づいて生成された、ターゲット画像処理タスクに対応する画像処理モデルであり、モデルの生成効率を向上させるとともに、当該画像処理モデルを使用して、ターゲット画像に対してターゲット画像処理タスクを実行し、ターゲット画像処理タスクの実行効果と処理効率を向上させる。
本出願の実施例に係る画像処理方法では、トレーニングされた事前トレーニングモデルを取得し、ここで、当該事前トレーニングモデルは、トレーニングされた事前トレーニングモデルから出力された画像特徴が、第1の画像特徴距離と第2の画像特徴距離との差が最小であることを満たすように、複数のフレームのトレーニング画像を使用してトレーニングされる。さらに、汎用的な事前トレーニングモデルとターゲット画像処理タスクにより、対応する画像処理モデルを生成し、ターゲット処理タスクに対応する画像処理モデルの生成効率を向上させ、生成された画像処理モデルを使用して、ターゲット画像に対してターゲット画像処理タスクを実行し、画像処理モデルがターゲット画像処理タスクに対応するため、画像処理の効果と効率を向上させる。
上記実施例では、画像処理の効率を向上させるために、ターゲット画像処理タスク及び事前トレーニングモデルに基づいて、ターゲット画像処理タスクに対応する画像処理モデルを生成し、一実施形態として、画像処理タスクに基づいて、事前トレーニングモデルをトレーニングして、画像処理タスクに対応する画像処理モデルを生成することで、画像処理の効率を向上させることができる。別の可能な実施形態として、事前トレーニングモデルとターゲット処理タスクに対応するネットワーク層をスプライシングした後、トレーニングして、対応する画像処理モデルを取得することで、画像処理モデルの生成効率と画像処理の効果を向上させることもできる。
このため、上記実施例に基づいて、本実施例は、別の画像処理方法を提供し、図2は、本出願の実施例によって提供される別の画像処理方法の概略フローチャートであり、図2に示すように、上記ステップ102は、以下のステップ201~203を含む。
ステップ201、ターゲット画像処理タスクに対応するネットワーク層を取得する。
本出願では、取得されたネットワーク層とターゲット画像処理タスクとは、対応関係がある。
あるシナリオでは、ターゲット画像処理タスクが画像分類タスクである場合、対応するネットワーク層は分類層であり、ターゲット画像を分類するために用いられ、例えば、分類対象の画像に含まれる車両に対して、対応する車両カテゴリ、例えば乗用車、SUVなどを決定する。
別のシナリオでは、ターゲット画像処理タスクがターゲット検出タスクである場合、対応するネットワーク層は検出ネットワークであり、ターゲット画像に含まれるターゲット物体を認識するために用いられ、例えば、処理対象のターゲット画像に対して、画像に障害物が含まれているか否かを検出し、または、複数の画像に同じターゲット物体が含まれているか否かを検出する。
さらに別のシナリオでは、ターゲット画像処理タスクがオブジェクト認識タスクである場合、対応するネットワーク層は、画像における物体を認識するために用いられ、例えば、処理対象のターゲット画像に対して、画像における異なる領域に含まれる物体カテゴリを認識し、または、画像に含まれる物体の種類を認識する。
ステップ202、事前トレーニングモデルとネットワーク層をスプライシングし、ここで、ネットワーク層の入力は、事前トレーニングモデルから出力された画像特徴であり、ネットワーク層の出力は、ターゲット画像タスクの処理結果である。
本実施形態では、汎用的な事前トレーニングモデルが生成された後、事前トレーニングモデルとターゲット画像処理タスクに対応するネットワーク層をスプライシングし、図3に示すように、トレーニングによって取得された事前トレーニングモデルをとネットワーク層をスプライシングして、トレーニング対象の画像処理モデルを取得する。ここで、事前トレーニングモデルから出力された画像特徴をネットワーク層に入力し、ネットワーク層の出力は、ターゲット画像タスクの処理結果である。
ステップ203、ターゲット画像処理タスクのトレーニングセットを使用して、スプライシングされた事前トレーニングモデル及びネットワーク層をトレーニングして、画像処理モデルを取得する。
本実施例では、異なるターゲット画像処理タスクに対して、当該ターゲット画像処理タスクに対応する画像処理モデルを迅速に取得するために、ターゲット画像処理タスクに対応するトレーニングセットを使用して、スプライシングされた事前トレーニングモデル及びネットワーク層をトレーニングして、画像処理モデルを取得する。つまり、トレーニングによって取得された画像処理モデルとターゲット画像処理タスクは対応関係があり、事前にトレーニングに基づいて完了した汎用的な前処理モデルと対応するネットワーク層をスプライシングした後にトレーニングする。可能な一実施形態として、主にターゲット画像の処理タスクの要求に対して、ネットワーク層のパラメータを調整して、対応する画像処理モデルのトレーニング効率を向上させることができ、異なるターゲット画像処理タスクの処理ニーズを同時に満たし、異なるシナリオにおける処理ニーズを満たす。
本実施例の画像処理方法において、事前トレーニングに基づいて完了した汎用的な前処理モデルと対応するネットワーク層をスプライシングし、ここで、ネットワーク層の入力は事前トレーニングモデルから出力された画像特徴であり、ネットワーク層の出力はターゲット画像タスクの処理結果であり、さらにトレーニングを行い、トレーニングは主にターゲット画像処理タスクに対応するネットワークを対象としているため、トレーニングのデータ量が少なく、対応する画像処理モデルのトレーニング効率を向上させる。
上記実施例を実現するために、本実施例は、事前トレーニングモデルのトレーニング方法を提供する。
図4は、本出願の実施例によって提供される事前トレーニングモデルのトレーニング方法の概略フローチャートであり、図4に示すように、この方法は、以下のステップ401~403を含む。
ステップ401、複数のビデオクリップを取得する。
本出願の実施例の可能な一実施形態では、少なくとも1つのビデオを取得し、各ビデオをランダムに複数のビデオクリップに分割することができる。
可能な一実施形態では、より多くのビデオクリップを取得するために、複数のビデオを取得し、各ビデオにおける隣接する画像フレーム間のコンテンツの違いに基づいて、分割処理を行って、各ビデオの複数のビデオクリップを取得することができる。つまり、各ビデオに対してビデオクリップ分割を行う場合、分割して取得されたビデオクリップにおける各フレームのコンテンツは連続的に変化しており、ビデオクリップにおけるフレームの連続性を向上させる。
本出願の実施例の別の可能な実施形態では、1つのビデオを取得し、このビデオにおける隣接する画像フレーム間のコンテンツの違いに基づいて分割処理を行って、複数のビデオクリップを取得することができる。つまり、ビデオに対してビデオクリップ分割を行う場合、分割して取得されたビデオクリップにおける各フレームのコンテンツは連続的に変化しており、ビデオクリップにおけるフレームの連続性を向上させる。
図3に示すように、A、B、・・・・・Nはそれぞれ異なるビデオクリップである。
あるシナリオでは、これらの異なるビデオクリップは、1つのビデオクリップから分割して取得されたものであってもよい。別のシナリオでは、これらの異なるビデオクリップは、複数のビデオバンドから分割して取得されたものであってもよい。具体的には、トレーニングシナリオのニーズに応じて柔軟に設定することができ、本実施例では限定されない。
ステップ402、複数のビデオクリップから複数フレームのトレーニング画像を抽出して、トレーニングセットを取得し、ここで、各ビデオクリップから少なくとも2フレームのトレーニング画像を抽出する。
本実施例では、トレーニングセットは、複数のビデオクリップから抽出された複数フレームのトレーニング画像から構成される。可能な一実施形態として、各ビデオクリップからランダムに一定の数のトレーニング画像のフレーム数を抽出し、抽出されたビデオクリップのフレーム数を使用してトレーニングセットを構成する。ここで、各ビデオクリップから少なくとも2フレームのトレーニング画像を抽出する。
別の可能な実施形態として、モデルのトレーニング効果を向上させるために、各ビデオクリップから抽出されたトレーニング画像のフレーム数が同じであるため、トレーニングセットにおける各ビデオクリップのフレーム数分布の均一性を向上させ、そして、このトレーニングセットを通じて事前トレーニングモデルをトレーニングして、モデルパラメータを決定する際に各ビデオクリップが占める重みの割合が同じになるようにし、後続の事前トレーニングモデルのトレーニング効果を向上させる。
図3に示すように、AとBとNはそれぞれ異なるビデオクリップであり、本実施例では、各ビデオクリップから2フレームを抽出してトレーニング画像とすることを例として説明する。ここで、A1及びA2はビデオクリップAにおける2フレームであり、B1及びB2はビデオクリップBにおける2フレームであり、N1及びN2はビデオクリップNにおける2フレームである。
例えば、1つのビデオXで、このビデオクリップを分割して、ビデオクリップA、B、及びCである3つのビデオクリップを取得し、図3に示すように、NはCであり、各ビデオクリップから2フレームを抽出することを例として説明する。
ここで、ビデオクリップAでは、抽出された2フレームの画像はA1とA2であり、A1とA2は連続する2フレームである。ビデオクリップBでは、抽出された2フレームの画像はB1とB2であり、B1とB2は連続する2フレームである。ビデオクリップCでは、抽出された2フレームの画像はC1とC2であり、C1とC2は連続する2フレームである。さらに、画像フレームA1、A2、B1、B2、C1、及びC2をトレーニングセットとして構成する。
なお、実際の応用では、トレーニングセットに含まれる複数フレームのトレーニング画像の数は、本実施例にで説明される6フレームの画像に限定されず、トレーニングの精度ニーズに応じて柔軟に設定することができる。
ステップ403、トレーニングセットを使用して、画像特徴抽出のための事前トレーニングモデルに対してマルチラウンドのトレーニングを実行し、ここで、各ラウンドのトレーニングは、トレーニングセットから、少なくとも2つのビデオクリップから抽出された各トレーニング画像を選択し、このラウンドで選択された各トレーニング画像を事前トレーニングモデルに入力して、出力された画像特徴を取得し、このラウンドで選択された各トレーニング画像の画像特徴に基づいて、同じビデオクリップに属するトレーニング画像間の第1の画像特徴距離及び異なるビデオクリップに属するトレーニング画像間の第2の画像特徴距離を決定し、第1の画像特徴距離及び第2の画像特徴距離に基づいて、第1の画像特徴距離と第2の画像特徴距離との差が最小となるように、事前トレーニングモデルのモデルパラメータを調整し、その結果、トレーニングによって取得された事前トレーニングモデルが、異なるビデオクリップ間の関連関係を認識できる汎用的な事前トレーニングモデルとされることを含む。
本実施例では、トレーニングセットを使用して、事前トレーニングモデルに対してマルチラウンドのトレーニングを実行し、各ラウンドのトレーニングにおいて、モデルが収束するまで、認識結果に基づいてトレーニング効果を決定して、事前トレーニングモデルのパラメータを調整することで、事前トレーニングモデルがトレーニング画像の画像特徴を正確に生成できる。本実施例では、トレーニングセットにおけるトレーニング画像により、事前にトレーニングして汎用的な事前トレーニングモデルを取得し、事前トレーニングモデルから出力された画像特徴は、画像認識の汎用結果として、後続のターゲット画像認識タスクと組み合わせて、ターゲット画像認識タスクに対応する画像処理モデルを迅速に取得することを容易にし、画像処理モデルの生成効率を向上させることができる。
なお、トレーニングセットには、同じビデオに属する複数のビデオクリップが含まれ、異なるビデオに属する複数のビデオクリップも含まれるため、各ラウンドのトレーニングにおいて、トレーニングセットから、少なくとも2つのビデオクリップから抽出された各トレーニング画像を選択し、ここで、2つのビデオクリップは同じビデオに属してもよいし、異なるビデオに属してもよく、抽出されたトレーニング画像を使用して、異なるビデオクリップ間の関連関係を認識して、汎用的な事前トレーニングモデルとし、汎用的なモデルのロバスト性を向上させる。
本出願の実施例に係る事前トレーニングモデルのトレーニング方法では、取得された複数のビデオクリップからそれぞれ少なくとも2フレームのトレーニング画像を抽出して、複数フレームのトレーニング画像を取得して、トレーニングセットを取得し、トレーニングセットを通じて画像特徴抽出のための事前トレーニングモデルに対してマルチラウンドのトレーニングを実行し、各ラウンドのトレーニングにおいて、トレーニング画像に基づいて、画像特徴を取得し、同じビデオクリップに属する画像の画像特徴に基づいて、画像間の第1の画像特徴距離を取得し、異なるビデオクリップに属する画像の画像特徴に基づいて、画像間の第2の画像特徴距離を取得し、第1の画像特徴距離と第2の画像特徴距離の差が最小となるように、事前トレーニングモデルのパレメータを継続的に調整することで、汎用的な事前トレーニングモデルのトレーニングを実現し、事前トレーニングモデルによって認識された画像特徴の信頼性を向上させる。
上記の実施例に基づいて、本実施例は、別の事前トレーニングモデルのトレーニング方法を提供し、第1の画像特徴距離の計算の精度を向上させるために、同じビデオクリップに属するトレーニング画像間の第1の画像特徴距離をどのように決定するかを説明し、具体的には以下のステップによって実現することができる。
このラウンドのトレーニングで事前トレーニングモデルに入力されたトレーニング画像に対して、同じビデオクリップに属する異なるトレーニング画像の画像特徴間のクラス内特徴距離を決定し、このラウンドのトレーニングでトレーニングセットから選択された少なくとも2つのビデオクリップに対して、クラス内特徴距離の合計を決定して、第1の画像特徴距離を取得し、第1の画像距離によって同じビデオクリップに属する異なるトレーニング画像の画像特徴間の関連関係を示すことを実現する。
本出願の実施形態の可能な一実施形態では、例えば、選択されたトレーニング画像i1及びi2は同じビデオクリップiに属し、トレーニング画像i1及びi2を事前トレーニングモジュールに入力して、各トレーニング画像の画像特徴を取得し、それぞれhi1及びhi2として示す。さらに、同じビデオクリップiに属するトレーニング画像i1とi2の画像特徴hi1とhi2との間のクラス内特徴距離d(i1,i2)を計算し、さらに、このラウンドのトレーニングでトレーニングセットから選択された少なくとも2つのビデオクリップに対して、クラス内特徴距離の合計を決定して、第1画像特徴距離dist(内)を取得し、具体的には、以下の式によって実現される。
Figure 2022006189000002
ここで、iはビデオクリップであり、すなわち、ビデオクリップは1~nの自然数であり、nは2以上である。
本出願の実施例の別の可能な実施形態では、異なるシナリオのニーズを満たすために、同じビデオクリップに属する異なるトレーニング画像の画像特徴に対して、異なるトレーニング画像の画像特徴を分類し、すなわち、異なるトレーニング画像の画像特徴を異なるカテゴリに分割して、細分化された特徴認識を実現する。例えば、人物カテゴリに属する画像特徴、建物に属する画像特徴、または鼻カテゴリに属する画像特徴を決定し、さらに、異なるトレーニング画像に対して、任意の2つのトレーニング画像の画像特徴における同じカテゴリに対応する特徴に対してそれぞれカテゴリ間特徴距離を計算し、さらに、すべてのカテゴリ間特徴距離を合計して、同じビデオクリップに属するクラス内特徴距離を取得する。さらに、このラウンドのトレーニングでトレーニングセットから選択された少なくとも2つのビデオクリップに対して、クラス内特徴距離の合計を決定して、第1の画像特徴距離を取得し、第1の画像特徴距離の計算の精度を実現し、第1の画像特徴距離の計算の正確性を向上させる。
なお、上記画像特徴距離は、ユークリッド距離またはコサイン距離に基づいて計算できる。
上記実施例に基づいて、本実施例は、別の事前トレーニングモデルのトレーニング方法を提供し、第2の画像特徴距離の計算の精度を向上させるために、異なるビデオクリップに属するトレーニング画像間の第2の画像特徴距離をどのように決定するかを説明し、具体的には、以下のステップによって実現することができる。
このラウンドのトレーニングで事前トレーニングモデルに入力されたトレーニング画像に対して、異なるビデオクリップに属する異なるトレーニング画像の画像特徴間のクラス間特徴距離を決定し、このラウンドのトレーニングでトレーニングセットから選択された少なくとも2つのビデオクリップに対して、クラス間特徴距離の合計を決定して、第2の画像特徴距離を取得し、第2の画像距離によって異なるビデオクリップに属する異なるトレーニング画像の画像特徴間の関連関係を示すことを実現する。
本出願の実施例の可能な一実施形態では、例えば、選択されたトレーニング画像i1及びi2は同じビデオクリップiに属し、トレーニング画像j1及びj2は同じビデオクリップjに属し、トレーニング画像i1及びi2を事前トレーニングモジュールに入力して、各トレーニング画像の画像特徴を取得し、それぞれhi1及びhi2として示し、トレーニング画像j1及びj2を事前トレーニングモジュールに入力して、対応する画像特徴を取得し、それぞれhj1及びhj2として示す。さらに、異なるビデオクリップi及びjに属するトレーニング画像の画像特徴間のクラス間特徴距離を計算し、さらに、このラウンドのトレーニングでトレーニングセットから選択された少なくとも2つのビデオクリップに対して、クラス間特徴距離の合計を決定して、第2の画像特徴距離dist(間)を取得する。具体的には、以下の式によって実現されることができる。
Figure 2022006189000003
ここで、i及びjは異なるビデオクリップであり、nは2以上であり、d(hi1,hj1)は異なるビデオクリップi及びjにおけるトレーニング画像の画像特徴hi1とhj1との間のクラス間特徴距離であり、d(hi1,hj2)とd(hi2,hj1)とd(hi2,hj2)は異なるビデオクリップi及びjにおけるトレーニング画像の画像特徴間のクラス間特徴距離である。
なお、本実施例では、各ビデオクリップから2つのトレーニング画像を選択することを例として説明し、実際の応用では、各ビデオクリップにおける選択されたトレーニング画像の数は、トレーニングの需要に応じて柔軟に設定することができ、本実施例では限定されない。
本出願の実施例の他の可能な実施形態では、異なるシナリオのニーズを満たすために、異なるビデオクリップに属する異なるトレーニング画像の画像特徴に対して、異なるトレーニング画像の画像特徴を分類することができ、すなわち、異なるトレーニング画像の画像特徴を異なるカテゴリに分割して、細分化された特徴認識を実現することができる。例えば、人物カテゴリに属する画像特徴、建物に属する画像特徴、または鼻カテゴリに属する画像特徴を決定し、さらに、異なるビデオクリップに属するトレーニング画像に対して、任意の2つのトレーニング画像の画像特徴における同じカテゴリに対応する特徴に対してそれぞれカテゴリ間特徴距離を計算し、さらに、すべてのカテゴリ間特徴距離を合計して、異なるビデオクリップに属する異なるトレーニング画像のクラス間特徴距離を取得する。さらに、このラウンドのトレーニングでトレーニングセットから選択された少なくとも2つのビデオクリップに対して、クラス間特徴距離の合計を決定して、第2の画像特徴距離を取得し、第2の画像特徴距離の計算の精度を実現し、第2の画像特徴距離の計算の正確性を向上させる。
なお、上記画像特徴距離は、ユークリッド距離またはコサイン距離に基づいて計算できる。
上記実施例を実現するために、本出願は、画像処理装置をさらに提供する。
図5は、本出願の実施例によって提供される画像処理装置の概略構成図である。
図5に示すように、取得モジュール51と、生成モジュール52と、処理モジュール53とを含む。
取得モジュール51は、トレーニングされた事前トレーニングモデルを取得し、当該事前トレーニングモデルは、トレーニングされた事前トレーニングモデルから出力された画像特徴が、第1の画像特徴距離と第2の画像特徴距離との差が最小であることを満たすように、複数のフレームのトレーニング画像を使用してトレーニングされ、第1の画像特徴距離は、同じビデオクリップから抽出されたトレーニング画像の画像特徴間の距離であり、第2の画像特徴距離は、異なるビデオクリップから抽出されたトレーニング画像の画像特徴間の距離である。
生成モジュール52は、事前トレーニングモデルに基づいて、ターゲット画像処理タスクを実行する画像処理モデルを生成する。
処理モジュール53は、画像処理モデルを使用して、ターゲット画像に対してターゲット画像処理タスクを実行する。
さらに、本出願の実施例の可能な一実施形態では、生成モジュール52は、具体的には、ターゲット画像処理タスクに対応するネットワーク層を取得し、事前トレーニングモデルとネットワーク層をスプライシングし、ここで、ネットワーク層の入力は、事前トレーニングモデルから出力された画像特徴であり、ネットワーク層の出力は、ターゲット画像タスクの処理結果であり、ターゲット画像処理タスクのトレーニングセットを使用して、スプライシングされた事前トレーニングモデル及びネットワーク層をトレーニングして、画像処理モデルを取得する。
本出願の実施例の可能な一実施形態では、ターゲット画像処理タスクは、画像分類タスク、ターゲット検出タスク、またはオブジェクト認識タスクを含む。
なお、上記画像処理方法の実施例についての説明は、本実施例の画像処理装置にも適用されており、原理は同じであり、ここでは説明を省略する。
本出願の実施例に係る画像処理装置では、トレーニングされた事前トレーニングモデルを取得し、ここで、当該事前トレーニングモデルは、トレーニングされた事前トレーニングモデルから出力された画像特徴が、第1の画像特徴距離と第2の画像特徴距離との差が最小であることを満たすように、複数のフレームのトレーニング画像を使用してトレーニングされ、さらに、汎用的な事前トレーニングモデル及びターゲット画像処理タスクに基づいて、対応する画像処理モデルを生成し、ターゲット処理タスクに対応する画像処理モデルの生成効率を向上させ、生成された画像処理モデルを使用して、ターゲット画像に対してターゲット画像処理タスクを実行し、画像処理モデルがターゲット画像処理タスクに対応するため、画像処理の効果と効率を向上させる。
上記実施例を実現するために、本実施例は、事前トレーニングモデルのトレーニング装置を提供する。
図6は、本出願の実施例によって提供される事前トレーニングモデルのトレーニング装置の概略構成図である。図6に示すように、この装置は、取得モジュール61と、抽出モジュール62と、トレーニングモジュール63とを含む。
取得モジュール61は、複数のビデオクリップを取得する。
抽出モジュール62は、複数のビデオクリップから複数フレームのトレーニング画像を抽出して、トレーニングセットを取得し、ここで、各ビデオクリップから少なくとも2フレームのトレーニング画像を抽出する。
トレーニングモジュール63は、トレーニングセットを使用して、画像特徴抽出のための事前トレーニングモデルに対してマルチラウンドのトレーニングを実行し、ここで、各ラウンドのトレーニングは、トレーニングセットから、少なくとも2つのビデオクリップから抽出された各トレーニング画像を選択することと、このラウンドで選択された各トレーニング画像を事前トレーニングモデルに入力して、出力された画像特徴を取得することと、このラウンドで選択された各トレーニング画像の画像特徴に基づいて、同じビデオクリップに属するトレーニング画像間の第1の画像特徴距離、及び異なるビデオクリップに属するトレーニング画像間の第2の画像特徴距離を決定し、第1の画像特徴距離及び第2の画像特徴距離に基づいて、第1の画像特徴距離と第2の画像特徴距離との差が最小となるように、事前トレーニングモデルのモデルパラメータを調整することと、を含む。
本出願の実施例の可能な一実施形態では、トレーニングモジュール63は、具体的に、このラウンドのトレーニングで前記事前トレーニングモデルに入力されたトレーニング画像に対して、同じビデオクリップに属する異なるトレーニング画像の画像特徴間のクラス内特徴距離を決定し、このラウンドのトレーニングで前記トレーニングセットから選択された少なくとも2つのビデオクリップに対して、前記クラス内特徴距離の合計を決定して、前記第1の画像特徴距離を取得する。
本出願の実施例の可能な一実施形態では、トレーニングモジュール63は、具体的に、このラウンドのトレーニングで前記事前トレーニングモデルに入力されたトレーニング画像に対して、異なるビデオクリップに属する異なるトレーニング画像の画像特徴間のクラス間特徴距離を決定し、このラウンドのトレーニングで前記トレーニングセットから選択された少なくとも2つのビデオクリップに対して、前記クラス間特徴距離の合計を決定して、前記第2の画像特徴距離を取得する。
本出願の実施例の可能な一実施形態では、各前記ビデオクリップから抽出されたトレーニング画像のフレーム数は同じである。
本出願の可能な一実施形態では、取得モジュール61は、具体的に、複数のビデオを取得し、各前記ビデオにおける隣接する画像フレーム間のコンテンツの違いに基づいて分割処理を行って、各前記ビデオの複数のビデオクリップを取得する。
本出願の実施例に係る事前トレーニングモデルのトレーニング装置では、取得された複数のビデオクリップからそれぞれ少なくとも2フレームのトレーニング画像を抽出して、複数フレームのトレーニング画像を取得して、トレーニングセットを取得し、トレーニングセットを通じて画像特徴抽出のための事前トレーニングモデルに対してマルチラウンドのトレーニングを実行し、各ラウンドのトレーニングにおいて、トレーニング画像に基づいて、画像特徴を取得し、同じビデオクリップに属する画像の画像特徴に基づいて、画像間の第1の画像特徴距離を取得し、異なるビデオクリップに属する画像の画像特徴に基づいて、画像間の第2の画像特徴距離を取得し、第1の画像特徴距離と第2の画像特徴距離の差が最小となるように、事前トレーニングモデルのパレメータを継続的に調整し、汎用的な事前トレーニングモデルのトレーニングを実現し、事前トレーニングモデルによって認識された画像特徴の信頼性を向上させる。
上記実施例を実現するために、本出願の実施例は、電子機器を提供し、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが前記方法の実施例に記載の画像処理方法、または前記方法の実施例に記載のトレーニング方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
上記実施例を実現するために、本出願の実施例は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、前記コンピュータ命令は、コンピュータに前記方法の実施例に記載の画像処理方法、または前記方法の実施例に記載のトレーニング方法を実行させる。
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
本出願の実施例によれば、本出願は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本出願によって提供される画像処理方法、または事前トレーニングモデルのトレーニング方法を実行させる。
図7に示すように、本出願の実施形態に係る電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図したものではない。
図7に示すように、当該電子機器は、1つ又は複数のプロセッサ701と、メモリ702と、高速インターフェースと低速インターフェースを含む、各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリ内又はメモリに記憶されている命令を含む、電子機器内で実行される命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、部分的な必要な操作(例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする)を提供する。図7では、1つのプロセッサ701を例とする。
メモリ702は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、少なくとも1つのプロセッサが本出願により提供される画像処理方法を実行するように、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本出願により提供される画像処理方法を実行させるためのコンピュータ命令が記憶されている。
メモリ702は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例における画像処理方法に対応するプログラム命令/モジュール(例えば、図5に示す取得モジュール51、生成モジュール52、処理モジュール53、)のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ701は、メモリ702に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施例における画像処理方法を実現する。
メモリ702は、プログラム記憶領域とデータ記憶領域とを含むことができ、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、画像処理方法の電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ702は、高速ランダムアクセスメモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも1つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ702は、プロセッサ701に対して遠隔に設定されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介してこの電子機器に接続されることができる。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
画像処理方法の電子機器は、入力装置703と出力装置704とをさらに含むことができる。プロセッサ701、メモリ702、入力装置703、及び出力装置704は、バス又は他の方式を介して接続することができ、図8では、バスによる接続を例とする。
入力装置703は、入力された数字又は文字情報を受信し、この電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置804は、ディスプレイデバイス、補助照明デバイス(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。
本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施され、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高度プロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書に使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供することもでき、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。
本出願の実施例の技術案によれば、トレーニングされた事前トレーニングモデルを取得し、ここで、当該事前トレーニングモデルは、トレーニングされた事前トレーニングモデルから出力された画像特徴が第1の画像特徴距離と第2の画像特徴距離との差が最小であることを満たすように、複数のフレームのトレーニング画像を使用してトレーニングされ、さらに、汎用的な事前トレーニングモデル及びターゲット画像処理タスクに基づいて、対応する画像処理モデルを生成し、ターゲット処理タスクに対応する画像処理モデルの生成効率を向上させ、生成された画像処理モデルを使用して、ターゲット画像に対してターゲット画像処理タスクを実行し、画像処理モデルがターゲット画像処理タスクに対応するため、画像処理の効果と効率を向上させる。
なお、この電子機器は、本出願の事前トレーニングモデルのトレーニング方法を実施することもできる、原理は同じであり、ここでは説明を省略する。
なお、上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。
上記具体的な実施形態は、本出願に対する保護範囲を限定するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本願の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (19)

  1. 画像処理方法であって、
    トレーニングされた事前トレーニングモデルを取得するステップであって、前記事前トレーニングモデルは、トレーニングされた事前トレーニングモデルから出力された画像特徴が、第1の画像特徴距離と第2の画像特徴距離との差が最小であることを満たすように、複数のフレームのトレーニング画像を使用してトレーニングされ、前記第1の画像特徴距離は、同じビデオクリップから抽出されたトレーニング画像の画像特徴間の距離であり、前記第2の画像距離は、異なるビデオクリップから抽出されたトレーニング画像の画像特徴間の距離であるステップと、
    前記事前トレーニングモデルに基づいて、ターゲット画像処理タスクを実行する画像処理モデルを生成するステップと、
    前記画像処理モデルを使用して、ターゲット画像に対してターゲット画像処理タスクを実行するステップと、を含む。
    ことを特徴とする画像処理方法。
  2. 前記事前トレーニングモデルに基づいて、ターゲット画像処理タスクを実行する画像処理モデルを生成するステップは、
    前記ターゲット画像処理タスクに対応するネットワーク層を取得するステップと、
    前記事前トレーニングモデルと前記ネットワーク層をスプライシングするステップであって、前記ネットワーク層の入力は、前記事前トレーニングモデルから出力された画像特徴であり、前記ネットワーク層の出力は、前記ターゲット画像タスクの処理結果であるステップと、
    前記ターゲット画像処理タスクのトレーニングセットを使用して、スプライシングされた前記事前トレーニングモデル及び前記ネットワーク層をトレーニングして、前記画像処理モデルを取得するステップと、を含む、
    ことを特徴とする請求項1に記載の画像処理方法。
  3. 前記ターゲット画像処理タスクは、画像分類タスク、ターゲット検出タスク、またはオブジェクト認識タスクを含む、
    ことを特徴とする請求項1または2に記載の画像処理方法。
  4. 事前トレーニングモデルのトレーニング方法であって、
    複数のビデオクリップを取得するステップと、
    前記複数のビデオクリップから複数フレームのトレーニング画像を抽出して、トレーニングセットを取得するステップであって、各前記ビデオクリップから少なくとも2フレームの前記トレーニング画像を抽出するステップと、
    前記トレーニングセットを使用して、画像特徴抽出のための事前トレーニングモデルに対してマルチラウンドのトレーニングを実行するステップと、を含み、
    各ラウンドのトレーニングは、前記トレーニングセットから、少なくとも2つのビデオクリップから抽出された各トレーニング画像を選択することと、このラウンドで選択された各前記トレーニング画像を前記事前トレーニングモデルに入力して、出力された画像特徴を取得することと、このラウンドで選択された各前記トレーニング画像の画像特徴に基づいて、同じビデオクリップに属するトレーニング画像間の第1の画像特徴距離を決定し、異なるビデオクリップに属するトレーニング画像間の第2の画像特徴距離を決定し、前記第1の画像特徴距離及び前記第2の画像特徴距離に基づいて、前記第1の画像特徴距離と前記第2の画像特徴距離との差が最小となるように、前記事前トレーニングモデルのモデルパラメータを調整することと、を含む、
    ことを特徴とする事前トレーニングモデルのトレーニング方法。
  5. 前記同じビデオクリップに属するトレーニング画像間の第1の画像特徴距離を決定するステップは、
    このラウンドのトレーニングで前記事前トレーニングモデルに入力されたトレーニング画像に対して、同じビデオクリップに属する異なるトレーニング画像の画像特徴間のクラス内特徴距離を決定するステップと、
    このラウンドのトレーニングで前記トレーニングセットから選択された少なくとも2つのビデオクリップに対して、前記クラス内特徴距離の合計を決定して、前記第1の画像特徴距離を取得するステップと、を含む、
    ことを特徴とする請求項4に記載のトレーニング方法。
  6. 前記異なるビデオクリップに属するトレーニング画像間の第2の画像特徴距離を決定するステップは、
    このラウンドのトレーニングで前記事前トレーニングモデルに入力されたトレーニング画像に対して、異なるビデオクリップに属する異なるトレーニング画像の画像特徴間のクラス間特徴距離を決定するステップと、
    このラウンドのトレーニングで前記トレーニングセットから選択された少なくとも2つのビデオクリップに対して、前記クラス間特徴距離の合計を決定して、前記第2の画像特徴距離を取得するステップと、を含む、
    ことを特徴とする請求項4に記載のトレーニング方法。
  7. 各前記ビデオクリップから抽出されたトレーニング画像のフレーム数は同じである、
    ことを特徴とする請求項4~6のいずれかに記載のトレーニング方法。
  8. 前記複数のビデオクリップを取得するステップは、
    複数のビデオを取得するステップと、
    各前記ビデオにおける隣接する画像フレーム間のコンテンツの違いに基づいて分割処理を行って、各前記ビデオの複数のビデオクリップを取得するステップと、を含む、
    ことを特徴とする請求項4~6のいずれかに記載のトレーニング方法。
  9. 画像処理装置であって、
    トレーニングされた事前トレーニングモデルを取得するための取得モジュールであって、前記事前トレーニングモデルは、トレーニングされた事前トレーニングモデルから出力された画像特徴が、第1の画像特徴距離と第2の画像特徴距離との差が最小であることを満たすように、複数のフレームのトレーニング画像を使用してトレーニングされ、前記第1の画像特徴距離は、同じビデオクリップから抽出されたトレーニング画像の画像特徴間の距離であり、前記第2の画像距離は、異なるビデオクリップから抽出されたトレーニング画像の画像特徴間の距離である取得モジュールと、
    前記事前トレーニングモデルに基づいて、ターゲット画像処理タスクを実行する画像処理モデルを生成するための生成モジュールと、
    前記画像処理モデルを使用して、ターゲット画像に対してターゲット画像処理タスクを実行するための処理モジュールと、を含む、
    ことを特徴とする画像処理装置。
  10. 前記生成モジュールが、
    前記ターゲット画像処理タスクに対応するネットワーク層を取得し、
    前記事前トレーニングモデルとネットワーク層をスプライシングし、前記ネットワーク層の入力が前記事前トレーニングモデルから出力された画像特徴であり、前記ネットワーク層の出力が前記ターゲット画像タスクの処理結果であり、
    前記ターゲット画像処理タスクのトレーニングセットを使用して、スプライシングされた前記事前トレーニングモデル及び前記ネットワーク層をトレーニングして、前記画像処理モデルを取得する、
    ことを特徴とする請求項9に記載の画像処理装置。
  11. 前記ターゲット画像処理タスクは、画像分類タスク、ターゲット検出タスク、またはオブジェクト認識タスクを含む、
    ことを特徴とする請求項9または10に記載の画像処理装置。
  12. 事前トレーニングモデルのトレーニング装置であって、
    複数のビデオクリップを取得するための取得モジュールと、
    前記複数のビデオクリップから複数フレームのトレーニング画像を抽出して、トレーニングセットを取得するための抽出モジュールであって、各前記ビデオクリップから少なくとも2フレームの前記トレーニング画像を抽出する抽出モジュールと、
    前記トレーニングセットを使用して、画像特徴抽出のための事前トレーニングモデルに対してマルチラウンドのトレーニングを実行するためのトレーニングモジュールと、を含み、
    各ラウンドのトレーニングは、前記トレーニングセットから、少なくとも2つのビデオクリップから抽出された各トレーニング画像を選択することと、このラウンドで選択された各前記トレーニング画像を前記事前トレーニングモデルに入力して、出力された画像特徴を取得することと、このラウンドで選択された各前記トレーニング画像の画像特徴に基づいて、同じビデオクリップに属するトレーニング画像間の第1の画像特徴距離を決定し、異なるビデオクリップに属するトレーニング画像間の第2の画像特徴距離を決定し、前記第1の画像特徴距離及び前記第2の画像特徴距離に基づいて、前記第1の画像特徴距離と前記第2の画像特徴距離との差が最小となるように、前記事前トレーニングモデルのモデルパラメータを調整することと、を含む、
    ことを特徴とする事前トレーニングモデルのトレーニング装置。
  13. 前記トレーニングモジュールが、
    このラウンドのトレーニングで前記事前トレーニングモデルに入力されたトレーニング画像に対して、同じビデオクリップに属する異なるトレーニング画像の画像特徴間のクラス内特徴距離を決定し、
    このラウンドのトレーニングで前記トレーニングセットから選択された少なくとも2つのビデオクリップに対して、前記クラス内特徴距離の合計を決定して、前記第1の画像特徴距離を取得する、
    ことを特徴とする請求項12に記載のトレーニング装置。
  14. 前記トレーニングモジュールが、
    このラウンドのトレーニングで前記事前トレーニングモデルに入力されたトレーニング画像に対して、異なるビデオクリップに属する異なるトレーニング画像の画像特徴間のクラス間特徴距離を決定し、
    このラウンドのトレーニングで前記トレーニングセットから選択された少なくとも2つのビデオクリップに対して、前記クラス間特徴距離の合計を決定して、前記第2の画像特徴距離を取得する、
    ことを特徴とする請求項12に記載のトレーニング装置。
  15. 各前記ビデオクリップから抽出されたトレーニング画像のフレーム数は同じである、
    ことを特徴とする請求項12~14のいずれかに記載のトレーニング装置。
  16. 前記取得モジュールが、
    複数のビデオを取得し、各前記ビデオにおける隣接する画像フレーム間のコンテンツの違いに基づいて分割処理を行って、各前記ビデオの複数のビデオクリップを取得する、
    ことを特徴とする請求項12~14のいずれかに記載のトレーニング装置。
  17. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが請求項1~3のいずれかに記載の画像処理方法、または請求項4~8のいずれかに記載の事前トレーニングモデルのトレーニング方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
    ことを特徴とする電子機器。
  18. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1~3のいずれかに記載の画像処理方法、または請求項4~8のいずれかに記載の事前トレーニングモデルのトレーニング方法を実行させる、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  19. コンピュータプログラムであって、
    前記コンピュータプログラムは、コンピュータに請求項1~3のいずれかに記載の画像処理方法、または請求項4~8のいずれかに記載の事前トレーニングモデルのトレーニング方法を実行させる、
    ことを特徴とするコンピュータプログラム。
JP2021178829A 2020-11-10 2021-11-01 画像処理方法、事前トレーニングモデルのトレーニング方法、装置及び電子機器 Active JP7267379B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011249923.2A CN112561053B (zh) 2020-11-10 2020-11-10 图像处理方法、预训练模型的训练方法、装置和电子设备
CN202011249923.2 2020-11-10

Publications (2)

Publication Number Publication Date
JP2022006189A true JP2022006189A (ja) 2022-01-12
JP7267379B2 JP7267379B2 (ja) 2023-05-01

Family

ID=75041883

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021178829A Active JP7267379B2 (ja) 2020-11-10 2021-11-01 画像処理方法、事前トレーニングモデルのトレーニング方法、装置及び電子機器

Country Status (2)

Country Link
JP (1) JP7267379B2 (ja)
CN (1) CN112561053B (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114445683A (zh) * 2022-01-29 2022-05-06 北京百度网讯科技有限公司 属性识别模型训练、属性识别方法、装置及设备
CN114494784A (zh) * 2022-01-28 2022-05-13 北京百度网讯科技有限公司 深度学习模型的训练方法、图像处理方法和对象识别方法
CN116664966A (zh) * 2023-03-27 2023-08-29 北京鹰之眼智能健康科技有限公司 一种红外图像处理系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11501105B2 (en) * 2018-03-02 2022-11-15 Zoox, Inc. Automatic creation and updating of maps

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008136466A1 (ja) * 2007-05-01 2008-11-13 Dep Co., Ltd. 動画編集装置
CN109523526A (zh) * 2018-11-08 2019-03-26 腾讯科技(深圳)有限公司 组织结节检测及其模型训练方法、装置、设备和系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108235770B (zh) * 2017-12-29 2021-10-19 达闼机器人有限公司 图像识别方法及云端系统
CN109063719B (zh) * 2018-04-23 2022-02-01 湖北工业大学 一种联合结构相似性和类信息的图像分类方法
US10970823B2 (en) * 2018-07-06 2021-04-06 Mitsubishi Electric Research Laboratories, Inc. System and method for detecting motion anomalies in video
CN109101602B (zh) * 2018-08-01 2023-09-12 腾讯科技(深圳)有限公司 图像检索模型训练方法、图像检索方法、设备及存储介质
CN109165566B (zh) * 2018-08-01 2021-04-27 中国计量大学 一种基于新型损失函数的人脸识别卷积神经网络训练方法
US10551846B1 (en) * 2019-01-25 2020-02-04 StradVision, Inc. Learning method and learning device for improving segmentation performance to be used for detecting road user events using double embedding configuration in multi-camera system and testing method and testing device using the same
CN109918532B (zh) * 2019-03-08 2023-08-18 苏州大学 图像检索方法、装置、设备及计算机可读存储介质
CN110188641B (zh) * 2019-05-20 2022-02-01 北京迈格威科技有限公司 图像识别和神经网络模型的训练方法、装置和系统
CN111242026B (zh) * 2020-01-13 2022-07-12 中国矿业大学 一种基于空间层次感知模块和度量学习的遥感图像目标检测方法
CN111553428B (zh) * 2020-04-30 2024-01-12 北京百度网讯科技有限公司 用于训练判别模型的方法、装置、设备及可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008136466A1 (ja) * 2007-05-01 2008-11-13 Dep Co., Ltd. 動画編集装置
CN109523526A (zh) * 2018-11-08 2019-03-26 腾讯科技(深圳)有限公司 组织结节检测及其模型训练方法、装置、设备和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ARTEM ROZANTSEV ET AL.: "Beyond Sharing Weights for Deep Domain Adaptation", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 41, no. 4, JPN6022051790, 8 March 2018 (2018-03-08), US, pages 801 - 814, XP011712935, ISSN: 0004938187, DOI: 10.1109/TPAMI.2018.2814042 *
遠藤 大樹 外2名: "脳MRI画像からの3D CNNを用いたアルツハイマー病の識別に関する検討", 映像情報メディア学会技術報告, vol. 第44巻 第20号, JPN6022051791, 31 August 2020 (2020-08-31), JP, pages 1 - 4, ISSN: 0004938188 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114494784A (zh) * 2022-01-28 2022-05-13 北京百度网讯科技有限公司 深度学习模型的训练方法、图像处理方法和对象识别方法
CN114445683A (zh) * 2022-01-29 2022-05-06 北京百度网讯科技有限公司 属性识别模型训练、属性识别方法、装置及设备
CN116664966A (zh) * 2023-03-27 2023-08-29 北京鹰之眼智能健康科技有限公司 一种红外图像处理系统
CN116664966B (zh) * 2023-03-27 2024-02-20 北京鹰之眼智能健康科技有限公司 一种红外图像处理系统

Also Published As

Publication number Publication date
CN112561053A (zh) 2021-03-26
CN112561053B (zh) 2023-09-08
JP7267379B2 (ja) 2023-05-01

Similar Documents

Publication Publication Date Title
JP2022006189A (ja) 画像処理方法、事前トレーニングモデルのトレーニング方法、装置及び電子機器
KR102484617B1 (ko) 이종 그래프 노드를 표현하는 모델 생성 방법, 장치, 전자 기기, 저장 매체 및 프로그램
US20210209446A1 (en) Method for generating user interactive information processing model and method for processing user interactive information
JP2021089739A (ja) 質問応答処理、言語モデルの訓練方法、装置、機器および記憶媒体
KR20210037619A (ko) 멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체
US11790553B2 (en) Method and apparatus for detecting target object, electronic device and storage medium
CN111539514A (zh) 用于生成神经网络的结构的方法和装置
JP2021119381A (ja) 音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品
JP2021184237A (ja) データセット処理方法、装置、電子機器及び記憶媒体
CN111967256B (zh) 事件关系的生成方法、装置、电子设备和存储介质
JP2022018095A (ja) マルチモーダル事前訓練モデル取得方法、装置、電子デバイス及び記憶媒体
CN111582375B (zh) 数据增强策略搜索方法、装置、设备以及存储介质
US20210319262A1 (en) Model training, image processing method, device, storage medium, and program product
CN111144108A (zh) 情感倾向性分析模型的建模方法、装置和电子设备
JP2021111334A (ja) 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器
CN111709252B (zh) 基于预训练的语义模型的模型改进方法及装置
US11610389B2 (en) Method and apparatus for positioning key point, device, and storage medium
US20220027575A1 (en) Method of predicting emotional style of dialogue, electronic device, and storage medium
US11646050B2 (en) Method and apparatus for extracting video clip
US20220068265A1 (en) Method for displaying streaming speech recognition result, electronic device, and storage medium
CN112507090A (zh) 用于输出信息的方法、装置、设备和存储介质
US20220004812A1 (en) Image processing method, method for training pre-training model, and electronic device
US20220076470A1 (en) Methods and apparatuses for generating model and generating 3d animation, devices and storage mediums
EP3901905B1 (en) Method and apparatus for processing image
CN112270169B (zh) 对白角色预测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211101

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230302

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230419

R150 Certificate of patent or registration of utility model

Ref document number: 7267379

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150