JP2022006189A

JP2022006189A - 画像処理方法、事前トレーニングモデルのトレーニング方法、装置及び電子機器

Info

Publication number: JP2022006189A
Application number: JP2021178829A
Authority: JP
Inventors: リ，チョウ; Chao Li
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-10
Filing date: 2021-11-01
Publication date: 2022-01-12
Anticipated expiration: 2041-11-01
Also published as: CN112561053A; CN112561053B; JP7267379B2

Abstract

【課題】本出願は、画像処理方法、事前トレーニングモデルのトレーニング方法、装置、及び電子機器を開示し、深層学習、コンピュータビジョン技術の分野に関する。【解決手段】具体的な実現案は、以下のとおりである。トレーニングされた事前トレーニングモデルを取得し、当該事前トレーニングモデルが、トレーニングされた事前トレーニングモデルから出力された画像特徴が、第１の画像特徴距離と第２の画像特徴距離との差が最小であることを満たすように、複数のフレームのトレーニング画像を使用してトレーニングされ、さらに、汎用的な事前トレーニングモデル及びターゲット画像処理タスクに基づいて、対応する画像処理モデルを生成し、ターゲット処理タスクに対応する画像処理モデルの生成効率を向上させ、生成された画像処理モデルを使用して、ターゲット画像に対してターゲット画像処理タスクを実行し、画像処理モデルがターゲット画像処理タスクに対応するため、画像処理の効果と効率を向上させる。【選択図】図１

Description

本出願は、画像処理技術の分野に関し、具体的に深層学習、コンピュータビジョン技術の分野に関し、さらに、画像処理方法、事前トレーニングモデルのトレーニング方法、装置、及び電子機器に関する。

ニューラルネットワークに基づく画像処理技術は長年にわたって発展しており、画像処理のニーズに応じて、トレーニング済みの画像処理モデルを使用して画像処理と認識を行い、しかしながら、異なる画像処理タスクは、異なる画像処理ニーズを有し、決まった画像処理モデルを使用して画像処理を行うと、異なるシナリオにおける画像処理ニーズを満たすことができず、そのため、どのように画像処理の効果を高めるかは早急に解決すべき技術的課題である。

本出願は、画像処理の効果を向上させるための画像処理方法、事前トレーニングモデルのトレーニング方法、装置、及び電子機器を提供する。

本出願の一態様によれば、画像処理方法を提供し、トレーニングされた事前トレーニングモデルを取得するステップであって、前記事前トレーニングモデルは、トレーニングされた事前トレーニングモデルから出力された画像特徴が、第１の画像特徴距離と第２の画像特徴距離との差が最小であることを満たすように、複数のフレームのトレーニング画像を使用してトレーニングされ、前記第１の画像特徴距離は、同じビデオクリップから抽出されたトレーニング画像の画像特徴間の距離であり、前記第２の画像距離は、異なるビデオクリップから抽出されたトレーニング画像の画像特徴間の距離であるステップと、前記事前トレーニングモデルに基づいて、ターゲット画像処理タスクを実行する画像処理モデルを生成するステップと、前記画像処理モデルを使用して、ターゲット画像に対してターゲット画像処理タスクを実行するステップと、を含む。

本出願の別の態様によれば、事前トレーニングモデルのトレーニング方法を提供し、複数のビデオクリップを取得するステップと、前記複数のビデオクリップから複数フレームのトレーニング画像を抽出して、トレーニングセットを取得するステップであって、各前記ビデオクリップから少なくとも２フレームの前記トレーニング画像を抽出するステップと、前記トレーニングセットを使用して、画像特徴抽出のための事前トレーニングモデルに対してマルチラウンドのトレーニングを実行するステップと、を含み、各ラウンドのトレーニングは、前記トレーニングセットから、少なくとも２つのビデオクリップから抽出された各トレーニング画像を選択することと、このラウンドで選択された各前記トレーニング画像を前記事前トレーニングモデルに入力して、出力された画像特徴を取得することと、このラウンドで選択された各前記トレーニング画像の画像特徴に基づいて、同じビデオクリップに属するトレーニング画像間の第１の画像特徴距離を決定し、異なるビデオクリップに属するトレーニング画像間の第２の画像特徴距離を決定し、前記第１の画像特徴距離と前記第２の画像特徴距離とに基づいて、前記前記第１の画像特徴距離と前記第２の画像特徴距離との差が最小となるように、前記事前トレーニングモデルのモデルパラメータを調整することと、を含む。

本出願の別の態様によれば、画像処理装置を提供し、トレーニングされた事前トレーニングモデルを取得するための取得モジュールであって、前記事前トレーニングモデルは、トレーニングされた事前トレーニングモデルから出力された画像特徴が、第１の画像特徴距離と第２の画像特徴距離との差が最小であることを満たすように、複数のフレームのトレーニング画像を使用してトレーニングされ、前記第１の画像特徴距離は、同じビデオクリップから抽出されたトレーニング画像の画像特徴間の距離であり、前記第２の画像距離は、異なるビデオクリップから抽出されたトレーニング画像の画像特徴間の距離である取得モジュールと、前記事前トレーニングモデルに基づいて、ターゲット画像処理タスクを実行する画像処理モデルを生成するための生成モジュールと、前記画像処理モデルを使用して、ターゲット画像に対してターゲット画像処理タスクを実行するための処理モジュールと、を含む。

本出願の別の態様によれば、事前トレーニングモデルのトレーニング装置を提供し、複数のビデオクリップを取得するための取得モジュールと、前記複数のビデオクリップから複数フレームのトレーニング画像を抽出して、トレーニングセットを取得するための抽出モジュールであって、各前記ビデオクリップから少なくとも２フレームの前記トレーニング画像を抽出する抽出モジュールと、前記トレーニングセットを使用して、画像特徴抽出のための事前トレーニングモデルに対してマルチラウンドのトレーニングを実行するためのトレーニングモジュールと、を含み、各ラウンドのトレーニングは、前記トレーニングセットから、少なくとも２つのビデオクリップから抽出された各トレーニング画像を選択することと、このラウンドで選択された各前記トレーニング画像を前記事前トレーニングモデルに入力して、出力された画像特徴を取得することと、このラウンドで選択された各前記トレーニング画像の画像特徴に基づいて、同じビデオクリップに属するトレーニング画像間の第１の画像特徴距離を決定し、異なるビデオクリップに属するトレーニング画像間の第２の画像特徴距離を決定し、前記第１の画像特徴距離と前記第２の画像特徴距離とに基づいて、前記第１の画像特徴距離と前記第２の画像特徴距離との差が最小となるように、前記事前トレーニングモデルのモデルパラメータを調整することと、を含む。

本出願の別の態様によれば、電子機器を提供し、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが一態様に記載の画像処理方法、または別の態様に記載の事前トレーニングモデルのトレーニング方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

本出願の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに一態様に記載の画像処理方法、または別の態様に記載の事前トレーニングモデルのトレーニング方法を実行させる。
本出願の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータに一態様に記載の画像処理方法、または別の態様に記載の事前トレーニングモデルのトレーニング方法を実行させる。

なお、本部分に記載された内容は、本出願の実施例の肝心または重要な特徴を限定することを意図するものではなく、本出願の範囲を限定することを意図するものでもない。本出願の他の特徴は、以下の説明によって容易に理解されやすくなる。

図面は、本技術案をよりよく理解するために使用され、本出願を限定するものではない。
本出願の実施例によって提供される画像処理方法の概略フローチャートである。本出願の実施例によって提供される別の画像処理方法の概略フローチャートである。本出願の実施例によって提供される画像処理モデルの概略構成図である。本出願の実施例によって提供される事前トレーニングモデルのトレーニング方法の概略フローチャートである。本出願の実施例によって提供される画像処理す装置の概略構成図である。本出願の実施例によって提供される事前トレーニングモデルのトレーニング装置の概略構成図である。本出願の実施例に係る電子機器のブロック図である。

以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

以下、図面を参照して、本出願の実施例に係る画像処理方法、事前トレーニングモデルのトレーニング方法、装置、及び電子機器について説明する。

図１は、本出願の実施例によって提供される画像処理方法の概略フローチャートである。

図１に示すように、この方法は、以下のステップ１０１～１０３を含む。

ステップ１０１、トレーニングされた事前トレーニングモデルを取得し、事前トレーニングモデルは、トレーニングされた事前トレーニングモデルから出力された画像特徴が、第１画像特徴距離と第２画像特徴距離との差が最小であることを満たすように、複数のフレームのトレーニング画像を使用してトレーニングされ、ここで、第１の画像特徴距離は、同じビデオクリップから抽出されたトレーニング画像の画像特徴間の距離であり、第２の画像特徴距離は、異なるビデオクリップから抽出されたトレーニング画像の画像特徴間の距離である。

本実施例における事前トレーニングモデルは、トレーニングのときに、深層学習の方法によってトレーニングすることができ、他の機械学習方法と比較して、深層学習がビッグデータセット上のパフォーマンスがより良い。本実施例における事前トレーニングモデルは、複数のビデオクリップから抽出された複数フレームのトレーニング画像をトレーニングセットとして事前トレーニングモデルに入力し、事前トレーニングモデルから出力された結果が予め設定された閾値を満たすまで、事前トレーニングモデルに対して反復トレーニングを行うように事前トレーニングモデルのパラメータを継続的に調整し、その後、トレーニングが終了する手段を用いるため、大量の画像データに基づいて、汎用的な事前トレーニングモデルを生成することを実現し、そして、後続にこの汎用的な事前トレーニングモデルに基づいて、対応するターゲット画像処理モデルの生成効率を向上させることができる。

ここで、事前トレーニングモデルのトレーニング方法については、後続の事前トレーニングモデルのトレーニング方法についての実施例では詳細に説明するが、本実施例では説明を省略する。

ステップ１０２、事前トレーニングモデルに基づいて、ターゲット画像処理タスクを実行する画像処理モデルを生成する。

ターゲット画像処理タスクは、画像分類タスク、ターゲット検出タスク、またはオブジェクト認識タスクを含む。

本出願では、事前トレーニングモデルが生成された後、事前トレーニングモデルが予め生成された汎用モデルであるため、ターゲット画像処理タスクに対応する画像セットに基づいて、対応するターゲット画像処理タスクを実行する画像処理モデルを迅速に生成し、ターゲット画像処理タスクに対応する画像処理モデルの生成の効率を向上させる。

ここで、画像処理モデルは、畳み込みニューラルネットワークモデルＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ＣＮＮ）であってもよいし、深層ニューラルネットワークモデルＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ＤＮＮ）であってもよく、本実施例では限定されない。

ステップ１０３、画像処理モデルを使用して、ターゲット画像に対してターゲット画像処理タスクを実行する。

本実施例の画像処理モデルは、事前トレーニングによって取得された汎用的な事前トレーニングモデルに基づいて生成された、ターゲット画像処理タスクに対応する画像処理モデルであり、モデルの生成効率を向上させるとともに、当該画像処理モデルを使用して、ターゲット画像に対してターゲット画像処理タスクを実行し、ターゲット画像処理タスクの実行効果と処理効率を向上させる。

本出願の実施例に係る画像処理方法では、トレーニングされた事前トレーニングモデルを取得し、ここで、当該事前トレーニングモデルは、トレーニングされた事前トレーニングモデルから出力された画像特徴が、第１の画像特徴距離と第２の画像特徴距離との差が最小であることを満たすように、複数のフレームのトレーニング画像を使用してトレーニングされる。さらに、汎用的な事前トレーニングモデルとターゲット画像処理タスクにより、対応する画像処理モデルを生成し、ターゲット処理タスクに対応する画像処理モデルの生成効率を向上させ、生成された画像処理モデルを使用して、ターゲット画像に対してターゲット画像処理タスクを実行し、画像処理モデルがターゲット画像処理タスクに対応するため、画像処理の効果と効率を向上させる。

上記実施例では、画像処理の効率を向上させるために、ターゲット画像処理タスク及び事前トレーニングモデルに基づいて、ターゲット画像処理タスクに対応する画像処理モデルを生成し、一実施形態として、画像処理タスクに基づいて、事前トレーニングモデルをトレーニングして、画像処理タスクに対応する画像処理モデルを生成することで、画像処理の効率を向上させることができる。別の可能な実施形態として、事前トレーニングモデルとターゲット処理タスクに対応するネットワーク層をスプライシングした後、トレーニングして、対応する画像処理モデルを取得することで、画像処理モデルの生成効率と画像処理の効果を向上させることもできる。

このため、上記実施例に基づいて、本実施例は、別の画像処理方法を提供し、図２は、本出願の実施例によって提供される別の画像処理方法の概略フローチャートであり、図２に示すように、上記ステップ１０２は、以下のステップ２０１～２０３を含む。

ステップ２０１、ターゲット画像処理タスクに対応するネットワーク層を取得する。

本出願では、取得されたネットワーク層とターゲット画像処理タスクとは、対応関係がある。

あるシナリオでは、ターゲット画像処理タスクが画像分類タスクである場合、対応するネットワーク層は分類層であり、ターゲット画像を分類するために用いられ、例えば、分類対象の画像に含まれる車両に対して、対応する車両カテゴリ、例えば乗用車、ＳＵＶなどを決定する。

別のシナリオでは、ターゲット画像処理タスクがターゲット検出タスクである場合、対応するネットワーク層は検出ネットワークであり、ターゲット画像に含まれるターゲット物体を認識するために用いられ、例えば、処理対象のターゲット画像に対して、画像に障害物が含まれているか否かを検出し、または、複数の画像に同じターゲット物体が含まれているか否かを検出する。

さらに別のシナリオでは、ターゲット画像処理タスクがオブジェクト認識タスクである場合、対応するネットワーク層は、画像における物体を認識するために用いられ、例えば、処理対象のターゲット画像に対して、画像における異なる領域に含まれる物体カテゴリを認識し、または、画像に含まれる物体の種類を認識する。

ステップ２０２、事前トレーニングモデルとネットワーク層をスプライシングし、ここで、ネットワーク層の入力は、事前トレーニングモデルから出力された画像特徴であり、ネットワーク層の出力は、ターゲット画像タスクの処理結果である。

本実施形態では、汎用的な事前トレーニングモデルが生成された後、事前トレーニングモデルとターゲット画像処理タスクに対応するネットワーク層をスプライシングし、図３に示すように、トレーニングによって取得された事前トレーニングモデルをとネットワーク層をスプライシングして、トレーニング対象の画像処理モデルを取得する。ここで、事前トレーニングモデルから出力された画像特徴をネットワーク層に入力し、ネットワーク層の出力は、ターゲット画像タスクの処理結果である。

ステップ２０３、ターゲット画像処理タスクのトレーニングセットを使用して、スプライシングされた事前トレーニングモデル及びネットワーク層をトレーニングして、画像処理モデルを取得する。

本実施例では、異なるターゲット画像処理タスクに対して、当該ターゲット画像処理タスクに対応する画像処理モデルを迅速に取得するために、ターゲット画像処理タスクに対応するトレーニングセットを使用して、スプライシングされた事前トレーニングモデル及びネットワーク層をトレーニングして、画像処理モデルを取得する。つまり、トレーニングによって取得された画像処理モデルとターゲット画像処理タスクは対応関係があり、事前にトレーニングに基づいて完了した汎用的な前処理モデルと対応するネットワーク層をスプライシングした後にトレーニングする。可能な一実施形態として、主にターゲット画像の処理タスクの要求に対して、ネットワーク層のパラメータを調整して、対応する画像処理モデルのトレーニング効率を向上させることができ、異なるターゲット画像処理タスクの処理ニーズを同時に満たし、異なるシナリオにおける処理ニーズを満たす。

本実施例の画像処理方法において、事前トレーニングに基づいて完了した汎用的な前処理モデルと対応するネットワーク層をスプライシングし、ここで、ネットワーク層の入力は事前トレーニングモデルから出力された画像特徴であり、ネットワーク層の出力はターゲット画像タスクの処理結果であり、さらにトレーニングを行い、トレーニングは主にターゲット画像処理タスクに対応するネットワークを対象としているため、トレーニングのデータ量が少なく、対応する画像処理モデルのトレーニング効率を向上させる。

上記実施例を実現するために、本実施例は、事前トレーニングモデルのトレーニング方法を提供する。

図４は、本出願の実施例によって提供される事前トレーニングモデルのトレーニング方法の概略フローチャートであり、図４に示すように、この方法は、以下のステップ４０１～４０３を含む。

ステップ４０１、複数のビデオクリップを取得する。

本出願の実施例の可能な一実施形態では、少なくとも１つのビデオを取得し、各ビデオをランダムに複数のビデオクリップに分割することができる。

可能な一実施形態では、より多くのビデオクリップを取得するために、複数のビデオを取得し、各ビデオにおける隣接する画像フレーム間のコンテンツの違いに基づいて、分割処理を行って、各ビデオの複数のビデオクリップを取得することができる。つまり、各ビデオに対してビデオクリップ分割を行う場合、分割して取得されたビデオクリップにおける各フレームのコンテンツは連続的に変化しており、ビデオクリップにおけるフレームの連続性を向上させる。

本出願の実施例の別の可能な実施形態では、１つのビデオを取得し、このビデオにおける隣接する画像フレーム間のコンテンツの違いに基づいて分割処理を行って、複数のビデオクリップを取得することができる。つまり、ビデオに対してビデオクリップ分割を行う場合、分割して取得されたビデオクリップにおける各フレームのコンテンツは連続的に変化しており、ビデオクリップにおけるフレームの連続性を向上させる。

図３に示すように、Ａ、Ｂ、・・・・・Ｎはそれぞれ異なるビデオクリップである。

あるシナリオでは、これらの異なるビデオクリップは、１つのビデオクリップから分割して取得されたものであってもよい。別のシナリオでは、これらの異なるビデオクリップは、複数のビデオバンドから分割して取得されたものであってもよい。具体的には、トレーニングシナリオのニーズに応じて柔軟に設定することができ、本実施例では限定されない。

ステップ４０２、複数のビデオクリップから複数フレームのトレーニング画像を抽出して、トレーニングセットを取得し、ここで、各ビデオクリップから少なくとも２フレームのトレーニング画像を抽出する。

本実施例では、トレーニングセットは、複数のビデオクリップから抽出された複数フレームのトレーニング画像から構成される。可能な一実施形態として、各ビデオクリップからランダムに一定の数のトレーニング画像のフレーム数を抽出し、抽出されたビデオクリップのフレーム数を使用してトレーニングセットを構成する。ここで、各ビデオクリップから少なくとも２フレームのトレーニング画像を抽出する。

別の可能な実施形態として、モデルのトレーニング効果を向上させるために、各ビデオクリップから抽出されたトレーニング画像のフレーム数が同じであるため、トレーニングセットにおける各ビデオクリップのフレーム数分布の均一性を向上させ、そして、このトレーニングセットを通じて事前トレーニングモデルをトレーニングして、モデルパラメータを決定する際に各ビデオクリップが占める重みの割合が同じになるようにし、後続の事前トレーニングモデルのトレーニング効果を向上させる。

図３に示すように、ＡとＢとＮはそれぞれ異なるビデオクリップであり、本実施例では、各ビデオクリップから２フレームを抽出してトレーニング画像とすることを例として説明する。ここで、Ａ１及びＡ２はビデオクリップＡにおける２フレームであり、Ｂ１及びＢ２はビデオクリップＢにおける２フレームであり、Ｎ１及びＮ２はビデオクリップＮにおける２フレームである。

例えば、１つのビデオＸで、このビデオクリップを分割して、ビデオクリップＡ、Ｂ、及びＣである３つのビデオクリップを取得し、図３に示すように、ＮはＣであり、各ビデオクリップから２フレームを抽出することを例として説明する。

ここで、ビデオクリップＡでは、抽出された２フレームの画像はＡ１とＡ２であり、Ａ１とＡ２は連続する２フレームである。ビデオクリップＢでは、抽出された２フレームの画像はＢ１とＢ２であり、Ｂ１とＢ２は連続する２フレームである。ビデオクリップＣでは、抽出された２フレームの画像はＣ１とＣ２であり、Ｃ１とＣ２は連続する２フレームである。さらに、画像フレームＡ１、Ａ２、Ｂ１、Ｂ２、Ｃ１、及びＣ２をトレーニングセットとして構成する。

なお、実際の応用では、トレーニングセットに含まれる複数フレームのトレーニング画像の数は、本実施例にで説明される６フレームの画像に限定されず、トレーニングの精度ニーズに応じて柔軟に設定することができる。

ステップ４０３、トレーニングセットを使用して、画像特徴抽出のための事前トレーニングモデルに対してマルチラウンドのトレーニングを実行し、ここで、各ラウンドのトレーニングは、トレーニングセットから、少なくとも２つのビデオクリップから抽出された各トレーニング画像を選択し、このラウンドで選択された各トレーニング画像を事前トレーニングモデルに入力して、出力された画像特徴を取得し、このラウンドで選択された各トレーニング画像の画像特徴に基づいて、同じビデオクリップに属するトレーニング画像間の第１の画像特徴距離及び異なるビデオクリップに属するトレーニング画像間の第２の画像特徴距離を決定し、第１の画像特徴距離及び第２の画像特徴距離に基づいて、第１の画像特徴距離と第２の画像特徴距離との差が最小となるように、事前トレーニングモデルのモデルパラメータを調整し、その結果、トレーニングによって取得された事前トレーニングモデルが、異なるビデオクリップ間の関連関係を認識できる汎用的な事前トレーニングモデルとされることを含む。

本実施例では、トレーニングセットを使用して、事前トレーニングモデルに対してマルチラウンドのトレーニングを実行し、各ラウンドのトレーニングにおいて、モデルが収束するまで、認識結果に基づいてトレーニング効果を決定して、事前トレーニングモデルのパラメータを調整することで、事前トレーニングモデルがトレーニング画像の画像特徴を正確に生成できる。本実施例では、トレーニングセットにおけるトレーニング画像により、事前にトレーニングして汎用的な事前トレーニングモデルを取得し、事前トレーニングモデルから出力された画像特徴は、画像認識の汎用結果として、後続のターゲット画像認識タスクと組み合わせて、ターゲット画像認識タスクに対応する画像処理モデルを迅速に取得することを容易にし、画像処理モデルの生成効率を向上させることができる。

なお、トレーニングセットには、同じビデオに属する複数のビデオクリップが含まれ、異なるビデオに属する複数のビデオクリップも含まれるため、各ラウンドのトレーニングにおいて、トレーニングセットから、少なくとも２つのビデオクリップから抽出された各トレーニング画像を選択し、ここで、２つのビデオクリップは同じビデオに属してもよいし、異なるビデオに属してもよく、抽出されたトレーニング画像を使用して、異なるビデオクリップ間の関連関係を認識して、汎用的な事前トレーニングモデルとし、汎用的なモデルのロバスト性を向上させる。

本出願の実施例に係る事前トレーニングモデルのトレーニング方法では、取得された複数のビデオクリップからそれぞれ少なくとも２フレームのトレーニング画像を抽出して、複数フレームのトレーニング画像を取得して、トレーニングセットを取得し、トレーニングセットを通じて画像特徴抽出のための事前トレーニングモデルに対してマルチラウンドのトレーニングを実行し、各ラウンドのトレーニングにおいて、トレーニング画像に基づいて、画像特徴を取得し、同じビデオクリップに属する画像の画像特徴に基づいて、画像間の第１の画像特徴距離を取得し、異なるビデオクリップに属する画像の画像特徴に基づいて、画像間の第２の画像特徴距離を取得し、第１の画像特徴距離と第２の画像特徴距離の差が最小となるように、事前トレーニングモデルのパレメータを継続的に調整することで、汎用的な事前トレーニングモデルのトレーニングを実現し、事前トレーニングモデルによって認識された画像特徴の信頼性を向上させる。

上記の実施例に基づいて、本実施例は、別の事前トレーニングモデルのトレーニング方法を提供し、第１の画像特徴距離の計算の精度を向上させるために、同じビデオクリップに属するトレーニング画像間の第１の画像特徴距離をどのように決定するかを説明し、具体的には以下のステップによって実現することができる。

このラウンドのトレーニングで事前トレーニングモデルに入力されたトレーニング画像に対して、同じビデオクリップに属する異なるトレーニング画像の画像特徴間のクラス内特徴距離を決定し、このラウンドのトレーニングでトレーニングセットから選択された少なくとも２つのビデオクリップに対して、クラス内特徴距離の合計を決定して、第１の画像特徴距離を取得し、第１の画像距離によって同じビデオクリップに属する異なるトレーニング画像の画像特徴間の関連関係を示すことを実現する。

本出願の実施形態の可能な一実施形態では、例えば、選択されたトレーニング画像ｉ１及びｉ２は同じビデオクリップｉに属し、トレーニング画像ｉ１及びｉ２を事前トレーニングモジュールに入力して、各トレーニング画像の画像特徴を取得し、それぞれｈｉ１及びｈｉ２として示す。さらに、同じビデオクリップｉに属するトレーニング画像ｉ１とｉ２の画像特徴ｈｉ１とｈｉ２との間のクラス内特徴距離ｄ（ｉ１，ｉ２）を計算し、さらに、このラウンドのトレーニングでトレーニングセットから選択された少なくとも２つのビデオクリップに対して、クラス内特徴距離の合計を決定して、第１画像特徴距離ｄｉｓｔ（内）を取得し、具体的には、以下の式によって実現される。

ここで、ｉはビデオクリップであり、すなわち、ビデオクリップは１～ｎの自然数であり、ｎは２以上である。

本出願の実施例の別の可能な実施形態では、異なるシナリオのニーズを満たすために、同じビデオクリップに属する異なるトレーニング画像の画像特徴に対して、異なるトレーニング画像の画像特徴を分類し、すなわち、異なるトレーニング画像の画像特徴を異なるカテゴリに分割して、細分化された特徴認識を実現する。例えば、人物カテゴリに属する画像特徴、建物に属する画像特徴、または鼻カテゴリに属する画像特徴を決定し、さらに、異なるトレーニング画像に対して、任意の２つのトレーニング画像の画像特徴における同じカテゴリに対応する特徴に対してそれぞれカテゴリ間特徴距離を計算し、さらに、すべてのカテゴリ間特徴距離を合計して、同じビデオクリップに属するクラス内特徴距離を取得する。さらに、このラウンドのトレーニングでトレーニングセットから選択された少なくとも２つのビデオクリップに対して、クラス内特徴距離の合計を決定して、第１の画像特徴距離を取得し、第１の画像特徴距離の計算の精度を実現し、第１の画像特徴距離の計算の正確性を向上させる。

なお、上記画像特徴距離は、ユークリッド距離またはコサイン距離に基づいて計算できる。

上記実施例に基づいて、本実施例は、別の事前トレーニングモデルのトレーニング方法を提供し、第２の画像特徴距離の計算の精度を向上させるために、異なるビデオクリップに属するトレーニング画像間の第２の画像特徴距離をどのように決定するかを説明し、具体的には、以下のステップによって実現することができる。

このラウンドのトレーニングで事前トレーニングモデルに入力されたトレーニング画像に対して、異なるビデオクリップに属する異なるトレーニング画像の画像特徴間のクラス間特徴距離を決定し、このラウンドのトレーニングでトレーニングセットから選択された少なくとも２つのビデオクリップに対して、クラス間特徴距離の合計を決定して、第２の画像特徴距離を取得し、第２の画像距離によって異なるビデオクリップに属する異なるトレーニング画像の画像特徴間の関連関係を示すことを実現する。

本出願の実施例の可能な一実施形態では、例えば、選択されたトレーニング画像ｉ１及びｉ２は同じビデオクリップｉに属し、トレーニング画像ｊ１及びｊ２は同じビデオクリップｊに属し、トレーニング画像ｉ１及びｉ２を事前トレーニングモジュールに入力して、各トレーニング画像の画像特徴を取得し、それぞれｈｉ１及びｈｉ２として示し、トレーニング画像ｊ１及びｊ２を事前トレーニングモジュールに入力して、対応する画像特徴を取得し、それぞれｈｊ１及びｈｊ２として示す。さらに、異なるビデオクリップｉ及びｊに属するトレーニング画像の画像特徴間のクラス間特徴距離を計算し、さらに、このラウンドのトレーニングでトレーニングセットから選択された少なくとも２つのビデオクリップに対して、クラス間特徴距離の合計を決定して、第２の画像特徴距離ｄｉｓｔ（間）を取得する。具体的には、以下の式によって実現されることができる。

ここで、ｉ及びｊは異なるビデオクリップであり、ｎは２以上であり、ｄ（ｈｉ１，ｈｊ１）は異なるビデオクリップｉ及びｊにおけるトレーニング画像の画像特徴ｈｉ１とｈｊ１との間のクラス間特徴距離であり、ｄ（ｈｉ１，ｈｊ２）とｄ（ｈｉ２，ｈｊ１）とｄ（ｈｉ２，ｈｊ２）は異なるビデオクリップｉ及びｊにおけるトレーニング画像の画像特徴間のクラス間特徴距離である。

なお、本実施例では、各ビデオクリップから２つのトレーニング画像を選択することを例として説明し、実際の応用では、各ビデオクリップにおける選択されたトレーニング画像の数は、トレーニングの需要に応じて柔軟に設定することができ、本実施例では限定されない。

本出願の実施例の他の可能な実施形態では、異なるシナリオのニーズを満たすために、異なるビデオクリップに属する異なるトレーニング画像の画像特徴に対して、異なるトレーニング画像の画像特徴を分類することができ、すなわち、異なるトレーニング画像の画像特徴を異なるカテゴリに分割して、細分化された特徴認識を実現することができる。例えば、人物カテゴリに属する画像特徴、建物に属する画像特徴、または鼻カテゴリに属する画像特徴を決定し、さらに、異なるビデオクリップに属するトレーニング画像に対して、任意の２つのトレーニング画像の画像特徴における同じカテゴリに対応する特徴に対してそれぞれカテゴリ間特徴距離を計算し、さらに、すべてのカテゴリ間特徴距離を合計して、異なるビデオクリップに属する異なるトレーニング画像のクラス間特徴距離を取得する。さらに、このラウンドのトレーニングでトレーニングセットから選択された少なくとも２つのビデオクリップに対して、クラス間特徴距離の合計を決定して、第２の画像特徴距離を取得し、第２の画像特徴距離の計算の精度を実現し、第２の画像特徴距離の計算の正確性を向上させる。

上記実施例を実現するために、本出願は、画像処理装置をさらに提供する。

図５は、本出願の実施例によって提供される画像処理装置の概略構成図である。

図５に示すように、取得モジュール５１と、生成モジュール５２と、処理モジュール５３とを含む。

取得モジュール５１は、トレーニングされた事前トレーニングモデルを取得し、当該事前トレーニングモデルは、トレーニングされた事前トレーニングモデルから出力された画像特徴が、第１の画像特徴距離と第２の画像特徴距離との差が最小であることを満たすように、複数のフレームのトレーニング画像を使用してトレーニングされ、第１の画像特徴距離は、同じビデオクリップから抽出されたトレーニング画像の画像特徴間の距離であり、第２の画像特徴距離は、異なるビデオクリップから抽出されたトレーニング画像の画像特徴間の距離である。

生成モジュール５２は、事前トレーニングモデルに基づいて、ターゲット画像処理タスクを実行する画像処理モデルを生成する。

処理モジュール５３は、画像処理モデルを使用して、ターゲット画像に対してターゲット画像処理タスクを実行する。

さらに、本出願の実施例の可能な一実施形態では、生成モジュール５２は、具体的には、ターゲット画像処理タスクに対応するネットワーク層を取得し、事前トレーニングモデルとネットワーク層をスプライシングし、ここで、ネットワーク層の入力は、事前トレーニングモデルから出力された画像特徴であり、ネットワーク層の出力は、ターゲット画像タスクの処理結果であり、ターゲット画像処理タスクのトレーニングセットを使用して、スプライシングされた事前トレーニングモデル及びネットワーク層をトレーニングして、画像処理モデルを取得する。

本出願の実施例の可能な一実施形態では、ターゲット画像処理タスクは、画像分類タスク、ターゲット検出タスク、またはオブジェクト認識タスクを含む。

なお、上記画像処理方法の実施例についての説明は、本実施例の画像処理装置にも適用されており、原理は同じであり、ここでは説明を省略する。

本出願の実施例に係る画像処理装置では、トレーニングされた事前トレーニングモデルを取得し、ここで、当該事前トレーニングモデルは、トレーニングされた事前トレーニングモデルから出力された画像特徴が、第１の画像特徴距離と第２の画像特徴距離との差が最小であることを満たすように、複数のフレームのトレーニング画像を使用してトレーニングされ、さらに、汎用的な事前トレーニングモデル及びターゲット画像処理タスクに基づいて、対応する画像処理モデルを生成し、ターゲット処理タスクに対応する画像処理モデルの生成効率を向上させ、生成された画像処理モデルを使用して、ターゲット画像に対してターゲット画像処理タスクを実行し、画像処理モデルがターゲット画像処理タスクに対応するため、画像処理の効果と効率を向上させる。

上記実施例を実現するために、本実施例は、事前トレーニングモデルのトレーニング装置を提供する。

図６は、本出願の実施例によって提供される事前トレーニングモデルのトレーニング装置の概略構成図である。図６に示すように、この装置は、取得モジュール６１と、抽出モジュール６２と、トレーニングモジュール６３とを含む。

取得モジュール６１は、複数のビデオクリップを取得する。

抽出モジュール６２は、複数のビデオクリップから複数フレームのトレーニング画像を抽出して、トレーニングセットを取得し、ここで、各ビデオクリップから少なくとも２フレームのトレーニング画像を抽出する。

トレーニングモジュール６３は、トレーニングセットを使用して、画像特徴抽出のための事前トレーニングモデルに対してマルチラウンドのトレーニングを実行し、ここで、各ラウンドのトレーニングは、トレーニングセットから、少なくとも２つのビデオクリップから抽出された各トレーニング画像を選択することと、このラウンドで選択された各トレーニング画像を事前トレーニングモデルに入力して、出力された画像特徴を取得することと、このラウンドで選択された各トレーニング画像の画像特徴に基づいて、同じビデオクリップに属するトレーニング画像間の第１の画像特徴距離、及び異なるビデオクリップに属するトレーニング画像間の第２の画像特徴距離を決定し、第１の画像特徴距離及び第２の画像特徴距離に基づいて、第１の画像特徴距離と第２の画像特徴距離との差が最小となるように、事前トレーニングモデルのモデルパラメータを調整することと、を含む。

本出願の実施例の可能な一実施形態では、トレーニングモジュール６３は、具体的に、このラウンドのトレーニングで前記事前トレーニングモデルに入力されたトレーニング画像に対して、同じビデオクリップに属する異なるトレーニング画像の画像特徴間のクラス内特徴距離を決定し、このラウンドのトレーニングで前記トレーニングセットから選択された少なくとも２つのビデオクリップに対して、前記クラス内特徴距離の合計を決定して、前記第１の画像特徴距離を取得する。

本出願の実施例の可能な一実施形態では、トレーニングモジュール６３は、具体的に、このラウンドのトレーニングで前記事前トレーニングモデルに入力されたトレーニング画像に対して、異なるビデオクリップに属する異なるトレーニング画像の画像特徴間のクラス間特徴距離を決定し、このラウンドのトレーニングで前記トレーニングセットから選択された少なくとも２つのビデオクリップに対して、前記クラス間特徴距離の合計を決定して、前記第２の画像特徴距離を取得する。

本出願の実施例の可能な一実施形態では、各前記ビデオクリップから抽出されたトレーニング画像のフレーム数は同じである。

本出願の可能な一実施形態では、取得モジュール６１は、具体的に、複数のビデオを取得し、各前記ビデオにおける隣接する画像フレーム間のコンテンツの違いに基づいて分割処理を行って、各前記ビデオの複数のビデオクリップを取得する。

本出願の実施例に係る事前トレーニングモデルのトレーニング装置では、取得された複数のビデオクリップからそれぞれ少なくとも２フレームのトレーニング画像を抽出して、複数フレームのトレーニング画像を取得して、トレーニングセットを取得し、トレーニングセットを通じて画像特徴抽出のための事前トレーニングモデルに対してマルチラウンドのトレーニングを実行し、各ラウンドのトレーニングにおいて、トレーニング画像に基づいて、画像特徴を取得し、同じビデオクリップに属する画像の画像特徴に基づいて、画像間の第１の画像特徴距離を取得し、異なるビデオクリップに属する画像の画像特徴に基づいて、画像間の第２の画像特徴距離を取得し、第１の画像特徴距離と第２の画像特徴距離の差が最小となるように、事前トレーニングモデルのパレメータを継続的に調整し、汎用的な事前トレーニングモデルのトレーニングを実現し、事前トレーニングモデルによって認識された画像特徴の信頼性を向上させる。

上記実施例を実現するために、本出願の実施例は、電子機器を提供し、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが前記方法の実施例に記載の画像処理方法、または前記方法の実施例に記載のトレーニング方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

上記実施例を実現するために、本出願の実施例は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、前記コンピュータ命令は、コンピュータに前記方法の実施例に記載の画像処理方法、または前記方法の実施例に記載のトレーニング方法を実行させる。

本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
本出願の実施例によれば、本出願は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本出願によって提供される画像処理方法、または事前トレーニングモデルのトレーニング方法を実行させる。

図７に示すように、本出願の実施形態に係る電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本出願の実現を制限することを意図したものではない。

図７に示すように、当該電子機器は、１つ又は複数のプロセッサ７０１と、メモリ７０２と、高速インターフェースと低速インターフェースを含む、各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力／出力装置（インターフェースに結合されたディスプレイデバイスなど）にＧＵＩの図形情報をディスプレイするためにメモリ内又はメモリに記憶されている命令を含む、電子機器内で実行される命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び／又は複数のバスを、複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、部分的な必要な操作（例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする）を提供する。図７では、１つのプロセッサ７０１を例とする。

メモリ７０２は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、少なくとも１つのプロセッサが本出願により提供される画像処理方法を実行するように、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本出願により提供される画像処理方法を実行させるためのコンピュータ命令が記憶されている。

メモリ７０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例における画像処理方法に対応するプログラム命令／モジュール（例えば、図５に示す取得モジュール５１、生成モジュール５２、処理モジュール５３、）のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ７０１は、メモリ７０２に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施例における画像処理方法を実現する。

メモリ７０２は、プログラム記憶領域とデータ記憶領域とを含むことができ、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、画像処理方法の電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ７０２は、高速ランダムアクセスメモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも１つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ７０２は、プロセッサ７０１に対して遠隔に設定されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介してこの電子機器に接続されることができる。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。

画像処理方法の電子機器は、入力装置７０３と出力装置７０４とをさらに含むことができる。プロセッサ７０１、メモリ７０２、入力装置７０３、及び出力装置７０４は、バス又は他の方式を介して接続することができ、図８では、バスによる接続を例とする。

入力装置７０３は、入力された数字又は文字情報を受信し、この電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置８０４は、ディスプレイデバイス、補助照明デバイス（例えば、ＬＥＤ）、及び触覚フィードバックデバイス（例えば、振動モータ）などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。

本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施され、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高度プロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書に使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供することもでき、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。

本出願の実施例の技術案によれば、トレーニングされた事前トレーニングモデルを取得し、ここで、当該事前トレーニングモデルは、トレーニングされた事前トレーニングモデルから出力された画像特徴が第１の画像特徴距離と第２の画像特徴距離との差が最小であることを満たすように、複数のフレームのトレーニング画像を使用してトレーニングされ、さらに、汎用的な事前トレーニングモデル及びターゲット画像処理タスクに基づいて、対応する画像処理モデルを生成し、ターゲット処理タスクに対応する画像処理モデルの生成効率を向上させ、生成された画像処理モデルを使用して、ターゲット画像に対してターゲット画像処理タスクを実行し、画像処理モデルがターゲット画像処理タスクに対応するため、画像処理の効果と効率を向上させる。

なお、この電子機器は、本出願の事前トレーニングモデルのトレーニング方法を実施することもできる、原理は同じであり、ここでは説明を省略する。

なお、上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。

上記具体的な実施形態は、本出願に対する保護範囲を限定するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本願の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims

画像処理方法であって、
トレーニングされた事前トレーニングモデルを取得するステップであって、前記事前トレーニングモデルは、トレーニングされた事前トレーニングモデルから出力された画像特徴が、第１の画像特徴距離と第２の画像特徴距離との差が最小であることを満たすように、複数のフレームのトレーニング画像を使用してトレーニングされ、前記第１の画像特徴距離は、同じビデオクリップから抽出されたトレーニング画像の画像特徴間の距離であり、前記第２の画像距離は、異なるビデオクリップから抽出されたトレーニング画像の画像特徴間の距離であるステップと、
前記事前トレーニングモデルに基づいて、ターゲット画像処理タスクを実行する画像処理モデルを生成するステップと、
前記画像処理モデルを使用して、ターゲット画像に対してターゲット画像処理タスクを実行するステップと、を含む。
ことを特徴とする画像処理方法。
前記事前トレーニングモデルに基づいて、ターゲット画像処理タスクを実行する画像処理モデルを生成するステップは、
前記ターゲット画像処理タスクに対応するネットワーク層を取得するステップと、
前記事前トレーニングモデルと前記ネットワーク層をスプライシングするステップであって、前記ネットワーク層の入力は、前記事前トレーニングモデルから出力された画像特徴であり、前記ネットワーク層の出力は、前記ターゲット画像タスクの処理結果であるステップと、
前記ターゲット画像処理タスクのトレーニングセットを使用して、スプライシングされた前記事前トレーニングモデル及び前記ネットワーク層をトレーニングして、前記画像処理モデルを取得するステップと、を含む、
ことを特徴とする請求項１に記載の画像処理方法。
前記ターゲット画像処理タスクは、画像分類タスク、ターゲット検出タスク、またはオブジェクト認識タスクを含む、
ことを特徴とする請求項１または２に記載の画像処理方法。
事前トレーニングモデルのトレーニング方法であって、
複数のビデオクリップを取得するステップと、
前記複数のビデオクリップから複数フレームのトレーニング画像を抽出して、トレーニングセットを取得するステップであって、各前記ビデオクリップから少なくとも２フレームの前記トレーニング画像を抽出するステップと、
前記トレーニングセットを使用して、画像特徴抽出のための事前トレーニングモデルに対してマルチラウンドのトレーニングを実行するステップと、を含み、
各ラウンドのトレーニングは、前記トレーニングセットから、少なくとも２つのビデオクリップから抽出された各トレーニング画像を選択することと、このラウンドで選択された各前記トレーニング画像を前記事前トレーニングモデルに入力して、出力された画像特徴を取得することと、このラウンドで選択された各前記トレーニング画像の画像特徴に基づいて、同じビデオクリップに属するトレーニング画像間の第１の画像特徴距離を決定し、異なるビデオクリップに属するトレーニング画像間の第２の画像特徴距離を決定し、前記第１の画像特徴距離及び前記第２の画像特徴距離に基づいて、前記第１の画像特徴距離と前記第２の画像特徴距離との差が最小となるように、前記事前トレーニングモデルのモデルパラメータを調整することと、を含む、
ことを特徴とする事前トレーニングモデルのトレーニング方法。
前記同じビデオクリップに属するトレーニング画像間の第１の画像特徴距離を決定するステップは、
このラウンドのトレーニングで前記事前トレーニングモデルに入力されたトレーニング画像に対して、同じビデオクリップに属する異なるトレーニング画像の画像特徴間のクラス内特徴距離を決定するステップと、
このラウンドのトレーニングで前記トレーニングセットから選択された少なくとも２つのビデオクリップに対して、前記クラス内特徴距離の合計を決定して、前記第１の画像特徴距離を取得するステップと、を含む、
ことを特徴とする請求項４に記載のトレーニング方法。
前記異なるビデオクリップに属するトレーニング画像間の第２の画像特徴距離を決定するステップは、
このラウンドのトレーニングで前記事前トレーニングモデルに入力されたトレーニング画像に対して、異なるビデオクリップに属する異なるトレーニング画像の画像特徴間のクラス間特徴距離を決定するステップと、
このラウンドのトレーニングで前記トレーニングセットから選択された少なくとも２つのビデオクリップに対して、前記クラス間特徴距離の合計を決定して、前記第２の画像特徴距離を取得するステップと、を含む、
ことを特徴とする請求項４に記載のトレーニング方法。
各前記ビデオクリップから抽出されたトレーニング画像のフレーム数は同じである、
ことを特徴とする請求項４～６のいずれかに記載のトレーニング方法。
前記複数のビデオクリップを取得するステップは、
複数のビデオを取得するステップと、
各前記ビデオにおける隣接する画像フレーム間のコンテンツの違いに基づいて分割処理を行って、各前記ビデオの複数のビデオクリップを取得するステップと、を含む、
ことを特徴とする請求項４～６のいずれかに記載のトレーニング方法。
画像処理装置であって、
トレーニングされた事前トレーニングモデルを取得するための取得モジュールであって、前記事前トレーニングモデルは、トレーニングされた事前トレーニングモデルから出力された画像特徴が、第１の画像特徴距離と第２の画像特徴距離との差が最小であることを満たすように、複数のフレームのトレーニング画像を使用してトレーニングされ、前記第１の画像特徴距離は、同じビデオクリップから抽出されたトレーニング画像の画像特徴間の距離であり、前記第２の画像距離は、異なるビデオクリップから抽出されたトレーニング画像の画像特徴間の距離である取得モジュールと、
前記事前トレーニングモデルに基づいて、ターゲット画像処理タスクを実行する画像処理モデルを生成するための生成モジュールと、
前記画像処理モデルを使用して、ターゲット画像に対してターゲット画像処理タスクを実行するための処理モジュールと、を含む、
ことを特徴とする画像処理装置。
前記生成モジュールが、
前記ターゲット画像処理タスクに対応するネットワーク層を取得し、
前記事前トレーニングモデルとネットワーク層をスプライシングし、前記ネットワーク層の入力が前記事前トレーニングモデルから出力された画像特徴であり、前記ネットワーク層の出力が前記ターゲット画像タスクの処理結果であり、
前記ターゲット画像処理タスクのトレーニングセットを使用して、スプライシングされた前記事前トレーニングモデル及び前記ネットワーク層をトレーニングして、前記画像処理モデルを取得する、
ことを特徴とする請求項９に記載の画像処理装置。
前記ターゲット画像処理タスクは、画像分類タスク、ターゲット検出タスク、またはオブジェクト認識タスクを含む、
ことを特徴とする請求項９または１０に記載の画像処理装置。
事前トレーニングモデルのトレーニング装置であって、
複数のビデオクリップを取得するための取得モジュールと、
前記複数のビデオクリップから複数フレームのトレーニング画像を抽出して、トレーニングセットを取得するための抽出モジュールであって、各前記ビデオクリップから少なくとも２フレームの前記トレーニング画像を抽出する抽出モジュールと、
前記トレーニングセットを使用して、画像特徴抽出のための事前トレーニングモデルに対してマルチラウンドのトレーニングを実行するためのトレーニングモジュールと、を含み、
各ラウンドのトレーニングは、前記トレーニングセットから、少なくとも２つのビデオクリップから抽出された各トレーニング画像を選択することと、このラウンドで選択された各前記トレーニング画像を前記事前トレーニングモデルに入力して、出力された画像特徴を取得することと、このラウンドで選択された各前記トレーニング画像の画像特徴に基づいて、同じビデオクリップに属するトレーニング画像間の第１の画像特徴距離を決定し、異なるビデオクリップに属するトレーニング画像間の第２の画像特徴距離を決定し、前記第１の画像特徴距離及び前記第２の画像特徴距離に基づいて、前記第１の画像特徴距離と前記第２の画像特徴距離との差が最小となるように、前記事前トレーニングモデルのモデルパラメータを調整することと、を含む、
ことを特徴とする事前トレーニングモデルのトレーニング装置。
前記トレーニングモジュールが、
このラウンドのトレーニングで前記事前トレーニングモデルに入力されたトレーニング画像に対して、同じビデオクリップに属する異なるトレーニング画像の画像特徴間のクラス内特徴距離を決定し、
このラウンドのトレーニングで前記トレーニングセットから選択された少なくとも２つのビデオクリップに対して、前記クラス内特徴距離の合計を決定して、前記第１の画像特徴距離を取得する、
ことを特徴とする請求項１２に記載のトレーニング装置。
前記トレーニングモジュールが、
このラウンドのトレーニングで前記事前トレーニングモデルに入力されたトレーニング画像に対して、異なるビデオクリップに属する異なるトレーニング画像の画像特徴間のクラス間特徴距離を決定し、
このラウンドのトレーニングで前記トレーニングセットから選択された少なくとも２つのビデオクリップに対して、前記クラス間特徴距離の合計を決定して、前記第２の画像特徴距離を取得する、
ことを特徴とする請求項１２に記載のトレーニング装置。
各前記ビデオクリップから抽出されたトレーニング画像のフレーム数は同じである、
ことを特徴とする請求項１２～１４のいずれかに記載のトレーニング装置。
前記取得モジュールが、
複数のビデオを取得し、各前記ビデオにおける隣接する画像フレーム間のコンテンツの違いに基づいて分割処理を行って、各前記ビデオの複数のビデオクリップを取得する、
ことを特徴とする請求項１２～１４のいずれかに記載のトレーニング装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが請求項１～３のいずれかに記載の画像処理方法、または請求項４～８のいずれかに記載の事前トレーニングモデルのトレーニング方法を実行できるように、前記少なくとも１つのプロセッサによって実行される、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～３のいずれかに記載の画像処理方法、または請求項４～８のいずれかに記載の事前トレーニングモデルのトレーニング方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムは、コンピュータに請求項１～３のいずれかに記載の画像処理方法、または請求項４～８のいずれかに記載の事前トレーニングモデルのトレーニング方法を実行させる、
ことを特徴とするコンピュータプログラム。