JP7291183B2

JP7291183B2 - モデルをトレーニングするための方法、装置、デバイス、媒体、およびプログラム製品

Info

Publication number: JP7291183B2
Application number: JP2021153612A
Authority: JP
Inventors: 若愚郭; 宇寧杜; 威威劉; 暁 ▲ティン▼ 殷; 喬趙; 其文劉; 然畢; 曉光胡; 佃海于; 艶軍馬
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-03-25
Filing date: 2021-09-21
Publication date: 2023-06-14
Anticipated expiration: 2041-09-21
Also published as: CN113033537B; KR20210124111A; EP3913542A2; CN113033537A; EP3913542A3; US20220004811A1; JP2022006174A

Description

本開示は、人工知能の分野、より具体的には、モデルをトレーニングするための方法、装置、デバイス、コンピュータ可読記憶媒体、およびコンピュータプログラム製品に関する。

情報技術の発展に伴い、ニューラルネットワークは、例えばコンピュータビジョン、音声認識、および情報検索などの様々な機械学習タスクで広く使用されている。光学式文字認識（ＯＣＲ）は、ピクチャー情報を編集および保存が容易なテキスト情報に変換できるテクノロジーである。ニューラルネットワークを使用してＯＣＲ認識することは、効果的な認識方法として検証されている。但し、トレーニングされたモデルの精度を向上させる必要がある。

本開示の例示的な実施例によれば、モデルをトレーニングするための方法、装置、デバイス、コンピュータ可読記憶媒体、およびコンピュータプログラム製品が提供される。

本開示の第１の態様には、モデルをトレーニングするための方法を提供した。この方法は、複数の元のサンプルに対応する複数の拡張サンプルセットを特定することと、前記複数の拡張サンプルセットに基づいて第１のモデルに従って同じ拡張サンプルセット内の異なる拡張サンプルに対する第１のモデルの出力間の差分に関している第１の制約を特定することと、前記複数の拡張サンプルセットに基づいて、複雑さが第２のモデルの複雑さよりも低い第１のモデルと第２のモデルに従って同じ拡張サンプルセットに対する第１のモデルと第２のモデルの出力間の差分に関している第２の制約を特定することと、少なくとも前記第１の制約および前記第２の制約に基づいて前記第１のモデルをトレーニングして、トレーニングされた前記第１のモデルを取得することと、を含む。

本開示の第２の態様には、モデルをトレーニングするための装置を提供した。この装置は、複数の元のサンプルに対応する複数の拡張サンプルセットを特定するように構成される拡張サンプル特定モジュールと、前記複数の拡張サンプルセットに基づいて第１のモデルに従って同じ拡張サンプルセット内の異なる拡張サンプルに対する第１のモデルの出力間の差分に関している第１の制約を特定するように構成される第１の制約特定モジュールと、前記複数の拡張サンプルセットに基づいて、複雑さが第２のモデルの複雑さよりも低い前記第１のモデルと第２のモデルに従って同じ拡張サンプルセットに対する第１のモデルと第２のモデルの出力間の差分に関している第２の制約を特定するように構成される第２の制約特定モジュールと、少なくとも前記第１の制約および前記第２の制約に基づいて前記第１のモデルをトレーニングして、トレーニングされた前記第１のモデルを取得するように構成される第１のモデルトレーニングモジュールと、を含む。

本開示の第３の態様には、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含み、前記メモリは、前記少なくとも１つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも１つのプロセッサが本開示の第１の態様に記載の方法を実行するように、前記少なくとも１つのプロセッサによって実行される電子デバイスを提供した。

本開示の第４の態様には、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含み、前記メモリは、前記少なくとも１つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも１つのプロセッサが本開示の第２の態様に記載の方法を実行するように、前記少なくとも１つのプロセッサによって実行される電子デバイスを提供した。

本開示の第５の態様には、コンピュータに本開示の第１の態様に記載の方法を実行させるコンピュータ命令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体を提供した。

本開示の第６の態様には、コンピュータに本開示の第２の態様に記載の方法を実行させるコンピュータ命令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体を提供した。

本開示の第７の態様には、プロセッサによって実行される場合、本開示の第１の態様に記載の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供した。

本開示の第８の態様には、プロセッサによって実行される場合、本開示の第２の態様に記載の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供した。

発明の概要部分で説明される内容は、本開示の実施例のキー特徴または重要な特徴を特定することを意図しておらず、本開示の範囲を限定するものでもないことを理解されたい。本開示の他の特徴は、以下の説明によって容易に理解されるであろう。

添付の図面を参照し、以下の詳細な説明を参照すると、本開示の各実施例の前記および他の特徴、利点、および態様がより明らかになるであろう。図面において、同じまたは類似の参照記号は、同じまたは類似の要素を示す。添付の図面は、本案をよりよく理解するために使用され、本開示に対する制限を構成するものではない。

本開示のいくつかの実施例が実現されるデータ処理環境の例の概略図を示す。本開示のいくつかの実施例実現されるトレーニングモデルの環境の例の概略図を示す。本開示のいくつかの実施例によるモデルをトレーニングするための例示的な方法のフローチャートを示す。本開示のいくつかの実施例によるデータを処理するための例示的な方法のフローチャートを示す。本開示の実施例によるモデルをトレーニングするための装置の概略ブロック図を示す。本開示の実施例によるデータを処理するための装置の概略ブロック図を示す。本開示の複数の実施例を実施することができる電子デバイスのブロック図を示す。

以下、本開示の実施例を添付図面を参照してより詳細に説明する。本開示のいくつかの実施例が図面に示されているが、本開示は様々な形態で実現することができ、本明細書に記載の実施例に限定されると解釈されるべきではなく、逆に、これらの実施例は提供されることはこの開示をより明瞭かつ完全に理解するためのことであることを理解されたい。本開示の図面および実施例は、例示的な目的のためにのみ使用され、本開示の保護範囲を制限するために使用されないことを理解されたい。

本開示の実施例の説明中に、「含む」及びその類似的な用語は、非限定的な意味、すなわち、「含むが、これに限定されない」と理解すべきである。「基づいて」という用語は、「少なくとも部分的に基づいて」を意味する。「１つの実施例」及び「当該実施例」という用語は、「少なくとも１つの実施例」を意味する。「第１」、「第２」などの用語は、異なるまたは同一の対象を指すことができる。他の明示的および暗黙的な定義も、以下に含まれる場合がある。

本開示の実施例では、「モデル」という用語は、入力を処理し、相応的な出力を提供することができる。ニューラルネットワークモデルを例にとると、通常、入力層、出力層、および入力層と出力層の間に１つ以上の隠れ層が含まれる。ディープラーニングアプリケーションで使用されるモデル（「ディープラーニングモデル」とも呼ばれる）には、通常、ネットワークの深さを延長するための多くの隠れ層が含まれている。ニューラルネットワークモデルの各層は順番に接続されているため、前の層の出力が次の層の入力として使用され、入力層はニューラルネットワークモデルの入力を受け取り、出力層の出力はニューラルネットワークモデルの最終出力とする。ニューラルネットワークモデルの各層には、１つ以上のノード（処理ノードまたはニューロンとも呼ばれる）が含まれ、各ノードは前の層からの入力を処理する。この明細書では、「ニューラルネットワーク」、「モデル」、「ネットワーク」及び「ニューラルネットワークモデル」という用語は互いに交換使用することができる。

前記のように、トレーニングされたモデルの精度を向上する必要がある。従来の技術案では、通常、教師モデルと学生モデルの出力のみが特定され、教師モデルにより学生モデルを監督してモデルのトレーニングを完了する。従来の技術案の欠点は、同じサンプルの異なるサンプルに対するモデルの出力間の関係を考慮しないことである。その結果、同じサンプルの異なる拡張サンプルに対するモデルの処理結果に一致性がない。これにより、モデルの精度と一般化が低下することがよくある。

本開示の例示的な実施例は、モデルをトレーニングするための技術案を提案する。この技術案では、最初に元のサンプルに対応する拡張サンプルセットを特定する。拡張サンプルセットには、同じ元のサンプルの異なる拡張サンプルが含まれる。次に、第１の制約が第１のモデルに従って特定され、第１の制約は、同じ拡張サンプルセット内の異なる拡張サンプルに対する前記第１のモデルの出力間の差分に関している。次に、第１のモデルと第２のモデルに従って、第２の制約が特定され、第２の制約は、同じ拡張サンプルに対する前記第１のモデルと前記第２のモデルとの出力間の差分に関している。第１のモデルの複雑さは、第２のモデルの複雑さよりも低くなっている。そして最後に、前記第１のモデルは、第１の制約と第２の制約に従ってトレーニングされ、トレーニングされた第１のモデルを取得する。このように、複雑度の高いモデルを使用して複雑度の低いモデルのトレーニングを監視することにより、トレーニングされたモデルの精度を向上させることができる。さらに、同じサンプルに対するモデルの異なる拡張処理を行った後の出力の一致性を同時に考慮すると、トレーニングされたモデルの一般化を向上できる。

図１Ａは、本開示のいくつかの実施例が実現されるデータ処理環境１００の例の概略図を示す。図１Ａに示されるように、環境１００は、コンピューティングデバイス１１０を含む。コンピューティングデバイス１１０は、例えばパーソナルコンピュータ、タブレットコンピュータ、ウェアラブルデバイス、クラウドサーバ、メインフレーム、分散コンピューティングシステムなどのようなコンピューティング機能を備えた任意のデバイスであり得る。

コンピューティングデバイス１１０は、入力１２０を取得する。例えば、入力１２０は、画像、ビデオ、オーディオ、テキスト、および／またはマルチメディアファイルなどであり得る。コンピューティングデバイス１１０は、入力１２０をネットワークモデル１３０に適用して、ネットワークモデル１３０を使用して、入力１２０に対応する処理結果１４０を生成することができる。いくつかの実施例では、ネットワークモデル１３０は、ＯＣＲ認識モデル、画像分類モデル、セマンティックセグメンテーションモデル、ターゲット検出モデル、または画像処理に関連する他のニューラルネットワークモデルであり得るが、これらに限定されない。任意の適切なネットワーク構造を使用してネットワークモデル１３０を実現することができ、サポートベクターマシン（ＳＶＭ）モデル、ベイジアンモデル、ランダムフォレストモデル、さまざまなディープラーニング／ニューラルネットワークモデルを含むがこれらに限定されなく、さまざまなディープラーニング／ニューラルネットワークモデルは、例えば畳み込みニューラルネットワーク（ＣＮＮ）、リカレントニューラルネットワーク（ＲＮＮ）、ディープニューラルネットワーク（ＤＮＮ）、ディープ強化学習ネットワーク（ＤＱＮ）などである。本開示の範囲は、この方に関して限定されない。

環境１００はまた、トレーニングデータ取得装置、モデルトレーニング装置、およびモデル応用装置（図示せず）を含み得る。いくつかの実施例では、前述の複数の装置は、それぞれ、異なる物理コンピューティングデバイスに実現され得る。選択的に、前述の複数の装置の少なくとも一部を同じコンピューティングデバイスに実現することができる。例えば、トレーニングデータ取得装置、モデルトレーニング装置は、同じコンピューティングデバイスに実現され得ており、モデル応用装置は、別のコンピューティングデバイスに実現され得る。

いくつかの実施例では、モデルトレーニング段階において、トレーニングデータ取得装置は、入力１２０を取得し、それをモデルに提供することができる。入力１２０は、元のサンプルと、元のサンプルに対応する異なる拡張サンプルであり得る。ネットワークモデル１３０は、トレーニングされるモデルである。モデルトレーニング装置は、入力に基づいてネットワークモデル１３０をトレーニングすることができる。処理結果１４０は、モデルの異なる制約に向けられ得ており、コンピューティングデバイス１１０は、異なる制約を通じてネットワークモデル１３０のトレーニングパラメータ（例えば、重みおよびバイアスなど）を調整して、トレーニングサンプルでのモデルの誤差を減少させる。

選択的に、いくつかの実施例では、モデルトレーニングの最終段階では、入力はテストサンプルであり得ており、処理結果１４０は、トレーニングされたネットワークモデル１３０の性能指標（例えば、精度）の表現であり得る。これは、たとえば、テスト損失で表すことができる。

モデルをトレーニングするための環境１５０は、１Ｂを参照して以下で詳細に説明される。環境１５０は、入力１２０とする元のサンプル１２２を含み得る。図には１つの元のサンプルが示されているが、複数の元のサンプルが存在する場合もあり、本開示は本明細書に限定されない。いくつかの実施例では、サンプルは画像データであり得る。コンピューティングデバイス１１０（例えば、コンピューティングデバイスのトレーニングデータ取得装置）は、元のサンプルに対してデータ拡張処理を実行して、拡張サンプルセット１２４を取得するように構成され得る。拡張サンプルセット１２４は、第１の拡張サンプル１２６および第２の拡張サンプル１２８を含み得る。第１の拡張サンプル１２６および第２の拡張サンプル１２８は、それぞれ、前記元のサンプル１２２に対してデータ拡張処理を実行することによって取得され得る。いくつかの実施例では、元のサンプルに対応する拡張サンプルセットは、元のサンプル自体を含まなくてもよい。いくつかの例では、画像サンプルに対して、画像をトリミング、回転、および反転して、画像の拡張サンプルセットを取得することができる。他の例では、画像サンプルに対して、自動データ拡張（ＡｕｔｏＡｕｇｍｅｎｔ）ような自動サンプル拡張戦略を適用して、画像の拡張トレーニングセットを取得できる。

コンピューティングデバイス１１０は、第１のモデル１３２および第２のモデル１３４の入力として第１の拡張サンプル１２６および第２の拡張サンプル１２８を使用して、それぞれ第１の出力１６２、第２の出力１５４、第３の出力１６６および第４の出力１６８を特定することができる。次に、コンピューティングデバイス１１０は、前述の出力および拡張サンプルのタグにそれぞれ基づいて、第１の制約１４２、第２の制約１４４、および第３の制約１４６を特定することができる。最後に、コンピューティングデバイス１１０は、前記の制約に従って第１のモデル１３２をトレーニングすることができる。

第１のモデル１３２は、パラメータ数が小さく（例えば、閾値未満）、メモリ占有が小さい（例えば、閾値未満）トレーニングされるモデル（学生モデルと呼ばれる）であり得る。第２のモデル１３４は、パラメータ数が大きい（例えば、少なくとも第１のモデル１３２に含まれるパラメータ数よりも多い）トレーニングされたモデル（教師モデルと呼ばれる）であり得る。

図１Ａに戻って参照すると、トレーニングされたネットワークモデルは、モデル応用装置に提供され得る。モデル応用装置は、トレーニングされたモデルおよび入力１２０を取得し、入力１２０に対する処理結果１４０を特定することができる。モデル応用段階では、入力１２０は、処理される入力データ（例えば、画像データ）であり得ており、ネットワークモデル１３０は、トレーニングされたモデル（例えば、トレーニングされた画像分類モデル）であり得ており、処理結果１４０は、入力１２０（例えば、画像データ）に対応する予測結果（例えば、画像分類結果、セマンティックセグメンテーション結果、またはターゲット認識結果）である。

図１Ａに示される環境１００および図１Ｂに示される環境１５０は、本開示の実施例が実現される単なる一つの例であり、本開示の範囲を制限することではない。本開示の実施例は、他のシステムまたはアーキテクチャにも適用可能である。

詳細なトレーニングモデルプロセスは、図２から３を参照して以下でさらに説明される。図２は、本開示の実施例によるモデルをトレーニングするためのプロセス２００のフローチャートを示している。プロセス２００は、図１のコンピューティングデバイス１１０によって実施され得る。説明を容易にするために、プロセス２００は、図１Ａおよび図１Ｂを参照して説明される。

図２のブロック２１０において、コンピューティングデバイス１１０は、複数の元のサンプルに対応する複数の拡張サンプルセットを特定する。例えば、コンピューティングデバイス１１０は、複数の元のサンプルとして画像セットからＢ個の画像をランダムに選択し、次に、各元のサンプルをＫ個にコピーすることができる。次に、コンピューティングデバイス１１０は、Ｋ個の同一の画像に対して輝度変換、ランダムトリミング、およびランダム回転などのデータ拡張操作を実行して、拡張サンプルセットを形成することができる。前記のデータ拡張の例は単なる例示であり、コンピューティングデバイス１１０はまた、ビデオデータを処理するためにビデオデータ内の異なる画像フレームに対して様々な組み合わせを実行することができ、または適切な方法でテキストおよび音声データを処理することもできる。ここでは制限がない。

いくつかの実施例では、モデルの計算量を減らすために、コンピューティングデバイス１１０は、拡張サンプルセットをさらに処理することができる。例えば、コンピューティングデバイス１１０は、前処理画像を形成するために、前記のピクチャーに対してサイズ再設定および正規化操作を実行することができる。

いくつかの実施例では、サンプルは、画像、ビデオ、オーディオ、テキスト、およびマルチメディアファイルのうちの少なくとも１つを含む。

図２のブロック２２０において、コンピューティングデバイス１１０は、複数の拡張サンプルセットに基づいて、第１のモデルに従って第１の制約を特定する。第１の制約は、第１のモデルが同じ拡張サンプルセット内の異なる拡張サンプルに対する出力間の差分に関している。コンピューティングデバイス１１０は、拡張サンプルを特定した後、当該サンプルセットを第１のモデルの入力として、それぞれ出力を特定することができる。

いくつかの実施例では、コンピューティングデバイス１１０は、拡張サンプルセット内の第１の拡張サンプルに基づいて、第１のモデル１３２に従って第１の分類結果を生成することができる。第２の分類結果は、同じ拡張サンプルセット内の第２の拡張サンプルに基づいて、第１のモデル１３２に従って生成される。第３の分類結果は、拡張サンプルセット内の第３の拡張サンプルに基づいて、第１のモデル１３２に従って生成される。そして、第１の制約が、第１の分類結果、第２の分類結果、および第３の分類結果の差分に基づいて特定される。

例えば、元のサンプルは、数１を含む画像である。第１の拡張サンプル、第２の拡張サンプル、および第３の拡張サンプルは、それぞれこの元のサンプルの異なる明るさ、異なる方向、異なるサイズという３つの拡張サンプルである。次に、コンピューティングデバイス１１０は、第１のモデルにおける３つの拡張サンプルの出力を特定することができる。第１の分類結果は、数１の確率が８０％であり、数７の確率が１５％であり、数９の確率が５％である。第２の分類結果は、数１の確率が６０％であり、数７の確率が２５％であり、数９の確率が１５％である。第３の分類結果は、数１の確率が４０％であり、数７の確率が３０％であり、数９の確率が３０％である。次に、コンピューティングデバイス１１０は、第１の制約として、前記の３つの分類結果のうちの２つの間の差分を計算することができる。コンピューティングデバイス１１０は、２つの分類結果ごとの差分のＬ２損失関数を計算し、次に、平均値を第１の制約とすることができる。元のサンプル、分類結果、および損失関数タイプの前述の説明は単なる例示であり、異なるタイプのサンプルおよび分類結果が存在する場合もあることに注意してください。

同じ元のサンプル異なる拡張サンプルに対するモデルの出力結果は一致しているべきであり、コンピューティングデバイス１１０は、第１のモデル１３２のパラメータを調整して第１の制約を最小化し、それによって、同じ元のサンプルの異なる拡張サンプルの出力結果間の一致性を実現することができる。その結果、異なる拡張データに対するモデルの適応性を向上させることができ、それによってモデルの一般化パフォーマンスが向上する。

図２のブロック２３０において、コンピューティングデバイス１１０は、複数の拡張サンプルセットに基づいて、第１のモデル１３２および第２のモデル１３４に従って第２の制約を特定し、第２の制約は、第１のモデル１３２および第２のモデル１３４が同じ拡張サンプルに対する出力間の差分に関しており、第１のモデル１３２の複雑さは、第２のモデル１３４の複雑さよりも低い。前記の図１の記載により、複雑度の高い第２のモデルを使用して、複雑度の低い第１のモデルをトレーニングすることができる。たとえば、同じサンプルに対する第１のモデルと第２のモデルの出力の差分を第２の制約として特定できる。

いくつかの実施例では、コンピューティングデバイス１１０は、第４の拡張サンプルに基づいて、第１のモデル１３２に従って第４の分類結果を生成することができる。次に、第４の拡張サンプルに基づいて、第２のモデル１３４に従って第５の分類結果を生成することができる。そして最後に、第４の分類結果と第５の分類結果との差分に基づいて、第２の制約が特定される。

例えば、同じ第４の拡張サンプルについて、例えば、信号機を含むピクチャーである。第１のモデルの第４の分類結果は、現在の点灯の確率について、赤色ライトが７０％であり、緑色ライトが２０％であり、黄色ライトが１０％である。第２のモデルの第５の分類結果は、現在の点灯の確率について、赤色ライトが５０％であり、緑色ライトが３０％であり、黄色ライトが２０％である。次に、コンピューティングデバイス１１０は、第２の制約として上記差分を特定することができる。例えば、コンピューティングデバイス１１０は、第２の制約として、前記の分類結果間の差分のクロスエントロピー損失を計算することができる。コンピューティングデバイス１１０は、第１のモデル１３２のパラメータを調整して、第２の制約を最小化することができることが理解され得る。したがって、小さいパラメータモデルは、大きいパラメータモデルの認識精度を実現することができる。

図２のブロック２４０において、コンピューティングデバイス１１０は、少なくとも第１の制約および第２の制約に基づいて第１のモデルをトレーニングして、トレーニングされた第１のモデルを取得する。例えば、コンピューティングデバイス１１０は、トレーニングされた第１のモデルを得るために、前記特定された制約に従って第１のモデルのパラメータを調整することができる。

いくつかの実施例では、拡張サンプルは、拡張サンプルのカテゴリーを示すタグを有する。たとえば、このタグは、ピクチャー中の数が１であること、または点灯しているライトの色が緑色であることを示すことができる。コンピューティングデバイス１１０は、複数の拡張サンプルセットに基づいて第１のモデル１３２に従って第３の制約を特定することができ、第３の制約は、拡張サンプルに対する第１のモデル１３２の出力とタグとの差分に関している。例えば、コンピューティングデバイス１１０は、第３の制約として第１のモデルの出力（例えば、分類結果）とタグとの間の差分のＣＴＣ損失関数を特定することができる。

コンピューティングデバイス１１０が第３の制約を特定した後、コンピューティングデバイス１１０は、第１の制約、第２の制約、第３の制約およびそれに関連する重みに基づいて第１のモデルをトレーニングして、トレーニングされた第１のモデルを取得することができる。

例えば、図１Ｂを例として取り上げると、コンピューティングデバイス１１０は、第１のモデル１３２についての、同じ元のデータ１２２の第１の拡張サンプル１２６および第２の拡張サンプル１２８の第１の出力１６２と第２の出力１６４との差分の第１の制約１４２を特定することができる。コンピューティングデバイス１１０はまた、第１のモデル１３２および第２のモデル１３４についての、同じ拡張サンプル（第１の拡張サンプル１２６、第２の拡張サンプル１２８、またはその両方）間の出力間の差分（すなわち、第１の出力１６２と第３の出力１６６との間の差分、第２の出力１４２と第４の出力１６８との間の差分）の第２の制約１４４を特定することができる。コンピューティングデバイス１１０はまた、タグ１６０と第１の出力１６２または第２の出力１６４との間の差分の第３の制約１４６を特定することができる。コンピューティングデバイス１１０は、以下の式（１）に従って合計制約を特定することができる。

合計制約＝重み１＊第１の制約＋重み２＊第２の制約＋重み３＊第３の制約（１）
ただし、重みは、異なるアプリケーションのニーズに応じて調整できる。コンピューティングデバイス１１０は、最終的に、合計制約に従って第１のモデル１３２のパラメータを調整して、合計制約を最小化し、それにより、トレーニングされた第１のモデルを取得することができる。

いくつかの実施例では、コンピューティングデバイス１１０は、第１のモデル１３２の試験結果に従って、前記の３つの重みを連続的に調整することができる。例えば、コンピューティングデバイス１１０が、モデルのテスト段階中に、同じ元のサンプルの異なる拡張サンプル間に対するモデルの出力の差分が大きいことを特定した場合、重み１の値は、重み２と重み３との値よりも高い値に設定され得る。したがって、異なる制約を示す重みを調整することにより、関連性的にモデルをトレーニングし、効率的で正確なモデルトレーニングを実現することができる。

本開示の実施例によれば、複雑度の高いモデルを使用して複雑度の低いモデルのトレーニングを監視することができ、トレーニングされたモデルの精度を向上することができる。さらに、同じサンプルに対して異なる拡張処理を行った後のモデルの出力の一致性を同時に考慮することにより、トレーニングされたモデルの一般化を向上できる。

図３は、本開示の実施例による、データを処理するための例示的な方法３００のフローチャートを示す。例えば、方法３００は、図１Ａに示されるようなコンピューティングデバイスによって実行され得る。

図３のブロック３１０において、コンピューティングデバイス１１０は、入力データを取得することができる。コンピューティングデバイス１１０には、上記した方式でトレーニングされた、トレーニングされたモデルが配置されることができる。いくつかの実施例では、入力データは、画像分類する画像データであり得ており、トレーニングされたモデルは、画像分類モデル、セマンティックセグメンテーションモデル、およびターゲット認識モデルのうちの１つである。

図３のブロック３２０において、コンピューティングデバイス１１０は、トレーニングされたモデルを使用して、前記入力データに対する予測結果を特定することができる。例えば、前述の入力データが画像分類する画像データであり得ており、トレーニングされたモデルが画像分類モデルである実施例では、予測結果は前記画像の分類結果である。上記の入力データがセマンティックセグメンテーションされる画像データであり得ており、トレーニングされたモデルがセマンティックセグメンテーションモデルである前述の実施例では、予測結果はセマンティックセグメンテーション結果である。上記の入力データがセマンティックセグメンテーションされる画像データであり得ており、トレーニングされたモデルがターゲット認識モデルである前述の実施例では、予測結果はターゲット認識結果である。本開示による技術案は、画像処理に関連する他のタスクまたは画像処理技術に基づいて実行されるタスク（例えば、自動運転、自律駐車など）にも適用することができる。

図４は、本開示の実施例によるモデルをトレーニングするための装置４００の概略ブロック図を示す。図４に示すように、装置４００は、複数の元のサンプルに対応する複数の拡張サンプルセットを特定するように構成される拡張サンプル特定モジュール４１０と、複数の拡張サンプルセットに基づいて第１のモデルに従って同じ拡張サンプルセット内の異なる拡張サンプルに対する第１のモデルの出力間の差分に関している第１の制約を特定するように構成される第１の制約特定モジュール４２０と、複数の拡張サンプルセットに基づいて、複雑さが第２のモデルの複雑さよりも低い第１のモデルと第２のモデルに従って同じ拡張サンプルセットに対する第１のモデルと第２のモデルの出力間の差分に関している第２の制約を特定するように構成される第２の制約特定モジュール４３０と、少なくとも第１の制約および第２の制約に基づいて第１のモデルをトレーニングして、トレーニングされた第１のモデルを取得するように構成される第１のモデルトレーニングモジュール４４０とを含む。

いくつかの実施例では、第１の制約特定モジュール４２０は、拡張サンプルセット内の第１の拡張サンプルに基づいて第１のモデルに従って第１の分類結果を生成するように構成される第１の結果生成モジュールと、拡張サンプルセット内の第２の拡張サンプルに基づいて第１のモデルに従って第２の分類結果を生成するように構成される第２の結果生成モジュールと、拡張サンプルセット内の第３の拡張サンプルに基づいて第１のモデルに従って第３の分類結果を生成するように構成される第３の結果生成モジュールと、第１の分類結果と第２の分類結果と第３の分類結果との間の差分に基づいて第１の制約を特定するように構成される第４の制約特定モジュールと、を含み得る。

いくつかの実施例では、拡張サンプルが、拡張サンプルのカテゴリを示すタグを有し、装置４００は、複数の拡張サンプルセットに基づいて第１のモデルに従って拡張サンプルに対する第１のモデルの出力とタグの差分に関している第３の制約を特定するように構成される第５の制約特定モジュール、をさらに含み得る。

いくつかの実施例では、第１のモデルトレーニングモジュール４４０は、第１の制約、第２の制約、第３の制約およびそれに関連する重みに基づいて第１のモデルをトレーニングしてトレーニングされた第１のモデルを取得するように構成される。

いくつかの実施例では、第２の制約特定モジュール４３０は、第４の拡張サンプルに基づいて第１のモデルに従って第４の分類結果を生成するように構成される第４の結果生成モジュールと、第４の拡張サンプルに基づいて第２のモデルに従って第５の分類結果を生成するように構成される第５の結果生成モジュールと、第４の分類結果と第５の分類結果との間の差分に基づいて第２の制約を特定するように構成される第６の制約特定モジュールと、を含み得る。

いくつかの実施例では、サンプルは、画像、ビデオ、オーディオ、テキスト、およびマルチメディアファイルのうちの少なくとも１つを含み得る。

図５は、本開示の一実施例による、データを処理するための装置５００の概略ブロック図を示す。図５に示すように、装置５００は、入力データを取得するように構成されるデータ取得モジュール５１０と、本開示実施例の装置によってトレーニングされたトレーニングされたモデルを使用して入力データに対する予測結果を特定するように構成される予測モジュール５２０とを含む。

いくつかの実施例では、入力データは画像のデータであり得ており、トレーニングされたモデルは画像分類モデル、セマンティックセグメンテーションモデル、およびターゲット認識モデルのうちの１つであり得ており、予測結果は画像の分類結果とセマンティックセグメンテーション結果とターゲット認識結果中の対応する一つであり得る。

図６には本開示の実施例を実施するための電子デバイス６００の示意性框図が示された。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータと、デスクトップコンピュータと、ワークベンチと、サーバと、ブレードサーバと、大型コンピュータと、他の適宜なコンピュータとを表す旨である。電子デバイスは、様々な形式の移動装置、例えば、パーソナル・デジタル・アシスタントと、携帯電話と、スマートフォンと、ウェアラブル機器と、他の類似する計算装置とを表してもよい。本文に示す部品と、それらの接続及び関係と、それらの機能とは単に例示であり、本文で説明した及び／又は要求した本開示の実現を限定することを意図しない。

図６に示すように、デバイス６００は、リードオンリーメモリ（ＲＯＭ）６０２に記憶されたコンピュータプログラム又は記憶手段６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたコンピュータプログラムに基づいて、各種の適宜な動作及び処理を実行することができる計算手段６０１を含んでいる。ＲＡＭ６０３には、デバイス６００の動作のために必要とする各種プログラム及びデータが記憶されてもよい。計算手段６０１と、ＲＯＭ６０２と、ＲＡＭ６０３とは、互いにバス６０４を介して接続される。入力・出力（Ｉ／Ｏ）インターフェース６０５もバス６０４に接続されている。

デバイス６００における複数の部品は、Ｉ／Ｏインターフェース６０５に接続され、キーボード、マウスなどの入力手段６０６と、各種タイプのディスプレイ、スピーカなどの出力手段６０７と、磁気ディスク、光ディスクなどの記憶手段６０８と、ネットワークカード、モデム、無線通信送受信機などの通信手段６０９とを含む。通信手段６０９は、デバイス６００がインターネットというコンピュータネットワーク及び／又は各種電気通信ネットワークを介して他の機器と情報・データをやりとりすることを可能にする。

計算手段６０１は、各種の処理及び計算能力を有する汎用及び／又は専用処理コンポーネントであってもよい。計算手段６０１の幾つかの例示は、中央処理手段（ＣＰＵ）と、図形処理手段（ＧＰＵ）と、各種の専用の人工知能（ＡＩ）計算チップと、各種の機器学習モデルアルゴリズムを実行する計算ユニットと、デジタル信号プロセッサ（ＤＳＰ）と、任意の適宜なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限られない。計算手段６０１は、前文で説明した各方法及び処理、例えばプロセス２００と３００を実行する。例えば、幾つかの実施例において、プロセス２００と３００は、コンピュータソフトウェアプログラムとして実現されてもよく、それが機器読取可能な媒体、例えば記憶手段６０８に有形的に含まれる。幾つかの実施例において、コンピュータプログラムの一部又は全部がＲＯＭ６０２及び／又は通信手段６０９を介してデバイス６００上にロード及び／又はインストールされ得る。コンピュータプログラムがＲＡＭ６０３にロードされ、計算手段６０１によって実行される時に、前文で説明したプロセス２００と３００の１つ又は複数のステップを実行することができる。選択可能的に、他の実施例において、計算手段６０１が他の任意の適宜な方式を介して（例えば、ファームウェアを介して）プロセス２００と３００を実行するように配置される。

本文で以上に説明したシステム及び技術の各種実施例は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、専用集積回路（ＡＳＩＣ）、専用標準製品（ＡＳＳＰ）、システム・オン・チップのシステム（ＳＯＣ）、負荷プログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組合せで実現され得る。これらの各種実施例は、１つ又は複数のコンピュータプログラムで実行されることを含んでもよく、この１つ又は複数のコンピュータプログラムが、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上に実行及び／又は解釈されてもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであり、記憶システムと、少なくとも１つの入力装置と、少なくとも１つの出力装置とから、データ及びコマンドを受信し、データ及びコマンドをこの記憶システムと、この少なくとも１つの入力装置と、この少なくとも１つの出力装置とに転送してもよい。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組合せによって書かれてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラへ供給されて、プログラムコードがプロセッサ又はコントローラによって実行される時にフローチャート及び／又はブロック図に規定された機能・動作が実施されるようにしてもよい。プログラムコードは、完全に機器上に実行されてもよいし、部分的に機器上に実行されてもよく、独立ソフトウェアパッケージとして部分的に機器上に実行され且つ部分的に遠隔機器上に実行され、或いは完全に遠隔機器又はサーバ上に実行される。

本開示の前後文において、機器読取可能な媒体は、有形的な媒体であってもよく、それが、コマンド実行システム、装置又は機器に使用され、又はコマンド実行システム、装置又は機器と組合せて使用されるプログラムを含み、或いは記憶してもよい。機器読取可能な媒体は、機器読取可能な信号媒体や、機器読取可能な記憶媒体であってもよい。機器読取可能な媒体は、電子、磁気的、光学的、電磁気的や赤外のもの、又は半導体システム、装置又は機器、或いは前記内容の任意の適宜な組合せを含むが、これらに限られない。機器読取可能な記憶媒体のより具体的な例示は、１つ又は複数のラインによる電気接続、携帯コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、ファイバ、携帯コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学的記憶デバイス、磁気的記憶デバイス、又は前記内容の任意の適宜な組合せを含む。

ユーザとのインタラクティブを提供するために、コンピュータでここで説明したシステム及び技術を実施してもよく、このコンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレー）モニタ）と、キーボード及び指向装置（例えば、マウス又はトラックボール）とを有し、ユーザは、このキーボード及びこの指向装置によって、入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクティブを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックは、任意の形式のセンサーフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（声入力、語音入力、又は触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明したシステム及び技術は、バックグラウンド部品を含む計算システム（例えば、データサーバとする）、又はミドルウェア部品を含む計算システム（例えば、アプリケーションサーバ）、又はフロントエンド部品を含む計算システム（例えば、グラフィカル・ユーザー・インターフェース又はネットワークブラウザを有するユーザコンピュータ、ユーザはこのグラフィカル・ユーザー・インターフェース又はこのネットワークブラウザを介してここで説明したシステム及び技術の実施例とインタラクティブすることができる）、又はこのようなバックグラウンド部品、ミドルウェア部品、或いはフロントエンド部品の任意の組合せを含む計算システムで実施されてもよい。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）を介してシステムの部品を相互に接続してもよい。通信ネットワークの例示は、ローカルエリアネットワーク（ＬＡＮ）と、広域ネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークを含んでいる。

コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバとは、一般的に互いに離れて、且つ通常に通信ネットワークを介してインタラクティブする。相応するコンピュータで実行されるとともに、互いにクライアント－サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係を形成する。サーバーは、クラウドコンピューティングサーバーまたはクラウドホストとも呼ばれるクラウドサーバーにすることができる。これは、従来の物理ホストとVPSサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」または「ＶＰＳ」）にある管理が難しく、ビジネスのスケーラビリティが弱いという欠点を解決するためのクラウドコンピューティングサービスシステムのホスト製品である。サーバーは、分散システムのサーバー、またはブロックチェーンと組み合わせたサーバーにすることもできる。

前記に示した様々な形式のフローを利用して、ステップを並び替え、追加又は削除することができると理解すべきである。例えば、本開示に記載された各ステップは、並行に実行されてもよいし、順番に実行されてもよいし、異なる順序で実行されてもよく、本開示が開示した技術案が所望する結果を実現できる限り、本文はここで限定しない。

上述した具体的な実施例は、本開示の保護範囲に対する限定を構成しない。当業者は、設計要求や他の要因に応じて、さまざまな修正、組合、サブ組合及び置換を行うことができると理解すべきである。本開示の趣旨及び原則の範囲内になされた任意の修正、等価な置換、改進などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

複数の元のサンプルに対応する複数の拡張サンプルセットを特定することと、
前記複数の拡張サンプルセットに基づいて、第１のモデルに従って同じ拡張サンプルセット内の異なる拡張サンプルに対する第１のモデルの出力間の差分に関している第１の制約を特定することと、
前記複数の拡張サンプルセットに基づいて、複雑さが第２のモデルの複雑さよりも低い第１のモデルと第２のモデルに従って、同じ拡張サンプルセットに対する第１のモデルと第２のモデルの出力間の差分に関している第２の制約を特定することと、
少なくとも前記第１の制約および前記第２の制約に基づいて、前記第１のモデルのトレーニングパラメータを調整して前記第１のモデルをトレーニングして、トレーニングされた前記第１のモデルを取得することと、を含む、
モデルをトレーニングするための方法。
前記複数の拡張サンプルセットに基づいて、第１のモデルに従って第１の制約を特定することは、
拡張サンプルセット内の第１の拡張サンプルに基づいて、前記第１のモデルに従って第１の分類結果を生成することと、
前記拡張サンプルセット内の第２の拡張サンプルに基づいて、前記第１のモデルに従って第２の分類結果を生成することと、
前記拡張サンプルセット内の第３の拡張サンプルに基づいて、前記第１のモデルに従って第３の分類結果を生成することと、
前記第１の分類結果、前記第２の分類結果と前記第３の分類結果との間の差分に基づいて、前記第１の制約を特定することと、を含む
請求項１に記載の方法。
拡張サンプルが、前記拡張サンプルのカテゴリを示すタグを有し、
前記複数の拡張サンプルセットに基づいて、第１のモデルに従って前記拡張サンプルに対する第１のモデルの出力と前記タグの差分に関している第３の制約を特定することをさらに含み、
少なくとも前記第１の制約および前記第２の制約に基づいて、前記第１のモデルをトレーニングして、トレーニングされた前記第１のモデルを取得することは、
前記第１の制約、前記第２の制約、前記第３の制約および、前記第１の制約、前記第２の制約、前記第３の制約にそれぞれ関連する重みに基づいて前記第１のモデルをトレーニングしてトレーニングされた第１のモデルを取得することを含む
請求項１に記載の方法。
前記複数の拡張サンプルセットに基づいて、前記第１のモデルと前記第２のモデルに従って第２の制約を特定することは、
第４の拡張サンプルに基づいて第１のモデルに従って第４の分類結果を生成することと、
前記第４の拡張サンプルに基づいて前記第２のモデルに従って第５の分類結果を生成することと、
前記第４の分類結果と前記第５の分類結果との間の差分に基づいて前記第２の制約を特定することと、を含む
請求項１に記載の方法。
サンプルは、画像、ビデオ、オーディオ、テキスト、およびマルチメディアファイルのうちの少なくとも１つを含む
請求項１に記載の方法。
入力データを取得することと、
請求項１～５のいずれか一項に記載の方法によってトレーニングされた、トレーニングされたモデルを使用して入力データに対する予測結果を特定することと、を含む
データを処理するための方法。
前記入力データは画像のデータであり、
前記トレーニングされたモデルは画像分類モデル、セマンティックセグメンテーションモデル、およびターゲット認識モデルのうちの１つであり、前記予測結果は前記画像の分類結果とセマンティックセグメンテーション結果とターゲット認識結果中の対応する一つ項である
請求項６に記載の方法。
複数の元のサンプルに対応する複数の拡張サンプルセットを特定するように構成される拡張サンプル特定モジュールと、
前記複数の拡張サンプルセットに基づいて第１のモデルに従って同じ拡張サンプルセット内の異なる拡張サンプルに対する第１のモデルの出力間の差分に関している第１の制約を特定するように構成される第１の制約特定モジュールと、
前記複数の拡張サンプルセットに基づいて、複雑さが第２のモデルの複雑さよりも低い前記第１のモデルと第２のモデルに従って同じ拡張サンプルセットに対する第１のモデルと第２のモデルの出力間の差分に関している第２の制約を特定するように構成される第２の制約特定モジュールと、
少なくとも前記第１の制約および前記第２の制約に基づいて、前記第１のモデルのトレーニングパラメータを調整して前記第１のモデルをトレーニングして、トレーニングされた前記第１のモデルを取得するように構成される第１のモデルトレーニングモジュールと、を含む、
モデルをトレーニングするための装置。
前記第１の制約特定モジュールは、
拡張サンプルセット内の第１の拡張サンプルに基づいて第１のモデルに従って第１の分類結果を生成するように構成される第１の結果生成モジュールと、
前記拡張サンプルセット内の第２の拡張サンプルに基づいて前記第１のモデルに従って第２の分類結果を生成するように構成される第２の結果生成モジュールと、
前記拡張サンプルセット内の第３の拡張サンプルに基づいて前記第１のモデルに従って第３の分類結果を生成するように構成される第３の結果生成モジュールと、
前記第１の分類結果と前記第２の分類結果と前記第３の分類結果との間の差分に基づいて前記第１の制約を特定するように構成される第４の制約特定モジュールと、を含む
請求項８に記載の装置。
拡張サンプルが、前記拡張サンプルのカテゴリを示すタグを有し、
前記装置は、
前記複数の拡張サンプルセットに基づいて第１のモデルに従って前記拡張サンプルに対する前記第１のモデルの出力と前記タグの差分に関している第３の制約を特定するように構成される第５の制約特定モジュール、をさらに含み、
前記第１のモデルトレーニングモジュールは、
前記第１の制約、前記第２の制約、前記第３の制約および、前記第１の制約、前記第２の制約、前記第３の制約にそれぞれ関連する重みに基づいて前記第１のモデルをトレーニングしてトレーニングされた前記第１のモデルを取得するように構成される第２のモデルトレーニングモジュールを含む、
請求項８に記載の装置。
前記第２の制約特定モジュールは、
第４の拡張サンプルに基づいて前記第１のモデルに従って第４の分類結果を生成するように構成される第４の結果生成モジュールと、
前記第４の拡張サンプルに基づいて前記第２のモデルに従って第５の分類結果を生成するように構成される第５の結果生成モジュールと、
前記第４の分類結果と前記第５の分類結果との間の差分に基づいて前記第２の制約を特定するように構成される第６の制約特定モジュールと、を含む、
請求項８に記載の装置。
サンプルは、画像、ビデオ、オーディオ、テキスト、およびマルチメディアファイルのうちの少なくとも１つを含む、
請求項８に記載の装置。
入力データを取得するデータ取得モジュールと、
請求項８～１２のいずれか一項に記載の装置によってトレーニングされたトレーニングされたモデルを使用して入力データに対する予測結果を特定する予測モジュールと、を含む
データを処理するための装置。
前記入力データは画像のデータであり、
前記トレーニングされたモデルは画像分類モデル、セマンティックセグメンテーションモデル、およびターゲット認識モデルのうちの１つであり、前記予測結果は前記画像の分類結果とセマンティックセグメンテーション結果とターゲット認識結果中の対応する一つ項である、
請求項１３に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリは、前記少なくとも１つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも１つのプロセッサが請求項１～５のいずれか一項に記載の方法を実行するように、前記少なくとも１つのプロセッサによって実行される
電子デバイス。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリは、前記少なくとも１つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも１つのプロセッサが請求項６～７のいずれか一項に記載の方法を実行するように、前記少なくとも１つのプロセッサによって実行される
電子デバイス。
コンピュータに請求項１～５のいずれか一項に記載の方法を実行させるコンピュータ命令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータに請求項６～７のいずれか一項に記載の方法を実行させるコンピュータ命令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体。
プロセッサによって実行される場合、請求項１～５のいずれか一項に記載の方法を実現するコンピュータプログラム。
プロセッサによって実行される場合、請求項６～７のいずれか一項に記載の方法を実現するコンピュータプログラム。