JP7347202B2

JP7347202B2 - 分類モデルを訓練する装置と方法及び分類モデルを用いた分類装置

Info

Publication number: JP7347202B2
Application number: JP2019234844A
Authority: JP
Inventors: ジャン・モン; リィウ・ルゥジエ
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-02-19
Filing date: 2019-12-25
Publication date: 2023-09-20
Anticipated expiration: 2039-12-25
Also published as: CN111582009B; EP3699819A1; JP2020135857A; US20200265272A1; US11514272B2; CN111582009A

Description

本発明は、情報処理分野に関し、特に、分類モデルを訓練する装置と方法、及び分類モデルを用いて分類を行う装置と方法に関する。

近年、大規模な人間の顔データ、車両データなどの収集及び畳み込みニューラルネットワークの応用により、人間の顔の認識、ナンバープレートの認識などの分類技術が学術界及び産業界で大きく進展し、幅広く適用されている。今のところ、人間の顔の認識、ナンバープレートの認識などの分類パフォーマンスを向上させる主なアイデアは、データを増やすことである。しかし、大規模なデータの収集は、手間及び時間がかかる。人間の顔データについて言えば、VGG2Face、Ms-Celeb-1M、MegaFaceなどに公開される人間の顔データ集合が既に存在する。各データ集合が各自の利点及び欠点を有し、各データ集合の利点を十分に利用することで、分類パフォーマンスを有効に向上させることができる。最も簡単な方法では、直接、複数のデータ集合を併合するが、異なるデータ集合が共通部分を有するため、同じデータの異なるデータ集合中でのラベルが異なる場合が生じやすく、また、簡単に複数のデータ集合を合併することで、訓練される分類モデルが収斂（収束）せず、又は、パフォーマンスがより悪くなる恐れがある。さらに、応用場面において姿勢の変化が大きく、解像度が低く、品質が悪いなどの問題が出現するときに、分類パフォーマンスが明らかに低下する可能性もある

上述のような問題に鑑み、本発明の目的は、従来技術に存在する１つ又は複数の欠点を解決することができる、分類モデルを訓練する装置と方法、及び分類モデルを用いて分類を行う装置と方法を提供することにある。

本発明の一側面によれば、分類モデルを訓練する装置が提供され、それは、
第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ対応する数量の特徴抽出層を設定するように構成され、且つ、各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される特徴抽出層を用いて、それぞれ、該サンプル画像の特徴を抽出し、該サンプル画像の抽出された特徴（抽出特徴）を取得するように構成される特徴抽出ユニットであって、前記第一所定数量の訓練集合のうちの少なくとも２つの訓練集合が少なくとも部分的に重畳（overlap）する特徴抽出ユニット；
前記第一所定数量の訓練集合に対してそれぞれ対応する数量の特徴融合層を設定するように構成され、且つ、各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される特徴融合層を用いて、該サンプル画像の抽出された特徴に対して融合を行い、該サンプル画像の融合後の特徴を取得するように構成される特徴融合ユニット；及び
前記第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ損失確定層を設定するように構成され、且つ、各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される損失確定層を用いて、該サンプル画像の融合後の特徴に基づいて該サンプル画像の損失関数を計算し、また、前記損失関数に基づいて前記分類モデルを訓練するように構成される損失確定ユニットを含み、
前記第一所定数量の訓練集合は、各訓練集合に対してそれぞれ設定される特徴融合層及び特徴抽出層のうちの少なくとも１つの層をシェアする。

本発明の他の側面によれば、分類モデルを訓練する方法が提供され、それは、
第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ対応する数量の特徴抽出層を設定し、且つ各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される特徴抽出層を用いて、それぞれ、該サンプル画像の特徴を抽出し、該サンプル画像の抽出された特徴を取得する特徴抽出ステップであって、前記第一所定数量の訓練集合のうちの少なくとも２つの訓練集合が少なくとも部分的に重畳する特徴抽出ステップ；
前記第一所定数量の訓練集合に対してそれぞれ対応する数量の特徴融合層を設定し、且つ各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される特徴融合層を用いて、該サンプル画像の抽出された特徴に対して融合を行い、各サンプル画像の融合後の特徴を取得する特徴融合ステップ；及び
前記第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ損失確定層を設定し、且つ各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される損失確定層を用いて、該サンプル画像の融合後の特徴に基づいて該サンプル画像の損失関数を計算し、また、前記損失関数に基づいて前記分類モデルを訓練する損失確定ステップを含み、
前記第一所定数量の訓練集合は、各訓練集合に対してそれぞれ設定される特徴抽出層及び特徴融合層のうちの少なくとも１つの層をシェアする。

本発明の他の側面によれば、分類モデルを用いて分類を行う装置が提供され、それは、
前記分類モデルにおける、第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ設定される対応する数量の特徴抽出層を用いて、それぞれ、分類待ち画像の特徴を抽出し、前記分類待ち画像の抽出された特徴を取得するように構成される第二特徴抽出ユニット；
前記分類モデルにおける、前記第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ設定される対応する数量の特徴融合層を用いて、前記分類待ち画像の抽出された特徴に対して融合を行い、前記分類待ち画像の融合後の特徴を取得するように構成される第二特徴融合ユニット；及び
前記分類モデルにおける、前記第一所定数量の訓練集合に対してそれぞれ設定される損失確定層を用いて、前記分類待ち画像の融合後の特徴に基づいて前記分類待ち画像の損失関数を計算し、また、前記損失関数に基づいて前記分類待ち画像に対して分類を行うように構成される第二損失確定ユニットを含み、
前記分類モデルでは、前記第一所定数量の訓練集合が各訓練集合に対してそれぞれ設定される特徴融合層及び特徴抽出層のうちの少なくとも１つの層をシェアする。

本発明の他の側面によれば、本発明による上述の方法を実現するためのコンピュータプログラムコード及びコンピュータプログラムプロダクトがさらに提供される。

本発明の実施例における分類モデル訓練装置の機能ブロック図である。本発明の実施例における分類モデル訓練装置の構造図である。本発明の実施例における分類モデル訓練装置の他の構造図である。本発明の実施例における分類モデル訓練方法のフローチャートである。本発明の実施例において訓練済みの分類モデルを用いて分類を行う装置の機能ブロック図である。本発明の実施例において訓練済みの分類モデルを用いて分類を行う方法のフローチャートである。本発明の実施例において採用され得る汎用コンピュータの構造ブロック図である。

以下、添付した図面を参照しながら、本発明を実施するための好適な形態を詳細に説明する。なお、このような実施形態は、例示に過ぎず、本発明を限定するものでない。

まず、図1を参照して、本発明の実施例における分類モデルを訓練する装置100の機能ブロック図について説明する。図1は、本発明の実施例における分類モデルを訓練する装置100の例示的な機能構成のブロック図である。図1に示すように、本発明の実施例における分類モデルを訓練する装置100は、特徴抽出ユニット102、特徴融合ユニット104及び損失確定ユニット106を含む。

特徴抽出ユニット102は、第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ対応する数量の特徴抽出層を設定するように構成され、且つ各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される特徴抽出層を用いて、それぞれ、該サンプル画像の特徴を抽出し、該サンプル画像の抽出された特徴（抽出特徴）を取得するように構成されても良く、そのうち、第一所定数量の訓練集合のうちの少なくとも２つの訓練集合が少なくとも部分的に重畳する。

第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ対応する数量の特徴抽出層を設定することは、第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ設定される特徴抽出層の数量がそれぞれ異なっても良いことを意味する。

第一所定数量をNとすると、第一所定数量の訓練集合は、訓練集合1、…、訓練集合Nである。第一所定数量の訓練集合のうちの少なくとも２つの訓練集合が少なくとも部分的に重畳することは、N個の訓練集合のうちの少なくとも２つの訓練集合の間に同じサンプル画像が存在し、即ち、N個の訓練集合のうちの少なくとも２つの訓練集合の間に共通データが存在することを意味する。

一例として、特徴抽出層は、畳み込みニューラルネットワークの畳み込み層であっても良い。なお、当業者が理解すべきは、特徴抽出層はさらに他の構造であっても良いということである。ここでは、その詳しい説明を省略する。

特徴融合ユニット104は、第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ対応する数量の特徴融合層を設定するように構成され、且つ各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される特徴融合層を用いて、該サンプル画像の抽出された特徴に対して融合を行い、該サンプル画像の融合後の特徴を取得するように構成されても良い。

第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ対応する数量の特徴融合層を設定することは、第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ設定される特徴融合層の数量がそれぞれ異なっても良いことを意味する。

一例として、特徴融合層は、畳み込みニューラルネットワークの全結合層であっても良い。なお、当業者が理解すべきは、特徴融合層はさらに他の構造であって良いということである。ここでは、その詳しい説明を省略する。

損失確定ユニット106は、第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ損失確定層を設定するように構成され、且つ各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される損失確定層を用いて、該サンプル画像の融合後の特徴に基づいて該サンプル画像の損失関数を計算し、また、損失関数に基づいて分類モデルを訓練するように構成されても良い。

なお、損失確定ユニット106では、サンプル画像を用いて分類モデルを訓練するときに、サンプル画像の属する訓練集合に対して設定される損失確定層を用いて該サンプル画像の損失関数を計算する必要があり、このようにして、該サンプル画像が正確に分類されるように保証することができる。また、損失確定ユニット106では、損失確定層が計算した損失関数の損失値を用いて誤差逆伝播を行うことで分類モデルを訓練する。一例として、損失関数は、softmax損失関数であっても良い。また、当業者がさらに損失関数の他の例を想到し得るが、ここでは、その詳しい説明を省略する。

本発明の実施例における分類モデルを訓練する装置100では、第一所定数量の訓練集合が、各訓練集合に対してそれぞれ設定される対応する数量の特徴融合層及びの特徴抽出層のうちの少なくとも１つの層をシェアする。第一所定数量の訓練集合に対して組み合わせを行うことでより大きい訓練集合を形成するときに、第一所定数量の訓練集合が、各訓練集合に対してそれぞれ設定される特徴融合層及びの特徴抽出層のうちの少なくとも１つの層をシェアすることにより、異なる訓練集合の間の共通データが正確に分類されるようにさせることができる。人間の顔データを含む訓練集合を例とすれば、第一所定数量の訓練集合が各訓練集合に対してそれぞれ設定される特徴融合層及びの特徴抽出層のうちの少なくとも１つの層をシェアすることにより、異なる訓練集合に存在する同じ人間の顔が正確に分類されるようにさせることができる。

図2は、本発明の実施例における分類モデルを訓練する装置100の１つの例示的な構造示す図である。

図2に示すように、第一所定数量がNである訓練集合が存在し、即ち、訓練集合1、…、訓練集合Nが存在する。便宜のため、図2は、N個の訓練集がシェアする特徴抽出層を示し、さらに、N個の訓練集合が特徴融合層aをシェアすることを示している。また、図2は、それぞれ、N個の訓練集合に対応する損失確定層、即ち、損失確定層1、…、損失確定層Nも示している。

人間の顔データを含む訓練集合を例とすると、複数の訓練集合の間に多くの同じ人間の顔データがある場合（即ち、訓練集合に共通データが存在する場合）、従来技術のように簡単に複数の訓練集合を合併して１つの訓練集合とすれば、異なる訓練集合に存在する同じ人間の顔が異なるラベルを有するデータと見なされ、訓練モデルが収斂し難く、又は、モデルのパフォーマンスが低下することが出現する可能性がある。

上述の説明から分かるように、本発明の実施例における分類モデルを訓練する装置100では、異なる訓練集合が、各訓練集合に対してそれぞれ設定される特徴融合層及びの特徴抽出層のうちの少なくとも１つの層をシェアすることで、異なる訓練集合の間の共通データが正確に分類されるようにさせることができる。即ち、本発明の実施例における分類モデルを訓練する装置100では、複数の訓練集合を組み合わせて同時に訓練を行い、且つ異なる訓練集合の間の共通データが正確に分類されるようにさせることができる。

好ましくは、本発明の実施例における分類モデルを訓練する装置100では、各訓練集合に対してそれぞれ設定される特徴融合層が複数の特徴融合層を有し、且つ第一所定数量の訓練集合が各訓練集合に対してそれぞれ設定される複数の特徴融合層のうちの少なくとも１つの層をシェアしない。これは、各訓練集合に対して設定される特徴融合層のうちの少なくとも１つの特徴融合層が第一所定数量の訓練集合によりシェアされず、シェアされない特徴融合層から出力される特徴が、各訓練集合に対してそれぞれ設定される、該訓練集合に対応する損失確定層に出力されることを意味する。図2は、N個の訓練集合が、訓練集合1に対して設定される特徴融合層b1、乃至、訓練集合Nに対して設置された特徴融合層bNをシェアしないことを示す。シェアされない特徴融合層b1乃至特徴融合層bNから出力される特徴がそれぞれ損失確定層1乃至損失確定層Nに出力される。

好ましくは、本発明の実施例における分類モデルを訓練する装置100は、さらに、ローカル領域取得ユニットを含み、ローカル領域取得ユニットは、各サンプル画像について、該サンプル画像の第二所定数量のローカル領域を得るように構成され、そのうち、各ローカル領域は、サンプル画像のグローバル領域における一部であり、そのうち、特徴抽出ユニット102は、グローバル領域及び各所定ローカル領域に対してそれぞれ対応する数量の特徴抽出層を設定することで、それぞれ、グローバル領域のグローバル特徴及び各所定ローカル領域のローカル特徴を抽出するように構成されても良く、そのうち、第一所定数量の訓練集合が各訓練集合中のサンプル画像のグローバル領域に対して設定される特徴抽出層のうちの少なくとも１つの層をシェアする。

グローバル領域及び各所定ローカル領域に対してそれぞれ対応する数量の特徴抽出層を設定することは、グローバル領域及び各所定ローカル領域に対してそれぞれ設定される特徴抽出層の数量がそれぞれ異なっても良いことを意味する。

好ましくは、第一所定数量の訓練集合は、さらに、各訓練集合中のサンプル画像の所定ローカル領域のうちの少なくとも１つの所定ローカル領域に対して設定される特徴抽出層のうちの少なくとも１つの層をシェアする。

なお、当業者が理解すべきは、ローカル領域取得ユニットに関する特徴と上述の複数の特徴融合層に関する特徴とに対して組み合わせを行っても良いということであり、このような組み合わせも本発明の範囲に属する。

一例として、グローバル領域は、サンプル画像の全ての領域であり、ローカル領域は、サンプル画像の全ての領域における一部の領域である。

サンプル画像が人間の顔画像であることを例とする場合、ローカル領域取得ユニットは、人間の顔の5つのキーとなる情報（2つの目、鼻及び２つの口元の情報）に基づいて、人間の顔を第二所定数量の人間の顔画像ブロックに分割することで、各サンプル画像のローカル領域、例えば、目を含む領域、鼻を含む領域、口元を含む領域などを得ることができる。サンプル画像は、人間の顔であっても良く、ナンバープレートなどであっても良い。また、ローカル領域取得ユニットでは、さらに、人間の顔画像以外の画像（例えば、ナンバープレート画像）に対して上述と同様な処理を行うこともできる。

具体的には、特徴抽出ユニット102は、グローバル領域に対して設定される特徴抽出層を用いて、グローバル領域のグローバル特徴を抽出し、且つ、各所定ローカル領域に対してそれぞれ設定される特徴抽出層を用いて、それぞれ、各所定ローカル領域のローカル特徴を抽出する。第一所定数量の訓練集合が各訓練集合中のサンプル画像のグローバル領域に対して設定される特徴抽出層のうちの少なくとも１つの特徴抽出層をシェアすることで、異なる訓練集合の間の共通データが正確に分類されるようにさせることができる。また、第一所定数量の訓練集合がさらに各訓練集合中のサンプル画像の所定ローカル領域における少なくとも１つの所定ローカル領域に対して設定される特徴抽出層のうちの少なくとも１つの特徴抽出層をシェアすることで、異なる訓練集合の間の共通データが正確に分類される精度をより一層向上させることができる。

図3は、本発明の実施例における分類モデルを訓練する装置100のもう１つの例示的な構造図である。

図3に示すように、訓練集合1、…、訓練集合Nが存在する。サンプル画像の一例として、図3は、訓練集合1からの男性顔画像及び訓練集合Nからの女性顔画像を示している。一例として、次のような方式でサンプル画像を選択しても良く、即ち、異なる訓練集合のうちから所定数の顔画像をランダムに選択し、そのうち、所定数の顔画像に含まれる各訓練集合の画像の個数が訓練集合の大小（サイズ）により決定され、例えば、訓練集合1と訓練集合N中のサンプル画像のデータ量の比が1：Pである場合、所定数の顔画像のうち、訓練集合1と訓練集合Nの画像の個数の比は、1：Pである。

図3に示すように、各サンプル画像から、目を含むローカル領域、鼻及び口元を含むローカル領域などを取得する。また、グローバル領域及び各所定ローカル領域に対してそれぞれ対応する数量の特徴抽出層を設定する。

便宜のため、図3には、N個の訓練集合が各訓練集合中のサンプル画像のグローバル領域及び各所定ローカル領域に対してそれぞれ設定される特徴抽出層をシェアすることが示されている。一例として、図3における矢印1及び矢印2に示すように、訓練集合1及び訓練集合Nにおけるグローバル領域がグローバル領域に対して設定される特徴抽出層をシェアし、図3における矢印3及び矢印4に示すように、訓練集合1及び訓練集合Nにおけるサンプル画像の目を含むローカル領域が該ローカル領域に対して設定される特徴抽出層をシェアし、また、図3における矢印5及び矢印6に示すように、訓練集合1及び訓練集合Nにおけるサンプル画像の鼻及び口元を含むローカル領域が該ローカル領域に対して設定される特徴抽出層をシェアする。

好ましくは、特徴抽出ユニット102では、グローバル領域及び第二所定数量の所定ローカル領域がグローバル領域及び各所定ローカル領域に対してそれぞれ設定される特徴抽出層のうちの少なくとも１つの層をシェアし、シェアされる前記少なくとも１つの層においてグローバル特徴と各ローカル特徴とを結合（combine）することで、各サンプル画像の結合後の特徴を取得する。一例として、シェアされる前記少なくとも１つの層においてグローバル特徴と各ローカル特徴とを結合することで、各ローカル領域のローカル特徴をグローバル特徴に対しての補充とする。

従来技術では、人間の顔の複数の画像ブロック（即ち、上述のローカル領域）を用いて分類を行う分類モデルが各画像ブロックのために１つの分類モデルを訓練し、M個の画像ブロックがM個の分類モデルを訓練することを要し、計算量が比較的大きいため、システムの即時性に影響を与えることがある。また、応用場面において姿勢の変化が大きく、解像度が比較、品質が悪い（例えば、灯光が暗すぎるなどが原因で）などの問題が生じるときに、分類パフォーマンスが明らかに低下する恐れがある。

本発明の実施例における分類モデルを訓練する装置100では、グローバル領域及び第二所定数量の所定ローカル領域がシェアする少なくとも１つ特徴抽出層においてグローバル特徴と各ローカル特徴とを結合し、各サンプル画像のグローバル特徴と各ローカル特徴との結合後の特徴がサンプル画像の特徴を正確に表すことができるため、サンプル画像に対しての正確な分類を助け、よりロバストな分類モデルを得ることができ、応用場面において姿勢の変化が大きく、解像度が低く、品質が悪いなどの問題が出現するときにも、比較的良い分類パフォーマンスを得ることができる。また、訓練の速度を上げることもできる。

図3に示すように、サンプル画像のグローバル領域、目を含むローカル領域並びに鼻及び口元を含むローカル領域などが、グローバル領域及び各所定ローカル領域に対してそれぞれ設定される特徴抽出層のうちの特徴抽出層a及びbをシェアする。また、サンプル画像のグローバル領域、目を含むローカル領域並びに鼻及び口元を含むローカル領域なども、グローバル領域及び各所定ローカル領域に対してそれぞれ設定される特徴抽出層のうちの特徴抽出層a及びbのうちの１つをシェアしても良い。

好ましくは、損失確定ユニット106は、各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される損失確定層を用いて、該サンプル画像の結合後の特徴に基づいて該サンプル画像の損失関数を計算し、また、損失関数に基づいて分類モデルを訓練するように構成される。上述のように、サンプル画像の結合後の特徴がグローバル特徴及びローカル特徴の両方を含むため、サンプル画像の特徴を正確に表すことができる。特徴融合層を用いてサンプル画像の結合後の特徴に対して融合を行うことで、該サンプル画像の融合後の特徴を取得し、また、該サンプル画像の融合後の特徴に基づいて該サンプル画像の損失関数を計算することができる。

図3は、それぞれ、N個の訓練集合に対応する損失確定層、即ち、損失確定層1、…、損失確定層Nを示している。上述のように、サンプル画像を用いて分類モデルを訓練するときに、サンプル画像の属する訓練集合に対して設定される損失確定層を用いて該サンプル画像の損失関数を計算することにより、該サンプル画像が正確に分類されるようにさせることができる。

好ましくは、第二所定数量のローカル領域は、グローバル領域に関する相補的情報を有する。このようにして、ローカル領域のローカル特徴がより全面的にグローバル特徴を補充し、各サンプル画像のグローバル特徴と各ローカル特徴との結合後の特徴がより正確にサンプル画像の特徴を表すようにさせることでき、これにより、サンプル画像に対してより正確な分類を行うように助けることができる。

上述の分類モデルを訓練する装置の実施例に対応して、本発明は、さらに、以下のように分類モデルを訓練する方法の実施例を提供する。

図4は、本発明の実施例における分類モデルを訓練する方法400の例示的なフローチャートである。

図4に示すように、本発明の実施例における分類モデルを訓練する方法400は、特徴抽出ステップS402、特徴融合ステップS404及び損失確定ステップS406を含む。

特徴抽出ステップS402では、第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ対応する数量の特徴抽出層を設定し、且つ各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される特徴抽出層を用いて、それぞれ、該サンプル画像の特徴を抽出し、該サンプル画像の抽出された特徴を取得し、そのうち、第一所定数量の訓練集合のうちの少なくとも２つの訓練集合が少なくとも部分的に重畳する。

特徴融合ステップS404では、第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ対応する数量の特徴融合層を設定し、且つ各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される特徴融合層を用いて、該サンプル画像の抽出された特徴に対して融合を行い、該サンプル画像の融合後の特徴を取得する。

一例として、特徴融合層は、畳み込みニューラルネットワークの全結合層であっても良い。なお、当業者が理解すべきは、特徴融合層はさらに他の構造であっても良いということである。ここでは、その詳しい説明を省略する。

損失確定ステップS406では、第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ損失確定層を設定し、且つ各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される損失確定層を用いて、該サンプル画像の融合後の特徴に基づいて該サンプル画像の損失関数を計算し、また、損失関数に基づいて分類モデルを訓練する。

本発明の実施例における分類モデルを訓練する方法400では、第一所定数量の訓練集合が各訓練集合に対してそれぞれ設定される対応する数量の特徴融合層及びの特徴抽出層のうちの少なくとも１つの層をシェアする。第一所定数量の訓練集合に対して組み合わせを行うことでより大きい訓練集合を形成するときに、第一所定数量の訓練集合が各訓練集合に対してそれぞれ設定される特徴融合層及びの特徴抽出層のうちの少なくとも１つの層をシェアすることで、異なる訓練集合の間の共通データが正確に分類されるようにさせることができる。人間の顔データを含む訓練集合を例とすると、第一所定数量の訓練集合が各訓練集合に対してそれぞれ設定される特徴融合層及びの特徴抽出層のうちの少なくとも１つの層をシェアすることで、異なる訓練集合に存在する同じ人間の顔が正確に分類されるようにさせることができる。

人間の顔データを含む訓練集合を例とするときに、複数の訓練集合の間に多くの同じ人間の顔データがあれば（即ち、訓練集合に共通データが存在すれば）、従来技術のように簡単に複数の訓練集合を併合して１つの訓練集合とすると、異なる訓練集合に存在する同じ人間の顔が異なるレベルを有するデータと見なされ、訓練モデルが収斂し難く、又は、モデルのパフォーマンスが低下することが出現する可能性がある。

上述の説明から分かるように、本発明の実施例における分類モデルを訓練する方法400では、異なる訓練集合が各訓練集合に対してそれぞれ設定される特徴融合層及び特徴抽出層のうちの少なくとも１つの層をシェアすることで、異なる訓練集合の間の共通データが正確に分類されるようにさせることができる。即ち、本発明の実施例における分類モデルを訓練する方法400では、複数の訓練集合を組み合わせて同時に訓練を行い、また、異なる訓練集合の間の共通データが正確に分類されるようにさせることもできる。

好ましくは、本発明の実施例における分類モデルを訓練する方法400では、各訓練集合に対してそれぞれ設定される特徴融合層が複数の特徴融合層を含み、また、第一所定数量の訓練集合が各訓練集合に対してそれぞれ設定される複数の特徴融合層のうちの少なくとも１つの層をシェアしない。これは、各訓練集合に対して設定される特徴融合層のうちの少なくとも１つの特徴融合層が第一所定数量の訓練集合によりシェアされず、シェアされない特徴融合層から出力される特徴が各訓練集合に対してそれぞれ設定される、該訓練集合に対応する損失確定層に出力されることを意味する。

好ましくは、本発明の実施例における分類モデルを訓練する方法400は、さらに、ローカル領域取得ステップを含み、ローカル領域取得ステップでは、各サンプル画像について、該サンプル画像の第二所定数量のローカル領域を取得し、そのうち、各ローカル領域は、サンプル画像のグローバル領域における一部であり、そのうち、特徴抽出ステップS402では、グローバル領域及び各所定ローカル領域に対してそれぞれ対応する数量の特徴抽出層を設定することで、それぞれ、グローバル領域のグローバル特徴及び各所定ローカル領域のローカル特徴を抽出し、そのうち、第一所定数量の訓練集合が各訓練集合中のサンプル画像のグローバル領域に対して設定される特徴抽出層のうちの少なくとも１つの層をシェアする。

当業者が理解すべきは、ローカル領域取得ステップに関する特徴と上述の複数の特徴融合層に関する特徴とを組み合わせても良いということであり、このような組み合わせも、本発明の範囲に属する。

具体的には、特徴抽出ステップS402では、グローバル領域に対して設定される特徴抽出層を用いてグローバル領域のグローバル特徴を抽出し、また、各所定ローカル領域に対してそれぞれ設定される特徴抽出層を用いてそれぞれ各所定ローカル領域のローカル特徴を抽出する。第一所定数量の訓練集合が各訓練集合中のサンプル画像のグローバル領域に対して設定される特徴抽出層のうちの少なくとも１つの特徴抽出層をシェアすることで、異なる訓練集合の間の共通データが正確に分類されるようにさせることができる。また、第一所定数量の訓練集合がさらに、各訓練集合中のサンプル画像の所定ローカル領域のうちの少なくとも１つの所定ローカル領域に対して設定される特徴抽出層のうちの少なくとも１つ特徴抽出層をシェアすることで、異なる訓練集合の間の共通データが正確に分類される精度をより一層向上させることができる。

好ましくは、特徴抽出ステップS402では、グローバル領域及び第二所定数量の所定ローカル領域がグローバル領域及び各所定ローカル領域に対してそれぞれ設定される特徴抽出層のうちの少なくとも１つの層をシェアし、シェアされる前記少なくとも１つの層においてグローバル特徴と各ローカル特徴とを結合することで、各サンプル画像の結合後の特徴を取得する。一例として、シェアされる前記少なくとも１つの層においてグローバル特徴と各ローカル特徴とを結合することで、各ローカル領域のローカル特徴をグローバル特徴に対しての補充とする。

従来技術では、人間の顔の複数の画像ブロック（即ち、上述のローカル領域）を用いて分類を行う分類モデルが各画像ブロックのために１つの分類モデルを訓練し、M個の画像ブロックがM個の分類モデルを訓練することを要し、計算量が比較的大きいため、システムの即時性に影響を与えることがある。また、応用場面において姿勢の変化が大きく、解像度が低く、品質が悪い（例えば、灯光が暗すぎるなどが原因で）などの問題が生じるときに、分類パフォーマンスが明らかに低下する可能性がある。

本発明の実施例における分類モデルを訓練する方法400では、グローバル領域及び第二所定数量の所定ローカル領域がシェアする少なくとも１つの特徴抽出層においてグローバル特徴と各ローカル特徴とを結合することで、各サンプル画像のグローバル特徴と各ローカル特徴との結合後の特徴が正確にサンプル画像の特徴を表すことができ、これにより、サンプル画像に対しての正確な分類を助け、よりロバストな分類モデルを得ることができ、応用場面において姿勢の変化が大きく、解像度が低く、品質が悪いなどの問題が出現するときにも、比較的良い分類パフォーマンスを得ることができる。また、訓練の速度を上げることもできる。

好ましくは、損失確定ステップS406では、各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される損失確定層を用いて、該サンプル画像の結合後の特徴に基づいて該サンプル画像の損失関数を計算し、また、損失関数に基づいて分類モデルを訓練する。上述のように、サンプル画像の結合後の特徴がグローバル特徴及びローカル特徴の両方を含むから、正確にサンプル画像の特徴を表すことができる。特徴融合層を用いてサンプル画像の結合後の特徴に対して融合を行うことで、該サンプル画像の融合後の特徴を取得し、また、該サンプル画像の融合後の特徴に基づいて該サンプル画像の損失関数を計算することもできる。

好ましくは、第二所定数量のローカル領域は、グローバル領域に関する相補的情報を有する。このようにして、ローカル領域のローカル特徴がより全面的にグローバル特徴に対して補充を行い、各サンプル画像のグローバル特徴と各ローカル特徴との結合後の特徴がより正確にサンプル画像の特徴を表すようにさせることができるため、サンプル画像に対して正確に分類を行うように助けることができる。

本発明は、さらに、分類モデルを用いて分類を行う装置を提供する。図5は、本発明の実施例における訓練済みの分類モデルを用いて分類を行う装置500の例示的な機能ブロック図である。図5に示すように、本発明の実施例における訓練済みの分類モデルを用いて分類を行う装置500は、第二特徴抽出ユニット502、第二特徴融合ユニット504及び第二損失確定ユニット506を含む。前記訓練済みの分類モデルは、本発明の上述の実施例における分類モデルを訓練する装置100、又は本発明の上述の実施例における分類モデルを訓練する方法400により訓練することで得られた分類モデルであっても良い。また、前記訓練済みの分類モデルは、図1-図4に基づいて訓練された分類モデルを例としたが、これに限定されない。

第二特徴抽出ユニット502は、分類モデルにおける、第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ設定される対応する数量の特徴抽出層を用いて、それぞれ、分類待ち画像の特徴を抽出し、分類待ち画像の抽出された特徴を得るように構成されても良い。

第二特徴融合ユニット504は、分類モデルにおける、第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ設定される特徴融合層を用いて、分類待ち画像の抽出された特徴に対して融合を行い、分類待ち画像の融合後の特徴を得るように構成されても良い。

第二損失確定ユニット506は、分類モデルにおける、第一所定数量の訓練集合に対してそれぞれ設定される損失確定層を用いて、分類待ち画像の融合後の特徴に基づいて分類待ち画像の損失関数を計算し、また、損失関数に基づいて分類待ち画像に対して分類を行うように構成されても良い。一例として、第二損失確定ユニット506は、第一所定数量の訓練集合に対してそれぞれ設定される損失確定層の計算により得られた損失関数のうち、最小の損失関数を選択し、そして、最小の該損失関数に対応する類別（クラス）を分類待ち画像の属する類別とすることができる。

そのうち、分類モデルでは、第一所定数量の訓練集合が各訓練集合に対してそれぞれ設定される特徴融合層及びの特徴抽出層のうちの少なくとも１つの層をシェアする。これにより、異なる訓練集合の間の共通データが正確に分類されるようにさせることができる。

上述の説明から分かるように、訓練済みの分類モデルにおいて異なる訓練集合が各訓練集合に対してそれぞれ設定される特徴融合層及びの特徴抽出層のうちの少なくとも１つの層をシェアすることで、異なる訓練集合の間の共通データが正確に分類されるようにさせることができる。よって、本発明の実施例における訓練済みの分類モデルを用いて分類を行う装置500では、分類待ち画像に対して正確に分類を行うことができる。

好ましくは、本発明の実施例における訓練済みの分類モデルを用いて分類を行う装置500は、さらに、第二ローカル領域取得ユニットを含み、第二ローカル領域取得ユニットは、分類待ち画像の第二所定数量のローカル領域を取得するように構成され、そのうち、各ローカル領域が分類待ち画像のグローバル領域における一部であり、第二特徴抽出ユニット502は、さらに、分類モデルにおける、グローバル領域及び各ローカル領域に対して設定される対応する数量の特徴抽出層を用いて、それぞれ、グローバル領域のグローバル特徴及び各所定ローカル領域のローカル特徴を抽出するように構成されても良く、そのうち、分類モデルでは、グローバル領域及び第二所定数量の所定ローカル領域がグローバル領域及び各所定ローカル領域に対してそれぞれ設定される特徴抽出層のうちの少なくとも１つの層をシェアし、シェアされる前記少なくとも１つの層においてグローバル特徴と各ローカル特徴とを結合することで、分類される画像の結合後の特徴を取得し、また、第二損失確定ユニット506は、さらに、分類モデルにおける、第一所定数量の訓練集合に対してそれぞれ設定される損失確定層を用いて、分類待ち画像の結合後の特徴に基づいて分類待ち画像の損失関数を計算し、また、損失関数に基づいて分類待ち画像を分類するように構成されても良い。

上述の分類モデルを用いて分類を行う装置の実施例に対応して、本発明は、さらに、以下のように分類モデルを用いて分類を行う方法の実施例を提供する。

図6は、本発明の実施例における訓練済みの分類モデルを用いて分類を行う方法600の例示的なのフローチャートである。

図6に示すように、本発明の実施例における訓練済みの分類モデルを用いて分類を行う方法600は、第二特徴抽出ステップS602、第二特徴融合ステップS604及び第二損失確定ステップS606を含む。前記訓練済みの分類モデルは、本発明の上述の実施例における分類モデルを訓練する装置100、又は本発明の上述の実施例における分類モデルを訓練する方法400により訓練することにより得られた分類モデルであっても良い。また、前記訓練済みの分類モデルは、図1-図4に基づいて訓練される分類モデルを例としたが、これに限られない。

第二特徴抽出ステップS602では、分類モデルにおける、第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ設定される対応する数量の特徴抽出層を用いて、それぞれ、分類待ち画像の特徴を抽出し、分類待ち画像の抽出された特徴を取得する。

一例として、特徴抽出層は、畳み込みニューラルネットワークの畳み込み層であっても良い。なお、当業者が理解すべきは、特徴抽出層はさらに他の構造を含んでも良いということである。ここでは、その詳しい説明を省略する。

第二特徴融合ステップS604では、分類モデルにおける、第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ設定される特徴融合層を用いて、分類待ち画像の抽出された特徴に対して融合を行い、分類待ち画像の融合後の特徴を取得する。

第二損失確定ステップS606では、分類モデルにおける、第一所定数量の訓練集合に対してそれぞれ設定される損失確定層を用いて、分類待ち画像の融合後の特徴に基づいて分類待ち画像の損失関数を計算し、また、損失関数に基づいて分類待ち画像を分類する。一例として、第二損失確定ステップS606では、第一所定数量の訓練集合に対してそれぞれ設定される損失確定層の計算により得られた損失関数のうち、最小の損失関数を選択し、最小の該損失関数に対応する類別（クラス）を分類待ち画像の属する類別とすることができる。

そのうち、分類モデルでは、第一所定数量の訓練集合が各訓練集合に対してそれぞれ設定される特徴融合層及び特徴抽出層のうちの少なくとも１つの層をシェアする。分類モデルでは、第一所定数量の訓練集合が各訓練集合に対してそれぞれ設定される特徴融合層及びの特徴抽出層のうちの少なくとも１つの層をシェアすることで、異なる訓練集合の間の共通データが正確に分類されるようにさせることができる。

上述の説明から分かるように、訓練済みの分類モデルにおいて異なる訓練集合が各訓練集合に対してそれぞれ設定される特徴融合層及びの特徴抽出層のうちの少なくとも１つの層をシェアすることで、異なる訓練集合の間の共通データが正確に分類されるようにさせることができるから、本発明の実施例における訓練済みの分類モデルを用いて分類を行う方法600では、分類待ち画像を正確に分類することができる。

好ましくは、本発明の実施例における訓練済みの分類モデルを用いて分類を行う方法600は、さらに、第二ローカル領域取得ステップを含み、第二ローカル領域取得ステップでは、分類待ち画像の第二所定数量のローカル領域を取得し、そのうち、各ローカル領域が分類待ち画像のグローバル領域における一部であり、第二特徴抽出ステップS602では、さらに分類モデルにおける、グローバル領域及び各ローカル領域に対して設定される対応する数量の特徴抽出層を用いて、それぞれ、グローバル領域のグローバル特徴及び各所定ローカル領域のローカル特徴を抽出し、そのうち、分類モデルでは、グローバル領域及び第二所定数量の所定ローカル領域がグローバル領域及び各所定ローカル領域に対してそれぞれ設定される特徴抽出層のうちの少なくとも１つの層をシェアし、シェアされる前記少なくとも１つの層においてグローバル特徴と各ローカル特徴とを結合することで、分類される画像の結合後の特徴を取得し、また、第二損失確定ステップS606では、さらに、分類モデルにおける、第一所定数量の訓練集合に対してそれぞれ設定される損失確定層を用いて、分類待ち画像の結合後の特徴に基づいて分類待ち画像の損失関数を計算し、また、損失関数に基づいて分類待ち画像に対して分類を行う。

また、本発明は、さらに、記憶媒体及びプログラムプロダクトに関する。本発明の実施例における記憶媒体及びプログラムプロダクトに含まれているマシン実行可能な指令が、上述の方法を実行するように構成されても良く、また、上述の方法の細部について、上述の説明を参照することができ、ここでは、その重複記載を割愛する。

それ相応に、上述のマシン実行可能な指令を含むプログラムプロダクトを記憶している記憶媒体も、本発明に含まれる。該記憶媒体は、例えば、フロッピーディスク、光ディスク、光磁気ディスク、メモリカード、フレッシュメモリなどを含んでも良いが、これに限定されない。

さらに、上述の一連の処理及び装置がソフトウェア及び/又はファームウェアにより実現されても良い。ソフトウェア及び/又はファームウェアにより実現される場合、記憶媒体又はネットワークから、専用ハードウェア構造を有するコンピュータ、例えば、図7に示す汎用コンピュータ700に、該ソフトウェアを構成するプログラムをインストールすることができる。該コンピュータは、各種のプログラムがインストールされるときに、各種の機能などを実現することができる。

図7は、本発明の実施例において採用され得る汎用コンピュータの構造ブロック図である。

図7では、中央処理装置（CPU）701は、ROM 702に記憶されているプログラム、又は、記憶部708からRAM 703にロードされているプログラムに基づいて、各種の処理を行う。RAM 703には、必要に応じて、CPU 701が各種の処理を実行するときに必要なデータを記憶しても良い。なお、CPU 701、ROM 702及びびRAM 703は、バス704を経由して接続される。また、入力／出力インターフェース705も、バス704に接続される。

次のような部品は、入力／出力インターフェース705に接続され、即ち、入力部706（キーボード、マウスなどを含む）、出力部707（表示器、例えば、CRT、LCDなど、及びびスピーカーなどを含む）、記憶部708（ハードディスクなどを含む）、及びび通信部709（ネットワーク・インターフェース・カード、例えば、LANカード、モデムなどを含む）というような部品である。通信部709は、ネットワーク、例えば、インターネットを経由して通信処理を行う。なお、必要に応じて、ドライブ710を入力／出力インターフェース705に接続させても良い。取り外し可能な媒体711、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶器などは、必要に応じて、ドライブ710にセットされ、その中から読み出されたコンピュータプログラムが必要に応じて記憶部708にインスタールされるようにさせることができる。

ソフトウェアにより上述の一連の処理を実現する場合、ネットワーク、例えば、インターネット、又は記憶媒体、例えば、取り外し可能な媒体711から、ソフトウェアを構成するプログラムをインストールすることができる。

なお、当業者が理解すべきは、このような記憶媒体は、図7に示すような取り外し可能な媒体711に限定されない。取り外し可能な媒体711は、例えば、磁気ディスク（フロッピーディスク（登録商標）を含む）、ディスク（CD-ROM及びびDVDを含む）、光磁気ディスク（MD（登録商標）を含む）、及びび半導体記憶器を含む。又はいは、記憶媒体は、ROM 802、記憶部808中のハードディスクなどであっても良い。

また、本発明の実施例などによる装置、方法などは、ソフトウェアにより実現されても良く、ハードェアにより実現されてもよく、ハードェア及びびソフトウェアの組み合わせにより実現されても良い。本発明は、このようなコンピュータ可読プログラムにも関し、即ち、ち、前記プログラムは、ロジック部品により実行されるときに、前記ロジック部品に、上述の装置又は構成要素を実現させることができ、又は、前記ロジック部品に、上述の方法又はそのステップを実現させることができる。さらに、本発明は、上述のプログラムを記憶した記憶媒体、例えば、ハードディスク、磁気ディスク、光ディスク、ＤＶＤ、フレッシュメモリなどにも関する。

また、以上の実施例などに関し、さらに以下のように付記を開示する。

（付記1）
分類モデルを訓練する装置であって、
第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ対応する数量の特徴抽出層を設定するように構成され、且つ各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される前記特徴抽出層を用いて、それぞれ、該サンプル画像の特徴を抽出し、該サンプル画像の抽出された特徴を取得するように構成され、前記第一所定数量の訓練集合のうちの少なくとも２つの訓練集合が少なくとも部分的に重畳する特徴抽出ユニット；
前記第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ対応する数量の特徴融合層を設定するように構成され、且つ各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される特徴融合層を用いて、該サンプル画像の抽出された特徴に対して融合を行い、該サンプル画像の融合後の特徴を取得するように構成される特徴融合ユニット；及び
前記第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ損失確定層を設定するように構成され、且つ各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される損失確定層を用いて、該サンプル画像の融合後の特徴に基づいて該サンプル画像の損失関数を計算し、また、前記損失関数に基づいて前記分類モデルを訓練するように構成される損失確定ユニットを含み、
前記第一所定数量の訓練集合は、各訓練集合に対してそれぞれ設定される特徴融合層及び特徴抽出層のうちの少なくとも１つの層をシェアする、装置。

（付記2）
付記1に記載の分類モデルを訓練する装置であって、
各訓練集合に対してそれぞれ設定される特徴融合層は、複数の特徴融合層を含み、また、前記第一所定数量の訓練集合は、各訓練集合に対してそれぞれ設定される前記複数の特徴融合層のうちの少なくとも１つの層をシェアしない、装置。

（付記3）
付記1に記載の分類モデルを訓練する装置であって、
各サンプル画像について、該サンプル画像の第二所定数量のローカル領域を得るように構成され、各ローカル領域が前記サンプル画像のグローバル領域における一部であるローカル領域取得ユニットをさらに含み、
前記特徴抽出ユニットは、前記グローバル領域及び各所定ローカル領域に対して対応する数量の特徴抽出層をそれぞれ設定し、それぞれ、前記グローバル領域のグローバル特徴及び各所定ローカル領域のローカル特徴を抽出するように構成され、
前記第一所定数量の訓練集合は、各訓練集合中のサンプル画像の前記グローバル領域に対して設定される特徴抽出層のうちの少なくとも１つの層をシェアする、装置。

（付記4）
付記3に記載の分類モデルを訓練する装置であって、
前記第一所定数量の訓練集合は、さらに、各訓練集合中のサンプル画像の所定ローカル領域のうちの少なくとも１つの所定ローカル領域に対して設定される特徴抽出層のうちの少なくとも１つの層をシェアする、装置。

（付記5）
付記3に記載の分類モデルを訓練する装置であって、
前記特徴抽出ユニットでは、前記グローバル領域及び前記第二所定数量の所定ローカル領域が前記グローバル領域及び各所定ローカル領域に対してそれぞれ設定される特徴抽出層のうちの少なくとも１つの層をシェアし、シェアされる前記少なくとも１つの層において前記グローバル特徴と各ローカル特徴とを結合し、各サンプル画像の結合後の特徴を取得する、装置。

（付記6）
付記5に記載の分類モデルを訓練する装置であって、
前記損失確定ユニットは、各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される損失確定層を用いて、該サンプル画像の結合後の特徴に基づいて該サンプル画像の前記損失関数を計算し、また、前記損失関数に基づいて前記分類モデルを訓練するように構成される、装置。

（付記7）
付記3に記載の分類モデルを訓練する装置であって、
前記第二所定数量のローカル領域は、前記グローバル領域に関する相補的情報を有する、装置。

（付記8）
付記1に記載の分類モデルを訓練する装置であって、
前記特徴抽出層は、畳み込みニューラルネットワークの畳み込み層であり、前記特徴融合層は、前記畳み込みニューラルネットワークの全結合層である、装置。

（付記9）
分類モデルを訓練する方法であって、
第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ対応する数量の特徴抽出層を設定し、且つ各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される特徴抽出層を用いて、それぞれ、該サンプル画像の特徴を抽出し、該サンプル画像の抽出された特徴を取得する特徴抽出ステップであって、前記第一所定数量の訓練集合のうちの少なくとも２つの訓練集合が少なくとも部分的に重畳する特徴抽出ステップ；
前記第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ対応する数量の特徴融合層を設定し、且つ各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される特徴融合層を用いて、該サンプル画像の抽出された特徴に対して融合を行い、各サンプル画像の融合後の特徴を取得する特徴融合ステップ；及び
前記第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ損失確定層を設定し、且つ各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される損失確定層を用いて、該サンプル画像の融合後の特徴に基づいて該サンプル画像の損失関数を計算し、また、前記損失関数に基づいて前記分類モデルを訓練する損失確定ステップを含み、
前記第一所定数量の訓練集合は、各訓練集合に対してそれぞれ設定される特徴抽出層及び特徴融合層のうちの少なくとも１つの層をシェアする、方法。

（付記10）
付記9に記載の分類モデルを訓練する方法であって、
各訓練集合に対してそれぞれ設定される特徴融合層は、複数の特徴融合層を含み、前記第一所定数量の訓練集合は、各訓練集合に対してそれぞれ設定される前記複数の特徴融合層のうちの少なくとも１つの層をシェアしない、方法。

（付記11）
付記9に記載の分類モデルを訓練する方法であって、
ローカル領域取得ステップをさらに含み、該ステップでは、各サンプル画像について、該サンプル画像の第二所定数量のローカル領域を取得し、各ローカル領域は、前記サンプル画像のグローバル領域における一部であり、
前記特徴抽出ステップでは、前記グローバル領域及び各所定ローカル領域に対してそれぞれ対応する数量の特徴抽出層を設定し、それぞれ、前記グローバル領域のグローバル特徴及び各所定ローカル領域のローカル特徴を抽出し、
前記第一所定数量の訓練集合は、各訓練集合中のサンプル画像の前記グローバル領域に対して設定される特徴抽出層のうちの少なくとも１つの層をシェアする、方法。

（付記12）
付記11に記載の分類モデルを訓練する方法であって、
前記第一所定数量の訓練集合は、さらに、各訓練集合中のサンプル画像の所定ローカル領域のうちの少なくとも１つの所定ローカル領域に対して設定される特徴抽出層のうちの少なくとも１つの層をシェアする、方法。

（付記13）
付記11に記載の分類モデルを訓練する方法であって、
前記特徴抽出ステップでは、前記グローバル領域及び前記第二所定数量の所定ローカル領域が前記グローバル領域及び各所定ローカル領域に対してそれぞれ設定される特徴抽出層のうちの少なくとも１つの層をシェアし、シェアされる前記少なくとも１つの層において前記グローバル特徴と各ローカル特徴とを結合し、各サンプル画像の結合後の特徴を取得する、方法。

（付記14）
付記13に記載の分類モデルを訓練する方法であって、
前記損失確定ステップでは、各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される損失確定層を用いて、該サンプル画像の結合後の特徴に基づいて該サンプル画像の前記損失関数を計算し、また、前記損失関数に基づいて前記分類モデルを訓練する、方法。

（付記15）
付記11に記載の分類モデルを訓練する方法であって、
前記第二所定数量のローカル領域は、前記グローバル領域に関する相補的情報を有する、方法。

（付記16）
付記9に記載の分類モデルを訓練する方法であって、
前記特徴抽出層は、畳み込みニューラルネットワークの畳み込み層であり、前記特徴融合層は、前記畳み込みニューラルネットワークの全結合層である、方法。

（付記17）
分類モデルを用いて分類を行う装置であって、
前記分類モデルにおける、第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ設定される対応する数量の特徴抽出層を用いて、それぞれ、分類待ち画像の特徴を抽出し、前記分類待ち画像の抽出された特徴を取得するように構成される第二特徴抽出ユニット；
前記分類モデルにおける、前記第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ設定される対応する数量の特徴融合層を用いて、前記分類待ち画像の抽出された特徴に対して融合を行い、前記分類待ち画像の融合後の特徴を取得するように構成される第二特徴融合ユニット；及び
前記分類モデルにおける、前記第一所定数量の訓練集合に対してそれぞれ設定される損失確定層を用いて、前記分類待ち画像の融合後の特徴に基づいて前記分類待ち画像の損失関数を計算し、また、前記損失関数に基づいて前記分類待ち画像に対して分類を行うように構成される第二損失確定ユニットを含み、
前記分類モデルでは、前記第一所定数量の訓練集合は、各訓練集合に対してそれぞれ設定される特徴融合層及び特徴抽出層のうちの少なくとも１つの層をシェアする、装置。

（付記18）
付記17に記載の分類モデルを用いて分類を行う装置であって、
前記分類待ち画像の第二所定数量のローカル領域を取得するように構成される第二ローカル領域取得ユニットであって、各ローカル領域が前記分類待ち画像のグローバル領域における一部である第二ローカル領域取得ユニットをさらに含み、
前記第二特徴抽出ユニットは、さらに、前記分類モデルにおける、前記グローバル領域及び各ローカル領域に対して設定される特徴抽出層を用いて、それぞれ、前記グローバル領域のグローバル特徴及び各所定ローカル領域のローカル特徴を抽出するように構成され、前記分類モデルでは、前記グローバル領域及び前記第二所定数量の所定ローカル領域が前記グローバル領域及び各所定ローカル領域に対してそれぞれ設定される特徴抽出層のうちの少なくとも１つの層をシェアし、シェアされる前記少なくとも１つの層において前記グローバル特徴と各ローカル特徴とを結合し、前記分類待ち画像の結合後の特徴を取得し、
前記第二損失確定ユニットは、さらに、前記分類モデルにおける、前記第一所定数量の訓練集合に対してそれぞれ設定される損失確定層を用いて、前記分類待ち画像の結合後の特徴に基づいて前記分類待ち画像の損失関数を計算し、また、前記損失関数に基づいて前記分類待ち画像に対して分類を行うように構成される、装置。

以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は、本発明の技術的範囲に属する。

Claims

分類モデルを訓練する装置であって、
第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ対応する数量の特徴抽出層を設定するように構成され、各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される前記特徴抽出層を用いて、それぞれ、該サンプル画像の特徴を抽出し、該サンプル画像の抽出特徴を取得するように構成される特徴抽出ユニットであって、前記第一所定数量の訓練集合のうちの少なくとも２つの訓練集合が少なくとも部分的に重畳する特徴抽出ユニット；
前記第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ対応する数量の特徴融合層を設定するように構成され、各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される特徴融合層を用いて、該サンプル画像の抽出特徴に対して融合を行い、該サンプル画像の融合後の特徴を取得するように構成される特徴融合ユニット；及び
前記第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ損失確定層を設定するように構成され、各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される損失確定層を用いて、該サンプル画像の融合後の特徴に基づいて該サンプル画像の損失関数を計算し、前記損失関数に基づいて前記分類モデルを訓練するように構成される損失確定ユニットを含み、
前記第一所定数量の訓練集合は、各訓練集合に対してそれぞれ設定される特徴融合層及び特徴抽出層のうちの少なくとも１つの層をシェアする、装置。
請求項1に記載の装置であって、
各訓練集合に対してそれぞれ設定される特徴融合層は、複数の特徴融合層を含み、
前記第一所定数量の訓練集合は、各訓練集合に対してそれぞれ設定される前記複数の特徴融合層のうちの少なくとも１つの層をシェアしない、装置。
請求項1に記載の装置であって、
各サンプル画像について、該サンプル画像の第二所定数量のローカル領域を得るように構成されるローカル領域取得ユニットであって、各ローカル領域が前記サンプル画像のグローバル領域における一部であるローカル領域取得ユニットをさらに含み、
前記特徴抽出ユニットは、前記グローバル領域及び各所定ローカル領域に対して対応する数量の特徴抽出層をそれぞれ設定し、それぞれ、前記グローバル領域のグローバル特徴及び各所定ローカル領域のローカル特徴を抽出するように構成され、
前記第一所定数量の訓練集合は、各訓練集合中のサンプル画像の前記グローバル領域に対して設定される特徴抽出層のうちの少なくとも１つの層をシェアする、装置。
請求項3に記載の装置であって、
前記第一所定数量の訓練集合は、さらに、各訓練集合中のサンプル画像の所定ローカル領域のうちの少なくとも１つの所定ローカル領域に対して設定される特徴抽出層のうちの少なくとも１つの層をシェアする、装置。
請求項3に記載の装置であって、
前記特徴抽出ユニットでは、前記グローバル領域及び前記第二所定数量の所定ローカル領域が前記グローバル領域及び各所定ローカル領域に対してそれぞれ設定される特徴抽出層のうちの少なくとも１つの層をシェアし、シェアされる前記少なくとも１つの層において前記グローバル特徴と各ローカル特徴とを結合し、各サンプル画像の結合後の特徴を取得する、装置。
請求項5に記載の装置であって、
前記損失確定ユニットは、各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される損失確定層を用いて、該サンプル画像の結合後の特徴に基づいて該サンプル画像の前記損失関数を計算し、前記損失関数に基づいて前記分類モデルを訓練するように構成される、装置。
請求項3に記載の装置であって、
前記第二所定数量のローカル領域は、前記グローバル領域に関する相補的情報を有する、装置。
分類モデルを訓練する方法であって、
第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ対応する数量の特徴抽出層を設定し、各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される特徴抽出層を用いて、それぞれ、該サンプル画像の特徴を抽出し、該サンプル画像の抽出特徴を取得する特徴抽出ステップであって、前記第一所定数量の訓練集合のうちの少なくとも２つの訓練集合が少なくとも部分的に重畳する特徴抽出ステップ；
前記第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ対応する数量の特徴融合層を設定し、各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される特徴融合層を用いて、該サンプル画像の抽出特徴に対して融合を行い、各サンプル画像の融合後の特徴を取得する特徴融合ステップ；及び
前記第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ損失確定層を設定し、各サンプル画像について、該サンプル画像の属する訓練集合に対して設定される損失確定層を用いて、該サンプル画像の融合後の特徴に基づいて該サンプル画像の損失関数を計算し、前記損失関数に基づいて前記分類モデルを訓練する損失確定ステップを含み、
前記第一所定数量の訓練集合は、各訓練集合に対してそれぞれ設定される特徴抽出層及び特徴融合層のうちの少なくとも１つの層をシェアする、方法。
請求項8に記載の方法であって、
各訓練集合に対してそれぞれ設定される特徴融合層は、複数の特徴融合層を含み、
前記第一所定数量の訓練集合は、各訓練集合に対してそれぞれ設定される前記複数の特徴融合層のうちの少なくとも１つの層をシェアしない、方法。
分類モデルを用いて分類を行う装置であって、
前記分類モデルにおける、第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ設定される対応する数量の特徴抽出層を用いて、それぞれ、分類待ち画像の特徴を抽出し、前記分類待ち画像の抽出特徴を取得するように構成される第二特徴抽出ユニット；
前記分類モデルにおける、前記第一所定数量の訓練集合のうちの各訓練集合に対してそれぞれ設定される対応する数量の特徴融合層を用いて、前記分類待ち画像の抽出特徴に対して融合を行い、前記分類待ち画像の融合後の特徴を取得するように構成される第二特徴融合ユニット；及び
前記分類モデルにおける、前記第一所定数量の訓練集合に対してそれぞれ設定される損失確定層を用いて、前記分類待ち画像の融合後の特徴に基づいて前記分類待ち画像の損失関数を計算し、前記損失関数に基づいて前記分類待ち画像に対して分類を行うように構成される第二損失確定ユニットを含み、
前記分類モデルでは、前記第一所定数量の訓練集合が、各訓練集合に対してそれぞれ設定される特徴融合層及び特徴抽出層のうちの少なくとも１つの層をシェアする、装置。