JP7262290B2 - 特徴ベクトルを生成するシステム - Google Patents

特徴ベクトルを生成するシステム Download PDF

Info

Publication number
JP7262290B2
JP7262290B2 JP2019085609A JP2019085609A JP7262290B2 JP 7262290 B2 JP7262290 B2 JP 7262290B2 JP 2019085609 A JP2019085609 A JP 2019085609A JP 2019085609 A JP2019085609 A JP 2019085609A JP 7262290 B2 JP7262290 B2 JP 7262290B2
Authority
JP
Japan
Prior art keywords
feature vector
class
sample
anchor
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019085609A
Other languages
English (en)
Other versions
JP2020181486A (ja
JP2020181486A5 (ja
Inventor
マルティン クリンキグト
モーヒト チャーブラ
敦 廣池
智一 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019085609A priority Critical patent/JP7262290B2/ja
Priority to PCT/JP2020/017270 priority patent/WO2020218314A1/ja
Publication of JP2020181486A publication Critical patent/JP2020181486A/ja
Publication of JP2020181486A5 publication Critical patent/JP2020181486A5/ja
Application granted granted Critical
Publication of JP7262290B2 publication Critical patent/JP7262290B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/908Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、特徴ベクトルを生成するシステムに関する。
ニューラルネットワークは様々な方法で訓練することができる(例えば特許文献1を参照)。一般的な方法の一つは、ニューラルネットワークに画像を入力し、出力ニューロンの活性化を計算する。活性化が正しくない場合、ニューラルネットワークは、誤差に応じて更新される。このようなニューラルネットワークの利用方法は、分類である。訓練されニューラルネットワークは、訓練中に提供された画像サンプルを適切に分類することができるが、訓練データに含まれていない画像データの分類に簡単に拡張することはできない。
このような拡張を達成するために、画像特徴として最後から2番目の層を利用しながらニューロンの最後の層を除去する。この画像特徴ベクトルを使用して、SVM(Support Vector Machine)のようなモデルを訓練することができる。
ここで、分類のために訓練されたニューラルネットワークに関するさらなる問題が生じる。2番目の最後の層またはそれ以前の層の特徴ベクトルは、特定の意味関係を示すように訓練されていない。例えば、「cat」と「car」の特徴ベクトルは類似し得る(ユークリッド距離が小さい)一方、「cat」と「dog」の特徴ベクトは非類似であり得る(大きなユークリッド距離)。
ニューラルネットワークの訓練するため、特徴ベクトル自体を最適化するのではなく、特徴ベクトル間の距離を最適化する方法が知られている。Triplet Lossと呼ばれるこの最適化を実現する方法は、アンカクラスを固定し、このアンカクラスAの画像サンプルAを選択する。当該方法は、同じアンカクラスAから追加の画像サンプルPを選択し、異なるクラスNから画像サンプルNを選択する。
サンプルPはサンプルAのポジティブなサンプルであり、サンプルNはサンプルAのネガティブなサンプルである。すべてのサンプルA、P及びNについて、ニューラルネットワークは画像の特徴ベクトルW(A)、W(P)およびW(N)を計算し、出力する。ニューラルネットワークの出力について、次の条件が満たされていることが保証される(満たされるように訓練される)。
||W(A)-W(P)||<||W(A)-W(N)||
特開2017-211950号公報
Triplet Lossにおける上記条件は、アンカクラスAの二つのサンプルの特徴ベクトルが(マージン内で)同一であり、ネガティブクラスNの特徴ベクトルがアンカクラスAの特徴ベクトルと異なることを保証する。しかし、Triplet Lossは、意味の類似性を考慮しない。そのため、「cat」と「dog」の特徴ベクトルは全く非類似である可能性があり、「cat」と「car」の特徴ベクトルは非常に類似している可能性がある。
本開示の一態様のシステムは、複数のサンプルを含むデータベースと、入力サンプルの特徴ベクトルを出力する機械学習モデルと、を格納する1以上の記憶装置と、前記1以上の記憶装置に格納される命令に従って動作する1以上のプロセッサと、を含む。前記1以上のプロセッサは、前記データベースから、第1クラスに属するアンカサンプルを取得し、前記データベースから、前記第1クラスに属し、前記アンカサンプルと異なるポジティブサンプルを取得し、前記第1クラスと異なる第2クラスに属する、ネガティブサンプルを取得し、前記機械学習モデルを使用して、前記アンカサンプルの特徴ベクトル、前記ポジティブサンプルの特徴ベクトル、前記ネガティブサンプルの特徴ベクトル、を生成し、予め定義されている条件を満たすように、前記機械学習モデルを訓練する。前記条件は、前記アンカサンプルの特徴ベクトルと前記ポジティブサンプルの特徴ベクトルとの間の距離が、前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離より近く、前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離が満たすべき範囲を、予め定義されているセマンティック空間における前記第1クラスと前記第2クラス間のセマンティック距離に基づき定義している。
本発明の一態様によれば、サンプルのセマンティックな特徴ベクトルを生成できる。
実施形態1において、機械学習システムの論理構成を模式的に示す。 実施形態1において、システムの動作の概要を示すフローチャートである。 実施形態1において、機械学習システムを構成する計算機システムの構成例を示す。 実施形態1において、訓練画像データベースが格納している訓練画像データの例を示す。 実施形態1において、クラスの例を示す。 実施形態1において、訓練における特徴ベクトル生成モデルの入力データ及び出力データを示す。 実施形態1において、モデル訓練部による特徴ベクトル生成モデルの訓練のフローチャートの例を示す。 実施形態1において、訓練済みの特徴ベクトル生成モデルによる分類結果の例を模式的に示す。 実施形態1において、新規クラスのより具体的な例を示す。 実施形態1において、訓練済みの特徴ベクトル生成モデルによる分類結果の例を模式的に示す。 実施形態1において、システムにより生成される特徴ベクトルを使用する例を示す。 実施形態1において、システムにより生成される特徴ベクトルを使用する他の例を示す。 実施形態3において、機械学習システムの論理構成を模式的に示す。 実施形態3において、メモリにおけるソフトウェア構成を示す。 実施形態3において、特徴ベクトル生成モデルの動作を模式的に示している。 実施形態3において、画像生成モデルの動作を模式的に示している。 実施形態3において、特徴ベクトル生成モデル及び画像生成モデルのモデル訓練部による訓練を説明するための図である。
以下、添付図面を参照して本発明の実施形態を説明する。本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。
<実施形態1>
図1は、本実施形態の機械学習システムの論理構成を模式的に示す。システムは、入力画像から特徴ベクトル出力する機械学習モデル(特徴ベクトル生成モデル)を、入力画像の意味を考慮して訓練する。以下において、入力画像から特徴ベクトルを生成する例が説明されるが、本実施形態の特徴は、画像と異なる入力サンプルから特徴ベクトルを生成するシステムに適用することができる。
訓練は、機械学習アルゴリズムのTriplet Lossを利用する。本実施形態のシステムにより、特徴ベクトル生成モデルが出力する特徴ベクトル間の関係に、入力画像の分類クラス(意味)を反映させることができる。
システム1は、前処理部11、特徴ベクトル生成モデル13、運用部14、及びモデル訓練部15を含む。システム1は、さらに、訓練画像データベース21、セマンティックデータベース22、及び運用画像データベース23を含む。
図2は、システム1の動作の概要を示すフローチャートである。システム1の動作フェーズは、訓練(学習)フェーズ及び運用フェーズを含む。システム1は、訓練フェーズにおいて、特徴ベクトル生成モデル13の訓練を行う(S10)。後述するように、特徴ベクトル生成モデル13は、入力画像に対して特徴ベクトルを出力する。特徴ベクトル生成モデル13の訓練は、Triplet Lossを利用し、入力画像の意味(クラス)を考慮する。
システム1は、運用フェーズにおいて、訓練された特徴ベクトル生成モデル13を使用して、ターゲット画像の特徴ベクトルを生成する(S20)。運用部14は、特徴ベクトル生成モデル13が生成した特徴ベクトルに基づく処理を実行する(S30)。例えば、運用部14は、監視画像の特徴ベクトル間の関係から危険を検知し、オペレータ警告を与える、又は、特徴ベクトルによって、入力されたテキストにマッチする画像を検索することができる。
図1に戻って、訓練画像データベース21は、特徴ベクトル生成モデル13の訓練(学習)フェーズ使用される、訓練画像データを格納する。訓練画像データベース21は、サンプルを格納するサンプルデータベースの例である。後述するように、訓練画像データベース21は、複数の画像サンプルをクラスと関連付けて格納しており、複数のクラスの各クラスに属する複数の画像サンプルを格納している。
セマンティックデータベース22は、クラス間の意味的における類似性(セマンティック類似性)を定義する。セマンティック類似性はセマンティック空間における距離(セマンティック距離)で表わすことができる。セマンティック距離を計算するいくつかの方法が考えられる。セマンティックデータベース22の例は、単語(クラス)がグラフで結ばれた辞書である。グラフ構造は、ノードとして表される所与の単語間の距離を定義するために利用することができる。このような辞書の一例は、WordNetである。
運用画像データベース23は、運用フェーズにおいて特徴ベクトル生成モデル13に入力されるターゲット画像データを格納している。ターゲット画像は、運用画像データベース23を使用することなく、カメラにより撮像されると、リアルタイムで取得されてもよい。
前処理部11は、特徴ベクトル生成モデル13に入力するために画像データの前処理を行う。例えば、前処理部11は、運用画像データベース23から取得した画像から、関心領域(ROI)を抽出する。
モデル訓練部15は、特徴ベクトル生成モデル13を訓練し、そのパラメータを更新する。特徴ベクトル生成モデル13は、機械学習により訓練される(更新される)モデルである。特徴ベクトル生成モデル13は、画像から特徴ベクトルを生成できる任意の構成を有することができ、例えば、CNN(Convolutional Neural Network)である。後述するように、特徴ベクトル生成モデル13は、入力画像のクラスを表す特徴ベクトルを生成する。
図3は、機械学習システム1を構成する計算機システムの構成例を示す。計算機システムは、訓練サーバ100、ユーザ端末150、及び運用装置160を含み、これらはネットワークを介して通信することができる。訓練サーバ100は、訓練(学習)フェーズにおいて、特徴ベクトル生成モデル13の訓練を行う。運用装置160は、訓練サーバ100に訓練された特徴ベクトル生成モデル13を利用して、特定の処理を実行する。ユーザ端末150は、ユーザが訓練サーバ100又は運用装置160にアクセスするための端末である。
訓練サーバ100は、プロセッサ110、メモリ120、補助記憶装置130、及びネットワーク(NW)インタフェース145を含む。上記構成要素は、バスによって互いに接続されている。メモリ120、補助記憶装置130又はこれらの組み合わせは非過渡的記憶媒体を含む記憶装置である。ネットワークインタフェース145は、ネットワークとの接続のためのインタフェースである。
メモリ120は、例えば半導体メモリから構成され、主にプログラムやデータを保持するために利用される。メモリ120が格納しているプログラムは、不図示のオペレーティングシステムの他、前処理プログラム121、特徴ベクトル生成モデルプログラム123、及びモデル訓練プログラム125を含む。
プロセッサ110は、メモリ120に格納されているプログラムに従って、様々な処理を実行する。プロセッサ110がプログラムに従って動作することで、様々な機能部が実現される。例えば、プロセッサ110は、上記プログラムそれぞれに従って、前処理部11、特徴ベクトル生成モデル13、及びモデル訓練部15として動作する。
補助記憶装置130は、訓練画像データベース21及びセマンティックデータベース22を格納している。補助記憶装置130は、例えばハードディスクドライブやソリッドステートドライブなどの大容量の記憶装置から構成され、プログラムやデータを長期間保持するために利用される。
補助記憶装置130に格納されたプログラム及びデータが起動時又は必要時にメモリ120にロードされ、プログラムをプロセッサ110が実行することにより、訓練サーバ100の各種処理が実行される。したがって、以下において機能部により実行される処理は、プログラム、プロセッサ、計算機、又は計算機システムによる処理である。
運用装置160は、例えば、訓練サーバ100と同様に、計算機構成を有することができる。運用装置160は、プロセッサ161、メモリ162、補助記憶装置163、及びネットワーク(NW)インタフェース165を含む。上記構成要素は、バスによって互いに接続されている。
メモリ162が格納しているプログラムは、不図示のオペレーティングシステムの他、運用プログラム124を含む。メモリ162は、訓練サーバ100から送信された、訓練サーバ100において訓練された特徴ベクトル生成モデルプログラム123を格納してもよい。補助記憶装置163は、運用画像データベース23を格納している。運用プログラム124は、訓練サーバ100又は運用装置160に格納されている特徴ベクトル生成モデルプログラム123を使用して、運用画像データベース23に格納されている画像の特徴ベクトルを生成し、当該特徴ベクトルを利用して所定の処理を実行する。
プロセッサ161は、運用プログラム124に従って、運用部14として動作する。訓練された特徴ベクトル生成モデルプログラム123を実行する場合は、特徴ベクトル生成モデル13として機能する。
ユーザ端末150は、例えば、一般的な計算機構成を有し、入力デバイス及び表示デバイス(出力デバイス)を含む。入力デバイスは、ユーザが指示や情報などを入力するためのハードウェアデバイスである。表示デバイスは、入出力用の各種画像を表示するハードウェアデバイスである。
訓練サーバ100、ユーザ端末150、運用装置160、及びこれらの組み合わせは、それぞれ、1以上のプロセッサ及び1以上の記憶装置を含む計算機システムである。ユーザ端末150は省略されてもよく、入力デバイス及び表示デバイスが、ネットワークを介することなく、訓練サーバ100又は運用装置160に接続されていてもよい。訓練サーバ100又は運用装置160の機能は、ネットワークを介して通信を行う複数の計算機に分散配置されていてもよく、複数のユーザ端末150がシステムに含まれていてもよい。
図4は、訓練画像データベース21が格納している訓練画像データの例を示す。訓練画像データベース21は、各画像を対応するクラスに関連付けている。訓練画像データベース21は、複数のクラスの画像データを格納し、各クラスの複数の画像を格納している。図4は、例として、クラスAの画像群212A、クラスBの画像群212B、及びクラスCの画像群212Cを示している。クラスA、B及びCは異なるクラスである、それぞれ異なる意味を有している。
図5は、セマンティックデータベース22が保持する情報の例を示す。セマンティックデータベース22は、クラス間の関係を定義する。本例において、セマンティックデータベース22は、クラス間の関係を示すグラフを格納している。グラフのノードがクラスに対応し、ノード間のリンクがクラス間の関係を示す。本例において、クラス間の距離は、例えば、それらクラスの間のパスを構成するに存在するリンクの数で定義することができる。なお、セマンティックデータベース22は、図5が示す例と異なる態様でクラス間の関係を定義してよい。
図5は、クラスの例として、KINGQ100、MANQ200、QUEENQ300、WOMANQ400、MONARCHQ500、HUMANQ600を示す。各クラスは、ベクトル(1以上の要素で構成される)で表わされる。クラス間のリンク(矢印)は、クラス間の直接の接続(DIRECT)を示し、上位クラスと下位クラスとの関係を示す。リンクの矢印の始点が下位クラスであり終点が上位クラスである。上位クラスは下位クラスを包含する。同一の上位クラスを介して、下位クラスが間接的に接続されている。
図5の例において、KINGQ100とMANQ200の関係Q120は直接的関係であり、MANQ200が上位クラス、KINGQ100が下位クラスである。QUEENQ300とWOMANQ400の関係Q340は直接的関係であり、WOMANQ400が上位クラス、QUEENQ300が下位クラスである。
WOMANQ400とHUMAN600の関係Q460は直接的関係であり、HUMAN600が上位クラス、WOMANQ400が下位クラスである。MANQ200とHUMAN600の関係Q260は直接的関係であり、HUMAN600が上位クラス、MANQ200が下位クラスである。
KINGQ100とMONARCHQ500の関係Q150は直接的関係であり、MONARCHQ500が上位クラス、KINGQ100が下位クラスである。QUEENQ300とMONARCHQ500の関係Q350は直接的関係であり、MONARCHQ500が上位クラス、QUEENQ300が下位クラスである。KINGQ100とQUEENQ300とは、MONARCHQ500を介した、間接的関係Q130を有する。MANQ200とWOMANQ400とは、HUMANQ600を介した、間接的関係Q240を有する。
以下において、特徴ベクトル生成モデル13の訓練(学習)方法の例を説明する。特徴ベクトル生成モデル13の本実施形態の訓練は、Triplet Lossを利用する。図6は、訓練における、特徴ベクトル生成モデル13の入力データ及び出力データを示す。本例において、特徴ベクトル生成モデル13は、ニューラルネットワークである。
特徴ベクトル生成モデル13は、入力されたアンカ画像213A、ポジティブ画像213P、ネガティブ画像213Nのそれぞれから、特徴ベクトルW(A)215A、特徴ベクトルW(P)215P、特徴ベクトルW(N)215Nを生成する。アンカ画像213A、ポジティブ画像213P、ネガティブ画像213Nは、訓練画像データベース21から選択されたサンプルであり、互いに異なる画像である。アンカ画像213A及びポジティブ画像213Pは同一のクラスに属し、ネガティブ画像213Nはアンカ画像213A及びポジティブ画像213Pとは異なるクラスに属する。
図7は、モデル訓練部15による特徴ベクトル生成モデル13の訓練のフローチャートの例を示す。図6を参照して説明したように、モデル訓練部15は、アンカ画像、ポジティブ画像及びネガティブ画像の複数のセットによって、特徴ベクトル生成モデル13を訓練する。図7は、アンカ画像、ポジティブ画像及びネガティブ画像の一つのセットによる特徴ベクトル生成モデル13の更新のフローを示す。モデル訓練部15は、複数セットそれぞれについて、図7に示す処理を実行する。
モデル訓練部15は、訓練画像データベース21からアンカクラスを選択し、さらに、そのアンカクラスに属するアンカ画像213Aを選択する(S101)。モデル訓練部15は、訓練画像データベース21から、アンカクラスに属するポジティブ画像213Pを選択する(S102)。
ポジティブ画像213Pは、アンカ画像213Aとは異なる画像である。モデル訓練部15は、訓練画像データベース21から、アンカクラスと異なるネガティブクラスを選択し、さらに、そのネガティブクラスに属するネガティブ画像213Nを選択する(S103)。
モデル訓練部15は、アンカ画像213A、ポジティブ画像213P及びネガティブ画像213Nを特徴ベクトル生成モデル13に順次入力し、特徴ベクトルW(A)215A、特徴ベクトルW(P)215P、及び特徴ベクトルW(N)215Nを生成する(S104)。
モデル訓練部15は、生成した特徴ベクトル間の距離を決定する(S105)。具体的には、モデル訓練部15は、特徴ベクトルW(A)215Aと特徴ベクトルW(P)215Pとの間の距離D(W(A)、W(P))、特徴ベクトルW(A)215Aと特徴ベクトルW(N)215Nとの間の距離D(W(A)、W(N))、及び、特徴ベクトルW(P)215Pと特徴ベクトルW(N)215Nとの間の距離D(W(P)、W(N))を決定する。例えば、特徴ベクトル間の距離は、ユークリッド空間で表される特徴ベクトルのL2ノルムである。他の空間又は距離の計算方法が使用されてもよい。
次に、モデル訓練部15は、アンカ画像213Aとポジティブ画像213Pとの間のセマンティック距離(類似度)S(A、P)、並びに、アンカ画像213Aとネガティブ画像213Nとの間のセマンティック距離S(A、N)を、画像のクラスに基づき決定する(S106)。本例において、モデル訓練部15は、セマンティックデータベース22を参照して、セマンティック距離S(A、P)及びS(A、N)を決定する。
上述のように、セマンティックデータベース22は、グラフ構造により、クラス間の関係を定義している。モデル訓練部15は、例えば、クラス間のパスのリンク数により、クラス間の距離を決定することができる。この例において、セマンティック距離S(A、P)は0である。モデル訓練部15は、異なる構造のセマンティックデータベースを使用して、異なる方法でクラス間距離を決定してもよい。いずれのクラス間距離も、クラスの意味の類似度を表す。
次に、モデル訓練部15は、上記特徴ベクトル間距離及びクラス間セマンティック距離が、所定の条件を満たすか判定する(S107)。所定条件は、例えば、アンカ画像の特徴ベクトルとポジティブ画像の特徴ベクトルとの間の距離が、アンカ画像の特徴ベクトルとネガティブ画像の特徴ベクトルとの間の距離より近い。さらに、アンカ画像の特徴ベクトルとネガティブ画像の特徴ベクトルとの間の距離が満たすべき範囲を、予め定義されているセマンティック空間におけるクラス間のセマンティック距離に基づき定義する。
所定条件のより具体的な例は、下記の関数で規定される。
D(W(A)、W(P))<T (1)
D(W(A)、W(N))>T (2)
D(W(A)、W(N))<T+K*S(A、N) (3)
D(W(A)、W(N))>T+L*S(A、N) (4)
Tは、マージンであり、予め設定されている正の閾値である。一次関数の比例定数(スケーリングファクタ)であるK及びLは、予め設定されている正の定数であり、K>Lである。
条件(1)は、アンカ画像の特徴ベクトルW(A)215Aとポジティブ画像の特徴ベクトルW(P)215Pとの間の距離D(W(A)、W(P))が、マージン(閾値)Tを下回ることを保証する。マージンTは、通常、ゼロよりも大きい小さな固定値である。条件(2)は、アンカ画像の特徴ベクトルW(A)215Aとネガティブ画像の特徴ベクトルW(N)215Nとの間の距離D(W(A)、W(N))が、マージン(閾値)Tより大きいことを保証する。
条件(1)及び条件(2)の組み合わせにより、アンカ画像の特徴ベクトルW(A)215Aとポジティブ画像の特徴ベクトルW(P)215Pとの間の距離D(W(A)、W(P))が、アンカ画像の特徴ベクトルW(A)215Aとネガティブ画像の特徴ベクトルW(N)215Nとの間の距離(W(A)、W(N))よりも小さいことを意味する。条件(1)及び条件(2)は、Triplet Lossにより要求される。
条件(3)及び条件(4)は、Triplet Lossの条件に追加して、新しいセマンティック距離Sを導入する。条件(3)は、アンカ画像の特徴ベクトルW(A)215Aとネガティブ画像の特徴ベクトルW(N)215Nとの間の距離D(W(A)、W(N))の最大値を、クラス間のセマンティック距離に基づき規定する。
具体的には、条件(3)は、アンカ画像の特徴ベクトルW(A)215Aとネガティブ画像の特徴ベクトルW(N)215Nとの間の距離D(W(A)、W(N))が、所定の閾値(T+K)に、アンカクラスAとネガティブクラスNとの間のセマンティック距離S(A、N)から決まる値(K*S(A、N))を加えた値より小さいことを保証する。Kはスケーリング係数である。
条件(4)は、アンカ画像の特徴ベクトルW(A)215Aとネガティブ画像の特徴ベクトルW(N)215Nとの間の距離D(W(A)、W(N))の最小値を、規定する。具体的には、条件(4)は、アンカ画像の特徴ベクトルW(A)215Aとネガティブ画像の特徴ベクトルW(N)215Nとの間の距離D(W(A)、W(N))が、所定の閾値(T+L)に、アンカクラスAとネガティブクラスNとの間のセマンティック距離S(A、N)から決まる値(L*S(A、N))を加えた値より小さいことを保証する。
Lはスケーリングファクタであり、Kより小さい。クラス間のセマンティック距離は正であり、条件(4)が満たされる場合、条件(2)は必ず満たされている、つまり、条件(2)は省略可能である。
上記条件(1)から(4)の全てが満たされている場合(S107:YES)、モデル訓練部15は、当該入力画像セットの処理を終了する。上記条件(1)から(4)のいずれかが満たされていない場合(S107:NO)、モデル訓練部15は、満たされていない条件に基づき、特徴ベクトル生成モデル13を更新する(S108)。上記条件により適切な特徴ベクトルを生成できる。
モデル訓練部15は、条件(1)から(4)それぞれから決まる損失関数による損失に基づき、特徴ベクトル生成モデル13のパラメータを更新する。モデル訓練部15は、特徴ベクトル生成モデル13を繰り返し更新することで、特徴ベクトル生成モデル13が条件(1)から(4)を満たすように最適化できる。上記条件により、画像のクラス(意味)に基づく特徴ベクトルを適切に生成することが可能である。
条件(1)から(4)から理解できるように、学習後の特徴ベクトル生成モデル13によるアンカ画像の特徴ベクトルW(A)とネガティブ画像の特徴ベクトルW(N)との間の距離D(W(A)、W(N))は、セマンティック距離S(A、N)の一次関数で表わされるようになり、セマンティック距離S(A、N)に対して線形である。また、アンカ画像の特徴ベクトルW(A)とポジティブ画像の特徴ベクトルW(P)との間の距離D(W(A)、W(P))は、定数で表わされるようになる。
モデル訓練部15は、特徴ベクトル生成モデル13の更新のために、他の条件を使用することができる。例えば、条件(4)は省略してもよい。条件(3)及び(4)により、異なるクラスの特徴ベクトルを、そのクラスに応じてより適切な位置関係でベクトル空間内に配置できる。モデル訓練部15は、クラスに応じた特徴ベクトルを決定するために、セマンティック距離の一次関数に代えて、他の関数を使用することができる。
このとき、三つのクラス(クラスca、クラスcb、クラスcdとする)の間において以下の条件が満たされるように、関数が決められる。クラスcaの任意のサンプルをi_ca_s、クラスcbの任意のサンプルをi_cb_t、クラスcdの任意のサンプルをi_cd_uとする。セマンティック距離S(i_ca_s、i_cb_t)とセマンティック距離(i_ca_s、i_cd_u)との大小関係は、特徴ベクトル距離D(i_ca_s、i_cb_t)と特徴ベクトル距離D(i_ca_s、i_cd_u)との大小関係と一致する。
例えば、セマンティック距離S(i_ca_s、i_cb_t)>セマンティック距離(i_ca_s、i_cd_u)である場合、特徴ベクトル距離D(i_ca_s、i_cb_t)>特徴ベクトル距離D(i_ca_s、i_cd_u)が成立する。つまり、サンプル間のセマンティック距離のクラスペア間の大小関係は、サンプル間の特徴ベクトル間距離のクラスペア間の大小関係と一致する。
上記例は、クラス間のパスに基づきセマンティック距離を決定する。他の例は、クラスの属性を利用してクラス間のセマンティック距離を決定してもよい。属性は、クラスのより詳細な分類情報を示す。例を挙げれば、人を単に「人」として分類するのではなく、「男性の人、黒いスーツを着ている、茶色の靴を履いている、青いバッグを持っている」などの細かい情報を適用することができる。例えば、「男性」、「黒い服を着ている」、「スーツを着ている」、「茶色の靴を履いている」、「バッグを持っている」、「青いバッグ」の各項目の情報が属性である。
さらに、「女性の人、黒い服を着ている、赤い靴を履いている、青いバッグを持っている」という別の例を考える。上記例と同様に、この例を複数の属性に分割することができる。これらサンプルの距離(類似度)は、例えば、複数の属性において一致している属性の数に基づき決定することができる。例えば、最初のサンプル例の各属性と同一である場合に「1」、異なる場合に「0」であると仮定すると、最初のサンプル例(男性)は、ベクトル(1、1、1、1、1、1)で表わされる。同様の観点からもう一方のサンプル例(女性)は、ベクトル(0、1、0、0、1、1)で表わされる。
二つのサンプル例において、同一の値の属性の数は3であり、異なる値の属性の数は3である。三つの属性が異なるので、二つのサンプル例の間の類似性の差(距離)は3である。二つのサンプルの最小の差は全ての属性が同一である0であり、最大の差は六つの全ての属性が異なる場合の6である。
上述のように生成された特徴ベクトルは、特徴ベクトル生成モデル13の訓練においてサンプルが提供されていない新規なクラスを理解するために使用することができる。図8は、訓練済みの特徴ベクトル生成モデル13による分類結果の例を模式的に示す。特徴ベクトル生成モデル13が生成した特徴ベクトルは、特徴ベクトル群301、302及び303と、一つの特徴ベクトル304を含む。
特徴ベクトル群301、302及び303は、それぞれ、訓練データの異なるクラスに対応している。図8において、特徴ベクトル304は、いずれのクラスにも属していない、新規なクラスのサンプル特徴ベクトルである。上述のように、特徴ベクトル生成モデル13により生成される同一クラスの特徴ベクトルは、空間において互いに近い位置に存在する。また、類似するクラスの特徴ベクトルの距離は近い。
特徴ベクトル304は、既知のクラスに属する特徴ベクトル群301、302及び303と、所定の位置関係を有している。運用部14は、特徴ベクトル304と特徴ベクトル群301、302及び303との位置関係から、特徴ベクトル304の新規クラスを推定することができる。
図9は、新規クラスのより具体的な例を示す。新規のサンプルについては特徴ベクトルが計算され、図6に示すように分析した。特徴ベクトル生成モデル13は、新規画像サンプル314から、特徴ベクトル304を生成している。新規画像サンプル314の特徴ベクトル304は、「KING」及び「YOUNG」の特徴ベクトル311、313に近いが、「OLD」の特徴ベクトル312からは遠く離れている。
したがって、与えられた新規画像サンプル314は、「KING」と類似していると考えることができる。運用部14は、例えば、WordNetのようなクラス間の関係を定義するセマンティックデータベースを参照して、当該画像サンプル314を「プリンス」として正しく分類することができる。なお、上記説明は、訓練データに含まれない新規クラスの他、訓練におけるサンプル数が少ないクラスのサンプルについても適用することができる。
図10は、訓練済みの特徴ベクトル生成モデル13による分類結果の例を模式的に示す。特徴ベクトル生成モデル13が生成した特徴ベクトルは、特徴ベクトル群331、332及び333を含む。特徴ベクトル群331、332及び333は、それぞれ、訓練データの異なるクラスに対応している。同一クラスの特徴ベクトル群は、ベクトル空間において互いの近くに配置される。したがって、クラスのIDを、例えば、特徴ベクトル群(クラスタ)の重心位置と決定することができる。
上記実施形態は、画像の特徴ベクトルを生成するが、本開示の特徴は、画像と異なるサンプルの特徴ベクトルを生成するシステムに適用できる。例えば、クラスは、複数のセンサデータ項目それぞれの区分の組み合わせで定義することができる。他の例において、動画のクラスを定義することができる。
図11は、本実施形態のシステムにより生成される特徴ベクトルを使用する例を示す。本例は、監視カメラの映像分析し、危険を検知すると警告を発する。前処理部11は、監視カメラによる監視映像フレーム400から、ROI401、402を選択し、特徴ベクトル生成モデル13が、ROI401、402それぞれの特徴ベクトルを生成する。
ROI401は溶接現場の画像であり、ROI402はガソリンタンクの画像である。溶接現場の画像は、火とセマンティックな関係を有している。特徴ベクトル生成モデル13がROI401から生成する特徴ベクトルは、火のクラスの特徴ベクトルと近い位置にある。一方、特徴ベクトル生成モデル13がガソリンタンクの画像402から生成する特徴ベクトルは、可燃物のクラスの特徴ベクトルと近い位置にある。運用部14は、ROI401、402の特徴ベクトルの組み合わせから、監視映像が危険な状況を表していると判定し、オペレータに危険な状況を通報する。
図12は、本実施形態のシステムにより生成される特徴ベクトルを使用する他の例を示す。本例は、人が作成した文書411に対して適切な挿絵413を、画像データベース412から選択する。画像データベース412は、特徴ベクトル生成モデル13の訓練に使用されていない、新しい画像を格納している。
運用部14は、人が作成した文書411を解析して、例えば、「リモートコントローラの裏面図」の挿絵が必要であると判定する。特徴ベクトル生成モデル13は、「リモートコントローラ」及び「裏面図」それぞれの意味を表す特徴ベクトルを生成できるように訓練されている。運用部14は、特徴ベクトル生成モデル13を使用して、画像データベース412内の画像の特徴ベクトルを生成し、「リモートコントローラの裏面図」の特徴ベクトルを有する画像413を選択する。
<実施形態2>
実施形態1は、意味的に類似する画像に対して、ベクトル空間内で近い位置の特徴ベクトルを生成することを可能とする。本実施形態は、特徴ベクトル空間において、特定のクラス間の関係を示すことができる算術演算を実現するように、特徴ベクトル生成モデル13を訓練する。これにより、特徴ベクトルによる処理の幅を広げることができる。
このような算術演算を実現するには、セマンティックスの観点から、意味のあるクラス関係を選択する必要がある。このようなセマンティックな関係は、図5に示すようなクラスのグラフを分析することによって発見することができる。このようなグラフは、例えば、WordNetによって提供され得る。
図5の例において、例えば、アンカクラスQ100が選択される。アンカクラスQ100は、クラスQ200が直接接続されている。クラスQ200はクラスQ100の上位のクラスである。アンカクラスQ100とクラスQ300とが、間接的に接続されている。クラスQ300は、クラスQ400に直接接続されている。クラスQ400はクラスQ300の上位のクラスである。クラスQ400は、クラスQ200に間接的に接続されている。これらクラスQ100からQ400は、グラフにおいて(直接接続と間接続による)円を形成する。
クラスQ100、Q200、Q300及びQ400の各々について、各クラスを表すサンプルが選択され、これらのサンプルから、特徴ベクトルが計算される。クラスQ100(第3クラス)、クラスQ300(第4クラス)、クラスQ200(第5クラス)、クラスQ400(第6クラス)の特徴ベクトルは、以下の関係を有する(クラスの符号によりベクトルを表す)。
Q100-Q200+Q400=Q300 (5)
モデル訓練部15による特徴ベクトル生成モデル13の訓練の条件に、上記条件(5)が含まれる。モデル訓練部15は、条件(5)が満たされない場合に、その誤差に応じて特徴ベクトル生成モデル13を更新する。
上記例は、円を形成する4つのクラスを使用したが、このアプローチは、特定の数のクラスの使用を制限するものではない。直接接続または間接接続を介して円を形成するクラスの任意の組み合わせを使用することができる。
他の例において、3つのクラスの関係を特徴ベクトルの数式で表わすことができる。クラスQ100はクラスQ200とクラスQ500とに、直接接続されている。クラスQ200及びQ500は、クラスQ100の上位クラスである。クラスQ100は、クラスQ200とクラスQ500の中央に存在する。クラスQ100、クラスQ200、クラスQ500の特徴ベクトルは、以下の関係を有する(クラスの符号によりベクトルを表す)。
(Q200+Q500)/2=Q100 (6)
モデル訓練部15による特徴ベクトル生成モデル13の訓練の条件に、上記条件(6)が含まれる。モデル訓練部15は、条件(6)が満たされない場合に、その誤差に応じて特徴ベクトル生成モデル13を更新する。
本実施形態の特徴ベクトル間の関係を示す算出演算は、例えば、動画にも適応できる。例えば、動作の一例において、特徴ベクトルの組み合わせは、(走っている人)-(歩行している人)+(ゆっくりと移動している車)=(高速で移動している車)、のような関係を有する。方向の一例において、特徴ベクトルの組み合わせは、(ボールを投げている人)-(ボールをキャッチしている人)+(離れていく人々)=(会っている人)、のような関係を有する。
<実施形態3>
本実施形態は、入力画像の特徴ベクトルとして、実施形態1及び2において説明したようにセマンティックな特徴ベクトルに加え、視覚的な特徴ベクトルを生成する。セマンティックな特徴ベクトルと視覚的な特徴ベクトルの組み合わせは、入力画像から出力される特徴ベクトルを構成する。
図13は、本実施形態の機械学習システムの論理構成を模式的に示す。機械学習システムは、図1に示す実施形態1の構成に加え、画像生成モデル16を含む。図14は、メモリ120におけるソフトウェア構成を示す。図3に示す実施形態1の構成に加え、メモリ120は、画像生成モデルプログラム126を格納している。プロセッサ110が画像生成モデルプログラム126に従って、画像生成モデル16として動作する。
図15は、特徴ベクトル生成モデル13の動作を模式的に示している。特徴ベクトル生成モデル13は、入力された画像から、セマンティックなベクトルと視覚的なベクトルからなる特徴ベクトルを生成する。図15の例において、特徴ベクトル生成モデル13は、入力画像501から504から、特徴ベクトル511から514をそれぞれ生成する。セマンティックな特徴ベクトルWの間において、上記条件(5)が成立している。
上述のように、特徴ベクトルは、入力画像のセマンティックな特徴ベクトルWと視覚的な特徴ベクトルWを有する。例えば、クラスがKINGである二つの異なる入力画像から生成される特徴ベクトルは、KINGを示す同一のセマンティックな特徴ベクトルWと、異なる視覚的な特徴ベクトルVとを有する。このように、出力される特徴ベクトルが、セマンティックな特徴ベクトルと視覚的な特徴ベクトルとを有することで、より詳細な分類が可能であり、特徴ベクトルの用途を広げることができる。
図16は、画像生成モデル16の動作を模式的に示している。画像生成モデル16は、入力されたベクトルから、画像を生成する。画像生成モデル16は、例えばニューラルネットワークである。画像生成モデル16は、特徴ベクトル生成モデル13が生成した特徴ベクトルを入力され、対応する画像を生成する。
図16の例において、画像生成モデル16には、特徴ベクトル生成モデル13が生成した特徴ベクトル601A、601Bが入力されている。画像生成モデル16には、入力された特徴ベクトル601Aから画像611Aを生成し、入力された特徴ベクトル601Bから画像611Bを生成する。特徴ベクトル601A及び611Bは、共にKINGのセマンティックな特徴ベクトルWを有し、異なる視覚的な特徴ベクトルVを有している。生成された画像611A及び611Bは、異なるKINGの画像である。
このように、視覚的な特徴ベクトルVは、生成される画像サンプルの外観を操作するために使用することができる。セマンティックな特徴ベクトルW及び視覚的な特徴ベクトルVを使用して、例えば、同一クラスの特徴を有し、異なる外観を有する画像を生成することができる。視覚的な特徴ベクトルVは、セマンティックな特徴ベクトルWが示すクラスの画像サンプルを異なる外観で生成するのに必要な視覚情報を保持している。
図17は、特徴ベクトル生成モデル13及び画像生成モデル16のモデル訓練部15による訓練を説明するための図である。図15を参照して説明したように、特徴ベクトル生成モデル13が入力画像から生成する特徴ベクトルは、セマンティックな特徴ベクトルW及び視覚的な特徴ベクトルVを含む。画像生成モデル16は、特徴ベクトル生成モデル13が生成した特徴ベクトルから画像を生成する。
モデル訓練部15は、特徴ベクトルWについては、実施形態1及び実施形態2において説明した条件について、特徴ベクトル生成モデル13を訓練することができる。モデル訓練部15は、特徴ベクトルVについて、特徴ベクトル生成モデル13への入力画像と、画像生成モデル16が生成した画像との比較結果に基づき、特徴ベクトル生成モデル13を訓練する。モデル訓練部15は、画像の比較結果に基づき、画像生成モデル16を訓練する。
図17の例において、モデル訓練部15は、特徴ベクトル生成モデル13が画像501から生成した特徴ベクトル511を、画像生成モデル16に入力する。画像生成モデル16は、入力された特徴ベクトル511から、画像651を生成する。モデル訓練部15は、画像651と画像501とを比較し、その比較結果に基づき特徴ベクトル生成モデル13及び画像生成モデル16を訓練する。
二つの画像の比較は、モデルを更新するための、類似又は相違の尺度を決定することができる。例えば、モデル訓練部15は、二つの画像501及び651の間において、各画素の色情報を比較し、生成された画像サンプル651内の各画素の色情報が、入力画像サンプル501の元の画素の色情報からどの程度離れているか(誤差)を計算し、それに基づき二つのモデル13及び16を更新する。このように、二つの画像間の比較結果の情報は、より正確な画像サンプルを生成するためのより優れた視覚的な特徴ベクトルを生成するために特徴ベクトル生成モデル13を更新するために使用することができる。
なお、特徴ベクトル生成モデル13は、セマンティックな特徴ベクトルWを生成するネットワークと、視覚的な特徴ベクトルVを生成するネットワークとで、構成されていてもよい。特徴ベクトル生成モデル13の(パラメータの)更新は、二つのネットワークをそれぞれ個別に更新する。
なお、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。
1 システム、11 前処理部、13 特徴ベクトル生成モデル、14 運用部、15 モデル訓練部、16 画像生成モデル、21 訓練画像データベース、22 セマンティックデータベース、23 運用画像データベース、100 訓練サーバ、110 プロセッサ、120 メモリ、121 前処理プログラム、123 特徴ベクトル生成モデルプログラム、124 運用プログラム、125 モデル訓練プログラム、126 画像生成モデルプログラム、130 補助記憶装置、145 インタフェース、150 ユーザ端末、160 運用装置、161 プロセッサ、162 メモリ、163 補助記憶装置、165 インタフェース、212A、212B、212C、314、402、413、501611A、611B、651 画像、213A アンカ画像、213N ネガティブ画像、213P ポジティブ画像、301、304、311、312、331、332、333、511、601A、601B 特徴ベクトル、400 監視映像フレーム、411 文書、412 画像データベース

Claims (10)

  1. システムであって、
    複数のサンプルを含むデータベースと、入力サンプルの特徴ベクトルを出力する機械学習モデルと、を格納する1以上の記憶装置と、
    前記1以上の記憶装置に格納される命令に従って動作する1以上のプロセッサと、
    を含み、
    前記1以上のプロセッサは、
    前記データベースから、第1クラスに属するアンカサンプルを取得し、
    前記データベースから、前記第1クラスに属し、前記アンカサンプルと異なるポジティブサンプルを取得し、
    前記第1クラスと異なる第2クラスに属する、ネガティブサンプルを取得し、
    前記機械学習モデルを使用して、前記アンカサンプルの特徴ベクトル、前記ポジティブサンプルの特徴ベクトル、前記ネガティブサンプルの特徴ベクトル、を生成し、
    予め定義されている条件を満たすように、前記機械学習モデルを訓練し、
    前記条件は、
    前記アンカサンプルの特徴ベクトルと前記ポジティブサンプルの特徴ベクトルとの間の距離が、前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離より近く、
    前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離が満たすべき範囲を、予め定義されているセマンティック空間における前記第1クラスと前記第2クラスとの間のセマンティック距離に基づき定義し
    前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離が満たすべき範囲の最大値を、前記第1クラスと前記第2クラスとの間のセマンティック距離に基づき定義している、システム。
  2. システムであって、
    複数のサンプルを含むデータベースと、入力サンプルの特徴ベクトルを出力する機械学習モデルと、を格納する1以上の記憶装置と、
    前記1以上の記憶装置に格納される命令に従って動作する1以上のプロセッサと、
    を含み、
    前記1以上のプロセッサは、
    前記データベースから、第1クラスに属するアンカサンプルを取得し、
    前記データベースから、前記第1クラスに属し、前記アンカサンプルと異なるポジティブサンプルを取得し、
    前記第1クラスと異なる第2クラスに属する、ネガティブサンプルを取得し、
    前記機械学習モデルを使用して、前記アンカサンプルの特徴ベクトル、前記ポジティブサンプルの特徴ベクトル、前記ネガティブサンプルの特徴ベクトル、を生成し、
    予め定義されている条件を満たすように、前記機械学習モデルを訓練し、
    前記条件は、
    前記アンカサンプルの特徴ベクトルと前記ポジティブサンプルの特徴ベクトルとの間の距離が、前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離より近く、
    前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離が満たすべき範囲を、予め定義されているセマンティック空間における前記第1クラスと前記第2クラスとの間のセマンティック距離に基づき定義し、
    前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離が満たすべき範囲の最大値及び最小値のそれぞれを、前記第1クラスと前記第2クラスとの間のセマンティック距離に基づき定義している、システム。
  3. システムであって、
    複数のサンプルを含むデータベースと、入力サンプルの特徴ベクトルを出力する機械学習モデルと、を格納する1以上の記憶装置と、
    前記1以上の記憶装置に格納される命令に従って動作する1以上のプロセッサと、
    を含み、
    前記1以上のプロセッサは、
    前記データベースから、第1クラスに属するアンカサンプルを取得し、
    前記データベースから、前記第1クラスに属し、前記アンカサンプルと異なるポジティブサンプルを取得し、
    前記第1クラスと異なる第2クラスに属する、ネガティブサンプルを取得し、
    前記機械学習モデルを使用して、前記アンカサンプルの特徴ベクトル、前記ポジティブサンプルの特徴ベクトル、前記ネガティブサンプルの特徴ベクトル、を生成し、
    予め定義されている条件を満たすように、前記機械学習モデルを訓練し、
    前記条件は、
    前記アンカサンプルの特徴ベクトルと前記ポジティブサンプルの特徴ベクトルとの間の距離が、前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離より近く、
    前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離が満たすべき範囲を、予め定義されているセマンティック空間における前記第1クラスと前記第2クラスとの間のセマンティック距離に基づき定義し、
    前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離が満たすべき範囲の最大値を、前記第1クラスと前記第2クラスとの間のセマンティック距離の一次関数で定義している、システム。
  4. システムであって、
    複数のサンプルを含むデータベースと、入力サンプルの特徴ベクトルを出力する機械学習モデルと、を格納する1以上の記憶装置と、
    前記1以上の記憶装置に格納される命令に従って動作する1以上のプロセッサと、
    を含み、
    前記1以上のプロセッサは、
    前記データベースから、第1クラスに属するアンカサンプルを取得し、
    前記データベースから、前記第1クラスに属し、前記アンカサンプルと異なるポジティブサンプルを取得し、
    前記第1クラスと異なる第2クラスに属する、ネガティブサンプルを取得し、
    前記機械学習モデルを使用して、前記アンカサンプルの特徴ベクトル、前記ポジティブサンプルの特徴ベクトル、前記ネガティブサンプルの特徴ベクトル、を生成し、
    予め定義されている条件を満たすように、前記機械学習モデルを訓練し、
    前記条件は、
    前記アンカサンプルの特徴ベクトルと前記ポジティブサンプルの特徴ベクトルとの間の距離が、前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離より近く、
    前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離が満たすべき範囲を、予め定義されているセマンティック空間における前記第1クラスと前記第2クラスとの間のセマンティック距離に基づき定義し、
    前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離が満たすべき範囲の最大値及び最小値それぞれを、前記第1クラスと前記第2クラスとの間のセマンティック距離の、異なる比例定数を有する一次関数で定義している、システム。
  5. システムであって、
    複数のサンプルを含むデータベースと、入力サンプルの特徴ベクトルを出力する機械学習モデルと、を格納する1以上の記憶装置と、
    前記1以上の記憶装置に格納される命令に従って動作する1以上のプロセッサと、
    を含み、
    前記1以上のプロセッサは、
    前記データベースから、第1クラスに属するアンカサンプルを取得し、
    前記データベースから、前記第1クラスに属し、前記アンカサンプルと異なるポジティブサンプルを取得し、
    前記第1クラスと異なる第2クラスに属する、ネガティブサンプルを取得し、
    前記機械学習モデルを使用して、前記アンカサンプルの特徴ベクトル、前記ポジティブサンプルの特徴ベクトル、前記ネガティブサンプルの特徴ベクトル、を生成し、
    予め定義されている条件を満たすように、前記機械学習モデルを訓練し、
    前記条件は、
    前記アンカサンプルの特徴ベクトルと前記ポジティブサンプルの特徴ベクトルとの間の距離が、前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離より近く、
    前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離が満たすべき範囲を、予め定義されているセマンティック空間における前記第1クラスと前記第2クラスとの間のセマンティック距離に基づき定義し、
    前記アンカサンプルの特徴ベクトルと前記ポジティブサンプルの特徴ベクトルとの間の距離が、予め設定された値より小さく、
    前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離が、前記アンカサンプルと前記ネガティブサンプルとの間の前記セマンティック空間における距離の増加に伴い増加し、
    前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離が、前記第1クラスと前記第2クラスとの間のセマンティック距離に線形であることを含む、システム。
  6. システムであって、
    複数のサンプルを含むデータベースと、入力サンプルの特徴ベクトルを出力する機械学習モデルと、を格納する1以上の記憶装置と、
    前記1以上の記憶装置に格納される命令に従って動作する1以上のプロセッサと、
    を含み、
    前記1以上のプロセッサは、
    前記データベースから、第1クラスに属するアンカサンプルを取得し、
    前記データベースから、前記第1クラスに属し、前記アンカサンプルと異なるポジティブサンプルを取得し、
    前記第1クラスと異なる第2クラスに属する、ネガティブサンプルを取得し、
    前記機械学習モデルを使用して、前記アンカサンプルの特徴ベクトル、前記ポジティブサンプルの特徴ベクトル、前記ネガティブサンプルの特徴ベクトル、を生成し、
    予め定義されている条件を満たすように、前記機械学習モデルを訓練し、
    前記条件は、
    前記アンカサンプルの特徴ベクトルと前記ポジティブサンプルの特徴ベクトルとの間の距離が、前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離より近く、
    前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離が満たすべき範囲を、予め定義されているセマンティック空間における前記第1クラスと前記第2クラスとの間のセマンティック距離に基づき定義し、
    第3クラス、第4クラス、第5クラス、及び第6クラスは、互いに異なるクラスであり、
    前記第5クラスは、前記第3クラスを包含し、
    前記第6クラスは、前記第4クラスを包含し、
    (前記第3クラスの前記機械学習モデルによる特徴ベクトル-前記第5クラスの前記機械学習モデルによる特徴ベクトル+前記第6クラスの前記機械学習モデルによる特徴ベクトル)=前記第4クラスの前記機械学習モデルによる特徴ベクトル、が成立する、システム。
  7. システムが実行する方法であって、
    複数のサンプルを含むサンプルデータベースから、第1クラスに属するアンカサンプルを取得し、
    前記サンプルデータベースから、前記第1クラスに属し、前記アンカサンプルと異なるポジティブサンプルを取得し、
    前記第1クラスと異なる第2クラスに属する、ネガティブサンプルを取得し、
    入力サンプルの特徴ベクトルを出力する機械学習モデルを使用して、前記アンカサンプルの特徴ベクトル、前記ポジティブサンプルの特徴ベクトル、前記ネガティブサンプルの特徴ベクトル、を生成し、
    予め定義されている条件を満たすように、前記機械学習モデルを訓練し、
    前記条件は、
    前記アンカサンプルの特徴ベクトルと前記ポジティブサンプルの特徴ベクトルとの間の距離が、前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離より近く、
    前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離が満たすべき範囲を、予め定義されているセマンティック空間における前記第1クラスと前記第2クラスとの間のセマンティック距離に基づき定義し、
    前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離が満たすべき範囲の最大値を、前記第1クラスと前記第2クラスとの間のセマンティック距離に基づき定義している、方法。
  8. システムが実行する方法であって、
    複数のサンプルを含むサンプルデータベースから、第1クラスに属するアンカサンプルを取得し、
    前記サンプルデータベースから、前記第1クラスに属し、前記アンカサンプルと異なるポジティブサンプルを取得し、
    前記第1クラスと異なる第2クラスに属する、ネガティブサンプルを取得し、
    入力サンプルの特徴ベクトルを出力する機械学習モデルを使用して、前記アンカサンプルの特徴ベクトル、前記ポジティブサンプルの特徴ベクトル、前記ネガティブサンプルの特徴ベクトル、を生成し、
    予め定義されている条件を満たすように、前記機械学習モデルを訓練し、
    前記条件は、
    前記アンカサンプルの特徴ベクトルと前記ポジティブサンプルの特徴ベクトルとの間の距離が、前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離より近く、
    前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離が満たすべき範囲を、予め定義されているセマンティック空間における前記第1クラスと前記第2クラスとの間のセマンティック距離に基づき定義し、
    前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離が満たすべき範囲の最大値及び最小値のそれぞれを、前記第1クラスと前記第2クラスとの間のセマンティック距離に基づき定義している、方法。
  9. システムが実行する方法であって、
    複数のサンプルを含むサンプルデータベースから、第1クラスに属するアンカサンプルを取得し、
    前記サンプルデータベースから、前記第1クラスに属し、前記アンカサンプルと異なるポジティブサンプルを取得し、
    前記第1クラスと異なる第2クラスに属する、ネガティブサンプルを取得し、
    入力サンプルの特徴ベクトルを出力する機械学習モデルを使用して、前記アンカサンプルの特徴ベクトル、前記ポジティブサンプルの特徴ベクトル、前記ネガティブサンプルの特徴ベクトル、を生成し、
    予め定義されている条件を満たすように、前記機械学習モデルを訓練し、
    前記条件は、
    前記アンカサンプルの特徴ベクトルと前記ポジティブサンプルの特徴ベクトルとの間の距離が、前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離より近く、
    前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離が満たすべき範囲を、予め定義されているセマンティック空間における前記第1クラスと前記第2クラスとの間のセマンティック距離に基づき定義し、
    前記アンカサンプルの特徴ベクトルと前記ポジティブサンプルの特徴ベクトルとの間の距離が、予め設定された値より小さく、
    前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離が、前記アンカサンプルと前記ネガティブサンプルとの間の前記セマンティック空間における距離の増加に伴い増加し、
    前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離が、前記第1クラスと前記第2クラスとの間のセマンティック距離に線形であることを含む、方法。
  10. システムが実行する方法であって、
    複数のサンプルを含むサンプルデータベースから、第1クラスに属するアンカサンプルを取得し、
    前記サンプルデータベースから、前記第1クラスに属し、前記アンカサンプルと異なるポジティブサンプルを取得し、
    前記第1クラスと異なる第2クラスに属する、ネガティブサンプルを取得し、
    入力サンプルの特徴ベクトルを出力する機械学習モデルを使用して、前記アンカサンプルの特徴ベクトル、前記ポジティブサンプルの特徴ベクトル、前記ネガティブサンプルの特徴ベクトル、を生成し、
    予め定義されている条件を満たすように、前記機械学習モデルを訓練し、
    前記条件は、
    前記アンカサンプルの特徴ベクトルと前記ポジティブサンプルの特徴ベクトルとの間の距離が、前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離より近く、
    前記アンカサンプルの特徴ベクトルと前記ネガティブサンプルの特徴ベクトルとの間の距離が満たすべき範囲を、予め定義されているセマンティック空間における前記第1クラスと前記第2クラスとの間のセマンティック距離に基づき定義し
    第3クラス、第4クラス、第5クラス、及び第6クラスは、互いに異なるクラスであり、
    前記第5クラスは、前記第3クラスを包含し、
    前記第6クラスは、前記第4クラスを包含し、
    (前記第3クラスの前記機械学習モデルによる特徴ベクトル-前記第5クラスの前記機械学習モデルによる特徴ベクトル+前記第6クラスの前記機械学習モデルによる特徴ベクトル)=前記第4クラスの前記機械学習モデルによる特徴ベクトル、が成立する、方法。
JP2019085609A 2019-04-26 2019-04-26 特徴ベクトルを生成するシステム Active JP7262290B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019085609A JP7262290B2 (ja) 2019-04-26 2019-04-26 特徴ベクトルを生成するシステム
PCT/JP2020/017270 WO2020218314A1 (ja) 2019-04-26 2020-04-21 特徴ベクトルを生成するシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019085609A JP7262290B2 (ja) 2019-04-26 2019-04-26 特徴ベクトルを生成するシステム

Publications (3)

Publication Number Publication Date
JP2020181486A JP2020181486A (ja) 2020-11-05
JP2020181486A5 JP2020181486A5 (ja) 2021-12-23
JP7262290B2 true JP7262290B2 (ja) 2023-04-21

Family

ID=72942556

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019085609A Active JP7262290B2 (ja) 2019-04-26 2019-04-26 特徴ベクトルを生成するシステム

Country Status (2)

Country Link
JP (1) JP7262290B2 (ja)
WO (1) WO2020218314A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949384B (zh) * 2021-01-23 2024-03-08 西北工业大学 一种基于对抗性特征提取的遥感图像场景分类方法
CN113408299B (zh) * 2021-06-30 2022-03-25 北京百度网讯科技有限公司 语义表示模型的训练方法、装置、设备和存储介质
WO2024079820A1 (ja) * 2022-10-12 2024-04-18 日本電気株式会社 学習装置、学習方法、プログラム、および分類装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170228641A1 (en) 2016-02-04 2017-08-10 Nec Laboratories America, Inc. Distance metric learning with n-pair loss
US20190065957A1 (en) 2017-08-30 2019-02-28 Google Inc. Distance Metric Learning Using Proxies

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170228641A1 (en) 2016-02-04 2017-08-10 Nec Laboratories America, Inc. Distance metric learning with n-pair loss
US20190065957A1 (en) 2017-08-30 2019-02-28 Google Inc. Distance Metric Learning Using Proxies

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NI, Jiazhi et al.,Fine-grained Patient Similarity Measuring using Deep Metric Learning,Proceedings of the 2017 ACM on Conference on Information and Knowledge Management (CIKM),ACM Digita Library,2017年11月,pp.1189-1198,Internet<URL: https://dl.acm.org/doi/10.1145/3132847.313302>

Also Published As

Publication number Publication date
JP2020181486A (ja) 2020-11-05
WO2020218314A1 (ja) 2020-10-29

Similar Documents

Publication Publication Date Title
Gauci et al. Horizon: Facebook's open source applied reinforcement learning platform
US20200242774A1 (en) Semantic image synthesis for generating substantially photorealistic images using neural networks
US20220237799A1 (en) Segmenting objects in digital images utilizing a multi-object segmentation model framework
US20180268296A1 (en) Machine learning-based network model building method and apparatus
JP7262290B2 (ja) 特徴ベクトルを生成するシステム
US20150278710A1 (en) Machine learning apparatus, machine learning method, and non-transitory computer-readable recording medium
US11468290B2 (en) Information processing apparatus, information processing method, and non-transitory computer-readable storage medium
US20160085310A1 (en) Tracking hand/body pose
CN107533665A (zh) 经由偏置项在深度神经网络中纳入自顶向下信息
WO2019214344A1 (zh) 系统增强学习方法和装置、电子设备、计算机存储介质
US12073656B2 (en) Activity detection device, activity detection system, and activity detection method
US11568212B2 (en) Techniques for understanding how trained neural networks operate
CN110738650B (zh) 一种传染病感染识别方法、终端设备及存储介质
KR20190126857A (ko) 이미지에서 오브젝트 검출 및 표현
KR20230062429A (ko) 문장 기반 스케치 추천 방법 및 장치
Zhu et al. Hybrid feature-based analysis of video’s affective content using protagonist detection
US11468267B2 (en) Apparatus and method for classifying image
van Hecke et al. Persistent self-supervised learning: From stereo to monocular vision for obstacle avoidance
JP2017054493A (ja) 情報処理装置及びその制御方法及びプログラム
US11222439B2 (en) Image processing apparatus with learners for detecting orientation and position of feature points of a facial image
EP4102404B1 (en) System and method for dynamically generating composable workflow for machine vision application-based environments
He et al. Facial landmark localization by part-aware deep convolutional network
US20190026952A1 (en) Human feedback in 3d model fitting
JP2019023801A (ja) 画像認識装置、画像認識方法、及び画像認識プログラム
KR20200057848A (ko) 다중 분기 트리와 assl을 결합한 오픈 셋 물체 검출 방법 및 장치

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211112

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230411

R150 Certificate of patent or registration of utility model

Ref document number: 7262290

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150