JP6856950B2 - 変換装置、変換方法、プログラム、ならびに、情報記録媒体 - Google Patents

変換装置、変換方法、プログラム、ならびに、情報記録媒体 Download PDF

Info

Publication number
JP6856950B2
JP6856950B2 JP2019136728A JP2019136728A JP6856950B2 JP 6856950 B2 JP6856950 B2 JP 6856950B2 JP 2019136728 A JP2019136728 A JP 2019136728A JP 2019136728 A JP2019136728 A JP 2019136728A JP 6856950 B2 JP6856950 B2 JP 6856950B2
Authority
JP
Japan
Prior art keywords
model
feature vector
conversion
conversion device
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019136728A
Other languages
English (en)
Other versions
JP2021022031A (ja
Inventor
陽一朗 山本
陽一朗 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
RIKEN Institute of Physical and Chemical Research
Original Assignee
RIKEN Institute of Physical and Chemical Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by RIKEN Institute of Physical and Chemical Research filed Critical RIKEN Institute of Physical and Chemical Research
Priority to JP2019136728A priority Critical patent/JP6856950B2/ja
Priority to EP20844326.7A priority patent/EP4006789A4/en
Priority to PCT/JP2020/027103 priority patent/WO2021015016A1/ja
Priority to CN202080053229.5A priority patent/CN114175053A/zh
Priority to US17/627,847 priority patent/US20220261641A1/en
Publication of JP2021022031A publication Critical patent/JP2021022031A/ja
Application granted granted Critical
Publication of JP6856950B2 publication Critical patent/JP6856950B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、与えられたベクトルを特徴ベクトルに変換する変換モデルを学習するのに好適な、変換装置、変換方法、プログラム、ならびに、情報記録媒体に関する。
従来から、与えられた入力ベクトルを特徴ベクトルに変換する技術が提案されている。
たとえば、特許文献1に開示されるネットワーク学習装置は、大量の教師付きデータを用いることなくネットワークを安定して学習するため、
入力信号を第1信号に変換する第1ネットワークを学習し、
第1信号を第2信号に変換する第2ネットワークを学習し、
第2信号を出力信号に変換する第3ネットワークを学習し、
訓練用入力信号を訓練用第1信号にエンコードして訓練用入力信号にデコードする第1オートエンコーダのエンコード部分として第1ネットワークを学習し、
訓練用第1信号に対応する訓練用第2信号を教師データとしてバックプロパゲーションにより第2ネットワークを学習し、
訓練用第2信号は、訓練用第3信号を訓練用第2信号にエンコードして訓練用第3信号にデコードする第2オートエンコーダのエンコード部分により生成される。
特許文献1に開示される技術では、第1ネットワークは、入力信号からなる入力ベクトルを、第1信号からなる特徴ベクトルへ、と変換している。
特開2018-156451号公報
上記技術では、ネットワークの学習にあたって教師データが利用されている。すなわち、教師データの訓練ベクトルは、あらかじめ用意された複数のクラスのいずれかに属しており、各訓練ベクトルには、これに対する正解を表すラベルが付されている。すなわち、当該ラベルは、当該訓練ベクトルが属するクラスに付された識別名と考えることができる。
しかしながら、このようなラベルが存在せず、サンプルとなる訓練ベクトルのみが存在する状況もありうる。このような状況下では、いわゆる教師なし学習が必要となる。
そこで、訓練ベクトルがいずれの正解クラスに属するかの知識なしに、入力ベクトルを特徴ベクトルに変換するための変換モデルを学習するための技術が望まれている。
ここで得られた特徴ベクトルは、分類や分析等の後段処理における入力として利用されるが、後段処理の計算を高速かつ高精度に進めるには、特徴量のスパース性が高いこと、すなわち、特徴ベクトルにおいて、値がゼロの要素が含まれる割合が高いことが望ましい。
本発明は、上記の課題を解決するもので、与えられた入力ベクトルを特徴ベクトルに変換する変換モデルを学習するのに好適な、変換装置、変換方法、プログラム、ならびに、情報記録媒体を提供することを目的とする。
本発明に係る変換装置は、与えられた入力ベクトルを、変換モデルにより、特徴ベクトルへ変換する変換装置であって、
複数の訓練ベクトルを、ランダムに、複数のグループに分割し、
前記複数の訓練ベクトルから前記変換モデルによりそれぞれ変換された特徴ベクトルを、第1分類モデルにより、前記複数のグループのいずれかに分類し、
前記複数の訓練ベクトルと、前記複数の訓練ベクトルがそれぞれ分割されたグループと、からなる第1教師データにより、前記変換モデルと、前記第1分類モデルと、を学習する。
本発明によれば、与えられた入力ベクトルを特徴ベクトルに変換する変換モデルを学習するのに好適な、変換装置、変換方法、プログラム、ならびに、情報記録媒体を提供することができる。
本発明の実施形態に係る変換装置の基本構成を示す説明図である。 本発明の実施形態に係る変換装置に付加的な要素を追加した構成を示す説明図である。 本発明の実施形態に係る変換装置の基本構成にて実行される処理を示すフローチャートである。 本発明の実施形態に係る変換装置のクラス分類を行う構成にて実行される処理を示すフローチャートである。
以下に、本発明の実施形態を説明する。なお、本実施形態は、説明のためのものであり、本発明の範囲を制限するものではない。したがって、当業者であれば、本実施形態の各要素もしくは全要素を、これと均等なものに置換した実施形態を採用することが可能である。また、各実施例にて説明する要素は、用途に応じて適宜省略することも可能である。このように、本発明の原理にしたがって構成された実施形態は、いずれも本発明の範囲に含まれる。
(構成)
本実施形態に係る変換装置は、典型的には、プログラムをコンピュータが実行することによって実現される。当該コンピュータは、各種の出力装置や入力装置に接続され、これらの機器と情報を送受する。
コンピュータにて実行されるプログラムは、当該コンピュータが通信可能に接続されたサーバにより配布、販売することができるほか、CD-ROM(Compact Disk Read Only Memory)やフラッシュメモリ、EEPROM(Electrically Erasable Programmable ROM)などの非一時的(non-transitory)な情報記録媒体に記録した上で、当該情報記録媒体を配布、販売等することも可能である。
プログラムは、コンピュータが有するハードディスク、ソリッドステートドライブ、フラッシュメモリ、EEPROM等などの非一時的な情報記録媒体にインストールされる。すると、当該コンピュータにより、本実施形態における情報処理装置が実現されることになる。一般的には、コンピュータのCPU(Central Processing Unit)は、コンピュータのOS(Operating System)による管理の下、情報記録媒体からRAM(Random Access Memory)へプログラムを読み出してから、当該プログラムに含まれるコードを解釈、実行する。ただし、CPUがアクセス可能なメモリ空間内に情報記録媒体をマッピングできるようなアーキテクチャでは、RAMへの明示的なプログラムのロードは不要なこともある。なお、プログラムの実行の過程で必要とされる各種情報は、RAM内に一時的(temporary)に記録しておくことができる。
さらに、上記のように、コンピュータは、GPU(Graphics Processing Unit)を備え、各種画像処理計算を高速に行うためのGPUを備えることが望ましい。GPUならびにTensorFlow等のライブラリを使うことで、CPUの制御の下、各種の人工知能処理における学習機能や分類機能を利用することができるようになる。
なお、汎用のコンピュータにより本実施形態の情報処理装置を実現するのではなく、専用の電子回路を用いて本実施形態の情報処理装置を構成することも可能である。この態様では、プログラムを電子回路の配線図やタイミングチャート等を生成するための素材として利用することもできる。このような態様では、プログラムに定められる仕様を満たすような電子回路がFPGA(Field Programmable Gate Array)やASIC(Application Specific Integrated Circuit)により構成され、当該電子回路は、当該プログラムに定められた機能を果たす専用機器として機能して、本実施形態の情報処理装置を実現する。
以下では、理解を容易にするため、変換装置は、コンピュータがプログラムを実行することによって実現される態様を想定して説明する。
(変換装置の基本構成)
図1は、本発明の実施形態に係る変換装置の基本構成を示す説明図である。図2は、本発明の実施形態に係る変換装置に付加的な要素を追加した構成を示す説明図である。以下、これらの図を参照して概要を説明する。
両図に示すように、変換装置1001は、分割部1002、第1分類部1003、第1学習部1004を備える。
また、両図を対比すればわかる通り、変換装置1001は、省略可能な構成に係る要素として、第2分類部1005、第2学習部1006を備えることができる。
本図に示す通り、変換装置1001は、入力与えられた入力ベクトルを、変換モデル1101により、特徴ベクトルへ変換する。
変換装置1001が使用する変換モデル1101については、あらかじめ学習を進める必要がある。図3は、本発明の実施形態に係る変換装置の基本構成にて実行される処理を示すフローチャートである。図4は、本発明の実施形態に係る変換装置のクラス分類を行う構成にて実行される処理を示すフローチャートである。以下、両図を参照して説明する。
両図に示すように、変換装置1001における処理は、変換モデル1101の学習段階(ステップS2001-S2004)、クラス分類(第2分類モデル1202)の学習段階(ステップS2005-S2006)、クラス分類の利用段階(ステップS2007-S2009)の3段階に分けることができ、それぞれ独立して実行することができる。ここで、変換モデル1101の学習段階は、図1、図2の両方で実行されるが、クラス分類(第2分類モデル1202)の学習段階ならびにクラス分類の利用段階(ステップS2009)は、図1では省略される。
まず、変換モデル1101の学習にあたって、変換装置1001は、入力ベクトルの典型例として、複数の訓練ベクトルv1, v2, …, vNを受け付ける(ステップS2001)。なお、省略可能な態様として、図2、図4に示すように、複数のクラスC1, C2, …, CLの中から、複数の訓練ベクトルv1, v2, …, vNがそれぞれ属すべき正解クラスCc(1), Cc(2), …, Cc(N)のクラスラベルc(1), c(2), …, c(N)を、合わせて受け付けることも可能である。一方、図1、図3に係る基本構成では、クラスラベルの受け付けは不要である。
ついで、変換装置1001の分割部1002は、複数の訓練ベクトルv1, v2, …, vNを、ランダムに複数のグループG1, G2, …, GMに分割する(ステップS2002)。この分割は、訓練ベクトルv1, v2, …, vNのそれぞれに、分割先のグループの添字に相当するランダムラベル(グループラベル)g(1), g(2), …, g(N)を付与することにより表現することができる。グループの数Mは2以上の任意である。
以下、理解を容易にするため、整数i=1, 2, …, Nのそれぞれについて、訓練ベクトルviがグループGg(i)に分類された(訓練ベクトルviには、ランダムラベルg(i)が付された)ものとする。すなわち、以下の関係が成立する。
v1∈Gg(1), v2∈Gg(2), …, vN∈Gg(N)
また、省略可能な構成下では、訓練ベクトルviは、クラスCc(i)に属する(訓練ベクトルviには、正解ラベルc(i)が付されている)ものとする。すなわち、以下の関係が成立する。
v1∈Cc(1), v2∈Cc(2), …, vN∈Cc(N)
変換装置1001は、変換モデル1101により、与えられた入力ベクトルxを、特徴ベクトルp(x)に変換する。変換モデル1101としては、CNN(Convolutional Neural Network)のほか、畳み込みを使用しない任意のニューラルネットワークなど、種々のモデルを採用することができる。
さて、第1分類部1003は、変換装置1001に与えられた入力ベクトルxから変換された特徴ベクトルp(x)を、第1分類モデル1201により、複数のグループG1, G2, …, GMのいずれかに分類するものである。実質的には、第1分類部1003は、与えられた特徴ベクトルp(x)に対して、当該特徴ベクトルp(x)が分類されるべきグループの添字(ラベル)を出力するものである。第1分類モデルとしては、一般的なロジスティック回帰のほか、リッジ回帰、ラッソ回帰、SVM(Support Vector Machine)、ランダムフォレスト、ニューラルネットワークなどを採用することができる。
そして、変換装置1001における第1学習部1004は、複数の訓練ベクトルと、複数の訓練ベクトルがそれぞれ分割されたグループと、からなる第1教師データ
(v1, g(1)),
(v2, g(2)),
…,
(vN, g(N))
を生成する(ステップS2003)。第1教師データは、各訓練ベクトルをランダムラベル(グループラベル)に対応付けるものである。
そして、変換装置1001における第1学習部1004は、当該第1教師データにより、変換装置1001における変換モデル1101と、第1分類部1003における第1分類モデル1201と、を学習する(ステップS2004)。
このようにして、変換装置1001における変換モデル1101の学習が行われる。この後は、変換装置1001に入力ベクトルxを与えると、変換装置1001は特徴ベクトルp(x)を出力するようになる。
さて上記のように、以下は、図1では省略される構成である。そこで、適宜図2を参照しながら説明する。すなわち、この構成下では、複数の訓練ベクトルv1, v2, …, vNは、複数のクラスC1, C2, …, CLのいずれかにそれぞれ属する。
以下では、変換装置1001に与えられた入力ベクトルに対して、当該入力ベクトルが属すべきクラスを出力するクラス分類の学習段階について説明する。
ここで、第2分類部1005は、変換装置1001に与えられた入力ベクトルxから変換された特徴ベクトルp(x)を、第2分類モデル1202により、複数のクラスC1, C2, …, CLのいずれかに分類するものである。実質的には、第2分類部1005は、与えられた特徴ベクトルp(x)に対して、当該特徴ベクトルp(x)が分類されるべきクラスの添字(クラスラベル)を出力するものである。第2分類モデル1202としては、第1分類モデル1201と同様に、一般的なロジスティック回帰のほか、リッジ回帰、ラッソ回帰、SVM(Support Vector Machine)、ランダムフォレスト、ニューラルネットワークなどを採用することができる。このほか、第1分類モデル1201と第2分類モデル1202で、同じ構造のニューラルネットワークを採用することもできる。
ここで、変換装置1001の第2学習部1006は、第1学習部1004によって学習された変換モデル1101により、複数の訓練ベクトルが変換装置1001によってそれぞれ変換された特徴ベクトルと、複数の訓練ベクトルがそれぞれ属するクラスと、からなる第2教師データ
(p(v1), c(1)),
(p(v2), c(2)),
…,
(p(vN), c(N))
を生成する(ステップS2005)。ステップS2004における変換モデル1101および第1分類モデル1201の学習においては、訓練ベクトルを特徴ベクトルに変換する。したがって、訓練ベクトルvi (i=1, 2, …, N)が学習済の変換モデル1101により変換される特徴ベクトルp(vi)は、ステップS2004における処理で計算済みである。ここでは、この計算済みの特徴ベクトルp(vi)と、元の訓練ベクトルviに対して付された正解ラベルc(i)と、を、第2教師データとして利用する。
そして、第2学習部1006は、第2分類部1005における第2分類モデル1202を学習する(ステップS2006)。
本実施形態に係る変換装置1001では、第2学習部1006における学習では、第2分類モデル1202は更新されるが、変換モデル1101は更新されない点に特徴がある。
なお、第2教師データとして、
(v1, c(1)),
(v2, c(2)),
…,
(vN, c(N))
を採用することも可能である。この場合は、変換装置1001における学習済の変換モデル1101は更新せずに、第2分類モデル1202を更新すれば良い。
さて、第2分類モデル1202が学習された後は、クラス分類を利用する段階に移ることができる。すなわち、新たな入力ベクトルyが変換装置1001に与えられる(ステップS2007)と、
変換装置1001は、学習された変換モデル1101により、新たな入力ベクトルyを新たな特徴ベクトルp(y)に変換し(ステップS2008)、
第2分類部1005は、学習された第2分類モデル1202により、新たな特徴ベクトルp(y)に対するラベルを求めることにより、複数のクラスC1, C2, …, CLのいずれかに分類する(ステップS2009)。
すなわち、入力ベクトルyは、特徴ベクトルp(y)が分類されたクラスに分類されることになる。
なお、本図では、クラス分類の利用段階(ステップS2007-S2009)は1回だけ実行されているが、入力ベクトルが与えられるごとに、任意の回数実行することが可能である。
また、図3に示すように、ステップS2001-S2004により変換モデルを学習し、ステップS2007-S2008により入力ベクトルを特徴ベクトルに変換することとして、クラス分類の要素は省略することができる。この場合も、特徴ベクトルへの変換は、任意の回数実行することが可能である。
発明者の実験によれば、本実施形態の変換装置1001による分類は、従来のオートエンコーダを用いた分類において、教師データとして
(v1, c(1)),
(v2, c(2)),
…,
(vN, c(N))
を利用した場合に比べて、精度ならびに得られる特徴ベクトルのスパース性が向上することがわかっている。
従来のオートエンコーダでは、教師データに対する過学習が生じてしまうのに対し、本実施形態の変換装置1001では、変換モデル1101の学習時には教師データを参照しないため、過学習が抑制されているものと考えられる。
以下では、変換モデル1101の態様について種々説明する。変換モデル1101は、入力ベクトルを特徴ベクトルに変換するものであり、情報を圧縮するものである。このため、入力ベクトルの次元は、特徴ベクトルの次元より低いものとするのが一般的であった。
本変換装置1001においても、これと同様に、入力ベクトルを次元削減することにより、特徴ベクトルに変換するような変換モデル1101を採用することができる。特徴ベクトルの次元は、ランダムラベルの種類数以上、すなわち、グループの数M以上とすることが望ましい。
また、入力ベクトルをクラスに分類する態様では、特徴ベクトルの次元は、正解ラベルの種類数以上、すなわち、クラスの数L以上とすることが望ましい。
なお、ランダムラベルの種類数Mと、正解ラベルの種類数Lと、の大小については、対象によって性能が異なる。この場合、事前実験によって好適なパラメータを求めることができる。
このほか、分割部1002が訓練ベクトルを複数のグループのそれぞれにランダムに分割する確率は、互いに等しくても良いし、一致しないものがあっても良い。すなわち、各グループに含まれる訓練ベクトルの数は、一致しても良いし、異なっていても良い。これらについても、事前実験によって好適な確率割り当て求めることができる。
一方で、本変換装置1001では、特徴ベクトルのスパース性が良好であることがわかっている。したがって、入力ベクトルの次元を増大させることによって、特徴ベクトルへ変換することとしても良い。すなわち、特徴ベクトルの次元数は、入力ベクトルの次元数よりも多いことになる。
本実施形態に係る変換装置1001は、従来特徴ベクトルを得るために使われていたオートエンコーダに置き換わるものとして広く利用することができる。
なお、オートエンコーダでは、入力ベクトルを前半のエンコード部で次元削減して特徴ベクトルを得た後、当該特徴ベクトルを後半のデコード部で次元増大して出力ベクトルを得て、入力ベクトルと出力ベクトルとの差が小さくなるような学習を行う。このため、オートエンコーダのエンコード部により次元圧縮を行う用例に対して本実施形態に係る変換装置1001を適用する際には、エンコード部のフィルタ構成を、そのまま変換装置1001の変換モデル1101に利用することもできる。
(変換装置の実験例)
10種類の事物の写真を分類するCIFAR-10について、オートエンコーダと本実施形態に係る変換装置1001とを比較する実験をおこなった。
入力画像として、32ピクセル×32ピクセル×RGB 3層のカラー画像を利用しているため、入力ベクトルは3072次元となる。
変換装置1001のフィルタ構成は以下の通りである。
input_img = Input((x_train.shape[1], x_train.shape[2], x_train.shape[3]));
x1 = Conv2D(8, (2,2), strides=(2,2), activation='relu', padding='same')(input_img);
encoded = Flatten()(x1);
x2 = Reshape((16,16,8), input_shape=(2048,))(encoded);
x3 = Conv2D(8, (2,2), strides=(2,2), activation='relu', padding='same')(x2);
x4 = Flatten()(x3);
last = Dense(L, activation='softmax')(x4);
本実験における変換装置1001では、出力レイヤー数8、カーネルサイズおよびストライド2×2、活性化関数relu、プーリングなし、ドロップアウトなしの最もシンプルなCNNにより、入力ベクトルを2048次元に圧縮して(encoded)、特徴ベクトルを得ている。すなわち、上記のうち、encodedを得るまでが、変換モデルに相当する。
そして、得られた特徴ベクトルを2次元化して(x2)、出力レイヤー数8、カーネルサイズおよびストライド2×2、活性化関数relu、プーリングなし、ドロップアウトなしの最もシンプルなCNNを介した後(x3)、全結合してから、活性化関数softmaxを採用して、L種類のグループに分けている(last)。すなわち、encodedからx3, x4を経てlastに至るまでが、第1分類モデル1201に相当する。
また、本実験では、第2分類モデル1202として、一般的なロジスティック回帰を用いて、2048次元の特徴ベクトルを10種類のクラスに分類した。
従来例のオートエンコーダのエンコーダ部のフィルタ構成は、変換装置1001における変換モデルと同様であり、デコード部のフィルタ構成は、これを逆にしたものである。また、オートエンコーダの学習が済んだ後、特徴ベクトルを分類するために、ロジスティック回帰の学習をした。
また、教師データの数は5万とし、学習が終わったあとに与える入力データの数は1万として、特徴ベクトルの判定精度、スパース性、ならびに、特徴ベクトルを分類するためのロジスティック回帰の学習に要した時間(100試行平均)を調べた。
すると、オートエンコーダでは、以下のような結果が得られた。
判定精度 38.2%
特徴ベクトルにおけるゼロ要素割合 11.8%
ロジスティック回帰の学習時間 6745.6秒
ランダムラベルの種類数、すなわち、グループ数Mを2として、特徴ベクトルを同数(25000ずつ)のグループに2分割した場合の変換装置1001については、以下のような結果が得られた。
判定精度 44.8%
特徴ベクトルにおけるゼロ要素割合 55.1%
ロジスティック回帰の学習時間 643.1秒
グループ数Mを2として、特徴ベクトルを異なる要素数(1万と4万)のグループに2分割した場合の変換装置1001については、以下のような結果が得られた。
判定精度 44.7%
特徴ベクトルにおけるゼロ要素割合 59.7%
ロジスティック回帰の学習時間 378.8秒
グループ数Lを10として、特徴ベクトルを異なる要素数(2500, 3000, 3500, 4000, 4500, 5550, 6000, 6500, 7000, 7500)のグループに10分割した場合の変換装置1001については、以下のような結果が得られた。
判定精度 45.2%
特徴ベクトルにおけるゼロ要素割合 49.7%
ロジスティック回帰の学習時間 798.4秒
上記の結果からわかる通り、特徴ベクトルのスパース性、および、得られた特徴ベクトルに基づく判定精度は、本実施形態に係る変換装置1001の方が優れている。また、本実施形態に係る変換装置1001では、得られる特徴ベクトルがスパースであるため、ロジスティック回帰に要する学習時間も極めて短時間で済む。
このように、CIFAR-10にかかる実験によって、本実施形態に係る変換装置1001の性能を確認することができた。
(まとめ)
以上説明したように、本実施形態に係る変換装置は、与えられた入力ベクトルを、変換モデルにより、特徴ベクトルへ変換する変換装置であって、
複数の訓練ベクトルを、ランダムに、複数のグループに分割する分割部、
前記複数の訓練ベクトルから前記変換モデルによりそれぞれ変換された特徴ベクトルを、第1分類モデルにより、前記複数のグループのいずれかに分類する第1分類部、
前記複数の訓練ベクトルと、前記複数の訓練ベクトルがそれぞれ分割されたグループと、からなる第1教師データにより、前記変換モデルと、前記第1分類モデルと、を学習する第1学習部
を備える。
また、本実施形態に係る変換装置において、
前記複数の訓練ベクトルは、複数のクラスのいずれかにそれぞれ属し、
与えられたベクトルを、第2分類モデルにより、前記複数のクラスのいずれかに分類する第2分類部、
前記学習された変換モデルにより前記複数の訓練ベクトルがそれぞれ変換された特徴ベクトルと、前記複数の訓練ベクトルがそれぞれ属するクラスと、からなる第2教師データにより、前記第2分類モデルを学習する第2学習部
を備え、前記第2分類モデルが学習された後、新たな入力ベクトルが与えられると、
前記変換装置が、前記学習された変換モデルにより、前記新たな入力ベクトルを新たな特徴ベクトルに変換し、
前記第2分類部が、前記学習された第2分類モデルにより、前記新たな特徴ベクトルを、前記複数のクラスのいずれかに分類する
ことにより、前記新たな入力ベクトルを、前記新たな特徴ベクトルが分類されたクラスに分類する
ように構成することができる。
また、本実施形態に係る変換装置において、
前記変換装置は、前記与えられた入力ベクトルを次元削減することにより、前記特徴ベクトルへ変換し、
前記特徴ベクトルの次元は、前記複数のクラスの数より大きい
ように構成することができる。
また、本実施形態に係る変換装置において、
前記変換装置は、前記与えられた入力ベクトルを次元削減することにより、前記特徴ベクトルへ変換する
ように構成することができる。
また、本実施形態に係る変換装置において、
前記特徴ベクトルの次元は、前記複数のグループの数より大きい
ように構成することができる。
また、本実施形態に係る変換装置において、
前記変換装置は、前記与えられた入力ベクトルの次元を増大させることにより、前記特徴ベクトルへ変換する
ように構成することができる。
本実施形態に係る変換方法は、与えられた入力ベクトルを、変換モデルにより、特徴ベクトルへ変換する変換装置が実行する変換方法であって、
複数の訓練ベクトルを、ランダムに、複数のグループに分割する分割工程、
前記複数の訓練ベクトルから前記変換モデルによりそれぞれ変換された特徴ベクトルを、第1分類モデルにより、前記複数のグループのいずれかに分類する第1分類工程、
前記複数の訓練ベクトルと、前記複数の訓練ベクトルがそれぞれ分割されたグループと、からなる第1教師データにより、前記変換モデルと、前記第1分類モデルと、を学習する第1学習工程
を備える。
本実施形態に係るプログラムは、与えられた入力ベクトルを、変換モデルにより、特徴ベクトルへ変換するコンピュータを、
複数の訓練ベクトルを、ランダムに、複数のグループに分割する分割部、
前記複数の訓練ベクトルから前記変換モデルによりそれぞれ変換された特徴ベクトルを、第1分類モデルにより、前記複数のグループのいずれかに分類する第1分類部、
前記複数の訓練ベクトルと、前記複数の訓練ベクトルがそれぞれ分割されたグループと、からなる第1教師データにより、前記変換モデルと、前記第1分類モデルと、を学習する第1学習部
として機能させるように構成する。
当該プログラムは、非一時的なコンピュータ読取可能な情報記録媒体に記録して配布、販売することができる。また、コンピュータ通信網等の一時的な伝送媒体を介して配布、販売することができる。
本発明は、本発明の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、この発明を説明するためのものであり、本発明の範囲を限定するものではない。すなわち、本発明の範囲は、実施の形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、この発明の範囲内とみなされる。
本発明によれば、与えられた入力ベクトルを特徴ベクトルに変換する変換モデルを学習するのに好適な、変換装置、変換方法、プログラム、ならびに、情報記録媒体を提供することができる。
1001 変換装置
1002 分割部
1003 第1分類部
1004 第1学習部
1005 第2分類部
1006 第2学習部
1101 変換モデル
1201 第1分類モデル
1202 第2分類モデル

Claims (11)

  1. 与えられた入力ベクトルを、変換モデルにより次元削減をした特徴ベクトルへ変換する変換装置であって、
    複数の訓練ベクトルを、ランダムに、複数のグループに分割する分割部、
    前記複数の訓練ベクトルから前記変換モデルによりそれぞれ変換された特徴ベクトルを、第1分類モデルにより、前記複数のグループのいずれかに分類する第1分類部、
    前記複数の訓練ベクトルと、前記複数の訓練ベクトルがそれぞれ分割されたグループと、からなる第1教師データにより、前記変換モデルと、前記第1分類モデルと、を学習する第1学習部
    を備えることにより、
    前記特徴ベクトルのスパース性を高めることを特徴とする変換装置。
  2. 前記変換装置は、オートエンコーダの前半のエンコード部により、前記次元削減をする
    ことを特徴とする請求項1に記載の変換装置。
  3. 前記複数の訓練ベクトルは、複数のクラスのいずれかにそれぞれ属し、
    与えられたベクトルを、第2分類モデルにより、前記複数のクラスのいずれかに分類する第2分類部、
    前記学習された変換モデルにより前記複数の訓練ベクトルがそれぞれ変換された特徴ベクトルと、前記複数の訓練ベクトルがそれぞれ属するクラスと、からなる第2教師データにより、前記第2分類モデルを学習する第2学習部
    を備え、前記第2分類モデルが学習された後、新たな入力ベクトルが与えられると、
    前記変換装置が、前記学習された変換モデルにより、前記新たな入力ベクトルを新たな特徴ベクトルに変換し、
    前記第2分類部が、前記学習された第2分類モデルにより、前記新たな特徴ベクトルを、前記複数のクラスのいずれかに分類する
    ことにより、前記新たな入力ベクトルを、前記新たな特徴ベクトルが分類されたクラスに分類する
    ことを特徴とする請求項1または2に記載の変換装置。
  4. 前記特徴ベクトルの次元は、前記複数のクラスの数より大きい
    ことを特徴とする請求項3に記載の変換装置。
  5. 前記特徴ベクトルの次元は、前記複数のグループの数より大きい
    ことを特徴とする請求項4に記載の変換装置。
  6. 前記第2分類モデルは、ロジスティック回帰、リッジ回帰、ラッソ回帰、SVM(Support Vector Machine)、ランダムフォレスト、もしくは、ニューラルネットワークにより前記特徴ベクトルを分類する
    ことを特徴とする請求項3に記載の変換装置。
  7. 前記分割部が前記複数の訓練ベクトルを複数のグループのそれぞれにランダムに分割する確率には、互いに等しくないものがある
    ことを特徴とする請求項1から3のいずれか1項に記載の変換装置。
  8. 前記変換装置は、出力レイヤー数8の第1畳み込みニューラルネットワークにより、前記次元削減をし、
    前記第1分類部は、出力レイヤー数8の第2畳み込みニューラルネットワークにより、前記特徴ベクトルを分類する
    ことを特徴とする請求項1に記載の変換装置。
  9. 与えられた入力ベクトルを、変換モデルにより次元削減をした特徴ベクトルへ変換する変換装置が実行する変換方法であって、
    複数の訓練ベクトルを、ランダムに、複数のグループに分割する分割工程、
    前記複数の訓練ベクトルから前記変換モデルによりそれぞれ変換された特徴ベクトルを、第1分類モデルにより、前記複数のグループのいずれかに分類する第1分類工程、
    前記複数の訓練ベクトルと、前記複数の訓練ベクトルがそれぞれ分割されたグループと、からなる第1教師データにより、前記変換モデルと、前記第1分類モデルと、を学習する第1学習工程
    を備えることにより、
    前記特徴ベクトルのスパース性を高めることを特徴とする変換方法。
  10. 与えられた入力ベクトルを、変換モデルにより次元削減をした特徴ベクトルへ変換するコンピュータを、
    複数の訓練ベクトルを、ランダムに、複数のグループに分割する分割部、
    前記複数の訓練ベクトルから前記変換モデルによりそれぞれ変換された特徴ベクトルを、第1分類モデルにより、前記複数のグループのいずれかに分類する第1分類部、
    前記複数の訓練ベクトルと、前記複数の訓練ベクトルがそれぞれ分割されたグループと、からなる第1教師データにより、前記変換モデルと、前記第1分類モデルと、を学習する第1学習部
    として機能させることにより、
    前記特徴ベクトルのスパース性を高めることを特徴とするプログラム。
  11. 請求項10に記載のプログラムを記録した非一時的なコンピュータ読み取り可能な情報記録媒体。
JP2019136728A 2019-07-25 2019-07-25 変換装置、変換方法、プログラム、ならびに、情報記録媒体 Active JP6856950B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2019136728A JP6856950B2 (ja) 2019-07-25 2019-07-25 変換装置、変換方法、プログラム、ならびに、情報記録媒体
EP20844326.7A EP4006789A4 (en) 2019-07-25 2020-07-10 Conversion device, conversion method, program, and information recording medium
PCT/JP2020/027103 WO2021015016A1 (ja) 2019-07-25 2020-07-10 変換装置、変換方法、プログラム、ならびに、情報記録媒体
CN202080053229.5A CN114175053A (zh) 2019-07-25 2020-07-10 转换装置、转换方法、程序以及信息记录介质
US17/627,847 US20220261641A1 (en) 2019-07-25 2020-10-07 Conversion device, conversion method, program, and information recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019136728A JP6856950B2 (ja) 2019-07-25 2019-07-25 変換装置、変換方法、プログラム、ならびに、情報記録媒体

Publications (2)

Publication Number Publication Date
JP2021022031A JP2021022031A (ja) 2021-02-18
JP6856950B2 true JP6856950B2 (ja) 2021-04-14

Family

ID=74193223

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019136728A Active JP6856950B2 (ja) 2019-07-25 2019-07-25 変換装置、変換方法、プログラム、ならびに、情報記録媒体

Country Status (5)

Country Link
US (1) US20220261641A1 (ja)
EP (1) EP4006789A4 (ja)
JP (1) JP6856950B2 (ja)
CN (1) CN114175053A (ja)
WO (1) WO2021015016A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2020066257A1 (ja) * 2018-09-26 2021-08-30 国立研究開発法人理化学研究所 分類装置、分類方法、プログラム、ならびに、情報記録媒体

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230185906A1 (en) * 2021-12-15 2023-06-15 Blackberry Limited Methods and systems for fingerprinting malicious behavior

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104640211B (zh) * 2013-11-08 2019-06-25 电信科学技术研究院 一种发送和接收数据的方法、系统及设备
JP2018156451A (ja) 2017-03-17 2018-10-04 株式会社東芝 ネットワーク学習装置、ネットワーク学習システム、ネットワーク学習方法およびプログラム
CN110506278B (zh) * 2017-04-19 2023-11-10 西门子医疗有限公司 隐空间中的目标检测
JP6923159B2 (ja) * 2017-09-26 2021-08-18 株式会社エクォス・リサーチ 情報処理装置
JP6577074B2 (ja) 2018-02-08 2019-09-18 杉山電機システム株式会社 ミスフィード検出装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2020066257A1 (ja) * 2018-09-26 2021-08-30 国立研究開発法人理化学研究所 分類装置、分類方法、プログラム、ならびに、情報記録媒体

Also Published As

Publication number Publication date
CN114175053A (zh) 2022-03-11
EP4006789A1 (en) 2022-06-01
WO2021015016A1 (ja) 2021-01-28
US20220261641A1 (en) 2022-08-18
JP2021022031A (ja) 2021-02-18
EP4006789A4 (en) 2023-06-28

Similar Documents

Publication Publication Date Title
CN113705588B (zh) 基于卷积自注意力模块的孪生网络目标跟踪方法与系统
US11526722B2 (en) Data analysis apparatus, data analysis method, and data analysis program
JP6856950B2 (ja) 変換装置、変換方法、プログラム、ならびに、情報記録媒体
WO2020258902A1 (zh) 图像生成和神经网络训练方法、装置、设备和介质
JP7130905B2 (ja) フィードフォワード畳み込みニューラルネットワークを使用した高速且つ堅牢な皮膚紋理の印のマニューシャの抽出
CN114863407B (zh) 一种基于视觉语言深度融合的多任务冷启动目标检测方法
CN113592041B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
CN109711442B (zh) 无监督逐层生成对抗特征表示学习方法
CN110188827A (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN111340785A (zh) 模型训练方法、产品表面缺陷检测方法和存储介质
KR20190130443A (ko) 뉴럴 네트워크의 양자화 방법 및 장치
CN116703642A (zh) 基于数字孪生技术的产品制造生产线智能管理系统
Pagola et al. Use of owa operators for feature aggregation in image classification
CN116168394A (zh) 图像文本识别方法和装置
CN113963241B (zh) Fpga硬件架构及其数据处理方法、存储介质
KR20110057595A (ko) 상호 정보 최대화 기반의 국부 이진 패턴 코드를 이용한 패턴 인식 방법, 장치 및 그 기록 매체
Chu et al. Mixed-precision quantized neural network with progressively decreasing bitwidth for image classification and object detection
Chung et al. Filter pruning by image channel reduction in pre-trained convolutional neural networks
KR20210038027A (ko) 신경망 압축 훈련 방법 및 압축된 신경망을 이용하는 방법
Deepak et al. Multi-class weather classification using single image via feature fusion and selection
CN117036832B (zh) 一种基于随机多尺度分块的图像分类方法、装置及介质
WO2024103997A1 (zh) 手写体识别方法、手写体识别模型的训练方法及装置
Ahmed et al. Enhancing CNN Model by Incorporating Upscaling and Downscaling Techniques for Image Classification
SINGH et al. Development of a local binary pattern descriptor for texture analysis using deep convolutional neural network
Chakrapani et al. Implementation of Fractal Image Compression Employing Hybrid Genetic-Neural Approach

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201124

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201124

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20201124

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210312

R150 Certificate of patent or registration of utility model

Ref document number: 6856950

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250