JP7131414B2 - 評価装置、評価方法及びプログラム - Google Patents
評価装置、評価方法及びプログラム Download PDFInfo
- Publication number
- JP7131414B2 JP7131414B2 JP2019016463A JP2019016463A JP7131414B2 JP 7131414 B2 JP7131414 B2 JP 7131414B2 JP 2019016463 A JP2019016463 A JP 2019016463A JP 2019016463 A JP2019016463 A JP 2019016463A JP 7131414 B2 JP7131414 B2 JP 7131414B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- data set
- compression
- evaluation
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims description 91
- 230000006835 compression Effects 0.000 claims description 87
- 238000007906 compression Methods 0.000 claims description 87
- 238000000034 method Methods 0.000 claims description 71
- 238000004364 calculation method Methods 0.000 claims description 37
- 238000004422 calculation algorithm Methods 0.000 claims description 33
- 230000009467 reduction Effects 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 11
- 238000010801 machine learning Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 8
- 238000009826 distribution Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Medical Informatics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Complex Calculations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、次元圧縮手法を評価する評価装置、評価方法及びプログラムに関する。
機械学習を適用する分野において、学習の高速化やデータの可視化を行う上で、学習用にあらかじめ与えられるサンプルデータと答えデータのセットについて、サンプルデータの特徴量(例えば、人体に関するデータセットにおける身長や体重などのような、サンプルデータを特徴づけるプロパティ)の数(次元)を圧縮することが試みられている。
特徴量の次元圧縮は、主に機械学習やビッグデータ分析に使われる。あるサンプルデータセットが膨大な特徴量を持つ場合、機械学習、分析に膨大な時間が必要であり、人間がサンプルデータセットのばらつきを目視できないといった課題がある。そこでデータセットの特徴をできるだけ保持し、特徴量を次元圧縮することにより、可視化や高速化を行うことが可能になる。特徴量の次元圧縮手法については種々あり、適切な次元圧縮手法を評価するための手法として、従来では次元圧縮後のデータセットをグラフなどを用いて定性的に評価する手法がある。図1に示すように、サンプルデータセットを次元圧縮手法#1~#3で次元圧縮すると、それぞれの次元圧縮手法について次元圧縮後のデータセットが得られる。説明を簡単にするために、図1の各データセットの下に、次元圧縮前のデータセットの特徴を3次元のグラフで示し、次元圧縮後のデータセットの特徴を2次元のグラフで示す。グラフによる定性的な評価とは、次元圧縮手法#1~#3のうち、どの手法が元のサンプルデータセットの特徴をよりとらえているかをそれぞれのグラフから視覚的に評価する手法である。
また、遺伝子解析について局所的な分布の相関に基づいて次元圧縮手法を評価する技術が提案されている(非特許文献1)。
Samuel Kaski, et. al.,"Trustworthiness and metrics in visualizing similarity of gene expression", BMC Bioinformatics, 13 October 2003
上記のように特徴量の次元圧縮手法については種々あり、次元圧縮後のデータセットについてどの程度機械学習・分析に有意な情報が残されているかを評価することが望ましい。図1に示す従来の次元圧縮手法の評価は定性的な評価であるので、次元数が増加したときに評価が困難になることがあり、必ずしも適切な評価が行われるとは限らない。また、非特許文献1における次元圧縮手法の評価は、局所的な分布の相関を評価するものであり、局所的な分布の相関が小さい場合には適用が困難である。さらに、従来では、1つの手法による評価にとどまり、複数観点から評価することができないという課題がある。
本発明は、複数の観点から次元圧縮手法を評価する技術を提供することを目的とする。
本発明の一形態に係る評価装置は、
複数の次元圧縮手法を評価する評価装置であって、
複数の特徴抽出アルゴリズムを用いて、前記複数の次元圧縮手法のそれぞれに対して、次元圧縮前のデータセット及び次元圧縮後のデータセットから、当該次元圧縮前のデータセットの第1の特徴と、当該次元圧縮後のデータセットの第2の特徴とを抽出する特徴計算部と、
前記複数の特徴抽出アルゴリズムにそれぞれ対応する複数の特徴相似度計算アルゴリズムを用いて、前記第1の特徴と前記第2の特徴との間の相似度を算出する特徴相似度算出部と、
前記複数の次元圧縮手法のそれぞれに対して算出された前記相似度を出力する出力部と、
を有することを特徴とする。
複数の次元圧縮手法を評価する評価装置であって、
複数の特徴抽出アルゴリズムを用いて、前記複数の次元圧縮手法のそれぞれに対して、次元圧縮前のデータセット及び次元圧縮後のデータセットから、当該次元圧縮前のデータセットの第1の特徴と、当該次元圧縮後のデータセットの第2の特徴とを抽出する特徴計算部と、
前記複数の特徴抽出アルゴリズムにそれぞれ対応する複数の特徴相似度計算アルゴリズムを用いて、前記第1の特徴と前記第2の特徴との間の相似度を算出する特徴相似度算出部と、
前記複数の次元圧縮手法のそれぞれに対して算出された前記相似度を出力する出力部と、
を有することを特徴とする。
また、本発明の一形態に係る評価方法は、
複数の次元圧縮手法を評価する評価装置が実行する評価方法であって、
複数の特徴抽出アルゴリズムを用いて、前記複数の次元圧縮手法のそれぞれに対して、次元圧縮前のデータセット及び次元圧縮後のデータセットから、当該次元圧縮前のデータセットの第1の特徴と、当該次元圧縮後のデータセットの第2の特徴とを抽出するステップと、
前記複数の特徴抽出アルゴリズムにそれぞれ対応する複数の特徴相似度計算アルゴリズムを用いて、前記第1の特徴と前記第2の特徴との間の相似度を算出するステップと、
前記複数の次元圧縮手法のそれぞれに対して算出された前記相似度を出力するステップと、
を有することを特徴とする。
複数の次元圧縮手法を評価する評価装置が実行する評価方法であって、
複数の特徴抽出アルゴリズムを用いて、前記複数の次元圧縮手法のそれぞれに対して、次元圧縮前のデータセット及び次元圧縮後のデータセットから、当該次元圧縮前のデータセットの第1の特徴と、当該次元圧縮後のデータセットの第2の特徴とを抽出するステップと、
前記複数の特徴抽出アルゴリズムにそれぞれ対応する複数の特徴相似度計算アルゴリズムを用いて、前記第1の特徴と前記第2の特徴との間の相似度を算出するステップと、
前記複数の次元圧縮手法のそれぞれに対して算出された前記相似度を出力するステップと、
を有することを特徴とする。
また、本発明の一形態に係るプログラムは、
上記の評価装置の各部としてコンピュータを機能させることを特徴とする。
上記の評価装置の各部としてコンピュータを機能させることを特徴とする。
本発明によれば、複数の観点から次元圧縮手法を評価することが可能になる。
以下、図面に基づいて本発明の実施の形態を説明する。
図2は、本発明の実施の形態におけるネットワーク構成例を示す図である。図2において、評価装置10は、インターネット又はLAN(Local Area Network)等のネットワークを介して1以上のユーザ端末20と接続される。
評価装置10は、種々の次元圧縮手法に依存せず、次元圧縮前後のデータセットの特徴の類似性を、複数の観点から定量的に評価できるサーバ等の装置である。特徴の類似性を数値化するために、後述する特徴計算部により各データセットの特徴を算出し、後述する特徴相似度算出部により相似度を定量化し、最適な次元圧縮手法及び相似度の一覧をユーザ端末20に返却する。
ユーザ端末20は、評価装置10に対するデータや評価条件の入力をユーザから受け付けたり、評価装置10による評価結果を出力(表示)したりする端末である。例えば、PC(Personal Computer)、スマートフォン、タブレット端末等がユーザ端末20として利用されてもよい。
図3は、本発明の実施の形態における評価装置10を構成するコンピュータのハードウェア構成例を示す図である。評価装置10を構成するコンピュータは、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、及びインタフェース装置105等を有する。
評価装置10での処理を実現するプログラムは、CD-ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って評価装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
図4は、本発明の実施の形態における評価装置10の機能構成例を示す図である。図4において、評価装置10は、入力受付部11、次元圧縮部12、特徴計算部13、特徴相似度算出部14及び出力部15等を有する。これら各部は、評価装置10にインストールされた1以上のプログラムが、CPU104に実行させる処理により実現される。
入力受付部11は、ユーザ端末20において入力されたサンプルデータセット(次元圧縮前のデータセット)と次元圧縮後のデータセットと評価条件を当該ユーザ端末20から受信し、サンプルデータセットと次元圧縮後のデータセットとをメモリ装置103等に格納する。
入力受付部11がユーザ端末20から受信するサンプルデータセットは、トラフィックデータやセンサーデータのようなデータの集合である。例えば、各トラフィックデータは、IP、ポート、プロトコル、パケット数、長さ等の複数の特徴量で構成される。次元圧縮後のデータセットとは、サンプルデータセットの特徴量の数(次元)を圧縮した後のデータセットである。なお、後述する次元圧縮部12において次元圧縮する場合には、入力受付部11は次元圧縮後のデータセットを受け付ける必要はない。
評価条件は、後述する複数の評価手法のうちどの評価手法を使用して次元圧縮手法を評価するか(複数選択可)を含み、また、次元圧縮部12において次元圧縮する場合には、評価条件は評価対象の次元圧縮手法(複数選択可)を含む。
次元圧縮部12は、入力受付部11において次元圧縮後のデータセットを受け付けない場合に、入力受付部11において受け付けた評価対象の次元圧縮手法を用いて、サンプルデータセットの次元圧縮を実施し、次元圧縮後のデータセットを生成する。
特徴計算部13は、入力受付部11又は次元圧縮部12からサンプルデータセット及び次元圧縮後のデータセットを受け取り、複数の特徴抽出アルゴリズムを用いて、各次元圧縮手法に対してサンプルデータセットの特徴と、次元圧縮後のデータセットの特徴とを抽出する。特徴計算部13は、これらの特徴を行列又はベクトルに変換してもよい。
特徴相似度算出部14は、特徴計算部13で用いた複数の特徴抽出アルゴリズムにそれぞれ対応する複数の特徴相似度計算アルゴリズムを用いて、サンプルデータセットの特徴を表す行列又はベクトルと次元圧縮後のデータセットの特徴を表す行列又はベクトルとの相似度を算出する。相似度が高いほど、次元圧縮前後のデータセットの特徴が似ていると言うことができる。特徴相似度算出部14は、それぞれの次元圧縮手法おいて算出された相似度に基づいて、最適な次元圧縮手法を決定することができる。
出力部15は、最適な次元圧縮手法の提案、各次元圧縮手法における相似度一覧を出力する。
以下に、次元圧縮手法を評価するための具体的な3つの評価手法に関して、特徴計算部13及び特徴相似度算出部14の機能を説明する。3つの評価手法のうちどの評価手法を使用するかは、入力受付部11で受け付けた評価条件に従う。
(1)評価手法#1:各点の大局的な分布の特徴を抽出し、相似度を算出する手法
評価手法#1の特徴抽出アルゴリズムは以下の通りである。
評価手法#1の特徴抽出アルゴリズムは以下の通りである。
特徴計算部13は、次元圧縮前のデータセットA=[a1,a2,…,an]及び次元圧縮後のデータセットB=[b1,b2,…,bn]について、それぞれのデータセットの各点(各データ)間の関係を行列化する。各点間の関係は距離及び内積があり、必要に応じてユーザが選択可能とする。各点間の関係を距離で表す場合、次元圧縮前のデータセットの各点間の距離は以下の行列RAで表される。
評価手法#1の特徴相似度計算アルゴリズムは以下の通りである。
特徴相似度算出部14は、行列RAと行列RBとの間の相関係数を算出する。具体的には、ピアソンの積率相関係数を用いて相似度を算出する。
(2)評価手法#2:各点の局所的な分布の特徴を抽出し、相似度を算出する手法
本評価手法はTrustworthiness計算式(非特許文献1)を用いる。評価手法#2の特徴抽出アルゴリズムは以下の通りである。
本評価手法はTrustworthiness計算式(非特許文献1)を用いる。評価手法#2の特徴抽出アルゴリズムは以下の通りである。
特徴計算部13は、次元圧縮前のデータ及び次元圧縮後のデータをTrustworthiness計算式を用いて分類し、その分類予測を特徴とする。具体的には、次元圧縮前のデータセットA=[a1,a2,…,an]について、aiから最も近いものから順に並べた際のajの順位を算出する。また、次元圧縮後のデータセットB=[b1,b2,…,bn]について、各点(各データ)に近い方からk番目の点までを抽出する。
評価手法#2の特徴相似度計算アルゴリズムは以下の通りである。
特徴相似度算出部14は、次元圧縮前のデータセットA=[a1,a2,…,an]及び次元圧縮後のデータセットB=[b1,b2,…,bn]について、以下の特徴ベクトルRを計算する。
特徴相似度算出部14は、下記の式によって相似度を算出する。
予め、次元圧縮前のデータセット(学習用のデータセット)及び次元圧縮後のデータセット(学習用のデータセット)を機械学習で分類して、次元圧縮前のデータセットの特徴を表すベクトルRA及び次元圧縮後のデータセットの特徴を表すRBを出力する機械学習モデルが構築されているものとする。特徴計算部13は、次元圧縮前のデータセットA=[a1,a2,…,an]及び次元圧縮後のデータセットB=[b1,b2,…,bn]のそれぞれについて、学習済みの機械学習モデルを用いて分類して得られたベクトルRA=[r1
A,r2
A,…,rn
A]及びRB=[r1
B,r2
B,…,rn
B]を抽出する。
評価手法#3の特徴相似度計算アルゴリズムは以下の通りである。
特徴相似度算出部14では、ベクトルRA及びRBの各成分が一致しているか否かに基づいて下記の式で相似度を算出する。
図5は、特徴計算部13及び特徴相似度算出部14の処理を示すフローチャートである。ここでは、評価装置10において上記の評価手法#1~#3が利用可能であるものとし、評価手法#1~#3のうちどの評価手法を使用するかは、入力受付部11において受け付けているものとする。
ステップS101において、特徴計算部13は評価手法#1を使用するか否かを判断する。評価手法#1を使用する場合、ステップS102に進み、評価手法#1を使用しない場合、ステップS105に進む。
ステップS102において、特徴計算部13は、上記の評価手法#1に従ってサンプルデータセットの特徴RAを算出する。
ステップS103において、特徴計算部13は、上記の評価手法#1に従って次元圧縮後のデータセットの特徴RBを算出する。
ステップS104において、特徴相似度算出部14は、上記の評価手法#1に従って相似度を算出する。
ステップS105において、特徴計算部13は評価手法#2を使用するか否かを判断する。評価手法#2を使用する場合、ステップS106に進み、評価手法#2を使用しない場合、ステップS109に進む。
ステップS106において、特徴計算部13は、上記の評価手法#2に従ってr(aj,ai)を抽出する。
ステップS107において、特徴計算部13は、上記の評価手法#2に従ってbiに最も近いものからk番目までの点のインデックスの集合を抽出する。
ステップS108において、特徴相似度算出部14は、上記の評価手法#2に従って相似度を算出する。
ステップS109において、特徴計算部13は評価手法#3を使用するか否かを判断する。評価手法#3を使用する場合、ステップS110に進み、評価手法#3を使用しない場合、処理を終了する。
ステップS110において、特徴計算部13は、上記の評価手法#3に従ってサンプルデータセットの特徴RAを算出する。
ステップS103において、特徴計算部13は、上記の評価手法#3に従って次元圧縮後のデータセットの特徴RBを算出する。
ステップS104において、特徴相似度算出部14は、上記の評価手法#3に従って相似度を算出する。
さらに、特徴相似度算出部14は、それぞれの次元圧縮手法おいて算出された相似度に基づいて、最適な次元圧縮手法を決定する。例えば、特徴相似度算出部14は、得られた相似度と閾値とを比較して、全ての相似度が閾値より高いものが最適な次元圧縮手法であると決定してもよく、また、複数のサンプルデータセットを用いて評価した結果、相似度のばらつきが小さいものが最適な次元圧縮手法であると決定してもよい。
本実施の形態によれば、次元圧縮手法の比較及び選定を行うにあたり、複数の観点から次元圧縮手法を定量的に評価することができ、最適な次元圧縮手法を提案することが可能となる。また、評価手法#1は大局的なデータの分布の相似度を計算することができる手法であり、評価手法#2は局所的な分布の相関を計算することができる手法であり、評価手法#3は実際のデータを用いた評価結果を反映することができる手法である。これらの評価手法を組み合わせることで、様々な観点から次元圧縮手法を評価することが可能になる。
以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
10 評価装置
11 入力受付部
12 次元圧縮部
13 特徴計算部
14 特徴相似度算出部
15 出力部
20 ユーザ端末
11 入力受付部
12 次元圧縮部
13 特徴計算部
14 特徴相似度算出部
15 出力部
20 ユーザ端末
Claims (7)
- 複数の次元圧縮手法を評価する評価装置であって、
複数の特徴抽出アルゴリズムを用いて、前記複数の次元圧縮手法のそれぞれに対して、次元圧縮前のデータセット及び次元圧縮後のデータセットから、当該次元圧縮前のデータセットの第1の特徴と、当該次元圧縮後のデータセットの第2の特徴とを抽出する特徴計算部と、
前記複数の特徴抽出アルゴリズムにそれぞれ対応する複数の特徴相似度計算アルゴリズムを用いて、前記第1の特徴と前記第2の特徴との間の相似度を算出する特徴相似度算出部と、
前記複数の次元圧縮手法のそれぞれに対して算出された前記相似度を出力する出力部と、
を有する評価装置。 - 前記複数の特徴抽出アルゴリズムのうち第1の特徴抽出アルゴリズムは、前記次元圧縮前のデータセット内の各データ間の距離又は内積を表す行列を前記第1の特徴として抽出し、前記次元圧縮後のデータセット内の各データ間の距離又は内積を表す行列を前記第2の特徴として抽出するアルゴリズムであり、
前記第1の特徴抽出アルゴリズムに対応する第1の特徴相似度計算アルゴリズムは、前記第1の特徴と前記第2の特徴との相関係数を算出するアルゴリズムである、請求項1に記載の評価装置。 - 前記複数の特徴抽出アルゴリズムのうち第2の特徴抽出アルゴリズムは、学習用の次元圧縮前のデータセット及び学習用の次元圧縮後のデータセットを用いて機械学習によって構築された機械学習モデルを用いて、前記次元圧縮前のデータセット及び前記次元圧縮後のデータセットから、前記第1の特徴を表すベクトルと前記第2の特徴を表すベクトルとを抽出するアルゴリズムであり、
前記第2の特徴抽出アルゴリズムに対応する第2の特徴相似度計算アルゴリズムは、前記第1の特徴を表すベクトルの各成分と前記第2の特徴を表すベクトルの各成分とが一致しているか否かに基づいて、相似度を算出するアルゴリズムである、請求項1又は2に記載の評価装置。 - 前記特徴相似度算出部は、前記複数の次元圧縮手法のそれぞれに対して算出された前記相似度に基づいて、最適な次元圧縮手法を決定し、
前記出力部は、前記決定された最適な次元圧縮手法を出力する、請求項1乃至3のうちいずれか1項に記載の評価装置。 - 次元圧縮前のデータセットを受け取る入力受付部と、
前記複数の次元圧縮手法を用いて、前記次元圧縮前のデータセットの次元を圧縮した次元圧縮後のデータセットを生成する次元圧縮部と、
を更に有する、請求項1乃至4のうちいずれか1項に記載の評価装置。 - 複数の次元圧縮手法を評価する評価装置が実行する評価方法であって、
複数の特徴抽出アルゴリズムを用いて、前記複数の次元圧縮手法のそれぞれに対して、次元圧縮前のデータセット及び次元圧縮後のデータセットから、当該次元圧縮前のデータセットの第1の特徴と、当該次元圧縮後のデータセットの第2の特徴とを抽出するステップと、
前記複数の特徴抽出アルゴリズムにそれぞれ対応する複数の特徴相似度計算アルゴリズムを用いて、前記第1の特徴と前記第2の特徴との間の相似度を算出するステップと、
前記複数の次元圧縮手法のそれぞれに対して算出された前記相似度を出力するステップと、
を有する評価方法。 - 請求項1乃至5のうちいずれか1項に記載の評価装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019016463A JP7131414B2 (ja) | 2019-01-31 | 2019-01-31 | 評価装置、評価方法及びプログラム |
PCT/JP2020/002601 WO2020158628A1 (ja) | 2019-01-31 | 2020-01-24 | 評価装置、評価方法及びプログラム |
US17/423,971 US20220092358A1 (en) | 2019-01-31 | 2020-01-24 | Evaluation apparatus, evaluation method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019016463A JP7131414B2 (ja) | 2019-01-31 | 2019-01-31 | 評価装置、評価方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020123294A JP2020123294A (ja) | 2020-08-13 |
JP7131414B2 true JP7131414B2 (ja) | 2022-09-06 |
Family
ID=71841311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019016463A Active JP7131414B2 (ja) | 2019-01-31 | 2019-01-31 | 評価装置、評価方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220092358A1 (ja) |
JP (1) | JP7131414B2 (ja) |
WO (1) | WO2020158628A1 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4275084B2 (ja) * | 2005-02-16 | 2009-06-10 | 日本電信電話株式会社 | 類似時系列データ計算装置、類似時系列データ計算方法、および類似時系列データ計算プログラム |
JP2017097718A (ja) * | 2015-11-26 | 2017-06-01 | 株式会社リコー | 識別処理装置、識別システム、識別処理方法、およびプログラム |
-
2019
- 2019-01-31 JP JP2019016463A patent/JP7131414B2/ja active Active
-
2020
- 2020-01-24 US US17/423,971 patent/US20220092358A1/en active Pending
- 2020-01-24 WO PCT/JP2020/002601 patent/WO2020158628A1/ja active Application Filing
Non-Patent Citations (1)
Title |
---|
Samuel Kaski, et. al.,Trustworthiness and metrics in visualizing similarity of gene expression,BMC Bioinformatics,volume 4, Article number: 48 ,フィンランド,2003年10月13日,1~13頁,https://bmcbioinformatics.biomedcentral.com/track/pdf/10.1186/1471-2105-4-48.pdf,2022年7月15日検索 |
Also Published As
Publication number | Publication date |
---|---|
US20220092358A1 (en) | 2022-03-24 |
JP2020123294A (ja) | 2020-08-13 |
WO2020158628A1 (ja) | 2020-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7343568B2 (ja) | 機械学習のためのハイパーパラメータの識別および適用 | |
CN111709533B (zh) | 机器学习模型的分布式训练方法、装置以及计算机设备 | |
KR102251302B1 (ko) | 시간 인자와 결합한 협업 필터링 방법, 장치, 서버 및 저장 매체 | |
CN109255392B (zh) | 基于非局部神经网络的视频分类方法、装置及设备 | |
US20150019464A1 (en) | method and apparatus for supplying interpolation point data for a data-based function model calculation unit | |
CN111258767A (zh) | 复杂系统仿真应用的云计算资源智能分配方法与装置 | |
CN116882520A (zh) | 针对预定预测问题的预测方法及系统 | |
CN114332500A (zh) | 图像处理模型训练方法、装置、计算机设备和存储介质 | |
CN112529068A (zh) | 一种多视图图像分类方法、系统、计算机设备和存储介质 | |
JP4143234B2 (ja) | 文書分類装置、文書分類方法及び記憶媒体 | |
CN113869332A (zh) | 一种特征选择方法、装置、存储介质和设备 | |
CN112257332B (zh) | 一种仿真模型的评估方法及装置 | |
CN113989940A (zh) | 视频数据中动作识别方法、系统、设备与存储介质 | |
WO2022003991A1 (ja) | 2次元マップ生成装置、2次元マップ生成方法および2次元マップ生成用プログラム | |
JP7131414B2 (ja) | 評価装置、評価方法及びプログラム | |
CN113159211B (zh) | 用于相似图像检索的方法、计算设备和计算机存储介质 | |
CN114155410A (zh) | 图池化、分类模型训练、重建模型训练方法和装置 | |
WO2011155288A1 (ja) | データのインデックスの次元削減方法及びそれを利用したデータ検索方法並びに装置 | |
CN114581177A (zh) | 产品推荐方法、装置、设备及存储介质 | |
CN110415006B (zh) | 广告点击率预估方法和装置 | |
CN113760407A (zh) | 信息处理方法、装置、设备及存储介质 | |
CN113780324A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
JP7345744B2 (ja) | データ処理装置 | |
US20240119295A1 (en) | Generalized Bags for Learning from Label Proportions | |
US20200257657A1 (en) | Method And System For Calculating Minwise Hash Signatures From Weighted Sets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210507 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220726 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220808 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7131414 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |