JP2022145033A - 特徴抽出装置およびプログラム - Google Patents

特徴抽出装置およびプログラム Download PDF

Info

Publication number
JP2022145033A
JP2022145033A JP2021046277A JP2021046277A JP2022145033A JP 2022145033 A JP2022145033 A JP 2022145033A JP 2021046277 A JP2021046277 A JP 2021046277A JP 2021046277 A JP2021046277 A JP 2021046277A JP 2022145033 A JP2022145033 A JP 2022145033A
Authority
JP
Japan
Prior art keywords
vector
principal component
unit
vectors
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021046277A
Other languages
English (en)
Inventor
大輝 岡本
Daiki Okamoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2021046277A priority Critical patent/JP2022145033A/ja
Publication of JP2022145033A publication Critical patent/JP2022145033A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Complex Calculations (AREA)

Abstract

【課題】統計分析の分野で行われる主成分分析において、少数のデータに対しても、外れ値に対して頑強な主成分分析を行うこと、すなわち、外れ値による影響を緩和しつつ、代表的な成分を導き出すことができる特徴抽出装置およびプログラムを提供する。【解決手段】統計分析の分野で用いられる主成分分析を行う特徴抽出装置10は、主成分分析を行うための元となる複数のデータから、固有値と固有ベクトルを算出して記憶する、という処理をブートストラップ的に繰り返して行う固有値・固有ベクトル算出部13と、各固有値の平方根を対応する固有ベクトルに乗じたベクトルのベクトルセットを生成するベクトルセット作成部14と、そのベクトルセットに含まれる行ベクトルの中から、代表的な行ベクトルを主成分候補ベクトルとして抽出して記憶する主成分候補ベクトル抽出部15を備える。【選択図】図1

Description

特許法第30条第2項適用申請有り 〔刊行物名〕 情報処理学会第83回全国大会講演論文集 〔主催〕 一般社団法人情報処理学会 〔発行年月日〕 2021年3月4日
本発明は、統計分析の分野で行われる主成分分析において、外れ値による影響を緩和しつつ、複数のデータから代表的な成分を導き出すための特徴抽出装置およびプログラムに関するものである。
多くの数値データから数値同士の相関や傾向を抽出する際に、多変量解析の一手法である主成分分析が用いられることがある(例えば、非特許文献1を参照)。一般的に、多くのデータから主成分分析を行う場合、1つのデータに対して1回の分析を行って結果を求めて終了、とする方法、ブートストラップ的に部分抽出して主成分分析を行うという処理を繰り返すブートストラップ法などが知られている。
小西貞則著、「多変量解析入門 -線形から非線形へ-」岩波書店、2010年1月発行
しかしながら、従来から知られている主成分分析はデータの分散に着目した手法であるため、一般的に外れ値の影響を受けやすい、という課題があった。これについては、外れ値を検出して除外する方法も多数存在するが、データ数の多さや信頼区間、閾値の設定など、課題も多い。また、特にデータ数が少ない場合には、外れ値の影響をより強く受けてしまう、という課題もあった。
そこで、本発明は上記のような課題を解決するためになされたものであり、その目的は、統計分析の分野で行われる主成分分析において、データの量にかかわらず、少数のデータに対しても、外れ値に対して頑強な主成分分析を行うこと、すなわち、外れ値による影響を緩和しつつ、複数のデータから代表的な成分を導き出すことができる特徴抽出装置およびプログラムを提供することにある。
上記目的を達成するため、請求項1の特徴抽出装置は、統計分析の分野で用いられる主成分分析を行う特徴抽出装置であって、前記主成分分析を行うための元となる複数のデータを取得するデータ取得部と、前記データ取得部が取得したデータをバイアス調整して、すべての平均値を0(ゼロ)とするバイアス調整部と、前記バイアス調整部がバイアス調整したデータから、固有値と固有ベクトルを算出して記憶する、という処理をブートストラップ的に繰り返して行う固有値・固有ベクトル算出部と、前記固有値・固有ベクトル算出部が算出して記憶した固有値と固有ベクトルに基づいて、各固有値の平方根を対応する固有ベクトルに乗じたベクトルのベクトルセットを生成するベクトルセット作成部と、前記ベクトルセット作成部が生成したベクトルセットに含まれる行ベクトルの中から、代表的な行ベクトルを主成分候補ベクトルとして抽出して記憶する主成分候補ベクトル抽出部と、前記主成分候補ベクトル抽出部が抽出して記憶した主成分候補ベクトルを、主成分データとして出力する最終ベクトル出力部と、を備えることを特徴とする。
また、請求項2の特徴抽出装置は、前記主成分候補ベクトル抽出部が、前記ベクトルセット作成部が生成したベクトルセットに含まれる行ベクトルの中から、自身のベクトルと他のベクトルとの内積の絶対値の総和が大きいベクトルを、前記主成分候補ベクトルとして抽出することを特徴とする。
また、請求項3の特徴抽出装置は、前記固有値・固有ベクトル算出部が前記固有値と固有ベクトルを算出して記憶する処理をブートストラップ的に繰り返す回数(ループ数)をKとした場合に、前記主成分候補ベクトル抽出部が、あらかじめ定められた所定の数の前記主成分候補ベクトルが抽出されるまで、前記主成分候補ベクトルとの内積が大きくなるベクトルを最大K個抜き出してそれらをすべて零(ゼロ)ベクトルとして前記ベクトルセットを更新した上で、前記主成分候補ベクトルを抽出する処理を繰り返すことを特徴とする。
また、請求項4のプログラムは、統計分析の分野で用いられる主成分分析を行う特徴抽出用のプログラムであって、データ取得部が、前記主成分分析を行うための元となる複数のデータを取得するステップと、バイアス調整部が、前記データ取得部が取得したデータをバイアス調整して、すべての平均値を0(ゼロ)とするステップと、固有値・固有ベクトル算出部が、前記バイアス調整部がバイアス調整したデータから、固有値と固有ベクトルを算出して記憶する、という処理をブートストラップ的に繰り返して行うステップと、ベクトルセット作成部が、前記固有値・固有ベクトル算出部が算出して記憶した固有値と固有ベクトルに基づいて、各固有値の平方根を対応する固有ベクトルに乗じたベクトルのベクトルセットを生成するステップと、主成分候補ベクトル抽出部が、前記ベクトルセット作成部が生成したベクトルセットに含まれる行ベクトルの中から、代表的な行ベクトルを主成分候補ベクトルとして抽出して記憶するステップと、最終ベクトル出力部が、前記主成分候補ベクトル抽出部が抽出した主成分候補ベクトルを、主成分データとして出力するステップと、をコンピュータに実行させることを特徴とする。
本発明によれば、統計分析の分野で行われる主成分分析において、データの量にかかわらず、少数のデータに対しても、外れ値に対して頑強な主成分分析を行うこと、すなわち、外れ値による影響を緩和しつつ、複数のデータから代表的な成分を導き出すことができる。
本発明の実施の形態における特徴抽出装置の機能構成の一例を示すブロック図である。 本発明の実施の形態における特徴抽出装置の処理を示すフローチャートである。 本発明の実施の形態における特徴抽出装置の処理によって抽出される主成分候補ベクトルの扱いを示す模式図である。
本発明は、統計分析の分野で行われる主成分分析において、複数回の分析とクラスタリングによって外れ値による影響を緩和しつつ、複数のデータから代表的な成分を導き出すための特徴抽出装置およびプログラムに関するものである。以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。
一般的に、多くの数値データから数値同士の相関や傾向を抽出する際に、多変量解析の一手法である主成分分析がしばしば用いられる。以下、扱うデータのサイズをNサンプル、特徴量(エンティティ)数をMとする。主成分分析を超次元空間における図形問題として解釈すると、M次元空間中で楕円状に分布するデータの分布関数の長径を求める問題、と言い換えることができる。数学的には、データをもとにM×Mの分散共分散行列を作り、固有値と固有ベクトルを求める問題となる。この場合、分布関数の長径の方向が固有ベクトルに、長径の長さの2乗が固有値にそれぞれ対応する。
この実施の形態では、扱うデータのサイズを3000サンプル(N=3000)、特徴量(エンティティ)数を88(M=88)として実験を行った結果に沿って説明する。なお、N=3000,M=88は実験を行ったときの数値であり、本発明はこれらの数値に限定されるものではない。
図1は、本発明の実施の形態における特徴抽出装置10の機能構成の一例を示すブロック図である。図1に示すとおり、この特徴抽出装置10は、データ取得部11、バイアス調整部12、固有値・固有ベクトル算出部13、ベクトルセット作成部14、主成分候補ベクトル抽出部15、および、最終ベクトル出力部16を備えており、統計分析の分野で用いられる主成分分析を行う装置である。
データ取得部11は、主成分分析を行うための元となる複数のデータを取得する取得部である。元となるデータが外部の装置に保存されている場合には、それら外部の装置からデータを取得(ネットワーク等を介して受信)するようにすればよいし、あらかじめ、この特徴抽出装置10のデータ記憶部(図示せず)に記憶されている場合には、そのデータ記憶部から取得すればよい。
バイアス調整部12は、データ取得部11が取得したデータをバイアス調整して、すべての平均値を0(ゼロ)とする調整部である。固有値・固有ベクトル算出部13は、バイアス調整部12がバイアス調整したデータから、固有値と固有ベクトルを算出してメモリに記憶する、という処理をブートストラップ的に繰り返して行う算出部である。
ベクトルセット作成部14は、固有値・固有ベクトル算出部13が算出して記憶した固有値と固有ベクトルをメモリから読み出し、固有値と固有ベクトルに基づいて、各固有値の平方根を対応する固有ベクトルに乗じたベクトルのベクトルセットCを生成する作成部である。
主成分候補ベクトル抽出部15は、ベクトルセット作成部14が生成したベクトルセットCに含まれる行ベクトルの中から、代表的な行ベクトルを主成分候補ベクトルVtとして抽出してメモリに記憶する抽出部である。
最終ベクトル出力部16は、主成分候補ベクトル抽出部15が抽出して記憶した主成分候補ベクトル(代表的な行ベクトル)Vtをメモリから読み出し、これを主成分データとして出力する出力部である。
なお、この実施の形態では、固有値・固有ベクトル算出部13や主成分候補ベクトル抽出部15が、それぞれの内部に記憶領域(メモリ)を備えているものとして説明するが、記憶しておくデータについては、特徴抽出装置10内にある別の記憶領域であるデータ記憶部(図示せず)に記憶するようにしてもよい。
次に、この特徴抽出装置10における処理について、図2を参照しながら詳細に説明する。図2は、本発明の実施の形態における特徴抽出装置10の処理を示すフローチャートである。
まず初めに、データ取得部11が、Nサンプル(N=3000)、エンティティ数M(M=88)のデータを取得する(ステップST1)。次に、バイアス調整部12が、ステップST1でデータ取得部11が取得したNサンプル(N=3000)、エンティティ数M(M=88)のデータをバイアス調整して、すべての平均値を0(ゼロ)とする(ステップST2)。
そして、固有値・固有ベクトル算出部13が、k=1に設定してから(ステップST3)、Nサンプルの中からN’サンプル(N’<N;ここでは、N’=2400とする)をランダムに抽出したデータ行列Dを生成する(ステップST4)。さらに、このDkに含まれるデータからM×Mの分散共分散行列Σを生成し(ステップST5)、Σkの固有値λk1,λk2,・・・,λktと、固有ベクトルvk1,vk2,・・・,vkt(t≦M)を算出して記憶する(ステップST6)。この際、固有ベクトルおよび対応する固有値のセットをすべて記憶してもよいし、固有値に閾値や上限数を設けて一定値以上または一定数の固有値と固有ベクトルのセットのみを記憶するようにしてもよい。
ここで、上記のステップST4~ST6を繰り返すループ数(回数)をK(ここでは、K=50とする)とした場合、すなわち、固有値・固有ベクトル算出部13が、固有値と固有ベクトルを算出して記憶する処理をブートストラップ的に繰り返す回数(ループ数)をK(=50)とした場合に、「k=K?」の条件を満たしているかどうかを判断し(ステップST7)、k=Kでなければ(ステップST7のNOの場合)、k=k+1として、すなわち、ループ数kがK(=50)回に達するまでkを1つインクリメントして(ステップST8)、ステップST4~ST6の処理を繰り返す。
このように、ステップST4~ST6の処理を繰り返すことにより、すなわち、固有値と固有ベクトルを算出して記憶する、という処理をブートストラップ的に繰り返して行うことにより、外れ値の影響を低減できる。外れ値は、ある種の離散的なデータとみなすことができ、その影響を受けたままだと、主成分分析によって得られるベクトルも離散的な挙動をとるが、ブートストラップ的に繰り返して行うことにより、外れ値の影響が平滑化され、適切な主成分を導き出す可能性が上がるからである。
一方、ステップST7において、k=Kであれば(ステップST7のYESの場合)、すなわち、K(=50)回目のループまでステップST4~ST6の処理を繰り返した場合、ベクトルセット作成部14へ処理を受け渡す。
この際、固有値・固有ベクトル算出部13は、各ループのステップST6で算出した各固有値および固有ベクトルを、自身が保持する記憶領域に記憶している場合には、その記憶した固有値および固有ベクトルをベクトルセット作成部14へ出力する(受け渡す)ようにすればよいし、特徴抽出装置10が、固有値および固有ベクトルを記憶しておくデータ記憶部(図示せず)を別途備えている場合には、固有値・固有ベクトル算出部13から指示(通知)を受けたベクトルセット作成部14が、そのデータ記憶部からステップST6で算出された各固有値および固有ベクトルを取得してくるようにすればよい。
そして、ベクトルセット作成部14は、固有値・固有ベクトル算出部13がステップST6において算出・記憶した各固有値の平方根を、対応する固有ベクトルに乗じる(ステップST9)ことにより、ベクトルV1,V2,・・・,VT(T=M・K)というベクトルセットCを生成する(ステップST10)。ここで、ベクトルVi(1≦i≦T)はそれぞれ、1×M行列(要素数Mの行ベクトル)である。
この処理についてもう少し詳細に説明すると、前述のステップST4~ST6の処理をKループ行った際に、各ループで最大M個の固有値が得られたとすると、固有値と固有ベクトルのセットは合計M×K個(=T個)になっているので、固有値の平方根に固有ベクトルを乗じるというステップST9の処理により、T個のベクトルセットができる、ということになる。また、各ベクトルセットCはV1,V2,・・・,VTまであり、各Vi(1≦i≦T)は、要素数Mの行ベクトルである。より具体的には、V1=√(λ11・v11)(すなわち、Vi=√(λi1・vi1))に相当することになる。ただし、これは各ループで最大M個の固有値が得られた場合のことであり、必ずしもM個の固有値が得られるとは限らず、M個未満の場合もあり得る。
ベクトルセット作成部14でベクトルセットCが生成されると、主成分候補ベクトル抽出部15がそれを受け取り、ベクトルセットCに含まれるベクトルV1,V2,・・・,VTを昇順に各行の要素とするT×M行列Sを生成する(ステップST11)。前述のとおり、各Vi(1≦i≦T)は、要素数Mの行ベクトルである(1×M行列)ので、それを昇順にT行積み上げれば、T×M行列Sが生成される。T×M行列Sは、以下の式で表される。
T×M行列Sは、以下の式で表される。
Figure 2022145033000002
さらに、主成分候補ベクトル抽出部15は、T×Tの対称行列R=SSTを生成する(ステップST12)。行列SがT×M行列であるので、STはM×T行列となり、R=SSTはT×Tの対称行列となる。
T×T行列Rは、以下の式で表される。
Figure 2022145033000003
ベクトルR1=[r11,r12,・・・,r1T]、ベクトルR2=[r21,r22,・・・,r2T]、・・・、ベクトルRT=[rT1,rT2,・・・,rTT]である。
次に、主成分候補ベクトル抽出部15は、対称行列Rの各行で、絶対値の総和を計算し、最も総和の値が大きくなる行番号t(1≦t≦T)を取得し(ステップST13)、ベクトルセットCの中でステップST13で取得した行番号tに対応するベクトルVtを主成分候補ベクトルとして記憶する(ステップST14)。すなわち、T個あるベクトルの中で、1個だけ代表的なベクトルとして、他のベクトルとの内積をとった結果、ベクトルのサイズが大きくて、かつ方向が類似しやすい代表的なもの、成分として強いものを1個だけピックアップして記憶する。
すなわち、主成分候補ベクトル抽出部15は、ベクトルセット作成部14が生成したベクトルセットCに含まれる行ベクトルVi(1≦i≦T)の中から、自身のベクトルと他のベクトルとの内積の絶対値の総和が大きいベクトルを、代表的なベクトルVt(主成分候補ベクトルVt)として抽出して記憶する。
これらの処理について、図3に示す模式図を参照しながら、より詳細に説明する。図3は、本発明の実施の形態における特徴抽出装置10の処理によって抽出される主成分候補ベクトルの扱いを示す模式図である。図3に示す矢印は、図3の右側の枠内に記載されているとおり、それぞれkループ目の主成分候補ベクトルを示しており、同一ループのものは同一模様で示されている。なお、前述のとおり、主成分候補ベクトルは、固有値の平方根に固有ベクトルを乗じたものであり、固有値が分散に相当するので、固有値の平方根(標準偏差や半径というイメージ)をベクトルに乗じることで、長さに違いが生じるのである。
例えば、図3の左側に示す模式図の矢印21,22は、図2のステップST4~ST6の1ループ目で算出されたベクトル、矢印31,32は、2ループ目で算出されたベクトル、矢印41,42は、3ループ目で算出されたベクトル、矢印51,52は、4ループ目で算出されたベクトルであるとする。この場合、実線で囲んだグループAに属するものが4個、破線で囲んだグループBに属するものが4個ある。なお、ここでは説明のために4ループだけとしたが、ステップST4~ST6を10ループ繰り返した場合、特に強い成分に関しては、グループAに属するものが10個、グループBに属するものが10個、という結果になり得る。
また、ベクトルは180度反対向きに出ることもあるので、図3もそのような場合を考慮した図としているが、固有値は正の値をとるものなので、ベクトルの向きに関係なくプラスとして考えればよい。そこで、前述のステップST11~ST14では、主成分候補ベクトルの向きは一切考慮せず、全対全で内積をとっている。同じグループに属するベクトル同士はほぼ平行なので、内積の絶対値が大きくなる。一方、別のループの異なるグループに属するベクトル同士は必ずしも直交ではないので内積をとってもゼロにはならないが、絶対的に小さな値が出やすい。
例えば、図3に示すベクトル21とベクトル32は、内積をとることで必ず小さな値となる。また、代表的なベクトルは、固有値が大きいので長い、すなわち、半径に相当する標準偏差が長いので、他のベクトルと内積をとると大きな値となりやすい。そして、固有値の大きな、成分として強いベクトルは、狭い範囲に集まって特徴がはっきりと出るので、他のベクトルも長くて同じ方向を向いているのであれば、その成分の強いベクトルに着目して、他のベクトルとの内積の総和をとれば、大きな値となる。このように、1つのベクトルに対して他のベクトルとの内積をとって、最後にその総和をとれば、そのベクトルがグループ全対を代表できるものであることが確認できる。
すなわち、通常は、データの誤差にしたがって、主成分ベクトル自体も確率分布的に存在するはずであるが、その中で、もっとも固有値が大きく、かつ、他のベクトルとの内積の総和が大きくなるベクトルが、分布の中心に存在すると考えられるので、図2のステップST11~ST14では、全対全の内積をとった行列Rの中で内積の絶対値総和が大きい、固有値が一番大きいベクトルを代表的なベクトルVtとして抽出している。
また、データの外れ値については、ピックアップされたりされなかったり、1つではなく2つ以上存在したり、外れ値同士で打ち消し合ったり、ということもあるため、それらを考慮すると、必然的に外れ値がないパターンのところに分布が集約していくので、前述のステップST11~ST14の処理により、外れ値の影響を受けにくく、外れ値に対して頑強な分析ができる、という効果がある。
そして、ステップST14で抽出・記憶された主成分候補ベクトルVtの数があらかじめ定められた所定の閾値(ここでは、所定の閾値=3とする)以下である場合(ステップST15のNOの場合)、再びステップST11からの処理を繰り返すための前処理として、ベクトルセットCの中で抽出された主成分候補ベクトルVtとの内積が大きくなるベクトルを最大K個検出し(ステップST16)、検出されたK個のベクトルをすべて零(ゼロ)ベクトルとして、ベクトルセットCを更新し(ステップST17)、ステップST11~ST14の処理を繰り返す。
より具体的には、ステップST16では、前述の対称行列Rのt行目を抜き出したベクトルRt=[rt1,rt2,・・・,rtT]の各要素のうち、絶対値の大きなものを順に最大K個(K要素)抜き出して、その列番号をu1,u2,・・・,uk(k≦K)とする。この場合、高確率でu1=tとなる。そして、ステップST17では、ベクトルセットCが有するベクトルのうち、Vu1,Vu2,・・・,VuKをすべて零(ゼロ)ベクトルにする。なお、ここでは、ループ数と同じK個を最大で抜き出すものとして説明するが、最大K個であって、その8割くらいの数であってもよい。
すなわち、主成分候補ベクトル抽出部15は、あらかじめ定められた所定の数(所定の閾値)の主成分候補ベクトルVtが抽出されるまで、その主成分候補ベクトルVtとの内積が大きくなるベクトルを最大K個抜き出してそれらをすべて零(ゼロ)ベクトルとしてベクトルセットCを更新した上で、次の代表的なベクトルである主成分候補ベクトルを抽出する処理を繰り返す。
これについて、図3を用いて説明すると、ステップST14で抽出・記憶された主成分候補ベクトルVtが、例えば図3に示す模式図における縞々模様のベクトル21,22であった場合、ステップST16では、ベクトル21が属する実線で囲まれたグループAと、ベクトル22が属する破線で囲まれたグループBに属するベクトル31,32、ベクトル41,42、ベクトル51,52が、ベクトルセットCの中で主成分候補ベクトルVtとの内積が大きくなるベクトルとして検出され、ステップST17において、それらのベクトルをすべて零(ゼロ)ベクトルとして、ベクトルセットCからはずしておいて、次のステップST11~ST14の処理を行う、ということになる。
そして、ステップST11~ST14の処理を繰り返して、主成分候補ベクトルVtの数があらかじめ定められた所定の閾値(=3)に達した場合、ステップST14で記憶された主成分候補ベクトルVt(ここでは、3つ存在する)を主成分分析した結果として出力する(ステップST18)。なお、所定の閾値としては、主成分として代表的なものをいくつ抽出したいか、ということなどによって適宜決定しておけばよいものであるが、一般的には、3つか4つくらいのことが多いと思われる。
このようにして、要素数M(=88)の代表的なベクトルが3種類(所定の閾値の種類だけ)抽出される。また、この実施の形態では、Nサンプル(N=3000)、エンティティ数M(M=88)のデータから、N’サンプル(N’=2400)をランダムに抽出したデータを用いた実験に基づいて説明したが、この方法によれば、データの量に関わりなく、外れ値がないパターンのところに分布が集約していくので、データが少ない場合であっても、前述のステップST11~ST14の処理により、外れ値の影響を受けにくく、外れ値に対して頑強な分析ができる、という効果がある。
以上のように、本発明の実施の形態における特徴抽出装置10によれば、統計分析の分野で行われる主成分分析において、データの量にかかわらず、少数のデータに対しても、外れ値に対して頑強な主成分分析を行うこと、すなわち、外れ値による影響を緩和しつつ、複数のデータから代表的な成分を導き出すことができる。
(応用例1)
本発明の実施の形態における特徴抽出装置10は、複数信号が混ざったセンサーに応用することができる。すなわち、外乱や外れ値にさらされやすいセンサー由来のデータに適用できる。例えば、構造物に対する打鍵検査や異音検査の場合、検査振動に対して戻って来る振動のデータをもとに、異常の箇所や種類を推定するが、複数の異常が存在する場合には、複数の振動が混ざってしまい、検出が困難になる場合がある。また、外れ値に属するデータが加わると検出はさらに困難となる。しかし、そのような場合であっても、本発明の特徴抽出装置10による主成分分析を行うことで、複数の信号の合成に対しても異常検出の機能を発揮しつつ、外れ値に対しても頑強な検出が可能となる。
(応用例2)
本発明の実施の形態における特徴抽出装置10は、人に対する属性分析に応用することができる。例えば、性格診断やアンケートなど、人の回答に依存するデータは、ノイズが多いことが知られている。しかし、そのような場合であっても、本発明の特徴抽出装置10によれば、質問に対する回答の選択肢を数値データとして(例えば、YESなら1、NOなら0(ゼロ)のように変換して)主成分分析を行うことで、多くの回答者を複数の属性に分類しつつ、異常な回答を行う回答者による影響を低減することができる。
なお、本発明の実施の形態による特徴抽出装置10のハードウェア構成としては、通常のコンピュータを使用することができる。特徴抽出装置10は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、および、インターフェース等を備えたコンピュータによって構成される。
また、特徴抽出装置10が備えるデータ取得部11、バイアス調整部12、固有値・固有ベクトル算出部13、ベクトルセット作成部14、主成分候補ベクトル抽出部15、最終ベクトル出力部16の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
なお、本発明はその発明の範囲内において、実施の形態の任意の構成要素の変形、もしくは実施の形態において任意の構成要素の省略が可能である。
本発明は、現実世界で手に入るノイズを含む様々なデータの分析において、その主成分を検出する際に広範に適用できる。
10 特徴抽出装置
11 データ取得部
12 バイアス調整部
13 固有値・固有ベクトル算出部
14 ベクトルセット作成部
15 主成分候補ベクトル抽出部
16 最終ベクトル出力部
21,22 あるループの主成分候補ベクトル
31,32 他のループの主成分候補ベクトル
41,42 別のループの主成分候補ベクトル
51,52 さらに別のループの主成分候補ベクトル

Claims (4)

  1. 統計分析の分野で用いられる主成分分析を行う特徴抽出装置であって、
    前記主成分分析を行うための元となる複数のデータを取得するデータ取得部と、
    前記データ取得部が取得したデータをバイアス調整して、すべての平均値を0(ゼロ)とするバイアス調整部と、
    前記バイアス調整部がバイアス調整したデータから、固有値と固有ベクトルを算出して記憶する、という処理をブートストラップ的に繰り返して行う固有値・固有ベクトル算出部と、
    前記固有値・固有ベクトル算出部が算出して記憶した固有値と固有ベクトルに基づいて、各固有値の平方根を対応する固有ベクトルに乗じたベクトルのベクトルセットを生成するベクトルセット作成部と、
    前記ベクトルセット作成部が生成したベクトルセットに含まれる行ベクトルの中から、代表的な行ベクトルを主成分候補ベクトルとして抽出して記憶する主成分候補ベクトル抽出部と、
    前記主成分候補ベクトル抽出部が抽出して記憶した主成分候補ベクトルを、主成分データとして出力する最終ベクトル出力部と、
    を備えることを特徴とする特徴抽出装置。
  2. 前記主成分候補ベクトル抽出部は、自身のベクトルと他のベクトルとの内積の絶対値の総和が大きいベクトルを、前記主成分候補ベクトルとして抽出する
    ことを特徴とする請求項1記載の特徴抽出装置。
  3. 前記固有値・固有ベクトル算出部が前記固有値と固有ベクトルを算出して記憶する処理をブートストラップ的に繰り返す回数(ループ数)をKとした場合に、
    前記主成分候補ベクトル抽出部は、あらかじめ定められた所定の数の前記主成分候補ベクトルが抽出されるまで、前記主成分候補ベクトルとの内積が大きくなるベクトルを最大K個抜き出してそれらをすべて零(ゼロ)ベクトルとして前記ベクトルセットを更新した上で、前記主成分候補ベクトルを抽出する処理を繰り返す
    ことを特徴とする請求項2記載の特徴抽出装置。
  4. 統計分析の分野で用いられる主成分分析を行う特徴抽出用のプログラムであって、
    データ取得部が、前記主成分分析を行うための元となる複数のデータを取得するステップと、
    バイアス調整部が、前記データ取得部が取得したデータをバイアス調整して、すべての平均値を0(ゼロ)とするステップと、
    固有値・固有ベクトル算出部が、前記バイアス調整部がバイアス調整したデータから、固有値と固有ベクトルを算出して記憶する、という処理をブートストラップ的に繰り返して行うステップと、
    ベクトルセット作成部が、前記固有値・固有ベクトル算出部が算出して記憶した固有値と固有ベクトルに基づいて、各固有値の平方根を対応する固有ベクトルに乗じたベクトルのベクトルセットを生成するステップと、
    主成分候補ベクトル抽出部が、前記ベクトルセット作成部が生成したベクトルセットに含まれる行ベクトルの中から、代表的な行ベクトルを主成分候補ベクトルとして抽出して記憶するステップと、
    最終ベクトル出力部が、前記主成分候補ベクトル抽出部が抽出した主成分候補ベクトルを、主成分データとして出力するステップと、
    をコンピュータに実行させることを特徴とするプログラム。
JP2021046277A 2021-03-19 2021-03-19 特徴抽出装置およびプログラム Pending JP2022145033A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021046277A JP2022145033A (ja) 2021-03-19 2021-03-19 特徴抽出装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021046277A JP2022145033A (ja) 2021-03-19 2021-03-19 特徴抽出装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2022145033A true JP2022145033A (ja) 2022-10-03

Family

ID=83454327

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021046277A Pending JP2022145033A (ja) 2021-03-19 2021-03-19 特徴抽出装置およびプログラム

Country Status (1)

Country Link
JP (1) JP2022145033A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116611025A (zh) * 2023-05-19 2023-08-18 贵州师范大学 一种脉冲星候选信号的多模态特征融合方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116611025A (zh) * 2023-05-19 2023-08-18 贵州师范大学 一种脉冲星候选信号的多模态特征融合方法
CN116611025B (zh) * 2023-05-19 2024-01-26 贵州师范大学 一种脉冲星候选信号的多模态特征融合方法

Similar Documents

Publication Publication Date Title
CN109741292B (zh) 用对抗自编码器检测第一图像数据集当中异常图像的方法
Vejmelka et al. Inferring the directionality of coupling with conditional mutual information
Brakel et al. Learning independent features with adversarial nets for non-linear ica
Choudhry et al. Performance analysis of fuzzy C-means clustering methods for MRI image segmentation
Karanikolas et al. Multi-kernel based nonlinear models for connectivity identification of brain networks
Sinanović et al. Toward a theory of information processing
US20110029469A1 (en) Information processing apparatus, information processing method and program
US20190160661A1 (en) Method and device for evaluating performance of industrial control loops based on full loop reconstruction simulations
Sweety et al. Detection of Alzheimer disease in brain images using PSO and Decision Tree Approach
Shimizu et al. A direct method for estimating a causal ordering in a linear non-gaussian acyclic model
US20210232957A1 (en) Relationship analysis device, relationship analysis method, and recording medium
Idan et al. A new separable moments based on Tchebichef-Krawtchouk polynomials
JP2022145033A (ja) 特徴抽出装置およびプログラム
WO2020022498A1 (ja) クラスタリング装置、方法、及びプログラム
Salazar et al. A general procedure for learning mixtures of independent component analyzers
Raina et al. Tackling bias in the dice similarity coefficient: introducing NDSC for white matter lesion segmentation
US20210232737A1 (en) Analysis device, analysis method, and recording medium
CN110941542B (zh) 基于弹性网络的序列集成高维数据异常检测系统及方法
US20210232738A1 (en) Analysis device, analysis method, and recording medium
Bartz Cross-validation based nonlinear shrinkage
US20200160216A1 (en) Machine learning method and information processing apparatus
Ghodsi et al. The empirical distribution of the singular values of a random hankel matrix
Rekavandi et al. Robust principal component analysis using alpha divergence
Yilmaz et al. Stochastic bifurcation in generalized Chua’s circuit driven by skew-normal distributed noise
Wu et al. Bivariate Hahn moments for image reconstruction

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20210402

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240201