JP2012238076A - 特徴選択装置、特徴選択方法及び特徴選択プログラム - Google Patents

特徴選択装置、特徴選択方法及び特徴選択プログラム Download PDF

Info

Publication number
JP2012238076A
JP2012238076A JP2011105151A JP2011105151A JP2012238076A JP 2012238076 A JP2012238076 A JP 2012238076A JP 2011105151 A JP2011105151 A JP 2011105151A JP 2011105151 A JP2011105151 A JP 2011105151A JP 2012238076 A JP2012238076 A JP 2012238076A
Authority
JP
Japan
Prior art keywords
feature
standard pattern
sample
category
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2011105151A
Other languages
English (en)
Inventor
Akira Suzuki
章 鈴木
Masashi Morimoto
正志 森本
Shunichi Yonemura
俊一 米村
Satoshi Shimada
聡 嶌田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011105151A priority Critical patent/JP2012238076A/ja
Publication of JP2012238076A publication Critical patent/JP2012238076A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】より高いパターン認識の識別率が得られる特徴選択装置を提供する。
【解決手段】遺伝的アルゴリズムを用いて、学習用のサンプル及び特徴を選択することによりパターン認識の識別精度を向上させる特徴選択装置であって、選択された学習用のサンプルの集合及び選択された特徴からカテゴリの標準パターンを作成する標準パターン作成手段と、前記作成した標準パターンとサンプルとの距離を選択された特徴に基づいて算出し、最小の距離となる前記標準パターンが属するカテゴリをサンプルの識別結果とする識別手段とを備えた。
【選択図】図1

Description

本発明は、パターン認識の識別精度を向上させる技術のひとつである、特徴を選択する技術(以下、特徴選択と称する)に関し、特にその中で遺伝的アルゴリズム(以下、GAと称する)を用いる技術に関する。
GAを用いた特徴選択の従来の技術としては、学習用の多くのパターンおよび各々の成果カテゴリ情報から構成されるデータベースを用い、特徴の組合せを変化させてデータベースを用いた識別および識別率の集計を繰り返し、識別率を適応度する探索をGAで行う方法が知られている(例えば、非特許文献1参照)。
浜本義彦、古里眞理、金山知余、富田眞吾:「遺伝的アルゴリズムを用いた特徴選択法」信学論(A)、vol.J78−A、no.10、pp.1385−1389(1995).
実用的にはパターン認識の識別率は100%に近いほど望ましい。しかしながら、従来技術を用いても識別率を100%にすることは一般にはできず、より高い識別率を得られる技術の実現が求められている。
本発明は、このような事情に鑑みてなされたもので、より高いパターン認識の識別率が得られる特徴選択装置、特徴選択方法及び特徴選択プログラムを提供することを目的とする。
本発明は、遺伝的アルゴリズムを用いて、学習用のサンプル及び特徴を選択することによりパターン認識の識別精度を向上させる特徴選択装置であって、選択された学習用のサンプルの集合及び選択された特徴からカテゴリの標準パターンを作成する標準パターン作成手段と、前記作成した標準パターンとサンプルとの距離を選択された特徴に基づいて算出し、最小の距離となる前記標準パターンが属するカテゴリをサンプルの識別結果とする識別手段とを備えたことを特徴とする。
本発明は、遺伝的アルゴリズムを用いて、学習用のサンプル及び特徴を選択することによりパターン認識の識別精度を向上させるために、標準パターン作成手段と、識別手段とを備えた特徴選択装置における特徴選択方法であって、前記標準パターン作成手段が、選択された学習用のサンプルの集合及び選択された特徴からカテゴリの標準パターンを作成する標準パターン作成ステップと、前記識別手段が、前記作成した標準パターンとサンプルとの距離を選択された特徴に基づいて算出し、最小の距離となる前記標準パターンが属するカテゴリを前記サンプルの識別結果とする識別ステップとを有することを特徴とする。
本発明は、遺伝的アルゴリズムを用いて、サンプルの特徴を選択することによりパターン認識の識別精度を向上させる特徴選択装置上のコンピュータに特徴選択処理を行わせる特徴選択プログラムであって、選択された学習用のサンプルの集合及び選択された特徴からカテゴリの標準パターンを作成する標準パターン作成ステップと、前記作成した標準パターンとサンプルとの距離を選択された特徴に基づいて算出し、最小の距離となる前記標準パターンが属するカテゴリを前記サンプルの識別結果とする識別ステップとを前記コンピュータに行わせることを特徴とする。
本発明によれば、特徴選択と学習サンプルの選択を同時に行うことで特徴だけを選択するよりも、パターン認識においてより高い識別率が得られるという効果が得られる。
本発明の一実施形態の構成を示すブロック図である。 染色体の構造を示す説明図である。 図1に示す特徴選択装置1の処理動作を示すフローチャートである。 図1に示す全世代染色体集合格納手段4の構成を示す説明図である。 交叉処理を示す説明図である。 特徴空間の中での学習サンプルの分布と識別の様子を示す説明図である。 特徴空間の中での学習サンプルの分布と識別の様子を示す説明図である。
以下、図面を参照して、本発明の一実施形態による特徴選択装置を説明する。図1は同実施形態の構成を示すブロック図である。この図において、符号1は、コンピュータ装置によって構成する特徴選択装置である。符号2は、装置全体を統括して動作を制御する全体制御手段である。符号3は、初期の染色体集合を作成する初期染色体集合作成手段である。符号4は、全世代の染色体集合を格納する全世代染色体集合格納手段である。符号5は、選択確率値を算出する選択確率値算出手段である。符号6は、世代数をカウントする世代数カウンタである。符号7は、個別世代実行部である。符号71は、交叉処理を行う交叉実行手段である。符号72は、突然変異処理を行う突然変異実行手段である。符号73は、複製処理を実行する複製実行手段である。符号74は、染色体集合の並べ替えを行う染色体集合並べ替え手段である。符号8は、染色体の評価を行う染色体評価手段である。
まず、識別手法について説明する。識別手法には種々の方法があるが、本実施形態では、入力パターンと各カテゴリーの標準パターンとのユークリッド距離の中で最小値をとる標準パターンに対応するカテゴリーを識別結果とする最小距離識別を用いることとする。最小距離識別では2カテゴリー問題の場合、決定境界は2つの標準パターンを結ぶ線分を二等分する超平面となる。標準パターンは、学習サンプルの平均とする。
以下の説明において、特徴の次元数をL、識別対象とするカテゴリー数をHとし、各カテゴリーをC,C,...,Cで記す。学習サンプル数をNとし、第iサンプルの特徴ベクトルをV=(Vi1,Vi2,...,ViL)とする。学習サンプルの集合をψで表わす。また各学習サンプルVにはそれが属するカテゴリー名C(V)が対応づけられている。
次に、図2を参照して、染色体の構造について説明する。図2は染色体の構造を示す図である。染色体は、学習サンプルを選択するサンプル選択ビット列と特徴を選択する特徴選択ビット列からなる。サンプル選択ビット列のビット数は学習サンプル数と同数のN=4である。サンプル選択ビット列は各ビットに対応する学習サンプルの使用の可否を示しており、「1」が「使用する」、「0」が「使用しない」を表わす。この場合、4サンプルのうち、破線で示されたV,V,Vの3サンプルが使用される。
サンプル選択ビット列は記号α,α,...,αで表わされる。特徴選択ビット列のビット数は特徴ベクトルの次元数Lと同数のL=7である。特徴選択ビット列は各ビットに対応する特徴の使用の可否を示しており、「1」が「使用する」、「0」が「使用しない」を表わす。この場合、7個の特徴のうち、破線で示された第2、第4、第7の3特徴が使用される。特徴選択ビット列は記号β,β,...,βで表わされる。
次に、図1に示す染色体評価手段8の動作を説明する。染色体評価手段8は、入力された染色体を評価し、1次元のスコアを出力する。このスコアを適応度と呼ぶ。まず、学習サンプルの集合ψに含まれるサンプル選択ビット列のビットが「1」をとる選択学習サンプルによりカテゴリC(k=1,2,...,H)の標準パターンW=(Wk1,Wk2,...,WkL)を作成する。ψのi番目のサンプルVにおけるj次元目の特徴量をVij、、Viが属するカテゴリーをC(V)とすると、Wのj次元目の要素Wkj
Figure 2012238076
となる。ここで、δはクロネッカーのデルタである。(1)式の右辺は、サンプル選択ビット列によって選択されたj次元目の特徴量の平均となる。
次に、標準パターンW=(Wk1,Wk2,...,WkL)を用いてψの識別を行う。学習サンプルの特徴ベクトルX=(X,X,...,X)とカテゴリーCの標準パターンWとの距離D
Figure 2012238076
により算出される。
(2)式の右辺は特徴選択ビット列によって選択された特徴のみを用いて算出したユークリッド距離であり、距離D,D,...,Dの中で最小の距離に対応するカテゴリーを識別結果とする。学習サンプルの集合ψにおいて正しく識別されたパターン数をNとすると識別率PαはPα=N/Nで与えられ、これを当該染色体の適応度として出力する。
次に、図3を参照して、図1に示す特徴選択装置1の処理動作を説明する。図3は、図1に示す特徴選択装置1の処理動作を示すフローチャートである。特徴選択装置1は遺伝的アルゴリズム(GA)に基づいて動作することを基本とする。GAにおける世代の番号(世代数)をGNとする。全体制御手段2は、まずGN=1とし、この値を世代数カウンタ6にセットする(ステップS1)。続いて、全体制御手段2は初期染色体集合作成手段3に対して動作開始を指示する。
ここで、全世代染色体集合格納手段4の構成を説明する。図4(a)は全世代染色体集合格納手段4の構成例であり、GNmax個の染色体集合が個別の染色体集合格納部に格納される。全世代染色体集合格納手段4における個別の染色体集合格納部は各世代番号GNに対応しており、GNの染色体集合格納手段をA(GN)で表わす。個別の染色体集合格納部は、図4(b)に示すように、1個の染色体格納部は染色体を格納する領域、適応度を格納する領域、選択される確率を格納する領域とから構成する。染色体集合格納手段には最大Kβ個の染色体格納部を格納できる。個別の染色体集合格納部はすべて、特徴選択装置1が起動時は空である。
初期染色体集合作成手段3は、以下のようにA(1)を設定する。K個の染色体の各個体の特徴選択ビット列の各ビットの値を一定確率Pf0で「0」に、1−Pf0で「1」に設定する。続いて、各個体のサンプル選択ビット列の各ビットの値を一定確率Pp0で「0」に、1−Pp0で「1」に設定し、それらの個体をすべてA(1)の要素とする。A(1)の各個体における学習サンプルの識別率Pαを適応度とし、その降順にA(1)の個体を並び替える(ステップS2)。そして、各順位の染色体が選択される確率を選択確率値算出手段5により算出し、全世代染色体集合格納手段4の選択確率を格納する領域に書き込む。
ここで、選択確率値算出手段5の動作を説明する。選択確率値算出手段5は、第r位の染色体が選択される確率値P(r)を(3)式で算出する。
Figure 2012238076
上式においてMaxは2変数の中の最大値を出力する関数である。
次に、初期染色体集合作成手段3の動作完了後、個別世代実行部7の動作に移る。全体制御手段2は、まず世代数カウンタ6に格納されたGNの値に1を加算する(ステップS3)。そして、全体制御手段2は交叉実行手段71に実行を指示する。交叉実行手段71は、A(GN−1)から個別の染色体格納部の選択確率の領域に書かれた確率値によりランダムに個別の染色体格納部のペアを選び、それらから2つの染色体を複製し、複製した染色体のペアを用いて交叉を行って新たに2つの染色体を生成し、それらを染色体評価手段8に送って各々の適応度ψを算出させ、適応度の値とともに染色体をA(GN)に追加する。
この処理をK/2回繰り返すことでK個の個体が生成されA(GN)の要素とする(ステップS4)。交叉は二点交叉とし、図5に示すように、染色体のサンプル選択ビット列と特徴選択ビット列のそれぞれに対して独立に行なう。これは、染色体全体に単純に交叉を適用すると、両ビット列の一方のみに交叉が施され、両者の同時選択が実行できない恐れがあるからである。
次に、全体制御手段2は突然変異実行手段72に実行を指示する。突然変異実行手段72は、A(GN−1)から個別の染色体格納部の選択確率の領域に書かれた確率値によりランダムに1個の染色体格納部を選んで複製を行い、複製した染色体に対して一定確率で染色体のビット列を反転しA(GN)の要素とする(ステップS5)。この処理をK回繰り返すことで、A(GN)にはK個の個体が追加される。特徴選択ビット列とサンプル選択ビット列のビットを反転させる確率はそれぞれPfm,Ppmとする。
次に、全体制御手段2は、複製実行手段73に実行を指示する。複製実行手段73は、A(GN−1)から個別の染色体格納部の選択確率の領域に書かれた確率値によりランダムにK個の染色体格納部を選び、各々の染色体と適応度をA(GN)に追加する(ステップS6)。以上の中で、K、K、Kの合計はkβに等しい値とする。最後に、全体制御手段2は染色体集合並べ替え手段74に実行を指示する。染色体集合並べ替え手段74は、A(GN)の各個体を適応度の大きさの降順に並べ替える(ステップS7)。以上が1つの世代のGAの処理である。
そして、GN=GNmaxであるか否かを判定し(ステップS8)、GN=GNmaxであればそこで動作を完了して、A(GNmax)の第1位の染色体格納手段の染色体を取り出して最終結果として出力する。GN=GNmaxでなければ、ステップS3に戻って処理を繰り返す。
このように、識別方法として入力パターンと各カテゴリーの標準パターンとのユークリッド距離の中で最小値をとる標準パターンに対応するカテゴリーを識別結果とする最小距離識別を用い、標準パターンは学習サンプルの平均としており、この場合、2カテゴリー問題の場合の決定境界は2つの標準パターンを結ぶ線分を二等分する超平面となる。
以上説明したように学習サンプルの集合を変化させると、標準パターンが変わるため、決定境界も変化する。このことを図6、図7を用いて説明する。特徴空間の中での学習サンプルの分布と識別の様子を図6に示す。図6では、説明を簡単にするため特徴空間は2次元とし、これは選択せず固定する。「■」、「▲」はカテゴリーA、Bの学習サンプル、「×」はカテゴリーA、Bの標準パターンをそれぞれ表わしている。一般に標準パターンはすべての学習サンプルの平均で作成されるので、カテゴリーA、Bの標準パターン「×」はそれぞれの分布の重心に位置している。破線はカテゴリーψとカテゴリーBの決定境界である。カテゴリーA、Bの各2個からなる計4個の学習サンプルが決定境界を越えて他カテゴリーの領域に侵入しており、これが誤識別となっている。
いま、学習サンプルとして一部の学習サンプルしか用いない場合を考え、これを図7に示す。図7において「■」、「▲」はカテゴリーA、Bで標準パターン作成に使用する学習サンプル、「□」、「△」は使用しない学習サンプルを表わす。カテゴリーA、Bの標準パターン「×」は「■」、「▲」の学習サンプルの重心であり、図6の標準パターンとは異なる位置にある。その結果、決定境界が変化する。識別率はすべての学習サンプルを対象として計算されるので、この場合、決定境界を越えている学習サンプルはカテゴリーAの2個だけとなり、図6の全学習サンプルを用いて標準パターンを作成する場合に比べて誤識別となるサンプル数が減少している。このことは、学習サンプルを適切に選択すれば特徴選択が同一であっても識別率が向上することを示している。したがって、特徴選択と学習サンプルの選択を同時に行うことで特徴だけを選択するよりも、より高い識別率を得られることがわかる。
なお、図1における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより特徴選択処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
遺伝的アルゴリズムを用いて、特徴を選択することによりパターン認識の識別精度を向上させることが不可欠な用途に適用できる。
1・・・特徴選択装置、2・・・全体制御手段、3・・・初期染色体集合作成手段、4・・・全世代染色体集合格納手段、5・・・選択確率値算出手段、6・・・世代数カウンタ、7・・・個別世代実行部、71・・・交叉実行手段、72・・・突然変異実行手段、73・・・複製実行手段、74・・・染色体集合並べ替え手段、8・・・染色体評価手段

Claims (3)

  1. 遺伝的アルゴリズムを用いて、学習用のサンプル及び特徴を選択することによりパターン認識の識別精度を向上させる特徴選択装置であって、
    選択された学習用のサンプルの集合及び選択された特徴からカテゴリの標準パターンを作成する標準パターン作成手段と、
    前記作成した標準パターンとサンプルとの距離を選択された特徴に基づいて算出し、最小の距離となる前記標準パターンが属するカテゴリをサンプルの識別結果とする識別手段と
    を備えたことを特徴とする特徴選択装置。
  2. 遺伝的アルゴリズムを用いて、学習用のサンプル及び特徴を選択することによりパターン認識の識別精度を向上させるために、標準パターン作成手段と、識別手段とを備えた特徴選択装置における特徴選択方法であって、
    前記標準パターン作成手段が、選択された学習用のサンプルの集合及び選択された特徴からカテゴリの標準パターンを作成する標準パターン作成ステップと、
    前記識別手段が、前記作成した標準パターンとサンプルとの距離を選択された特徴に基づいて算出し、最小の距離となる前記標準パターンが属するカテゴリを前記サンプルの識別結果とする識別ステップと
    を有することを特徴とする特徴選択方法。
  3. 遺伝的アルゴリズムを用いて、サンプルの特徴を選択することによりパターン認識の識別精度を向上させる特徴選択装置上のコンピュータに特徴選択処理を行わせる特徴選択プログラムであって、
    選択された学習用のサンプルの集合及び選択された特徴からカテゴリの標準パターンを作成する標準パターン作成ステップと、
    前記作成した標準パターンとサンプルとの距離を選択された特徴に基づいて算出し、最小の距離となる前記標準パターンが属するカテゴリを前記サンプルの識別結果とする識別ステップと
    を前記コンピュータに行わせることを特徴とする特徴選択プログラム。
JP2011105151A 2011-05-10 2011-05-10 特徴選択装置、特徴選択方法及び特徴選択プログラム Withdrawn JP2012238076A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011105151A JP2012238076A (ja) 2011-05-10 2011-05-10 特徴選択装置、特徴選択方法及び特徴選択プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011105151A JP2012238076A (ja) 2011-05-10 2011-05-10 特徴選択装置、特徴選択方法及び特徴選択プログラム

Publications (1)

Publication Number Publication Date
JP2012238076A true JP2012238076A (ja) 2012-12-06

Family

ID=47460941

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011105151A Withdrawn JP2012238076A (ja) 2011-05-10 2011-05-10 特徴選択装置、特徴選択方法及び特徴選択プログラム

Country Status (1)

Country Link
JP (1) JP2012238076A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709572A (zh) * 2015-11-16 2017-05-24 阿里巴巴集团控股有限公司 一种数据处理方法及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709572A (zh) * 2015-11-16 2017-05-24 阿里巴巴集团控股有限公司 一种数据处理方法及设备

Similar Documents

Publication Publication Date Title
JP7322044B2 (ja) レコメンダシステムのための高効率畳み込みネットワーク
CN102903008B (zh) 用于计算机问答的方法及系统
JP6414363B2 (ja) 予測システム、方法およびプログラム
US8515956B2 (en) Method and system for clustering datasets
US20210150412A1 (en) Systems and methods for automated machine learning
WO2020042583A1 (zh) 潜力绩优人员类型识别方法、系统、计算机装置及介质
Yang et al. An Improved Quantum‐Behaved Particle Swarm Optimization Algorithm with Elitist Breeding for Unconstrained Optimization
WO2018036547A1 (zh) 一种数据处理的方法以及装置
JP6004015B2 (ja) 学習方法、情報処理装置および学習プログラム
US20210279643A1 (en) Method and system for generating best performing data models for datasets in a computing environment
JPWO2017159402A1 (ja) 共クラスタリングシステム、方法およびプログラム
JP6643905B2 (ja) 機械学習方法および機械学習装置
WO2014130287A1 (en) Method and system for propagating labels to patient encounter data
Hornby et al. Accelerating human-computer collaborative search through learning comparative and predictive user models
CN112598089B (zh) 图像样本的筛选方法、装置、设备及介质
Sabir et al. Numeric treatment of nonlinear second order multi-point boundary value problems using ANN, GAs and sequential quadratic programming technique
JP2020017135A (ja) クラスタリング装置、方法、及びプログラム
JP2009175925A (ja) 照合パラメータ最適化装置、最適化方法および最適化制御プログラム
US9792561B2 (en) Learning method, information conversion device, and recording medium
JP2012238076A (ja) 特徴選択装置、特徴選択方法及び特徴選択プログラム
JP2005222445A (ja) データマイニングにおける情報処理方法及び解析装置
CN115936104A (zh) 用于训练机器学习模型的方法和装置
US20140324897A1 (en) Decision Tree With Just-In-Time Nodal Computations
JP2012238075A (ja) 特徴選択装置、特徴選択方法及び特徴選択プログラム
Rodriguez et al. An IR-based artificial bee colony approach for traceability link recovery

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20130606

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130726

A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20140805