JP2012238076A

JP2012238076A - 特徴選択装置、特徴選択方法及び特徴選択プログラム

Info

Publication number: JP2012238076A
Application number: JP2011105151A
Authority: JP
Inventors: Akira Suzuki; 章鈴木; Masashi Morimoto; 正志森本; Shunichi Yonemura; 俊一米村; Satoshi Shimada; 聡嶌田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-05-10
Filing date: 2011-05-10
Publication date: 2012-12-06

Abstract

【課題】より高いパターン認識の識別率が得られる特徴選択装置を提供する。
【解決手段】遺伝的アルゴリズムを用いて、学習用のサンプル及び特徴を選択することによりパターン認識の識別精度を向上させる特徴選択装置であって、選択された学習用のサンプルの集合及び選択された特徴からカテゴリの標準パターンを作成する標準パターン作成手段と、前記作成した標準パターンとサンプルとの距離を選択された特徴に基づいて算出し、最小の距離となる前記標準パターンが属するカテゴリをサンプルの識別結果とする識別手段とを備えた。
【選択図】図１

Description

本発明は、パターン認識の識別精度を向上させる技術のひとつである、特徴を選択する技術（以下、特徴選択と称する）に関し、特にその中で遺伝的アルゴリズム（以下、ＧＡと称する）を用いる技術に関する。

ＧＡを用いた特徴選択の従来の技術としては、学習用の多くのパターンおよび各々の成果カテゴリ情報から構成されるデータベースを用い、特徴の組合せを変化させてデータベースを用いた識別および識別率の集計を繰り返し、識別率を適応度する探索をＧＡで行う方法が知られている（例えば、非特許文献１参照）。

浜本義彦、古里眞理、金山知余、富田眞吾：「遺伝的アルゴリズムを用いた特徴選択法」信学論（Ａ）、ｖｏｌ．Ｊ７８−Ａ、ｎｏ．１０、ｐｐ．１３８５−１３８９（１９９５）．

実用的にはパターン認識の識別率は１００％に近いほど望ましい。しかしながら、従来技術を用いても識別率を１００％にすることは一般にはできず、より高い識別率を得られる技術の実現が求められている。

本発明は、このような事情に鑑みてなされたもので、より高いパターン認識の識別率が得られる特徴選択装置、特徴選択方法及び特徴選択プログラムを提供することを目的とする。

本発明は、遺伝的アルゴリズムを用いて、学習用のサンプル及び特徴を選択することによりパターン認識の識別精度を向上させる特徴選択装置であって、選択された学習用のサンプルの集合及び選択された特徴からカテゴリの標準パターンを作成する標準パターン作成手段と、前記作成した標準パターンとサンプルとの距離を選択された特徴に基づいて算出し、最小の距離となる前記標準パターンが属するカテゴリをサンプルの識別結果とする識別手段とを備えたことを特徴とする。

本発明は、遺伝的アルゴリズムを用いて、学習用のサンプル及び特徴を選択することによりパターン認識の識別精度を向上させるために、標準パターン作成手段と、識別手段とを備えた特徴選択装置における特徴選択方法であって、前記標準パターン作成手段が、選択された学習用のサンプルの集合及び選択された特徴からカテゴリの標準パターンを作成する標準パターン作成ステップと、前記識別手段が、前記作成した標準パターンとサンプルとの距離を選択された特徴に基づいて算出し、最小の距離となる前記標準パターンが属するカテゴリを前記サンプルの識別結果とする識別ステップとを有することを特徴とする。

本発明は、遺伝的アルゴリズムを用いて、サンプルの特徴を選択することによりパターン認識の識別精度を向上させる特徴選択装置上のコンピュータに特徴選択処理を行わせる特徴選択プログラムであって、選択された学習用のサンプルの集合及び選択された特徴からカテゴリの標準パターンを作成する標準パターン作成ステップと、前記作成した標準パターンとサンプルとの距離を選択された特徴に基づいて算出し、最小の距離となる前記標準パターンが属するカテゴリを前記サンプルの識別結果とする識別ステップとを前記コンピュータに行わせることを特徴とする。

本発明によれば、特徴選択と学習サンプルの選択を同時に行うことで特徴だけを選択するよりも、パターン認識においてより高い識別率が得られるという効果が得られる。

本発明の一実施形態の構成を示すブロック図である。染色体の構造を示す説明図である。図１に示す特徴選択装置１の処理動作を示すフローチャートである。図１に示す全世代染色体集合格納手段４の構成を示す説明図である。交叉処理を示す説明図である。特徴空間の中での学習サンプルの分布と識別の様子を示す説明図である。特徴空間の中での学習サンプルの分布と識別の様子を示す説明図である。

以下、図面を参照して、本発明の一実施形態による特徴選択装置を説明する。図１は同実施形態の構成を示すブロック図である。この図において、符号１は、コンピュータ装置によって構成する特徴選択装置である。符号２は、装置全体を統括して動作を制御する全体制御手段である。符号３は、初期の染色体集合を作成する初期染色体集合作成手段である。符号４は、全世代の染色体集合を格納する全世代染色体集合格納手段である。符号５は、選択確率値を算出する選択確率値算出手段である。符号６は、世代数をカウントする世代数カウンタである。符号７は、個別世代実行部である。符号７１は、交叉処理を行う交叉実行手段である。符号７２は、突然変異処理を行う突然変異実行手段である。符号７３は、複製処理を実行する複製実行手段である。符号７４は、染色体集合の並べ替えを行う染色体集合並べ替え手段である。符号８は、染色体の評価を行う染色体評価手段である。

まず、識別手法について説明する。識別手法には種々の方法があるが、本実施形態では、入力パターンと各カテゴリーの標準パターンとのユークリッド距離の中で最小値をとる標準パターンに対応するカテゴリーを識別結果とする最小距離識別を用いることとする。最小距離識別では２カテゴリー問題の場合、決定境界は２つの標準パターンを結ぶ線分を二等分する超平面となる。標準パターンは、学習サンプルの平均とする。

以下の説明において、特徴の次元数をＬ、識別対象とするカテゴリー数をＨとし、各カテゴリーをＣ_１，Ｃ_２，．．．，Ｃ_Ｈで記す。学習サンプル数をＮとし、第ｉサンプルの特徴ベクトルをＶ_ｉ＝（Ｖ_ｉ１，Ｖ_ｉ２，．．．，Ｖ_ｉＬ）とする。学習サンプルの集合をψで表わす。また各学習サンプルＶ_ｉにはそれが属するカテゴリー名Ｃ（Ｖ_ｉ）が対応づけられている。

次に、図２を参照して、染色体の構造について説明する。図２は染色体の構造を示す図である。染色体は、学習サンプルを選択するサンプル選択ビット列と特徴を選択する特徴選択ビット列からなる。サンプル選択ビット列のビット数は学習サンプル数と同数のＮ＝４である。サンプル選択ビット列は各ビットに対応する学習サンプルの使用の可否を示しており、「１」が「使用する」、「０」が「使用しない」を表わす。この場合、４サンプルのうち、破線で示されたＶ_１，Ｖ_３，Ｖ_４の３サンプルが使用される。

サンプル選択ビット列は記号α_１，α_２，．．．，α_Ｎで表わされる。特徴選択ビット列のビット数は特徴ベクトルの次元数Ｌと同数のＬ＝７である。特徴選択ビット列は各ビットに対応する特徴の使用の可否を示しており、「１」が「使用する」、「０」が「使用しない」を表わす。この場合、７個の特徴のうち、破線で示された第２、第４、第７の３特徴が使用される。特徴選択ビット列は記号β_１，β_２，．．．，β_Ｌで表わされる。

次に、図１に示す染色体評価手段８の動作を説明する。染色体評価手段８は、入力された染色体を評価し、１次元のスコアを出力する。このスコアを適応度と呼ぶ。まず、学習サンプルの集合ψに含まれるサンプル選択ビット列のビットが「１」をとる選択学習サンプルによりカテゴリＣ_ｋ（ｋ＝１，２，．．．，Ｈ）の標準パターンＷ_ｋ＝（Ｗ_ｋ１，Ｗ_ｋ２，．．．，Ｗ_ｋＬ）を作成する。ψのｉ番目のサンプルＶ_ｉにおけるｊ次元目の特徴量をＶ_ｉｊ、、Ｖｉが属するカテゴリーをＣ（Ｖ_ｉ）とすると、Ｗ_ｋのｊ次元目の要素Ｗ_ｋｊは

となる。ここで、δはクロネッカーのデルタである。（１）式の右辺は、サンプル選択ビット列によって選択されたｊ次元目の特徴量の平均となる。

次に、標準パターンＷ_ｋ＝（Ｗ_ｋ１，Ｗ_ｋ２，．．．，Ｗ_ｋＬ）を用いてψの識別を行う。学習サンプルの特徴ベクトルＸ＝（Ｘ_１，Ｘ_２，．．．，Ｘ_Ｌ）とカテゴリーＣ_ｋの標準パターンＷ_ｋとの距離Ｄ_ｋは

により算出される。

（２）式の右辺は特徴選択ビット列によって選択された特徴のみを用いて算出したユークリッド距離であり、距離Ｄ_１，Ｄ_２，．．．，Ｄ_Ｈの中で最小の距離に対応するカテゴリーを識別結果とする。学習サンプルの集合ψにおいて正しく識別されたパターン数をＮ_ｃとすると識別率Ｐ_αはＰ_α＝Ｎ_ｃ／Ｎで与えられ、これを当該染色体の適応度として出力する。

次に、図３を参照して、図１に示す特徴選択装置１の処理動作を説明する。図３は、図１に示す特徴選択装置１の処理動作を示すフローチャートである。特徴選択装置１は遺伝的アルゴリズム（ＧＡ）に基づいて動作することを基本とする。ＧＡにおける世代の番号（世代数）をＧＮとする。全体制御手段２は、まずＧＮ＝１とし、この値を世代数カウンタ６にセットする（ステップＳ１）。続いて、全体制御手段２は初期染色体集合作成手段３に対して動作開始を指示する。

ここで、全世代染色体集合格納手段４の構成を説明する。図４（ａ）は全世代染色体集合格納手段４の構成例であり、ＧＮ_ｍａｘ個の染色体集合が個別の染色体集合格納部に格納される。全世代染色体集合格納手段４における個別の染色体集合格納部は各世代番号ＧＮに対応しており、ＧＮの染色体集合格納手段をＡ（ＧＮ）で表わす。個別の染色体集合格納部は、図４（ｂ）に示すように、１個の染色体格納部は染色体を格納する領域、適応度を格納する領域、選択される確率を格納する領域とから構成する。染色体集合格納手段には最大Ｋ_β個の染色体格納部を格納できる。個別の染色体集合格納部はすべて、特徴選択装置１が起動時は空である。

初期染色体集合作成手段３は、以下のようにＡ（１）を設定する。Ｋ個の染色体の各個体の特徴選択ビット列の各ビットの値を一定確率Ｐ_ｆ０で「０」に、１−Ｐ_ｆ０で「１」に設定する。続いて、各個体のサンプル選択ビット列の各ビットの値を一定確率Ｐ_ｐ０で「０」に、１−Ｐ_ｐ０で「１」に設定し、それらの個体をすべてＡ（１）の要素とする。Ａ（１）の各個体における学習サンプルの識別率Ｐ_αを適応度とし、その降順にＡ（１）の個体を並び替える（ステップＳ２）。そして、各順位の染色体が選択される確率を選択確率値算出手段５により算出し、全世代染色体集合格納手段４の選択確率を格納する領域に書き込む。

ここで、選択確率値算出手段５の動作を説明する。選択確率値算出手段５は、第ｒ位の染色体が選択される確率値Ｐ_Ｓ（ｒ）を（３）式で算出する。

上式においてＭａｘは２変数の中の最大値を出力する関数である。

次に、初期染色体集合作成手段３の動作完了後、個別世代実行部７の動作に移る。全体制御手段２は、まず世代数カウンタ６に格納されたＧＮの値に１を加算する（ステップＳ３）。そして、全体制御手段２は交叉実行手段７１に実行を指示する。交叉実行手段７１は、Ａ（ＧＮ−１）から個別の染色体格納部の選択確率の領域に書かれた確率値によりランダムに個別の染色体格納部のペアを選び、それらから２つの染色体を複製し、複製した染色体のペアを用いて交叉を行って新たに２つの染色体を生成し、それらを染色体評価手段８に送って各々の適応度ψを算出させ、適応度の値とともに染色体をＡ（ＧＮ）に追加する。

この処理をＫ_１／２回繰り返すことでＫ_１個の個体が生成されＡ（ＧＮ）の要素とする（ステップＳ４）。交叉は二点交叉とし、図５に示すように、染色体のサンプル選択ビット列と特徴選択ビット列のそれぞれに対して独立に行なう。これは、染色体全体に単純に交叉を適用すると、両ビット列の一方のみに交叉が施され、両者の同時選択が実行できない恐れがあるからである。

次に、全体制御手段２は突然変異実行手段７２に実行を指示する。突然変異実行手段７２は、Ａ（ＧＮ−１）から個別の染色体格納部の選択確率の領域に書かれた確率値によりランダムに１個の染色体格納部を選んで複製を行い、複製した染色体に対して一定確率で染色体のビット列を反転しＡ（ＧＮ）の要素とする（ステップＳ５）。この処理をＫ_２回繰り返すことで、Ａ（ＧＮ）にはＫ_２個の個体が追加される。特徴選択ビット列とサンプル選択ビット列のビットを反転させる確率はそれぞれＰ_ｆｍ，Ｐ_ｐｍとする。

次に、全体制御手段２は、複製実行手段７３に実行を指示する。複製実行手段７３は、Ａ（ＧＮ−１）から個別の染色体格納部の選択確率の領域に書かれた確率値によりランダムにＫ_３個の染色体格納部を選び、各々の染色体と適応度をＡ（ＧＮ）に追加する（ステップＳ６）。以上の中で、Ｋ_１、Ｋ_２、Ｋ_３の合計はｋ_βに等しい値とする。最後に、全体制御手段２は染色体集合並べ替え手段７４に実行を指示する。染色体集合並べ替え手段７４は、Ａ（ＧＮ）の各個体を適応度の大きさの降順に並べ替える（ステップＳ７）。以上が１つの世代のＧＡの処理である。

そして、ＧＮ＝ＧＮ_ｍａｘであるか否かを判定し（ステップＳ８）、ＧＮ＝ＧＮｍａｘであればそこで動作を完了して、Ａ（ＧＮｍａｘ）の第１位の染色体格納手段の染色体を取り出して最終結果として出力する。ＧＮ＝ＧＮｍａｘでなければ、ステップＳ３に戻って処理を繰り返す。

このように、識別方法として入力パターンと各カテゴリーの標準パターンとのユークリッド距離の中で最小値をとる標準パターンに対応するカテゴリーを識別結果とする最小距離識別を用い、標準パターンは学習サンプルの平均としており、この場合、２カテゴリー問題の場合の決定境界は２つの標準パターンを結ぶ線分を二等分する超平面となる。

以上説明したように学習サンプルの集合を変化させると、標準パターンが変わるため、決定境界も変化する。このことを図６、図７を用いて説明する。特徴空間の中での学習サンプルの分布と識別の様子を図６に示す。図６では、説明を簡単にするため特徴空間は２次元とし、これは選択せず固定する。「■」、「▲」はカテゴリーＡ、Ｂの学習サンプル、「×」はカテゴリーＡ、Ｂの標準パターンをそれぞれ表わしている。一般に標準パターンはすべての学習サンプルの平均で作成されるので、カテゴリーＡ、Ｂの標準パターン「×」はそれぞれの分布の重心に位置している。破線はカテゴリーψとカテゴリーＢの決定境界である。カテゴリーＡ、Ｂの各２個からなる計４個の学習サンプルが決定境界を越えて他カテゴリーの領域に侵入しており、これが誤識別となっている。

いま、学習サンプルとして一部の学習サンプルしか用いない場合を考え、これを図７に示す。図７において「■」、「▲」はカテゴリーＡ、Ｂで標準パターン作成に使用する学習サンプル、「□」、「△」は使用しない学習サンプルを表わす。カテゴリーＡ、Ｂの標準パターン「×」は「■」、「▲」の学習サンプルの重心であり、図６の標準パターンとは異なる位置にある。その結果、決定境界が変化する。識別率はすべての学習サンプルを対象として計算されるので、この場合、決定境界を越えている学習サンプルはカテゴリーＡの２個だけとなり、図６の全学習サンプルを用いて標準パターンを作成する場合に比べて誤識別となるサンプル数が減少している。このことは、学習サンプルを適切に選択すれば特徴選択が同一であっても識別率が向上することを示している。したがって、特徴選択と学習サンプルの選択を同時に行うことで特徴だけを選択するよりも、より高い識別率を得られることがわかる。

なお、図１における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより特徴選択処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

遺伝的アルゴリズムを用いて、特徴を選択することによりパターン認識の識別精度を向上させることが不可欠な用途に適用できる。

１・・・特徴選択装置、２・・・全体制御手段、３・・・初期染色体集合作成手段、４・・・全世代染色体集合格納手段、５・・・選択確率値算出手段、６・・・世代数カウンタ、７・・・個別世代実行部、７１・・・交叉実行手段、７２・・・突然変異実行手段、７３・・・複製実行手段、７４・・・染色体集合並べ替え手段、８・・・染色体評価手段

Claims

遺伝的アルゴリズムを用いて、学習用のサンプル及び特徴を選択することによりパターン認識の識別精度を向上させる特徴選択装置であって、
選択された学習用のサンプルの集合及び選択された特徴からカテゴリの標準パターンを作成する標準パターン作成手段と、
前記作成した標準パターンとサンプルとの距離を選択された特徴に基づいて算出し、最小の距離となる前記標準パターンが属するカテゴリをサンプルの識別結果とする識別手段と
を備えたことを特徴とする特徴選択装置。
遺伝的アルゴリズムを用いて、学習用のサンプル及び特徴を選択することによりパターン認識の識別精度を向上させるために、標準パターン作成手段と、識別手段とを備えた特徴選択装置における特徴選択方法であって、
前記標準パターン作成手段が、選択された学習用のサンプルの集合及び選択された特徴からカテゴリの標準パターンを作成する標準パターン作成ステップと、
前記識別手段が、前記作成した標準パターンとサンプルとの距離を選択された特徴に基づいて算出し、最小の距離となる前記標準パターンが属するカテゴリを前記サンプルの識別結果とする識別ステップと
を有することを特徴とする特徴選択方法。
遺伝的アルゴリズムを用いて、サンプルの特徴を選択することによりパターン認識の識別精度を向上させる特徴選択装置上のコンピュータに特徴選択処理を行わせる特徴選択プログラムであって、
選択された学習用のサンプルの集合及び選択された特徴からカテゴリの標準パターンを作成する標準パターン作成ステップと、
前記作成した標準パターンとサンプルとの距離を選択された特徴に基づいて算出し、最小の距離となる前記標準パターンが属するカテゴリを前記サンプルの識別結果とする識別ステップと
を前記コンピュータに行わせることを特徴とする特徴選択プログラム。