JP2012238075A - Feature selecting device, feature selecting method, and feature selecting program - Google Patents

Feature selecting device, feature selecting method, and feature selecting program Download PDF

Info

Publication number
JP2012238075A
JP2012238075A JP2011105150A JP2011105150A JP2012238075A JP 2012238075 A JP2012238075 A JP 2012238075A JP 2011105150 A JP2011105150 A JP 2011105150A JP 2011105150 A JP2011105150 A JP 2011105150A JP 2012238075 A JP2012238075 A JP 2012238075A
Authority
JP
Japan
Prior art keywords
evaluation
reference sample
value
hyperplanes
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2011105150A
Other languages
Japanese (ja)
Inventor
Akira Suzuki
章 鈴木
Masashi Morimoto
正志 森本
Shunichi Yonemura
俊一 米村
Satoshi Shimada
聡 嶌田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011105150A priority Critical patent/JP2012238075A/en
Publication of JP2012238075A publication Critical patent/JP2012238075A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a feature selecting device with improved generalizing property.SOLUTION: The feature selecting device for selecting features of samples using genetic algorithm includes: means for calculating distances of all learning samples from a hyperplane that is a determination boundary between categories; means for selecting one of all the learning samples, defining it as a reference sample, and setting two hyperplanes in both the sides of the determined boundary at positions of a distance between the reference sample and the determined boundary; means for calculating penalty values for learning samples projecting from the set two hyperplanes, according to the lengths projecting from the two hyperplanes; means for calculating an evaluation measure of robustness based on the interval between the two hyperplanes and the penalty values and defining a value of the evaluation measure as an evaluation value of the reference sample; and means for calculating the evaluation value, for each of all the learning samples, when using them as the reference sample, using the reference sample evaluation means and outputting a minimal value among them as the selected feature evaluation value.

Description

本発明は、パターン認識の識別精度を向上させる技術のひとつである、特徴を選択する技術(以下、特徴選択と称する)に関し、特にその中で遺伝的アルゴリズム(以下、GAと称する)を用いる技術に関する。   The present invention relates to a technique for selecting features (hereinafter referred to as feature selection), which is one of the techniques for improving the recognition accuracy of pattern recognition, and in particular, a technique using a genetic algorithm (hereinafter referred to as GA). About.

GAを用いた特徴選択の従来の技術としては、学習用の多くのパターンおよび各々の成果カテゴリ情報から構成されるデータベースを用い、特徴の組合せを変化させてデータベースを用いた識別および識別率の集計を繰り返し、識別率を適応度とする探索をGAで行う方法が知られている(例えば、非特許文献1参照)。   As a conventional technique for feature selection using GA, a database consisting of many patterns for learning and each result category information is used, and the combination of features is changed and the identification and aggregation of the identification rate are performed using the database. Is known, and a method for performing a search with the identification rate as fitness is performed by GA (see, for example, Non-Patent Document 1).

浜本義彦、古里眞理、金山知余、富田眞吾:「遺伝的アルゴリズムを用いた特徴選択法」信学論(A)、vol.J78−A、no.10、pp.1385−1389(1995).Yoshihiko Hamamoto, Yuri Furusato, Tomoya Kanayama, Satoshi Tomita: “Feature selection method using genetic algorithm”, theory of theory (A), vol. J78-A, no. 10, pp. 1385-1389 (1995).

従来の特徴選択の技術では、汎化能力を高めることができなかった。識別における汎化能力とは、学習サンプルだけに対してだけでなく未知のサンプルに対しても高い識別率で識別できる能力であり、実用上非常に重要な特性である。汎化能力を重視した識別器である線形SVMの考え方によれば、決定境界と近接した学習サンプルとのユークリッド距離である「マージン」をできる限り高めることが識別器の汎化能力を高めるのに有効であるとされているが、このような考え方に基づく特徴選択の技術はこれまでなかった。   Conventional feature selection techniques cannot increase generalization ability. The generalization ability in identification is the ability to identify not only a learning sample but also an unknown sample with a high identification rate, and is a very important characteristic for practical use. According to the idea of linear SVM, which is a discriminator that emphasizes generalization ability, increasing the “margin” that is the Euclidean distance between the decision boundary and the adjacent learning sample as much as possible increases the generalization ability of the discriminator. Although effective, it has never been a feature selection technique based on this concept.

本発明は、このような事情に鑑みてなされたもので、汎化能力を高める特徴選択の技術を実現することができる特徴選択装置、特徴選択方法及び特徴選択プログラムを提供することを目的とする。   The present invention has been made in view of such circumstances, and an object of the present invention is to provide a feature selection device, a feature selection method, and a feature selection program that can realize a feature selection technique that increases generalization ability. .

本発明は、遺伝的アルゴリズムを用いて、サンプルの特徴を選択することによりパターン認識の識別精度を向上させる特徴選択装置であって、カテゴリ間の決定境界である超平面からのすべての学習用のサンプルの距離を算出する距離算出手段と、すべての学習用サンプルの中の1個を選んで基準サンプルとし、決定境界の両側の前記基準サンプルと決定境界の距離の位置それぞれに2つの超平面を設定するマージン設定手段と、前記設定された2つの超平面からはみ出した学習用のサンプルに対して、前記2つの超平面からはみ出した長さに応じたペナルティ値を計算するペナルティ計算手段と、前記2つの超平面の間隔と、前記ペナルティ値とに基づいて、ロバスト性の評価尺度を算出し、該評価尺度の値を前記基準サンプルの評価値とする基準サンプル評価手段と、前記基準サンプル評価手段を用いてすべての学習用のサンプル毎に、それらを基準サンプルとして用いた時の評価値を算出し、その中の最小値を選択された特徴の評価値として出力する評価手段とを備えたことを特徴とする。   The present invention is a feature selection device that improves the recognition accuracy of pattern recognition by selecting features of a sample using a genetic algorithm, and is used for all learning from a hyperplane that is a decision boundary between categories. A distance calculation means for calculating the distance of the sample and one of all the learning samples is selected as a reference sample, and two hyperplanes are provided at each of the reference sample and the determination boundary distance positions on both sides of the determination boundary. Margin setting means for setting, penalty calculation means for calculating a penalty value according to the length of the learning sample that protrudes from the two hyperplanes that is set, and the length that protrudes from the two hyperplanes; Based on an interval between two hyperplanes and the penalty value, a robustness evaluation scale is calculated, and the value of the evaluation scale is set as the evaluation value of the reference sample. For each learning sample using the reference sample evaluation means, the evaluation value when using them as a reference sample is calculated, and the minimum value among them is selected for the selected feature. An evaluation means for outputting as an evaluation value is provided.

本発明は、遺伝的アルゴリズムを用いて、サンプルの特徴を選択することによりパターン認識の識別精度を向上させるために、距離算出手段と、マージン設定手段と、ペナルティ計算手段と、基準サンプル評価手段と、評価手段とを備えた特徴選択装置における特徴選択方法であって、前記距離算出手段が、カテゴリ間の決定境界である超平面からのすべての学習用のサンプルの距離を算出する距離算出ステップと、前記マージン設定手段が、すべての学習用サンプルの中の1個を選んで基準サンプルとし、決定境界の両側の前記基準サンプルと決定境界の距離の位置それぞれに2つの超平面を設定するマージン設定ステップと、前記ペナルティ計算手段が、前記設定された2つの超平面からはみ出した学習用のサンプルに対して、前記2つの超平面からはみ出した長さに応じたペナルティ値を計算するペナルティ計算ステップと、前記基準サンプル評価手段が、前記2つの超平面の間隔と、前記ペナルティ値とに基づいて、ロバスト性の評価尺度を算出し、該評価尺度の値を前記基準サンプルの評価値とする基準サンプル評価ステップと前記評価手段が、前記基準サンプル評価手段を用いてすべての学習用のサンプル毎に、それらを基準サンプルとして用いた時の評価値を算出し、その中の最小値を選択された特徴の評価値として出力する評価ステップとを有することを特徴とする。   The present invention provides a distance calculation means, a margin setting means, a penalty calculation means, a reference sample evaluation means, in order to improve pattern recognition identification accuracy by selecting sample features using a genetic algorithm. A distance selection step in which the distance calculation means calculates the distances of all learning samples from the hyperplane that is a decision boundary between categories; The margin setting means selects one of all learning samples as a reference sample, and sets margins for setting two hyperplanes at each of the distance between the reference sample and the decision boundary on both sides of the decision boundary. A step and a penalty calculating means for the learning sample that protrudes from the set two hyperplanes. A penalty calculation step for calculating a penalty value according to a length protruding from the hyperplane, and the reference sample evaluation means determines a robustness evaluation scale based on the interval between the two hyperplanes and the penalty value. A reference sample evaluation step that calculates and uses the value of the evaluation scale as the evaluation value of the reference sample and the evaluation means use the reference sample evaluation means for each learning sample as a reference sample. And an evaluation step for calculating a minimum evaluation value as an evaluation value of the selected feature.

本発明は、遺伝的アルゴリズムを用いて、サンプルの特徴を選択することによりパターン認識の識別精度を向上させる特徴選択装置上のコンピュータに特徴選択処理を行わせる特徴選択プログラムであって、カテゴリ間の決定境界である超平面からのすべての学習用のサンプルの距離を算出する距離算出ステップと、すべての学習用サンプルの中の1個を選んで基準サンプルとし、決定境界の両側の前記基準サンプルと決定境界の距離の位置それぞれに2つの超平面を設定するマージン設定ステップと、前記設定された2つの超平面からはみ出した学習用のサンプルに対して、前記2つの超平面からはみ出した長さに応じたペナルティ値を計算するペナルティ計算ステップと、前記2つの超平面の間隔と、前記ペナルティ値とに基づいて、ロバスト性の評価尺度を算出し、該評価尺度の値を前記基準サンプルの評価値とする基準サンプル評価ステップと前記基準サンプル評価ステップにより、すべての学習用のサンプル毎に、それらを基準サンプルとして用いた時の評価値を算出し、その中の最小値を選択された特徴の評価値として出力する評価ステップとを前記コンピュータに行わせることを特徴とする。   The present invention is a feature selection program for causing a computer on a feature selection device to improve pattern recognition discrimination accuracy by selecting sample features using a genetic algorithm, A distance calculating step for calculating distances of all learning samples from the hyperplane which is a decision boundary, and selecting one of all learning samples as a reference sample, and the reference samples on both sides of the decision boundary; A margin setting step for setting two hyperplanes at each position of the decision boundary distance, and a length of the learning sample that protrudes from the two hyperplanes set to a length that protrudes from the two hyperplanes. Based on the penalty calculation step for calculating the corresponding penalty value, the interval between the two hyperplanes, and the penalty value, And a reference sample evaluation step using the evaluation scale value as the evaluation value of the reference sample and the reference sample evaluation step to use them as reference samples for all learning samples. An evaluation value is calculated by the computer, and an evaluation step of outputting a minimum value among them as an evaluation value of the selected feature is performed.

本発明によれば、遺伝的アルゴリズムを用いた特徴選択において、染色体の適応度として線形SVMのソフトマージンをベースとする評価尺度を用いたため、線形SVMと同様に汎化能力の高い特徴選択を行うことができるという効果が得られる。   According to the present invention, in the feature selection using the genetic algorithm, since the evaluation scale based on the soft margin of the linear SVM is used as the fitness of the chromosome, the feature selection having a high generalization ability is performed as in the linear SVM. The effect that it can be obtained.

本発明の一実施形態の構成を示すブロック図である。It is a block diagram which shows the structure of one Embodiment of this invention. 染色体の構造を示す説明図である。It is explanatory drawing which shows the structure of a chromosome. 図1に示す染色体評価手段8の構成を示すブロック図である。It is a block diagram which shows the structure of the chromosome evaluation means 8 shown in FIG. 学習サンプルの集合をψ、標準パターンをW,Wとすると選択された特徴空間におけるψの分布を示す模式図である。FIG. 5 is a schematic diagram showing the distribution of ψ in a selected feature space, where ψ is a set of learning samples and W 1 and W 2 are standard patterns. 特徴空間における標準パターンと決定境界、サンプルの位置関係の概念図である。It is a conceptual diagram of the standard pattern in a feature space, a decision boundary, and the positional relationship between samples. 図1に示す特徴選択装置1の処理動作を示すフローチャートである。It is a flowchart which shows the processing operation of the feature selection apparatus 1 shown in FIG. 図1に示す全世代染色体集合格納手段4の構成を示す説明図である。It is explanatory drawing which shows the structure of the all-generation chromosome set storage means 4 shown in FIG.

以下、図面を参照して、本発明の一実施形態による特徴選択装置を説明する。図1は同実施形態の構成を示すブロック図である。この図において、符号1は、コンピュータ装置によって構成する特徴選択装置である。符号2は、装置全体を統括して動作を制御する全体制御手段である。符号3は、初期の染色体集合を作成する初期染色体集合作成手段である。符号4は、全世代の染色体集合を格納する全世代染色体集合格納手段である。符号5は、選択確率値を算出する選択確率値算出手段である。符号6は、世代数をカウントする世代数カウンタである。符号7は、個別世代実行部である。符号71は、交叉処理を行う交叉実行手段である。符号72は、突然変異処理を行う突然変異実行手段である。符号73は、複製処理を実行する複製実行手段である。符号74は、染色体集合の並べ替えを行う染色体集合並べ替え手段である。符号8は、染色体の評価を行う染色体評価手段である。   A feature selection apparatus according to an embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing the configuration of the embodiment. In this figure, reference numeral 1 denotes a feature selection device configured by a computer device. Reference numeral 2 denotes overall control means for controlling the operation by controlling the entire apparatus. Reference numeral 3 denotes an initial chromosome set creating means for creating an initial chromosome set. Reference numeral 4 denotes all generation chromosome set storage means for storing all generations of chromosome sets. Reference numeral 5 denotes selection probability value calculation means for calculating a selection probability value. Reference numeral 6 denotes a generation number counter for counting the number of generations. Reference numeral 7 denotes an individual generation execution unit. Reference numeral 71 denotes crossover execution means for performing crossover processing. Reference numeral 72 denotes a mutation execution means for performing a mutation process. Reference numeral 73 denotes a duplication execution means for executing duplication processing. Reference numeral 74 denotes chromosome set rearranging means for rearranging chromosome sets. Reference numeral 8 is a chromosome evaluation means for evaluating a chromosome.

まず、識別手法について説明する。識別手法には種々の方法があるが、本実施形態では、入力パターンと各カテゴリーの標準パターンとのユークリッド距離の中で最小値をとる標準パターンに対応するカテゴリーを識別結果とする最小距離識別を用いることとする。最小距離識別では2カテゴリー問題の場合、決定境界は2つの標準パターンを結ぶ線分を二等分する超平面となる。標準パターンは、学習サンプルの平均とする。   First, the identification method will be described. There are various identification methods. In this embodiment, the minimum distance identification is performed with the category corresponding to the standard pattern having the minimum value among the Euclidean distances between the input pattern and the standard pattern of each category as the identification result. We will use it. In the case of the two-category problem in the minimum distance identification, the decision boundary is a hyperplane that bisects a line segment connecting two standard patterns. The standard pattern is the average of the learning samples.

次に、図2を参照して、染色体の構造について説明する。図2は染色体の構造を示す図である。原特徴の次元数をLとして、L次元の中で選択する次元を表現するベクトルを想定し、これを特徴選択ベクトルλと呼ぶ。この特徴選択ベクトルを、本実施形態ではそのままGAにおける染色体として用いる。λが選択する特徴の個数をKで表し、図2に示すように特徴選択ベクトルを構成する。このベクトルは個別の要素が対応する特徴の使用の有無を表し、「1」が「使用する」、「0」が「使用しない」を表す。図2では、各々の次元の「1」で示された破線の枠で「使用する」の適用範囲を表している。個々の要素の値を、λ,λ,・・・,λで表す。 Next, the structure of the chromosome will be described with reference to FIG. FIG. 2 is a diagram showing the structure of a chromosome. Assuming that the number of dimensions of the original feature is L, a vector expressing a dimension to be selected in the L dimension is assumed, and this is called a feature selection vector λ. In the present embodiment, this feature selection vector is used as it is as a chromosome in GA. The number of features selected by λ is represented by K, and a feature selection vector is constructed as shown in FIG. This vector indicates whether or not the feature corresponding to each individual element is used. “1” indicates “use” and “0” indicates “not use”. In FIG. 2, the applicable range of “use” is represented by a dashed frame indicated by “1” in each dimension. The value of the individual elements, λ 1, λ 2, ··· , expressed in lambda L.

次に、図3を参照して、図1に示す染色体評価手段8の構成を説明する。図3は、図1に示す染色体評価手段8の構成を示すブロック図である。学習サンプルの原特徴の集合をΨ、学習サンプルの数をN、Ψの個別の要素をX(i=1,2,・・・,N)、Xが属するカテゴリの情報をyで表し、カテゴリ1をy=1、カテゴリ2をy=−1で表す。このyを教師信号と呼ぶ。識別対象とするカテゴリの個数を2、個々のカテゴリをカテゴリ1およびカテゴリ2とし、原特徴の次元数をLとする。学習サンプル集合の格納手段81には、学習サンプルの原特徴の集合をΨおよびすべての教師信号が事前に格納される。 Next, the configuration of the chromosome evaluation means 8 shown in FIG. 1 will be described with reference to FIG. FIG. 3 is a block diagram showing the configuration of the chromosome evaluation means 8 shown in FIG. The set of original features of the learning sample is Ψ, the number of learning samples is N, the individual elements of Ψ are X i (i = 1, 2,..., N), and the information of the category to which X i belongs is y i . And category 1 is represented by y i = 1 and category 2 is represented by y i = −1. This y i is called a teacher signal. Assume that the number of categories to be identified is 2, each category is category 1 and category 2, and the number of dimensions of the original feature is L. The learning sample set storage means 81 stores Ψ and all teacher signals in advance as a set of original features of the learning sample.

原特徴空間における標準パターンの作成手段82は、特徴選択装置1が起動した際に最初に動作する。全体制御手段2の動作の開始は、原特徴空間における標準パターンの作成手段の処理が完了した後で開始される。原特徴空間における標準パターンの作成手段82は、原特徴空間における標準パターンを以下のように作成し、教師信号を用いてX,X,・・・,Xの要素をカテゴリ1とカテゴリ2に分け、各々について平均を算出し、それらを原特徴空間におけるカテゴリ1と2の標準パターンとしてM,Mで表す。 The standard pattern creation means 82 in the original feature space operates first when the feature selection device 1 is activated. The operation of the overall control unit 2 is started after the processing of the standard pattern creating unit in the original feature space is completed. Creating means 82 standard patterns in the original feature space, the standard pattern in the original feature space created as follows, X 1, X 2, · · ·, category 1 and category elements of X N with the teacher signal Dividing into two, the average is calculated for each, and these are represented by M 1 and M 2 as standard patterns of categories 1 and 2 in the original feature space.

サンプルとカテゴリ間の距離算出手段85は、決定境界からのサンプルの距離の算出手段84から入力されたサンプルとカテゴリk(k=1、2)との、λの適用を前提とした距離を以下のように算出する。まず、λの適用を前提とした基本的なベクトル間の距離は以下の通りである。原特徴空間中の2つのベクトルX,Xと特徴選択ベクトルλが与えられたとする。X=(XA1,XA2,・・・,XAL)、X=(XB1,XB2,・・・,XBL)とする。この時、ベクトルXの要素XAi(1≦i≦L)の中から、対応するλが1に等しい要素だけを抽出し、それらをまとめてK次元のベクトル〜X=(〜XA1,〜XA2,・・・,〜XAK)(〜は、Xの頭に付く、以下同様)を作成する。Xからも同様の方法でK次元のベクトル〜X=(〜XB1,〜XB2,・・・,〜XBK)を作成する。この2つを用いて、λを前提としたXとXの距離を(1)式の関数fにより算出する。(1)式は、fが特徴選択ベクトルλで選択された特徴だけを用いて算出したユークリッド距離であることを表す。

Figure 2012238075
The sample-to-category distance calculation unit 85 calculates the distance between the sample input from the sample distance calculation unit 84 from the decision boundary and the category k (k = 1, 2) on the assumption that λ is applied. Calculate as follows. First, the basic distance between vectors based on the application of λ is as follows. Assume that two vectors X A and X B in the original feature space and a feature selection vector λ are given. Let X A = (X A1 , X A2 ,..., X AL ), X B = (X B1 , X B2 ,..., X BL ). In this case, among the elements X Ai of the vector X A (1 ≦ i ≦ L ), the corresponding lambda i extracts only elements equal to 1, are collectively K-dimensional vector to X A = (to X A1, ~X A2, ···, ~X AK) (~ is attached to the head of the X, to create a hereinafter the same). A K-dimensional vector ˜X B = (˜X B1 , ˜X B2 ,..., ˜X BK ) is created from X B in the same manner. Using these two, the distance between X A and X B on the assumption of λ is calculated by the function f D in the equation (1). Equation (1) indicates that f d is the Euclidean distance calculated using only the feature selected by the feature selection vector λ.
Figure 2012238075

次に、カテゴリ1とカテゴリ2の標準パターンの間の距離を基準として、それがλが変わっても常に一定値「1」となるように特徴空間の座標系をスケール変換する方法を説明する。まず、任意のサンプルの原特徴をXとし、これからλで選択された特徴でベクトルを作成し、これを〜X(〜は、Xの頭に付く)とする。また、原特徴の標準パターンM(k=1,2)からλで選択された特徴でベクトルを作成し、これを〜M(k=1,2)(〜は、Mの頭に付く、以下同様)とする。この〜Mk(k=1,2)を用いて、〜Xは(2)式の変換を受け、K次元のベクトルxに変換される。

Figure 2012238075
Next, with reference to the distance between the standard patterns of category 1 and category 2, a method of scaling the coordinate system of the feature space so that it always becomes a constant value “1” even when λ changes will be described. First, let X be an original feature of an arbitrary sample, and create a vector from the feature selected by λ from this, and let this be ~ X (~ is attached to the head of X). Further, a vector is created with the feature selected by λ from the standard pattern M k (k = 1, 2) of the original feature, and this is added to ~ M k (k = 1, 2) (˜ is the head of M). The same shall apply hereinafter. Using this ~ Mk (k = 1, 2), ~ X receives the conversion of equation (2) and is converted to a K-dimensional vector x.
Figure 2012238075

(2)式と同じ変換がカテゴリk(k=1、2)の標準パターンに対しても(3)式により行われる。

Figure 2012238075
The same conversion as that of the equation (2) is also performed by the equation (3) for the standard pattern of the category k (k = 1, 2).
Figure 2012238075

(3)式におけるWは正規化後の標準パターンであり、これもK次元のベクトルである。(3)式により、ここではλが変わるごとに標準パターンが新たに作成されることになる。サンプルとカテゴリ間の距離算出手段85では、任意のサンプルとカテゴリk(k=1、2)との距離を、f(x,W)により算出して出力する。 W k in equation (3) is a standard pattern after normalization, which is also a K-dimensional vector. According to the equation (3), a standard pattern is newly created every time λ changes. The distance calculation means 85 between the sample and the category calculates and outputs the distance between an arbitrary sample and the category k (k = 1, 2) using f d (x, W k ).

次に、図3を参照して、染色体評価手段8による染色体λの評価を行う動作を説明する。染色体評価手段8は、染色体λが入力されると、決定境界からのサンプルの距離の算出手段84、ロバスト性の評価手段86の順番に動作してそれを評価し、スコアを出力する。このスコアを適応度と呼ぶ。決定境界からのサンプルの距離の算出手段84は、まず学習サンプルの集合Ψの各要素を(2)式によって変換した集合を作成し、これを{x,x,・・・,x}とし、ψで表わす。 Next, with reference to FIG. 3, the operation | movement which evaluates the chromosome (lambda) by the chromosome evaluation means 8 is demonstrated. When the chromosome λ is inputted, the chromosome evaluation means 8 operates in the order of the sample distance calculation means 84 and the robustness evaluation means 86 from the decision boundary, evaluates them, and outputs a score. This score is called fitness. The sample distance calculation means 84 from the decision boundary first creates a set obtained by converting each element of the learning sample set Ψ by the equation (2), and this is set as {x 1 , x 2 ,..., X N } And represented by ψ.

カテゴリ1とカテゴリ2の標準パターンの間の距離が1になるようにスケール変換を行なった特徴空間において、学習サンプルの集合をψ、標準パターンをW,Wとすると選択された特徴空間におけるψの分布の模式図を図4に示す。図4において、黒丸がカテゴリ1のサンプル、白丸がカテゴリ2のサンプルを表す。またHはカテゴリ間の決定境界の超平面を表す。 In the feature space that is scale-transformed so that the distance between the standard patterns of category 1 and category 2 is 1, if the set of learning samples is ψ and the standard patterns are W 1 and W 2 , A schematic diagram of the distribution of ψ is shown in FIG. In FIG. 4, black circles represent category 1 samples, and white circles represent category 2 samples. H 0 represents the hyperplane of the decision boundary between categories.

次に、決定境界からのサンプルの距離の算出手段84は、決定境界Hからx(i=1,2,・・・,N)までのユークリッド距離h(x)(i=1,2,・・・,N)を算出する。具体的には、サンプルとカテゴリ間の距離算出手段を起動して、カテゴリ1、2との距離f(x,W)、f(x,W)を算出し、算出結果を用いて(4)式によりh(x)を算出する。

Figure 2012238075
Next, the sample distance calculation means 84 from the decision boundary includes the Euclidean distance h (x i ) (i = 1, 1) from the decision boundary H 0 to x i (i = 1, 2,..., N). 2, ..., N). Specifically, the distance calculation means between the sample and the category is activated to calculate the distances f D (x i , W 1 ) and f D (x i , W 2 ) between the categories 1 and 2, and the calculation result Is used to calculate h (x i ) according to equation (4).
Figure 2012238075

特徴空間における標準パターンと決定境界、サンプルの位置関係の概念図を図5に示す。(4)式で算出されるh(x)には正負の符号がついており、xがHから見てカテゴリ1の側にあるときはh(x)>0、カテゴリ2の側にあるときはh(x)<0となる。また教師信号yとの積の符号によって識別結果の正誤を判断でき、h(x)・y>0であれば正しい識別結果、h(x)・y<0であれば誤った識別結果を意味する。 FIG. 5 shows a conceptual diagram of a standard pattern, a decision boundary, and a positional relationship between samples in the feature space. H (x i ) calculated by equation (4) has a positive or negative sign, and when x i is on the category 1 side when viewed from H 0, h (x i )> 0, on the category 2 side H (x i ) <0. The correctness of the identification result can be determined by the sign of the product with the teacher signal yi . If h (x i ) · y i > 0, the correct identification result is obtained. If h (x i ) · y i <0, the error is incorrect. Means the identification result.

次に、ロバスト性の評価手段86は、個別のxについてh(x)・yの符号を調べ、h(x)・y>0であれば以下に述べる(1)〜(3)によってxにおけるロバスト性の評価尺度Sを算出し、h(x)・y<0であれば(1)〜(3)で算出される値の範囲よりも十分大きい正値の定数をSとする。そして、すべてのxについてSの算出を行った後、Sの集合から最小値を算出し、その値を染色体λの適応度として出力する。 Next, the evaluation means 86 of the robustness checks the sign of h (x i) · y i for the individual x i, described below, if h (x i) · y i > 0 (1) ~ ( 3) by calculating the evaluation measure S i of robustness in x i, h (x i) · y if i <0 (1) ~ ( 3) sufficiently larger positive value than the range of values calculated by Let S i be a constant. Then, after the calculation of the S i for all x i, calculate the minimum value from a set of S i, and outputs the value as the fitness of the chromosome lambda.

(1)マージンの設定
の両側の距離|h(x)|の位置に超平面H,Hを設定する。H,Hのいずれかにxは含まれる。そして、HとHの間隔2・|h(x)|を算出し、これを2/ωで表す。すなわち、このxは線形SVMのサポートベクトルに相当し、ここでは「サポートポイント」と呼ぶ。また、2/ωは線形SVMと同じくマージンを意味する。
(1) Margin setting Hyperplanes H 1 and H 2 are set at positions | h (x i ) | on both sides of H 0 . X i is included in either H 1 or H 2 . Then, an interval 2 · | h (x i ) | between H 1 and H 2 is calculated, and this is represented by 2 / ω i . That is, the x i corresponds to support vector linear SVM, referred to herein as "support point". Further, 2 / ω i means a margin as in the case of the linear SVM.

(2)ペナルティの計算
上記(1)により設定されたマージンからはみ出したサンプルに対するペナルティを計算する。Hにより特徴空間はHの側の領域とその反対側の領域に二分割され、前者の領域に含まれているカテゴリ1のサンプルは分布の分離の度合いを低下させるとみなしてHからの距離に比例するペナルティを与えるものとする。同様の処理をカテゴリ2のサンプルに対してもHを用いて行う。これを定式化したものが(5)式である。

Figure 2012238075
(2) Penalty calculation Penalty is calculated for the sample protruding from the margin set in (1) above. The feature space is divided into two by H 1 into a region on the H 0 side and a region on the opposite side, and the sample of category 1 included in the former region is regarded as reducing the degree of distribution separation from H 1. A penalty proportional to the distance is given. A similar process is performed on the category 2 sample using H 2 . Formula (5) formulates this.
Figure 2012238075

(5)式においてξijがψの個別要素xに与えられるペナルティである。(5)式は、xがマージンからはみ出した場合には(すなわちh(x)>1/ωの場合)、はみ出した長さである(1/ω−y(j)・h(x)の、1/ωに対する比率である(1−y(j)・h(x)・ω)をペナルティとして与え、はみ出さない場合には0を与えることを意味する。そして、全体としてのペナルティとしてそれらの合計値Σ j=1ξijを算出する。 In equation (5), ξ ij is a penalty given to the individual element x j of ψ. (5) (if the ie h (x j)> 1 / ω i) if x j is protruding from the margin, the length protruding (1 / ω i -y (j ) · h It means that (1-y (j) · h (x j ) · ω i ), which is the ratio of (x j ) to 1 / ω i , is given as a penalty, and 0 is given if it does not protrude. Then, the total value Σ N j = 1 ξ ij is calculated as a penalty as a whole.

(3)最終的なSの計算
(1)で算出したマージンの値2/ωと、(2)で算出したペナルティの値Σ j=1ξijを用いて、Sを以下の(6)式で計算する。

Figure 2012238075
(3) Final calculation of S i Using the margin value 2 / ω i calculated in (1) and the penalty value Σ N j = 1 ξ ij calculated in (2), let S i be Calculate with equation (6).
Figure 2012238075

(6)式において、第1項はマージンを大きくとるための項であり、第2項はマージンからはみだしたサンプルに対するペナルティの項である。そしてCは第1項と第2項のバランスをとるための定数であり、実験的に決定する。Sは低いほど良い値であるので、(7)式によって最小値を選択する。

Figure 2012238075
In the equation (6), the first term is a term for increasing the margin, and the second term is a penalty term for the sample protruding from the margin. C is a constant for balancing the first term and the second term, and is determined experimentally. Since Si is a better value as it is lower, the minimum value is selected according to Equation (7).
Figure 2012238075

次に、図6を参照して、図1に示す特徴選択装置1の処理動作を説明する。図6は、図1に示す特徴選択装置1の処理動作を示すフローチャートである。特徴選択装置1は遺伝的アルゴリズム(GA)に基づいて動作することを基本とする。GAにおける世代の番号(世代数)をGNとする。全体制御手段2は、まずGN=1とし、この値を世代数カウンタ6にセットする(ステップS1)。続いて、全体制御手段2は初期染色体集合作成手段3に対して動作開始を指示する。   Next, the processing operation of the feature selection device 1 shown in FIG. 1 will be described with reference to FIG. FIG. 6 is a flowchart showing the processing operation of the feature selection device 1 shown in FIG. The feature selection device 1 basically operates based on a genetic algorithm (GA). The generation number (number of generations) in GA is GN. The overall control means 2 first sets GN = 1, and sets this value in the generation number counter 6 (step S1). Subsequently, the overall control means 2 instructs the initial chromosome set creation means 3 to start operation.

ここで、全世代染色体集合格納手段4の構成を説明する。図7(a)は全世代染色体集合格納手段4の構成例であり、GNmax個の染色体集合が個別の染色体集合格納部に格納される。全世代染色体集合格納手段4における個別の染色体集合格納部は各世代番号GNに対応しており、GNの染色体集合格納手段をA(GN)で表わす。個別の染色体集合格納部は、図7(b)に示すように、1個の染色体格納部は染色体を格納する領域、適応度を格納する領域、選択される確率を格納する領域とから構成する。染色体集合格納手段には最大Kβ個の染色体格納部を格納できる。個別の染色体集合格納部はすべて、特徴選択装置1が起動時は空である。 Here, the configuration of the all generation chromosome set storage means 4 will be described. FIG. 7A shows a configuration example of the all-generation chromosome set storage means 4, and GN max chromosome sets are stored in individual chromosome set storage units. The individual chromosome set storage section in all generation chromosome set storage means 4 corresponds to each generation number GN, and the chromosome set storage means of GN is represented by A (GN). As shown in FIG. 7B, the individual chromosome set storage unit is composed of a region for storing chromosomes, a region for storing fitness, and a region for storing the probability of selection. . The chromosome set storage means can store a maximum of K β chromosome storage units. All individual chromosome set storage units are empty when the feature selection device 1 is activated.

初期染色体集合作成手段3は、以下のようにA(1)を設定する。K個の染色体の各個体の特徴選択ビット列の各ビットの値を一定確率Pf0で「0」に、1−Pf0で「1」に設定する。続いて、各個体のサンプル選択ビット列の各ビットの値を一定確率Pp0で「0」に、1−Pp0で「1」に設定し、それらの個体をすべてA(1)の要素とする。A(1)の各個体における学習サンプルの識別率Pαを適応度とし、その降順にA(1)の個体を並び替える(ステップS2)。そして、各順位の染色体が選択される確率を選択確率値算出手段5により算出し、全世代染色体集合格納手段4の選択確率を格納する領域に書き込む。 The initial chromosome set creation means 3 sets A (1) as follows. The value of each bit of the feature selection bit string of each individual of K chromosomes is set to “0” with a constant probability P f0 and “1” with 1-P f0 . Subsequently, the value of each bit of the sample selection bit string of each individual is set to “0” with a constant probability P p0 and “1” with 1-P p0 , and all these individuals are elements of A (1). . The identification rate P alpha training samples in each individual A (1) and fitness rearranges the individual A (1) to the descending order (Step S2). Then, the probability that the chromosomes of each rank are selected is calculated by the selection probability value calculation means 5 and written in the area for storing the selection probabilities of the all generation chromosome set storage means 4.

ここで、選択確率値算出手段5の動作を説明する。選択確率値算出手段5は、第r位の染色体が選択される確率値P(r)を(8)式で算出する。

Figure 2012238075
上式においてMaxは2変数の中の最大値を出力する関数である。 Here, the operation of the selection probability value calculation means 5 will be described. The selection probability value calculation means 5 calculates a probability value P S (r) by which the r-th chromosome is selected by the equation (8).
Figure 2012238075
In the above equation, Max is a function that outputs the maximum value of the two variables.

次に、初期染色体集合作成手段3の動作完了後、個別世代実行部7の動作に移る。全体制御手段2は、まず世代数カウンタ6に格納されたGNの値に1を加算する(ステップS3)。そして、全体制御手段2は交叉実行手段71に実行を指示する。交叉実行手段71は、A(GN−1)から個別の染色体格納部の選択確率の領域に書かれた確率値によりランダムに個別の染色体格納部のペアを選び、それらから2つの染色体を複製し、複製した染色体のペアを用いて交叉を行って新たに2つの染色体を生成し、それらを染色体評価手段8に送って各々の適応度ψを算出させ、適応度の値とともに染色体をA(GN)に追加する。   Next, after the operation of the initial chromosome set creating means 3 is completed, the operation of the individual generation execution unit 7 is started. The overall control means 2 first adds 1 to the value of GN stored in the generation number counter 6 (step S3). Then, the overall control means 2 instructs the cross execution means 71 to execute. The crossover execution means 71 selects a pair of individual chromosome storage units at random from the probability value written in the selection probability area of each individual chromosome storage unit from A (GN-1), and duplicates two chromosomes therefrom. Crossover is performed using a pair of replicated chromosomes to generate two new chromosomes, which are sent to the chromosome evaluation means 8 to calculate each fitness ψ, together with the fitness value, the chromosome A (GN ) To add.

この処理をK/2回繰り返すことでK個の個体が生成されA(GN)の要素とする(ステップS4)。交叉は二点交叉とし、染色体のサンプル選択ビット列と特徴選択ビット列のそれぞれに対して独立に行なう。これは、染色体全体に単純に交叉を適用すると、両ビット列の一方のみに交叉が施され、両者の同時選択が実行できない恐れがあるからである。 The process of K 1 single individuals by repeating K 1/2 times is generated as an element of A (GN) (step S4). Crossover is a two-point crossover, and is performed independently for each of the sample selection bit string and the feature selection bit string of the chromosome. This is because, if crossover is simply applied to the entire chromosome, only one of both bit strings is crossed, and there is a possibility that simultaneous selection of both cannot be performed.

次に、全体制御手段2は突然変異実行手段72に実行を指示する。突然変異実行手段72は、A(GN−1)から個別の染色体格納部の選択確率の領域に書かれた確率値によりランダムに1個の染色体格納部を選んで複製を行い、複製した染色体に対して一定確率で染色体のビット列を反転しA(GN)の要素とする(ステップS5)。この処理をK回繰り返すことで、A(GN)にはK個の個体が追加される。特徴選択ビット列とサンプル選択ビット列のビットを反転させる確率はそれぞれPfm,Ppmとする。 Next, the overall control means 2 instructs the mutation execution means 72 to execute. The mutation execution means 72 selects one chromosome storage part at random according to the probability value written in the selection probability area of the individual chromosome storage part from A (GN-1), and replicates it to the replicated chromosome. On the other hand, the chromosomal bit string is inverted with a certain probability to be an element of A (GN) (step S5). By repeating this process K 2 times, K 2 pieces of individual is added to A (GN). The probabilities of inverting the bits of the feature selection bit sequence and the sample selection bit sequence are P fm and P pm , respectively.

次に、全体制御手段2は、複製実行手段73に実行を指示する。複製実行手段73は、A(GN−1)から個別の染色体格納部の選択確率の領域に書かれた確率値によりランダムにK個の染色体格納部を選び、各々の染色体と適応度をA(GN)に追加する(ステップS6)。以上の中で、K、K、Kの合計はkβに等しい値とする。最後に、全体制御手段2は染色体集合並べ替え手段74に実行を指示する。染色体集合並べ替え手段74は、A(GN)の各個体を適応度の大きさの降順に並べ替える(ステップS7)。以上が1つの世代のGAの処理である。 Next, the overall control unit 2 instructs the copy execution unit 73 to execute. The replication executing means 73 randomly selects K 3 chromosome storage units from the probability value written in the selection probability area of each individual chromosome storage unit from A (GN-1), and assigns each chromosome and fitness to A (GN) is added (step S6). In the above, the sum of K 1 , K 2 , and K 3 is a value equal to k β . Finally, the overall control means 2 instructs the chromosome set rearranging means 74 to execute. The chromosome set rearranging means 74 rearranges each individual of A (GN) in descending order of fitness (step S7). The above is the processing of one generation of GA.

そして、GN=GNmaxであるか否かを判定し(ステップS8)、GN=GNmaxであればそこで動作を完了して、A(GNmax)の第1位の染色体格納手段の染色体を取り出して最終結果として出力する。GN=GNmaxでなければ、ステップS3に戻って処理を繰り返す。 Then, it is determined whether or not GN = GN max (step S8). If GN = GNmax, the operation is completed, and the chromosome in the first-order chromosome storage means of A (GNmax) is taken out and finally processed. Output as a result. If GN = GNmax is not satisfied, the process returns to step S3 and is repeated.

以上説明したように、GAを用いた特徴選択において、染色体の適応度として線形SVMのソフトマージンをベースとする評価尺度を用いているため、線形SVMと同様に汎化能力の高い特徴選択を行うことができる。   As described above, in the feature selection using the GA, since the evaluation scale based on the soft margin of the linear SVM is used as the fitness of the chromosome, the feature selection having a high generalization ability is performed similarly to the linear SVM. be able to.

なお、図1における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより特徴選択処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。   1 is recorded on a computer-readable recording medium, and the program recorded on the recording medium is read into a computer system and executed to execute the feature selection process. You may go. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Further, the “computer-readable recording medium” refers to a volatile memory (RAM) in a computer system that becomes a server or a client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. In addition, those holding programs for a certain period of time are also included.

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。   The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, what is called a difference file (difference program) may be sufficient.

遺伝的アルゴリズムを用いて、特徴を選択することによりパターン認識の識別精度を向上させることが不可欠な用途に適用できる。   It can be applied to applications where it is essential to improve the recognition accuracy of pattern recognition by selecting features using a genetic algorithm.

1・・・特徴選択装置、2・・・全体制御手段、3・・・初期染色体集合作成手段、4・・・全世代染色体集合格納手段、5・・・選択確率値算出手段、6・・・世代数カウンタ、7・・・個別世代実行部、71・・・交叉実行手段、72・・・突然変異実行手段、73・・・複製実行手段、74・・・染色体集合並べ替え手段、8・・・染色体評価手段   DESCRIPTION OF SYMBOLS 1 ... Feature selection apparatus, 2 ... Overall control means, 3 ... Initial chromosome set creation means, 4 ... All generation chromosome set storage means, 5 ... Selection probability value calculation means, 6 ... Generation number counter, 7 ... individual generation execution unit, 71 ... cross execution means, 72 ... mutation execution means, 73 ... replication execution means, 74 ... chromosome set rearrangement means, 8 ... Chromosome evaluation means

Claims (3)

遺伝的アルゴリズムを用いて、サンプルの特徴を選択することによりパターン認識の識別精度を向上させる特徴選択装置であって、
カテゴリ間の決定境界である超平面からのすべての学習用のサンプルの距離を算出する距離算出手段と、
すべての学習用サンプルの中の1個を選んで基準サンプルとし、決定境界の両側の前記基準サンプルと決定境界の距離の位置それぞれに2つの超平面を設定するマージン設定手段と、
前記設定された2つの超平面からはみ出した学習用のサンプルに対して、前記2つの超平面からはみ出した長さに応じたペナルティ値を計算するペナルティ計算手段と、
前記2つの超平面の間隔と、前記ペナルティ値とに基づいて、ロバスト性の評価尺度を算出し、該評価尺度の値を前記基準サンプルの評価値とする基準サンプル評価手段と、
前記基準サンプル評価手段を用いてすべての学習用のサンプル毎に、それらを基準サンプルとして用いた時の評価値を算出し、その中の最小値を選択された特徴の評価値として出力する評価手段と
を備えたことを特徴とする特徴選択装置。
A feature selection device that improves the recognition accuracy of pattern recognition by selecting features of a sample using a genetic algorithm,
A distance calculating means for calculating the distances of all learning samples from the hyperplane that is a decision boundary between categories;
Margin setting means for selecting one of all learning samples as a reference sample, and setting two hyperplanes at each of the distance between the reference sample and the decision boundary on both sides of the decision boundary;
Penalty calculation means for calculating a penalty value corresponding to a length protruding from the two hyperplanes for the learning sample protruding from the two hyperplanes set,
A reference sample evaluation unit that calculates a robustness evaluation scale based on the interval between the two hyperplanes and the penalty value, and uses the value of the evaluation scale as the evaluation value of the reference sample;
Evaluation means for calculating an evaluation value when using them as a reference sample for every learning sample using the reference sample evaluation means, and outputting the minimum value among them as the evaluation value of the selected feature And a feature selection device.
遺伝的アルゴリズムを用いて、サンプルの特徴を選択することによりパターン認識の識別精度を向上させるために、距離算出手段と、マージン設定手段と、ペナルティ計算手段と、基準サンプル評価手段と、評価手段とを備えた特徴選択装置における特徴選択方法であって、
前記距離算出手段が、カテゴリ間の決定境界である超平面からのすべての学習用のサンプルの距離を算出する距離算出ステップと、
前記マージン設定手段が、すべての学習用サンプルの中の1個を選んで基準サンプルとし、決定境界の両側の前記基準サンプルと決定境界の距離の位置それぞれに2つの超平面を設定するマージン設定ステップと、
前記ペナルティ計算手段が、前記設定された2つの超平面からはみ出した学習用のサンプルに対して、前記2つの超平面からはみ出した長さに応じたペナルティ値を計算するペナルティ計算ステップと、
前記基準サンプル評価手段が、前記2つの超平面の間隔と、前記ペナルティ値とに基づいて、ロバスト性の評価尺度を算出し、該評価尺度の値を前記基準サンプルの評価値とする基準サンプル評価ステップと
前記評価手段が、前記基準サンプル評価手段を用いてすべての学習用のサンプル毎に、それらを基準サンプルとして用いた時の評価値を算出し、その中の最小値を選択された特徴の評価値として出力する評価ステップと
を有することを特徴とする特徴選択方法。
In order to improve the identification accuracy of pattern recognition by selecting features of a sample using a genetic algorithm, a distance calculation means, a margin setting means, a penalty calculation means, a reference sample evaluation means, an evaluation means, A feature selection method in a feature selection device comprising:
A distance calculating step in which the distance calculating means calculates the distances of all learning samples from the hyperplane which is a decision boundary between categories;
A margin setting step in which the margin setting means selects one of all the learning samples as a reference sample, and sets two hyperplanes at each of the distance between the reference sample and the determination boundary on both sides of the determination boundary. When,
A penalty calculating step in which the penalty calculating means calculates a penalty value corresponding to a length protruding from the two hyperplanes for the learning sample protruding from the set two hyperplanes;
The reference sample evaluation means calculates a robust evaluation measure based on the interval between the two hyperplanes and the penalty value, and uses the value of the evaluation measure as the evaluation value of the reference sample. The step and the evaluation means calculate an evaluation value when using them as a reference sample for every learning sample using the reference sample evaluation means, and the minimum value among them is selected. An evaluation step for outputting as an evaluation value.
遺伝的アルゴリズムを用いて、サンプルの特徴を選択することによりパターン認識の識別精度を向上させる特徴選択装置上のコンピュータに特徴選択処理を行わせる特徴選択プログラムであって、
カテゴリ間の決定境界である超平面からのすべての学習用のサンプルの距離を算出する距離算出ステップと、
すべての学習用サンプルの中の1個を選んで基準サンプルとし、決定境界の両側の前記基準サンプルと決定境界の距離の位置それぞれに2つの超平面を設定するマージン設定ステップと、
前記設定された2つの超平面からはみ出した学習用のサンプルに対して、前記2つの超平面からはみ出した長さに応じたペナルティ値を計算するペナルティ計算ステップと、
前記2つの超平面の間隔と、前記ペナルティ値とに基づいて、ロバスト性の評価尺度を算出し、該評価尺度の値を前記基準サンプルの評価値とする基準サンプル評価ステップと
前記基準サンプル評価ステップにより、すべての学習用のサンプル毎に、それらを基準サンプルとして用いた時の評価値を算出し、その中の最小値を選択された特徴の評価値として出力する評価ステップと
を前記コンピュータに行わせることを特徴とする特徴選択プログラム。
A feature selection program that causes a computer on a feature selection device to improve pattern recognition discrimination accuracy by selecting a feature of a sample using a genetic algorithm,
A distance calculating step for calculating distances of all learning samples from a hyperplane that is a decision boundary between categories;
A margin setting step of selecting one of all the learning samples as a reference sample, and setting two hyperplanes at each of the reference sample and decision boundary distance positions on both sides of the decision boundary;
A penalty calculating step for calculating a penalty value corresponding to a length protruding from the two hyperplanes with respect to the learning sample protruding from the set two hyperplanes;
Based on the interval between the two hyperplanes and the penalty value, a robustness evaluation measure is calculated, and a reference sample evaluation step using the value of the evaluation measure as an evaluation value of the reference sample; and the reference sample evaluation step Then, for each of the learning samples, an evaluation value when using them as a reference sample is calculated, and an evaluation step for outputting the minimum value among them as the evaluation value of the selected feature is performed on the computer. A feature selection program characterized by
JP2011105150A 2011-05-10 2011-05-10 Feature selecting device, feature selecting method, and feature selecting program Withdrawn JP2012238075A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011105150A JP2012238075A (en) 2011-05-10 2011-05-10 Feature selecting device, feature selecting method, and feature selecting program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011105150A JP2012238075A (en) 2011-05-10 2011-05-10 Feature selecting device, feature selecting method, and feature selecting program

Publications (1)

Publication Number Publication Date
JP2012238075A true JP2012238075A (en) 2012-12-06

Family

ID=47460940

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011105150A Withdrawn JP2012238075A (en) 2011-05-10 2011-05-10 Feature selecting device, feature selecting method, and feature selecting program

Country Status (1)

Country Link
JP (1) JP2012238075A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022121063A1 (en) * 2020-12-11 2022-06-16 谈斯聪 Method for optimization of disease analysis and identification by multi-data correlation fusion of characterization, blood, and medical image data
JP7414188B2 (en) 2020-06-29 2024-01-16 日本電気株式会社 Information processing device, information processing method, and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7414188B2 (en) 2020-06-29 2024-01-16 日本電気株式会社 Information processing device, information processing method, and program
WO2022121063A1 (en) * 2020-12-11 2022-06-16 谈斯聪 Method for optimization of disease analysis and identification by multi-data correlation fusion of characterization, blood, and medical image data

Similar Documents

Publication Publication Date Title
US11829880B2 (en) Generating trained neural networks with increased robustness against adversarial attacks
Xu et al. Bayesian variable selection and estimation for group lasso
Gibert et al. Graph embedding in vector spaces by node attribute statistics
WO2018227800A1 (en) Neural network training method and device
Lin et al. High-dimensional sparse additive hazards regression
WO2020048389A1 (en) Method for compressing neural network model, device, and computer apparatus
JP4935047B2 (en) Information processing apparatus, information processing method, and program
US11030526B1 (en) Hierarchical system and method for generating intercorrelated datasets
WO2014118978A1 (en) Learning method, image processing device and learning program
Baragona et al. Fitting piecewise linear threshold autoregressive models by means of genetic algorithms
CN113128206A (en) Question generation method based on word importance weighting
US11687730B1 (en) Automated conversation goal discovery using neural networks and deep multi-view clustering
CN111488460A (en) Data processing method, device and computer readable storage medium
CN112052663B (en) Customer service statement quality inspection method and related equipment
CN112598089A (en) Image sample screening method, device, equipment and medium
Peng et al. Entropy chain multi-label classifiers for traditional medicine diagnosing Parkinson's disease
JP2012238075A (en) Feature selecting device, feature selecting method, and feature selecting program
JP2012155394A (en) Document classification learning control device, document classification device and computer program
Olabiyi et al. Adversarial bootstrapping for dialogue model training
US20240086700A1 (en) Method Of Training Local Neural Network Model For Federated Learning
Waller Fungible correlation matrices: A method for generating nonsingular, singular, and improper correlation matrices for Monte Carlo research
US20200272895A1 (en) Answering cognitive queries from sensor input signals
JP2005222445A (en) Information processing method and analysis device in data mining
JPWO2020144736A1 (en) Semantic relationship learning device, semantic relationship learning method, and semantic relationship learning program
CN115936104A (en) Method and apparatus for training machine learning models

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20130606

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130726

A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20140805