JP7064681B2 - Feature importance sorting system based on random forest algorithm in multi-center mode - Google Patents
Feature importance sorting system based on random forest algorithm in multi-center mode Download PDFInfo
- Publication number
- JP7064681B2 JP7064681B2 JP2021532354A JP2021532354A JP7064681B2 JP 7064681 B2 JP7064681 B2 JP 7064681B2 JP 2021532354 A JP2021532354 A JP 2021532354A JP 2021532354 A JP2021532354 A JP 2021532354A JP 7064681 B2 JP7064681 B2 JP 7064681B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- center
- random forest
- importance
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Description
本発明は特徴選択技術分野に属し、特にマルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステムに関する。 The present invention belongs to the field of feature selection technology, and particularly relates to a feature importance sorting system based on a random forest algorithm in a multi-center mode.
特徴選択は特徴空間次元を削減するために、1組の特徴からいくつかの最も効果的な特徴を選択する過程である。特徴選択は特徴数を減少し、次元を削減し、モデルの汎化性能を向上させ、オーバーフィッティングを減少し、特徴及び特徴値への理解を強化することができ、データ科学分野の肝心な問題の1つである。生物医学分野では、常にオーミクスデータセット等の高次元データを処理する必要があり、一般的に、変数の数が個体の数より遥かに大きく、このような場合、特徴選択の意味は特に重要となる。ランダムフォレストは生物医学分野で広く応用されている統合学習アルゴリズムであり、分類過程において変数重要度の推定を行うことができ、効果的な特徴選択アルゴリズムと見なされている。 Feature selection is the process of selecting some of the most effective features from a set of features in order to reduce the feature space dimension. Feature selection can reduce the number of features, reduce dimensions, improve model generalization performance, reduce overfitting, and enhance understanding of features and feature values, a key issue in the field of data science. It is one of. In the field of biomedicine, it is always necessary to process high-dimensional data such as ohmics datasets, and in general, the number of variables is much larger than the number of individuals, and in such cases, the meaning of feature selection is particularly important. Will be. Random forest is an integrated learning algorithm widely applied in the field of biomedicine, which can estimate the importance of variables in the classification process and is regarded as an effective feature selection algorithm.
マルチセンターにおけるデータ協調計算はビッグデータの背景で出現する応用シーンであり、地域で分散状態にある1つのグループがコンピュータ及びネットワーク技術を利用して互いに協力して1つのタスクを遂行することを意味する。マルチセンターにおけるデータに基づいて特徴選択を行うことは、そのうちの1つの重要な問題である。ビッグデータの背景で、各センターデータ協調計算の需要は大きくなっている。 Data co-calculation in a multi-center is an application scene that emerges in the background of big data, meaning that one group in a distributed state in a region cooperates with each other to perform one task using computer and network technology. do. Feature selection based on data in a multi-center is one of the important issues. In the background of big data, the demand for co-calculation of center data is increasing.
従来の解決案は、各センターのデータを取り出してセンターサーバーに集め、次に、センターサーバーにおいて特徴選択を行ってグローバルな特徴選択結果を取得する必要がある。ところが、データを各センターから取り出す過程は潜在的な危険が多く、データ漏洩等の安全上の問題を引き起こす恐れがあり、センター同士の協調計算の積極性を大きく損なってしまう。特に、生物医学分野では、各センター即ち各病院のデータには治療のために病院に来る患者のプライバシーが含まれ、データを取り出して集中処理する方法は患者のプライバシーの保護にとって不利になり、リスクが大きい。 In the conventional solution, it is necessary to take out the data of each center and collect it in the center server, and then perform feature selection on the center server to obtain the global feature selection result. However, the process of extracting data from each center has many potential dangers and may cause safety problems such as data leakage, which greatly impairs the positiveness of cooperative calculation between centers. Especially in the field of biomedicine, the data of each center, that is, each hospital, includes the privacy of patients who come to the hospital for treatment, and the method of extracting and centralizing the data is disadvantageous and risky for protecting the privacy of patients. Is big.
本発明の目的は、従来技術の欠点に対して、実際の需要に応じて、各センターのデータを漏洩しない条件で、マルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステムを提供することにあり、該システムにおいて、各センターのデータを常に各センターにあり、センターサーバーにモデルの中間パラメータのみを送信し、元のデータを送信せず、最終的に安全で効果的なグローバルな特徴重要度ソート結果を取得する。 An object of the present invention is to provide a feature importance sorting system based on a random forest algorithm in a multi-center mode under the condition that the data of each center is not leaked according to the actual demand against the shortcomings of the prior art. Yes, in the system, the data of each center is always in each center, only the intermediate parameters of the model are sent to the center server, the original data is not sent, and finally the safe and effective global feature importance. Get the sort result.
本発明の目的は以下の技術案により実現される。
マルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステムであって、
協調計算に参加する各センターに配置されるフロントエンドプロセッサと、各センター特徴重要度ソート結果を受信して統合するセンターサーバーと、最終的な特徴重要度ソート結果をユーザーにフィードバックする結果表示モジュールと、を備え、
前記フロントエンドプロセッサは各センターのデータベースインターフェースからデータを読み取り、ランダムフォレストアルゴリズムにより該センターの特徴重要度ソート結果を計算することに用いられ、その具体的な計算ステップは、
該センターデータベースインターフェースからデータをサンプルセットとして読み取るステップAと、
ブートストラップ法(bootstrap)でサンプルセットからn個のサンプルを1つのトレーニングセットとしてランダムに選択するステップBと、
サンプリングにより取得されたトレーニングセットで1つの決定木を生成し、決定木の各ノードでいずれもd個の特徴をランダムに繰り返しなしで選択し、これらのd個の特徴を利用してそれぞれトレーニングセットを区画するステップCと、
ステップB~Cを合計q回繰り返し、qがランダムフォレストにおける決定木の個数であるステップDと、
トレーニングにより取得されたランダムフォレストでサンプルセットを予測するステップEと、
ジニ指数を評価指標として利用してステップEの予測結果に対して特徴重要度ソートを行うステップFと、
を含み、
前記ステップFは、
サンプルセットにh個の特徴
があると仮定するとき、各特徴Xjについて、ノードmにおける特徴Xjの重要度
即ちノードmの分岐前後のジニ指数変化量を計算し、その式が以下のとおりであり、
特徴Xjが決定木iに出現するノードは集合Eを構成すると仮定すれば、i番目の決定木におけるXjの重要度
が、
ランダムフォレストにq個の決定木があると仮定するとき、各特徴Xjのジニ指数スコア
即ちランダムフォレストのすべての決定木におけるj番目の特徴のノード分割不純度の平均変化量を計算し、その式が
特徴Xjのジニ指数スコア
を正規化処理し、その式が、
すべての特徴の正規化後のジニ指数スコアを降順ソートするサブステップe)と、を含み、
前記センターサーバーがグローバルな特徴重要度ソート結果を計算することは、
各センターから送信された特徴重要度ソート結果を受信するサブステップAと、
各特徴について、すべてのセンターにおける該特徴のジニ指数スコアの平均値をグローバルな特徴重要度値として求めるサブステップBと、
グローバルな特徴重要度値の降順で、特徴を改めてソートするサブステップCと、を含むことを特徴とするマルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステム。
The object of the present invention is realized by the following technical proposals.
A feature importance sorting system based on the Random Forest algorithm in multi-center mode.
A front-end processor located in each center participating in the co-calculation, a center server that receives and integrates each center feature importance sort result, and a result display module that feeds back the final feature importance sort result to the user. , Equipped with
The front-end processor reads data from the database interface of each center and is used to calculate the feature importance sort result of the center by a random forest algorithm, and the specific calculation step is
Step A, which reads the data from the center database interface as a sample set,
Step B, in which n samples are randomly selected as one training set from the sample set by the bootstrap method, and
One decision tree is generated from the training set obtained by sampling, d features are randomly selected at each node of the decision tree without repetition, and each of these d features is used for the training set. Step C to partition
Steps B to C are repeated q times in total, and step D, in which q is the number of decision trees in the random forest, and
Step E, which predicts the sample set in the random forest acquired by training,
Step F, which sorts the feature importance of the prediction result of step E using the Gini index as an evaluation index,
Including
The step F is
H features in the sample set
Assuming that there is, for each feature X j , the importance of the feature X j at the node m
That is, the amount of change in the Gini index before and after the branch of the node m is calculated, and the formula is as follows.
Assuming that the nodes in which the feature X j appears in the decision tree i constitute the set E, the importance of X j in the i-th decision tree
but,
Assuming there are q decision trees in a random forest, the Gini index score for each feature Xj
That is, the average change amount of the node division impureness of the jth feature in all the decision trees of the random forest is calculated, and the formula is
Feature Xj Gini index score
Is normalized and the expression is
Substep e) to sort the normalized Gini index scores of all features in descending order, including
It is not possible for the center server to calculate the global feature importance sort result.
Sub-step A, which receives the feature importance sort result sent from each center, and
For each feature, substep B, which obtains the average value of the Gini index scores of the feature at all centers as the global feature importance value,
A feature importance sorting system based on a random forest algorithm in a multicenter mode, comprising substep C, which sorts features again in descending order of global feature importance values.
本発明の有益な効果は、以下の通りである。
本発明は、マルチセンターのランダムフォレストアルゴリズムに基づいて各センターにおいてそれぞれ特徴重要度ソート結果を計算し、センターサーバーにおいて各センターのソート結果を統合してグローバルな特徴重要度ソート結果を形成するということである。本発明は、各センターのデータを漏洩しない条件で、該システムにおいて各センターのデータを常にセンターにあり、センターサーバーにモデルの中間パラメータのみを送信し、元のデータを送信しないため、データセキュリティ及びデータに含まれる個人のプライバシーを効果的に確保する。
The beneficial effects of the present invention are as follows.
The present invention calculates the feature importance sort result at each center based on the multi-center random forest algorithm, and integrates the sort results of each center at the center server to form a global feature importance sort result. Is. In the present invention, under the condition that the data of each center is not leaked, the data of each center is always in the center in the system, only the intermediate parameters of the model are transmitted to the center server, and the original data is not transmitted. Effectively ensure the privacy of the individuals contained in the data.
以下、図面を参照しながら具体的な実施例によって本発明を更に詳しく説明する。 Hereinafter, the present invention will be described in more detail by way of specific examples with reference to the drawings.
図1及び図2に示すように、本発明に係るマルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステムは、協調計算に参加する各センターに配置されるフロントエンドプロセッサと、各センター特徴重要度ソート結果を受信して統合するセンターサーバーと、最終的な特徴重要度ソート結果をユーザーにフィードバックする結果表示モジュールと、を備える。 As shown in FIGS. 1 and 2, the feature importance sorting system based on the random forest algorithm in the multi-center mode according to the present invention includes a front-end processor placed in each center participating in the cooperative calculation and each center feature importance. It has a center server that receives and integrates the degree sort result, and a result display module that feeds back the final feature importance sort result to the user.
前記フロントエンドプロセッサは各センターのデータベースインターフェースからデータを読み取り、ランダムフォレストアルゴリズムにより該センターの特徴重要度ソート結果を計算することに用いられ、図3に示すように、具体的な計算ステップは、以下のとおりである。
ステップA:該センターデータベースインターフェースからデータをサンプルセットとして読み取る;
ステップB:ブートストラップ法(bootstrap)でサンプルセットからn個のサンプルを1つのトレーニングセットとしてランダムに選択する;
ステップC:サンプリングにより取得されたトレーニングセットで1つの決定木を生成し、決定木の各ノードでいずれもd個の特徴をランダムに繰り返しなしで選択し、これらのd個の特徴を利用してそれぞれトレーニングセットを区画する;
ステップD:ステップB~Cを合計q回繰り返し、qがランダムフォレストにおける決定木の個数である;
ステップE:トレーニングにより取得されたランダムフォレストでサンプルセットを予測する;
ステップF:ジニ指数を評価指標として利用してステップEの予測結果に対して特徴重要度ソートを行う。
該ステップFは、
サンプルセットにh個の特徴
があると仮定するとき、各特徴Xjについて、ノードmにおける特徴Xjの重要度
即ちノードmの分岐前後のジニ指数変化量を計算し、その式が以下のとおりであり、
特徴Xjが決定木iに出現するノードは集合Eを構成すると仮定すれば、i番目の決定木におけるXjの重要度
が、
ランダムフォレストにq個の決定木があると仮定するとき、各特徴Xjのジニ指数スコア
即ちランダムフォレストのすべての決定木におけるj番目の特徴のノード分割不純度の平均変化量を計算し、その式が
特徴Xjのジニ指数スコア
を正規化処理し、その式が、
すべての特徴の正規化後のジニ指数スコアを降順ソートするサブステップe)と、を含み、
前記センターサーバーがグローバルな特徴重要度ソート結果を計算することは、図4に示すように、
各センターから送信された特徴重要度ソート結果を受信するサブステップAと、
各特徴について、すべてのセンターにおける該特徴のジニ指数スコアの平均値をグローバルな特徴重要度値として求めるサブステップBと、
グローバルな特徴重要度値の降順で、特徴を改めてソートするサブステップCと、を含む。
The front-end processor reads data from the database interface of each center and is used to calculate the feature importance sort result of the center by a random forest algorithm. As shown in FIG. 3, the specific calculation steps are as follows. It is as follows.
Step A: Read the data as a sample set from the center database interface;
Step B: Randomly select n samples from the sample set as one training set by the bootstrap method;
Step C: Generate one decision tree from the training set obtained by sampling, select d features randomly and without repetition at each node of the decision tree, and use these d features. Separate training sets for each;
Step D: Steps B to C are repeated a total of q times, where q is the number of decision trees in the random forest;
Step E: Predict the sample set in the random forest acquired by training;
Step F: Using the Gini index as an evaluation index, the feature importance sort is performed on the prediction result of step E.
The step F is
H features in the sample set
Assuming that there is, for each feature X j , the importance of the feature X j at the node m
That is, the amount of change in the Gini index before and after the branch of the node m is calculated, and the formula is as follows.
Assuming that the nodes in which the feature X j appears in the decision tree i constitute the set E, the importance of X j in the i-th decision tree
but,
Assuming there are q decision trees in a random forest, the Gini index score for each feature Xj
That is, the average change amount of the node division impureness of the jth feature in all the decision trees of the random forest is calculated, and the formula is
Feature Xj Gini index score
Is normalized and the expression is
Substep e) to sort the normalized Gini index scores of all features in descending order, including
As shown in FIG. 4, the center server calculates the global feature importance sort result.
Sub-step A, which receives the feature importance sort result sent from each center, and
For each feature, substep B, which obtains the average value of the Gini index scores of the feature at all centers as the global feature importance value,
Includes substep C, which sorts the features again in descending order of global feature importance values.
以下はマルチセンターモードにおけるランダムフォレストアルゴリズムに基づく、身体検査データから糖尿病リスクを予測する特徴重要度ソートシステムを示す1つの具体的な例である。該システムは、協調計算に参加する各病院内に配置されるフロントエンドプロセッサと、各病院の特徴重要度ソート結果を受信して統合するセンターサーバーと、最終的な特徴重要度ソート結果をユーザーにフィードバックする結果表示モジュールと、を備える。 The following is one specific example showing a feature importance sorting system that predicts diabetes risk from physical examination data based on a random forest algorithm in multicenter mode. The system provides users with a front-end processor located within each hospital participating in the co-calculation, a center server that receives and integrates the feature importance sort results of each hospital, and the final feature importance sort results. It is equipped with a result display module that provides feedback.
前記フロントエンドプロセッサは各病院のデータベースインターフェースから身体検査データを読み取り、ランダムフォレストアルゴリズムにより糖尿病リスクを予測し、該病院内の糖尿病リスクの特徴重要度ソート結果を計算することに用いられ、その具体的な計算ステップは、以下のとおりである。
ステップA:該病院のデータベースインターフェースから身体検査データをサンプルセットとして読み取り、合計5000例の身体検査データがあると仮定する;
ステップB:ブートストラップ法(bootstrap)でサンプルセットから70個のサンプルを1つのトレーニングセットとしてランダムに選択する;
ステップC:サンプリングにより取得されたトレーニングセットで1つの決定木を生成し、決定木の各ノードでいずれも7つの特徴をランダムに繰り返しなしで選択し、これらの7つの特徴を利用してそれぞれトレーニングセットを区画する;
ステップD:ステップB~Cを合計15回繰り返し、15がランダムフォレストにおける決定木の個数である;
ステップE:トレーニングにより取得されたランダムフォレストでサンプルセットを予測する;
ステップF:ジニ指数を評価指標として利用してステップEの予測結果に対して特徴重要度ソートを行う。
該ステップFは、
サンプルセットには、年齢、性別、教育レベル、胴囲、血液型、収縮期血圧、ヘモグロビン等の特徴50個があると仮定し、これらの特徴を
とする。各特徴Xjについて、ノードmにおける特徴Xjの重要度
即ちノードmの分岐前後のジニ指数変化量を計算し、その式が以下のとおりであり、
特徴Xjが決定木iに出現するノードは集合Eを構成すると仮定すれば、i番目の決定木におけるXjの重要度
が、
ランダムフォレストに15個の決定木があることが知られ、各特徴Xjのジニ指数スコア
即ちランダムフォレストのすべての決定木におけるj番目の特徴のノード分割不純度の平均変化量を計算し、その式が
特徴Xjのジニ指数スコア
を正規化処理し、その式が
すべての特徴の正規化後のジニ指数スコアを降順ソートするサブステップe)と、を含み、
前記センターサーバーは身体検査データにおける糖尿病リスクに影響するグローバルな特徴重要度ソート結果を計算し、該ステップは、
各病院から送信された特徴重要度ソート結果を受信するサブステップAと、
各特徴について、すべての病院における該特徴のジニ指数スコアの平均値をグローバルな特徴重要度値として求め、例えば、特徴的な糖化ヘモグロビンについて、病院1における特徴重要度スコアは0.182483であり、病院2における特徴重要度スコアは0.150948であり、病院3における特徴重要度スコアは0.078243である場合、病院1、病院2、病院3が共同で開催したマルチセンター身体検査データ糖尿病リスク予測研究におけるグローバルな特徴重要度値は(0.182483+0.150948+0.078243)/3=0.137224であるサブステップBと、
グローバルな特徴重要度値の降順で、特徴を改めてソートするサブステップCと、を含む。
The front-end processor reads physical examination data from each hospital's database interface, predicts diabetes risk by a random forest algorithm, and is used to calculate the characteristic importance sort result of diabetes risk in the hospital. The calculation steps are as follows.
Step A: Read the physical examination data as a sample set from the hospital's database interface and assume that there is a total of 5000 physical examination data;
Step B: 70 samples are randomly selected as one training set from the sample set by the bootstrap method;
Step C: Generate one decision tree from the training set obtained by sampling, select 7 features at random and without repetition at each node of the decision tree, and train each of these 7 features. Divide the set;
Step D: Steps B to C are repeated a total of 15 times, where 15 is the number of decision trees in the random forest;
Step E: Predict the sample set in the random forest acquired by training;
Step F: Using the Gini index as an evaluation index, the feature importance sort is performed on the prediction result of step E.
The step F is
Assuming that the sample set has 50 characteristics such as age, gender, education level, waist circumference, blood type, systolic blood pressure, hemoglobin, etc., these characteristics are used.
And. For each feature X j , the importance of the feature X j at the node m
That is, the amount of change in the Gini index before and after the branch of the node m is calculated, and the formula is as follows.
Assuming that the nodes in which the feature X j appears in the decision tree i constitute the set E, the importance of X j in the i-th decision tree
but,
It is known that there are 15 decision trees in Random Forest, and the Gini index score of each feature Xj .
That is, the average change amount of the node division impureness of the jth feature in all the decision trees of the random forest is calculated, and the formula is
Feature Xj Gini index score
Is normalized and the expression is
Substep e) to sort the normalized Gini index scores of all features in descending order, including
The center server calculates the global feature importance sort results that affect the risk of diabetes in the physical examination data, and the step is
Sub-step A to receive the feature importance sort result sent from each hospital, and
For each feature, the average value of the gini index scores of the feature in all hospitals is calculated as the global feature importance value. For example, for characteristic glycated hemoglobin, the feature importance score in hospital 1 is 0.1822483. If the feature importance score in
Includes substep C, which sorts the features again in descending order of global feature importance values.
本発明は各サイトでジニ指数に基づく局所変数重要度ソートを計算して、センターサーバーに送信する。センターサーバーは各サイトの変数重要度ソートを統合して計算し、最終的なソート結果を取得する。この過程において、センターサーバーは各サイトの変数重要度ソート結果のみを受信し、患者レベルまでのデータを交換する必要がないため、効果的なグローバルな解を取得するだけでなく、データの安全性を効果的に確保し、特徴選別モデルの構築に安全・確実で効率的な解決案を提供する。 The present invention calculates a local variable importance sort based on the Gini index at each site and sends it to the center server. The center server integrates and calculates the variable importance sorts for each site and gets the final sort result. In this process, the center server receives only the variable importance sort results for each site and does not need to exchange data down to the patient level, so not only does it get an effective global solution, but it also secures the data. Effectively secure and provide a safe, reliable and efficient solution for building a feature selection model.
上記は本発明の実施例に過ぎず、本発明の保護範囲を制限するためのものではない。本発明の趣旨や原則でに創造的労働を経ずに行われたいかなる修正、等価置換、改良等は、いずれも本発明の保護範囲内に含まれるべきである。 The above is only an embodiment of the present invention and is not intended to limit the scope of protection of the present invention. Any modifications, equivalent substitutions, improvements, etc. made to the intent or principle of the invention without creative labor should be included within the scope of the invention.
Claims (1)
協調計算に参加する各センターに配置されるフロントエンドプロセッサと、各センター特徴重要度ソート結果を受信して統合するセンターサーバーと、最終的な特徴重要度ソート結果をユーザーにフィードバックする結果表示モジュールと、を備え、
前記フロントエンドプロセッサは各センターのデータベースインターフェースからデータを読み取り、ランダムフォレストアルゴリズムにより該センターの特徴重要度ソート結果を計算することに用いられ、その具体的な計算ステップは、
該センターデータベースインターフェースからデータをサンプルセットとして読み取るステップAと、
ブートストラップ法(bootstrap)でサンプルセットからn個のサンプルを1つのトレーニングセットとしてランダムに選択するステップBと、
サンプリングにより取得されたトレーニングセットで1つの決定木を生成し、決定木の各ノードでいずれもd個の特徴をランダムに繰り返しなしで選択し、これらのd個の特徴を利用してそれぞれトレーニングセットを区画するステップCと、
ステップB~Cを合計q回繰り返し、qがランダムフォレストにおける決定木の個数であるステップDと、
トレーニングにより取得されたランダムフォレストでサンプルセットを予測するステップEと、
ジニ指数を評価指標として利用してステップEの予測結果に対して特徴重要度ソートを行うステップFと、
を含み、
前記ステップFは、
サンプルセットにh個の特徴
がある場合に、各特徴Xjについて、ノードmにおける特徴Xjの重要度
即ちノードmの分岐前後のジニ指数変化量を計算し、その式が以下のとおりであり、
特徴Xjが決定木iに出現するノードは集合Eを構成する場合に、i番目の決定木におけるXjの重要度
が、
ランダムフォレストにq個の決定木がある場合に、各特徴Xjのジニ指数スコア
即ちランダムフォレストのすべての決定木におけるj番目の特徴のノード分割不純度の平均変化量を計算し、その式が
特徴Xjのジニ指数スコア
を正規化処理し、その式が、
すべての特徴の正規化後のジニ指数スコアを降順ソートするサブステップe)と、を含み、
前記センターサーバーがグローバルな特徴重要度ソート結果を計算することは、
各センターから送信された特徴重要度ソート結果を受信するサブステップAと、
各特徴について、すべてのセンターにおける該特徴のジニ指数スコアの平均値をグローバルな特徴重要度値として求めるサブステップBと、
グローバルな特徴重要度値の降順で、特徴を改めてソートするサブステップCと、を含むことを特徴とするマルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステム。 A feature importance sorting system based on the Random Forest algorithm in multi-center mode.
A front-end processor located in each center participating in the co-calculation, a center server that receives and integrates each center feature importance sort result, and a result display module that feeds back the final feature importance sort result to the user. , Equipped with
The front-end processor reads data from the database interface of each center and is used to calculate the feature importance sort result of the center by a random forest algorithm, and the specific calculation step is
Step A, which reads the data from the center database interface as a sample set,
Step B, in which n samples are randomly selected as one training set from the sample set by the bootstrap method, and
One decision tree is generated from the training set obtained by sampling, d features are randomly selected at each node of the decision tree without repetition, and each of these d features is used for the training set. Step C to partition
Steps B to C are repeated q times in total, and step D, in which q is the number of decision trees in the random forest, and
Step E, which predicts the sample set in the random forest acquired by training,
Step F, which sorts the feature importance of the prediction result of step E using the Gini index as an evaluation index,
Including
The step F is
H features in the sample set
If there is, for each feature X j , the importance of the feature X j at the node m
That is, the amount of change in the Gini index before and after the branch of the node m is calculated, and the formula is as follows.
When the node in which the feature X j appears in the decision tree i constitutes the set E, the importance of X j in the i-th decision tree
but,
Gini index score for each feature X j when there are q decision trees in a random forest
That is, the average change amount of the node division impureness of the jth feature in all the decision trees of the random forest is calculated, and the formula is
Feature Xj Gini index score
Is normalized and the expression is
Substep e) to sort the normalized Gini index scores of all features in descending order, including
It is not possible for the center server to calculate the global feature importance sort result.
Sub-step A, which receives the feature importance sort result sent from each center, and
For each feature, substep B, which obtains the average value of the Gini index scores of the feature at all centers as the global feature importance value,
A feature importance sorting system based on a random forest algorithm in a multicenter mode, comprising substep C, which sorts features again in descending order of global feature importance values.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910629792.1A CN110728291B (en) | 2019-07-12 | 2019-07-12 | Feature importance ranking system based on random forest algorithm in multi-center mode |
CN201910629792.1 | 2019-07-12 | ||
PCT/CN2020/083589 WO2020233259A1 (en) | 2019-07-12 | 2020-04-07 | Multi-center mode random forest algorithm-based feature importance sorting system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022508333A JP2022508333A (en) | 2022-01-19 |
JP7064681B2 true JP7064681B2 (en) | 2022-05-11 |
Family
ID=69217693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021532354A Active JP7064681B2 (en) | 2019-07-12 | 2020-04-07 | Feature importance sorting system based on random forest algorithm in multi-center mode |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7064681B2 (en) |
CN (1) | CN110728291B (en) |
WO (1) | WO2020233259A1 (en) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110728291B (en) * | 2019-07-12 | 2022-02-22 | 之江实验室 | Feature importance ranking system based on random forest algorithm in multi-center mode |
CN111401749A (en) * | 2020-03-17 | 2020-07-10 | 三峡大学 | Dynamic safety assessment method based on random forest and extreme learning regression |
CN111982299B (en) * | 2020-08-14 | 2021-08-17 | 国家卫星气象中心(国家空间天气监测预警中心) | Dynamic data quality scoring method and system for satellite-borne microwave radiometer |
CN112750029A (en) * | 2020-12-30 | 2021-05-04 | 北京知因智慧科技有限公司 | Credit risk prediction method, device, electronic equipment and storage medium |
CN112951324A (en) * | 2021-02-05 | 2021-06-11 | 广州医科大学 | Pathogenic synonymous mutation prediction method based on undersampling |
CN113408867B (en) * | 2021-05-28 | 2023-07-21 | 北京大学 | Urban burglary crime risk assessment method based on mobile phone user and POI data |
CN113762712B (en) * | 2021-07-26 | 2024-04-09 | 广西大学 | Small hydropower cleaning rectification evaluation index screening strategy in big data environment |
CN113642629B (en) * | 2021-08-09 | 2023-12-08 | 厦门大学 | Visualization method and device for improving reliability of spectroscopy analysis based on random forest |
CN113413163B (en) * | 2021-08-24 | 2021-11-19 | 山东大学 | Heart sound diagnosis system for mixed deep learning and low-difference forest |
CN113554519A (en) * | 2021-08-25 | 2021-10-26 | 山大地纬软件股份有限公司 | Medical insurance expenditure risk analysis method and system |
CN115001739A (en) * | 2022-04-19 | 2022-09-02 | 中国电子科技网络信息安全有限公司 | Random forest based transverse worm attack detection method |
CN115083519B (en) * | 2022-05-18 | 2024-06-14 | 北京大学第三医院(北京大学第三临床医学院) | Gene correlation characteristic fusion prediction method based on multi-source gene database |
CN116226767B (en) * | 2023-05-08 | 2023-10-17 | 国网浙江省电力有限公司宁波供电公司 | Automatic diagnosis method for experimental data of power system |
CN117112859B (en) * | 2023-06-16 | 2024-05-14 | 中国联合网络通信有限公司深圳市分公司 | Display method, device and computer readable storage medium for population movement evolution |
CN117370899B (en) * | 2023-12-08 | 2024-02-20 | 中国地质大学(武汉) | Ore control factor weight determining method based on principal component-decision tree model |
CN117493856B (en) * | 2024-01-03 | 2024-06-14 | 佛山科学技术学院 | Random forest-based method and equipment for analyzing characteristic factors of fruit picking |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109242021A (en) | 2018-09-07 | 2019-01-18 | 浙江财经大学 | A kind of classification prediction technique based on multistage mixed model |
US20190197578A1 (en) | 2017-12-26 | 2019-06-27 | c/o Datorama Technologies, Ltd. | Generating significant performance insights on campaigns data |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100543749C (en) * | 2007-10-18 | 2009-09-23 | 中兴通讯股份有限公司 | The method that the data of a plurality of data sources are unified to sort |
US8818910B1 (en) * | 2013-11-26 | 2014-08-26 | Comrise, Inc. | Systems and methods for prioritizing job candidates using a decision-tree forest algorithm |
CN106856482A (en) * | 2015-12-08 | 2017-06-16 | 中山爱科数字科技股份有限公司 | Health data acquisition method |
CN105931224A (en) * | 2016-04-14 | 2016-09-07 | 浙江大学 | Pathology identification method for routine scan CT image of liver based on random forests |
US20180143199A1 (en) * | 2016-11-23 | 2018-05-24 | The Board Of Trustees Of The Leland Stanford Junior University | Methods of identifying glioblastoma patients as susceptible to anti-angiogenic therapy using quantitative imaging features and molecular profiling |
CN107908732B (en) * | 2017-11-14 | 2020-02-07 | 北京恺思睿思信息技术有限公司 | Mutually isolated multi-source big data fusion analysis method and system |
CN109376750A (en) * | 2018-06-15 | 2019-02-22 | 武汉大学 | A kind of Remote Image Classification merging medium-wave infrared and visible light |
CN109194523B (en) * | 2018-10-01 | 2021-07-30 | 西安电子科技大学 | Privacy protection multi-party diagnosis model fusion method and system and cloud server |
CN110728291B (en) * | 2019-07-12 | 2022-02-22 | 之江实验室 | Feature importance ranking system based on random forest algorithm in multi-center mode |
-
2019
- 2019-07-12 CN CN201910629792.1A patent/CN110728291B/en active Active
-
2020
- 2020-04-07 JP JP2021532354A patent/JP7064681B2/en active Active
- 2020-04-07 WO PCT/CN2020/083589 patent/WO2020233259A1/en active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190197578A1 (en) | 2017-12-26 | 2019-06-27 | c/o Datorama Technologies, Ltd. | Generating significant performance insights on campaigns data |
CN109242021A (en) | 2018-09-07 | 2019-01-18 | 浙江财经大学 | A kind of classification prediction technique based on multistage mixed model |
Also Published As
Publication number | Publication date |
---|---|
JP2022508333A (en) | 2022-01-19 |
CN110728291B (en) | 2022-02-22 |
CN110728291A (en) | 2020-01-24 |
WO2020233259A1 (en) | 2020-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7064681B2 (en) | Feature importance sorting system based on random forest algorithm in multi-center mode | |
US20220254493A1 (en) | Chronic disease prediction system based on multi-task learning model | |
Anand et al. | Prediction of diabetes based on personal lifestyle indicators | |
Nahiduzzaman et al. | Hybrid CNN-SVD based prominent feature extraction and selection for grading diabetic retinopathy using extreme learning machine algorithm | |
US20170147777A1 (en) | Method and apparatus for predicting health data value through generation of health data pattern | |
CN103729395A (en) | Method and system for inferring inquiry answer | |
Nuankaew et al. | Average weighted objective distance-based method for type 2 diabetes prediction | |
CN115497616B (en) | Method, system, equipment and storage medium for auxiliary decision-making of infectious diseases | |
Nabi et al. | Machine learning approach: Detecting polycystic ovary syndrome & it's impact on bangladeshi women | |
Singh | Prediction of Thyroid Disease using Deep Learning Techniques | |
Manna et al. | Diabetes prediction model using cloud analytics | |
Shukla et al. | Cloud computing with artificial intelligence techniques for effective disease detection | |
CN112435745B (en) | Method and device for recommending treatment strategy, electronic equipment and storage medium | |
CN116469534B (en) | Hospital number calling management system and method thereof | |
Evirgen et al. | Prediction and diagnosis of diabetic retinopathy using data mining technique | |
CN115966314B (en) | Data processing method and device, electronic equipment and storage medium | |
CN112336310A (en) | Heart disease diagnosis system based on FCBF and SVM fusion | |
Xao et al. | Fasting blood glucose change prediction model based on medical examination data and data mining techniques | |
Xie et al. | Predicting the risk of stroke based on imbalanced data set with missing data | |
Nalavade et al. | Impelling Heart Attack Prediction System using Data Mining and Artificial Neural Network | |
Das et al. | Application of neural network and machine learning in mental health diagnosis | |
Cabras et al. | Biological Age Imputation by Data Depth: A Proposal and Some Preliminary Results | |
Atif et al. | Missing data analysis in longitudinal studies: Findings from a quality of life study in Malaysian tuberculosis patients | |
Çokçetn et al. | Machine Learning-Based Biometric Authentication with Photoplethysmography Signal | |
Jyothi et al. | DISEASE PREDICTION USING NAIVE BAYES, RANDOM FOREST, DECISION TREE, KNN ALGORITHMS. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210607 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210618 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220328 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220330 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7064681 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |