JP7064681B2 - Feature importance sorting system based on random forest algorithm in multi-center mode - Google Patents

Feature importance sorting system based on random forest algorithm in multi-center mode Download PDF

Info

Publication number
JP7064681B2
JP7064681B2 JP2021532354A JP2021532354A JP7064681B2 JP 7064681 B2 JP7064681 B2 JP 7064681B2 JP 2021532354 A JP2021532354 A JP 2021532354A JP 2021532354 A JP2021532354 A JP 2021532354A JP 7064681 B2 JP7064681 B2 JP 7064681B2
Authority
JP
Japan
Prior art keywords
feature
center
random forest
importance
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021532354A
Other languages
Japanese (ja)
Other versions
JP2022508333A (en
Inventor
▲勁▼松 李
▲豊▼ 王
佩君 胡
▲瑩▼ ▲張▼
子▲ユエ▼ ▲楊▼
Original Assignee
之江実験室
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 之江実験室 filed Critical 之江実験室
Publication of JP2022508333A publication Critical patent/JP2022508333A/en
Application granted granted Critical
Publication of JP7064681B2 publication Critical patent/JP7064681B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Description

本発明は特徴選択技術分野に属し、特にマルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステムに関する。 The present invention belongs to the field of feature selection technology, and particularly relates to a feature importance sorting system based on a random forest algorithm in a multi-center mode.

特徴選択は特徴空間次元を削減するために、1組の特徴からいくつかの最も効果的な特徴を選択する過程である。特徴選択は特徴数を減少し、次元を削減し、モデルの汎化性能を向上させ、オーバーフィッティングを減少し、特徴及び特徴値への理解を強化することができ、データ科学分野の肝心な問題の1つである。生物医学分野では、常にオーミクスデータセット等の高次元データを処理する必要があり、一般的に、変数の数が個体の数より遥かに大きく、このような場合、特徴選択の意味は特に重要となる。ランダムフォレストは生物医学分野で広く応用されている統合学習アルゴリズムであり、分類過程において変数重要度の推定を行うことができ、効果的な特徴選択アルゴリズムと見なされている。 Feature selection is the process of selecting some of the most effective features from a set of features in order to reduce the feature space dimension. Feature selection can reduce the number of features, reduce dimensions, improve model generalization performance, reduce overfitting, and enhance understanding of features and feature values, a key issue in the field of data science. It is one of. In the field of biomedicine, it is always necessary to process high-dimensional data such as ohmics datasets, and in general, the number of variables is much larger than the number of individuals, and in such cases, the meaning of feature selection is particularly important. Will be. Random forest is an integrated learning algorithm widely applied in the field of biomedicine, which can estimate the importance of variables in the classification process and is regarded as an effective feature selection algorithm.

マルチセンターにおけるデータ協調計算はビッグデータの背景で出現する応用シーンであり、地域で分散状態にある1つのグループがコンピュータ及びネットワーク技術を利用して互いに協力して1つのタスクを遂行することを意味する。マルチセンターにおけるデータに基づいて特徴選択を行うことは、そのうちの1つの重要な問題である。ビッグデータの背景で、各センターデータ協調計算の需要は大きくなっている。 Data co-calculation in a multi-center is an application scene that emerges in the background of big data, meaning that one group in a distributed state in a region cooperates with each other to perform one task using computer and network technology. do. Feature selection based on data in a multi-center is one of the important issues. In the background of big data, the demand for co-calculation of center data is increasing.

従来の解決案は、各センターのデータを取り出してセンターサーバーに集め、次に、センターサーバーにおいて特徴選択を行ってグローバルな特徴選択結果を取得する必要がある。ところが、データを各センターから取り出す過程は潜在的な危険が多く、データ漏洩等の安全上の問題を引き起こす恐れがあり、センター同士の協調計算の積極性を大きく損なってしまう。特に、生物医学分野では、各センター即ち各病院のデータには治療のために病院に来る患者のプライバシーが含まれ、データを取り出して集中処理する方法は患者のプライバシーの保護にとって不利になり、リスクが大きい。 In the conventional solution, it is necessary to take out the data of each center and collect it in the center server, and then perform feature selection on the center server to obtain the global feature selection result. However, the process of extracting data from each center has many potential dangers and may cause safety problems such as data leakage, which greatly impairs the positiveness of cooperative calculation between centers. Especially in the field of biomedicine, the data of each center, that is, each hospital, includes the privacy of patients who come to the hospital for treatment, and the method of extracting and centralizing the data is disadvantageous and risky for protecting the privacy of patients. Is big.

本発明の目的は、従来技術の欠点に対して、実際の需要に応じて、各センターのデータを漏洩しない条件で、マルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステムを提供することにあり、該システムにおいて、各センターのデータを常に各センターにあり、センターサーバーにモデルの中間パラメータのみを送信し、元のデータを送信せず、最終的に安全で効果的なグローバルな特徴重要度ソート結果を取得する。 An object of the present invention is to provide a feature importance sorting system based on a random forest algorithm in a multi-center mode under the condition that the data of each center is not leaked according to the actual demand against the shortcomings of the prior art. Yes, in the system, the data of each center is always in each center, only the intermediate parameters of the model are sent to the center server, the original data is not sent, and finally the safe and effective global feature importance. Get the sort result.

本発明の目的は以下の技術案により実現される。
マルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステムであって、
協調計算に参加する各センターに配置されるフロントエンドプロセッサと、各センター特徴重要度ソート結果を受信して統合するセンターサーバーと、最終的な特徴重要度ソート結果をユーザーにフィードバックする結果表示モジュールと、を備え、
前記フロントエンドプロセッサは各センターのデータベースインターフェースからデータを読み取り、ランダムフォレストアルゴリズムにより該センターの特徴重要度ソート結果を計算することに用いられ、その具体的な計算ステップは、
該センターデータベースインターフェースからデータをサンプルセットとして読み取るステップAと、
ブートストラップ法(bootstrap)でサンプルセットからn個のサンプルを1つのトレーニングセットとしてランダムに選択するステップBと、
サンプリングにより取得されたトレーニングセットで1つの決定木を生成し、決定木の各ノードでいずれもd個の特徴をランダムに繰り返しなしで選択し、これらのd個の特徴を利用してそれぞれトレーニングセットを区画するステップCと、
ステップB~Cを合計q回繰り返し、qがランダムフォレストにおける決定木の個数であるステップDと、
トレーニングにより取得されたランダムフォレストでサンプルセットを予測するステップEと、
ジニ指数を評価指標として利用してステップEの予測結果に対して特徴重要度ソートを行うステップFと、
を含み、
前記ステップFは、
サンプルセットにh個の特徴

Figure 0007064681000001
があると仮定するとき、各特徴Xについて、ノードmにおける特徴Xの重要度
Figure 0007064681000002
即ちノードmの分岐前後のジニ指数変化量を計算し、その式が以下のとおりであり、
Figure 0007064681000003
式中、GIが分岐前のノードmのジニ指数を示し、GIとGIがそれぞれ分岐後の新しい2つのノードl及びノードrのジニ指数を示し、ジニ指数の計算式が以下のとおりであり、
Figure 0007064681000004
KがK個の類別があることを示し、pxkがノードxにおける類別kが占有する比率を示すサブステップa)と、
特徴Xが決定木iに出現するノードは集合Eを構成すると仮定すれば、i番目の決定木におけるXの重要度
Figure 0007064681000005
が、
Figure 0007064681000006
であるサブステップb)と、
ランダムフォレストにq個の決定木があると仮定するとき、各特徴Xのジニ指数スコア
Figure 0007064681000007
即ちランダムフォレストのすべての決定木におけるj番目の特徴のノード分割不純度の平均変化量を計算し、その式が
Figure 0007064681000008
であるサブステップc)と、
特徴Xのジニ指数スコア
Figure 0007064681000009
を正規化処理し、その式が、
Figure 0007064681000010
であるサブステップd)と、
すべての特徴の正規化後のジニ指数スコアを降順ソートするサブステップe)と、を含み、
前記センターサーバーがグローバルな特徴重要度ソート結果を計算することは、
各センターから送信された特徴重要度ソート結果を受信するサブステップAと、
各特徴について、すべてのセンターにおける該特徴のジニ指数スコアの平均値をグローバルな特徴重要度値として求めるサブステップBと、
グローバルな特徴重要度値の降順で、特徴を改めてソートするサブステップCと、を含むことを特徴とするマルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステム。 The object of the present invention is realized by the following technical proposals.
A feature importance sorting system based on the Random Forest algorithm in multi-center mode.
A front-end processor located in each center participating in the co-calculation, a center server that receives and integrates each center feature importance sort result, and a result display module that feeds back the final feature importance sort result to the user. , Equipped with
The front-end processor reads data from the database interface of each center and is used to calculate the feature importance sort result of the center by a random forest algorithm, and the specific calculation step is
Step A, which reads the data from the center database interface as a sample set,
Step B, in which n samples are randomly selected as one training set from the sample set by the bootstrap method, and
One decision tree is generated from the training set obtained by sampling, d features are randomly selected at each node of the decision tree without repetition, and each of these d features is used for the training set. Step C to partition
Steps B to C are repeated q times in total, and step D, in which q is the number of decision trees in the random forest, and
Step E, which predicts the sample set in the random forest acquired by training,
Step F, which sorts the feature importance of the prediction result of step E using the Gini index as an evaluation index,
Including
The step F is
H features in the sample set
Figure 0007064681000001
Assuming that there is, for each feature X j , the importance of the feature X j at the node m
Figure 0007064681000002
That is, the amount of change in the Gini index before and after the branch of the node m is calculated, and the formula is as follows.
Figure 0007064681000003
In the formula, GI m indicates the Gini index of the node m before branching, GI l and GI r indicate the Gini index of the two new nodes l and node r after branching, respectively, and the calculation formula of the Gini index is as follows. And
Figure 0007064681000004
Sub-step a), in which K indicates that there are K classifications, and pxk indicates the ratio occupied by the classification k in the node x.
Assuming that the nodes in which the feature X j appears in the decision tree i constitute the set E, the importance of X j in the i-th decision tree
Figure 0007064681000005
but,
Figure 0007064681000006
Substep b), which is
Assuming there are q decision trees in a random forest, the Gini index score for each feature Xj
Figure 0007064681000007
That is, the average change amount of the node division impureness of the jth feature in all the decision trees of the random forest is calculated, and the formula is
Figure 0007064681000008
Substep c), which is
Feature Xj Gini index score
Figure 0007064681000009
Is normalized and the expression is
Figure 0007064681000010
Substep d), which is
Substep e) to sort the normalized Gini index scores of all features in descending order, including
It is not possible for the center server to calculate the global feature importance sort result.
Sub-step A, which receives the feature importance sort result sent from each center, and
For each feature, substep B, which obtains the average value of the Gini index scores of the feature at all centers as the global feature importance value,
A feature importance sorting system based on a random forest algorithm in a multicenter mode, comprising substep C, which sorts features again in descending order of global feature importance values.

本発明の有益な効果は、以下の通りである。
本発明は、マルチセンターのランダムフォレストアルゴリズムに基づいて各センターにおいてそれぞれ特徴重要度ソート結果を計算し、センターサーバーにおいて各センターのソート結果を統合してグローバルな特徴重要度ソート結果を形成するということである。本発明は、各センターのデータを漏洩しない条件で、該システムにおいて各センターのデータを常にセンターにあり、センターサーバーにモデルの中間パラメータのみを送信し、元のデータを送信しないため、データセキュリティ及びデータに含まれる個人のプライバシーを効果的に確保する。
The beneficial effects of the present invention are as follows.
The present invention calculates the feature importance sort result at each center based on the multi-center random forest algorithm, and integrates the sort results of each center at the center server to form a global feature importance sort result. Is. In the present invention, under the condition that the data of each center is not leaked, the data of each center is always in the center in the system, only the intermediate parameters of the model are transmitted to the center server, and the original data is not transmitted. Effectively ensure the privacy of the individuals contained in the data.

図1は本発明に係るマルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステムの実現フローチャートである。FIG. 1 is a flowchart for realizing a feature importance sorting system based on a random forest algorithm in the multi-center mode according to the present invention. 図2は本発明に係るマルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステムの構成ブロック図である。FIG. 2 is a block diagram of a feature importance sorting system based on the random forest algorithm in the multi-center mode according to the present invention. 図3は各センターのフロントエンドプロセッサにおける特徴重要度ソートのフローチャートである。FIG. 3 is a flowchart of feature importance sorting in the front-end processor of each center. 図4はセンターサーバーにおけるグローバルな重要度ソートのフローチャートである。FIG. 4 is a flowchart of global importance sorting in the center server.

以下、図面を参照しながら具体的な実施例によって本発明を更に詳しく説明する。 Hereinafter, the present invention will be described in more detail by way of specific examples with reference to the drawings.

図1及び図2に示すように、本発明に係るマルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステムは、協調計算に参加する各センターに配置されるフロントエンドプロセッサと、各センター特徴重要度ソート結果を受信して統合するセンターサーバーと、最終的な特徴重要度ソート結果をユーザーにフィードバックする結果表示モジュールと、を備える。 As shown in FIGS. 1 and 2, the feature importance sorting system based on the random forest algorithm in the multi-center mode according to the present invention includes a front-end processor placed in each center participating in the cooperative calculation and each center feature importance. It has a center server that receives and integrates the degree sort result, and a result display module that feeds back the final feature importance sort result to the user.

前記フロントエンドプロセッサは各センターのデータベースインターフェースからデータを読み取り、ランダムフォレストアルゴリズムにより該センターの特徴重要度ソート結果を計算することに用いられ、図3に示すように、具体的な計算ステップは、以下のとおりである。
ステップA:該センターデータベースインターフェースからデータをサンプルセットとして読み取る;
ステップB:ブートストラップ法(bootstrap)でサンプルセットからn個のサンプルを1つのトレーニングセットとしてランダムに選択する;
ステップC:サンプリングにより取得されたトレーニングセットで1つの決定木を生成し、決定木の各ノードでいずれもd個の特徴をランダムに繰り返しなしで選択し、これらのd個の特徴を利用してそれぞれトレーニングセットを区画する;
ステップD:ステップB~Cを合計q回繰り返し、qがランダムフォレストにおける決定木の個数である;
ステップE:トレーニングにより取得されたランダムフォレストでサンプルセットを予測する;
ステップF:ジニ指数を評価指標として利用してステップEの予測結果に対して特徴重要度ソートを行う。
該ステップFは、
サンプルセットにh個の特徴

Figure 0007064681000011
があると仮定するとき、各特徴Xについて、ノードmにおける特徴Xの重要度
Figure 0007064681000012
即ちノードmの分岐前後のジニ指数変化量を計算し、その式が以下のとおりであり、
Figure 0007064681000013
式中、GIが分岐前のノードmのジニ指数を示し、GIとGIがそれぞれ分岐後の新しい2つのノードl及びノードrのジニ指数を示し、ジニ指数の計算式が以下のとおりであり、
Figure 0007064681000014
KがK個の類別があることを示し、pxkがノードxにおける類別kが占有する比率を示すサブステップa)と、
特徴Xが決定木iに出現するノードは集合Eを構成すると仮定すれば、i番目の決定木におけるXの重要度
Figure 0007064681000015
が、
Figure 0007064681000016
であるサブステップb)と、
ランダムフォレストにq個の決定木があると仮定するとき、各特徴Xのジニ指数スコア
Figure 0007064681000017
即ちランダムフォレストのすべての決定木におけるj番目の特徴のノード分割不純度の平均変化量を計算し、その式が
Figure 0007064681000018
であるサブステップc)と、
特徴Xのジニ指数スコア
Figure 0007064681000019
を正規化処理し、その式が、
Figure 0007064681000020
であるサブステップd)と、
すべての特徴の正規化後のジニ指数スコアを降順ソートするサブステップe)と、を含み、
前記センターサーバーがグローバルな特徴重要度ソート結果を計算することは、図4に示すように、
各センターから送信された特徴重要度ソート結果を受信するサブステップAと、
各特徴について、すべてのセンターにおける該特徴のジニ指数スコアの平均値をグローバルな特徴重要度値として求めるサブステップBと、
グローバルな特徴重要度値の降順で、特徴を改めてソートするサブステップCと、を含む。 The front-end processor reads data from the database interface of each center and is used to calculate the feature importance sort result of the center by a random forest algorithm. As shown in FIG. 3, the specific calculation steps are as follows. It is as follows.
Step A: Read the data as a sample set from the center database interface;
Step B: Randomly select n samples from the sample set as one training set by the bootstrap method;
Step C: Generate one decision tree from the training set obtained by sampling, select d features randomly and without repetition at each node of the decision tree, and use these d features. Separate training sets for each;
Step D: Steps B to C are repeated a total of q times, where q is the number of decision trees in the random forest;
Step E: Predict the sample set in the random forest acquired by training;
Step F: Using the Gini index as an evaluation index, the feature importance sort is performed on the prediction result of step E.
The step F is
H features in the sample set
Figure 0007064681000011
Assuming that there is, for each feature X j , the importance of the feature X j at the node m
Figure 0007064681000012
That is, the amount of change in the Gini index before and after the branch of the node m is calculated, and the formula is as follows.
Figure 0007064681000013
In the formula, GI m indicates the Gini index of the node m before branching, GI l and GI r indicate the Gini index of the two new nodes l and node r after branching, respectively, and the calculation formula of the Gini index is as follows. And
Figure 0007064681000014
Sub-step a), in which K indicates that there are K classifications, and pxk indicates the ratio occupied by the classification k in the node x.
Assuming that the nodes in which the feature X j appears in the decision tree i constitute the set E, the importance of X j in the i-th decision tree
Figure 0007064681000015
but,
Figure 0007064681000016
Substep b), which is
Assuming there are q decision trees in a random forest, the Gini index score for each feature Xj
Figure 0007064681000017
That is, the average change amount of the node division impureness of the jth feature in all the decision trees of the random forest is calculated, and the formula is
Figure 0007064681000018
Substep c), which is
Feature Xj Gini index score
Figure 0007064681000019
Is normalized and the expression is
Figure 0007064681000020
Substep d), which is
Substep e) to sort the normalized Gini index scores of all features in descending order, including
As shown in FIG. 4, the center server calculates the global feature importance sort result.
Sub-step A, which receives the feature importance sort result sent from each center, and
For each feature, substep B, which obtains the average value of the Gini index scores of the feature at all centers as the global feature importance value,
Includes substep C, which sorts the features again in descending order of global feature importance values.

以下はマルチセンターモードにおけるランダムフォレストアルゴリズムに基づく、身体検査データから糖尿病リスクを予測する特徴重要度ソートシステムを示す1つの具体的な例である。該システムは、協調計算に参加する各病院内に配置されるフロントエンドプロセッサと、各病院の特徴重要度ソート結果を受信して統合するセンターサーバーと、最終的な特徴重要度ソート結果をユーザーにフィードバックする結果表示モジュールと、を備える。 The following is one specific example showing a feature importance sorting system that predicts diabetes risk from physical examination data based on a random forest algorithm in multicenter mode. The system provides users with a front-end processor located within each hospital participating in the co-calculation, a center server that receives and integrates the feature importance sort results of each hospital, and the final feature importance sort results. It is equipped with a result display module that provides feedback.

前記フロントエンドプロセッサは各病院のデータベースインターフェースから身体検査データを読み取り、ランダムフォレストアルゴリズムにより糖尿病リスクを予測し、該病院内の糖尿病リスクの特徴重要度ソート結果を計算することに用いられ、その具体的な計算ステップは、以下のとおりである。
ステップA:該病院のデータベースインターフェースから身体検査データをサンプルセットとして読み取り、合計5000例の身体検査データがあると仮定する;
ステップB:ブートストラップ法(bootstrap)でサンプルセットから70個のサンプルを1つのトレーニングセットとしてランダムに選択する;
ステップC:サンプリングにより取得されたトレーニングセットで1つの決定木を生成し、決定木の各ノードでいずれも7つの特徴をランダムに繰り返しなしで選択し、これらの7つの特徴を利用してそれぞれトレーニングセットを区画する;
ステップD:ステップB~Cを合計15回繰り返し、15がランダムフォレストにおける決定木の個数である;
ステップE:トレーニングにより取得されたランダムフォレストでサンプルセットを予測する;
ステップF:ジニ指数を評価指標として利用してステップEの予測結果に対して特徴重要度ソートを行う。
該ステップFは、
サンプルセットには、年齢、性別、教育レベル、胴囲、血液型、収縮期血圧、ヘモグロビン等の特徴50個があると仮定し、これらの特徴を

Figure 0007064681000021
とする。各特徴Xについて、ノードmにおける特徴Xの重要度
Figure 0007064681000022
即ちノードmの分岐前後のジニ指数変化量を計算し、その式が以下のとおりであり、
Figure 0007064681000023
式中、GIが分岐前のノードmのジニ指数を示し、GIとGIがそれぞれ分岐後の新しい2つのノードl及びノードrのジニ指数を示し、ジニ指数の計算式が以下のとおりであり、
Figure 0007064681000024
KがK個の類別があることを示し、pxkがノードxにおける類別kが占有する比率を示すサブステップa)と、
特徴Xが決定木iに出現するノードは集合Eを構成すると仮定すれば、i番目の決定木におけるXの重要度
Figure 0007064681000025
が、
Figure 0007064681000026
であるサブステップb)と、
ランダムフォレストに15個の決定木があることが知られ、各特徴Xのジニ指数スコア
Figure 0007064681000027
即ちランダムフォレストのすべての決定木におけるj番目の特徴のノード分割不純度の平均変化量を計算し、その式が
Figure 0007064681000028
であるサブステップc)と、
特徴Xのジニ指数スコア
Figure 0007064681000029
を正規化処理し、その式が
Figure 0007064681000030
であるサブステップd)と、
すべての特徴の正規化後のジニ指数スコアを降順ソートするサブステップe)と、を含み、
前記センターサーバーは身体検査データにおける糖尿病リスクに影響するグローバルな特徴重要度ソート結果を計算し、該ステップは、
各病院から送信された特徴重要度ソート結果を受信するサブステップAと、
各特徴について、すべての病院における該特徴のジニ指数スコアの平均値をグローバルな特徴重要度値として求め、例えば、特徴的な糖化ヘモグロビンについて、病院1における特徴重要度スコアは0.182483であり、病院2における特徴重要度スコアは0.150948であり、病院3における特徴重要度スコアは0.078243である場合、病院1、病院2、病院3が共同で開催したマルチセンター身体検査データ糖尿病リスク予測研究におけるグローバルな特徴重要度値は(0.182483+0.150948+0.078243)/3=0.137224であるサブステップBと、
グローバルな特徴重要度値の降順で、特徴を改めてソートするサブステップCと、を含む。 The front-end processor reads physical examination data from each hospital's database interface, predicts diabetes risk by a random forest algorithm, and is used to calculate the characteristic importance sort result of diabetes risk in the hospital. The calculation steps are as follows.
Step A: Read the physical examination data as a sample set from the hospital's database interface and assume that there is a total of 5000 physical examination data;
Step B: 70 samples are randomly selected as one training set from the sample set by the bootstrap method;
Step C: Generate one decision tree from the training set obtained by sampling, select 7 features at random and without repetition at each node of the decision tree, and train each of these 7 features. Divide the set;
Step D: Steps B to C are repeated a total of 15 times, where 15 is the number of decision trees in the random forest;
Step E: Predict the sample set in the random forest acquired by training;
Step F: Using the Gini index as an evaluation index, the feature importance sort is performed on the prediction result of step E.
The step F is
Assuming that the sample set has 50 characteristics such as age, gender, education level, waist circumference, blood type, systolic blood pressure, hemoglobin, etc., these characteristics are used.
Figure 0007064681000021
And. For each feature X j , the importance of the feature X j at the node m
Figure 0007064681000022
That is, the amount of change in the Gini index before and after the branch of the node m is calculated, and the formula is as follows.
Figure 0007064681000023
In the formula, GI m indicates the Gini index of the node m before branching, GI l and GI r indicate the Gini index of the two new nodes l and node r after branching, respectively, and the calculation formula of the Gini index is as follows. And
Figure 0007064681000024
Sub-step a), in which K indicates that there are K classifications, and pxk indicates the ratio occupied by the classification k in the node x.
Assuming that the nodes in which the feature X j appears in the decision tree i constitute the set E, the importance of X j in the i-th decision tree
Figure 0007064681000025
but,
Figure 0007064681000026
Substep b), which is
It is known that there are 15 decision trees in Random Forest, and the Gini index score of each feature Xj .
Figure 0007064681000027
That is, the average change amount of the node division impureness of the jth feature in all the decision trees of the random forest is calculated, and the formula is
Figure 0007064681000028
Substep c), which is
Feature Xj Gini index score
Figure 0007064681000029
Is normalized and the expression is
Figure 0007064681000030
Substep d), which is
Substep e) to sort the normalized Gini index scores of all features in descending order, including
The center server calculates the global feature importance sort results that affect the risk of diabetes in the physical examination data, and the step is
Sub-step A to receive the feature importance sort result sent from each hospital, and
For each feature, the average value of the gini index scores of the feature in all hospitals is calculated as the global feature importance value. For example, for characteristic glycated hemoglobin, the feature importance score in hospital 1 is 0.1822483. If the feature importance score in hospital 2 is 0.150948 and the feature importance score in hospital 3 is 0.078243, the multi-center physical examination data jointly held by hospital 1, hospital 2, and hospital 3 predicts diabetes risk. Substep B, where the global feature importance value in the study is (0.182483 + 0.150948 + 0.078243) /3=0.123724,
Includes substep C, which sorts the features again in descending order of global feature importance values.

本発明は各サイトでジニ指数に基づく局所変数重要度ソートを計算して、センターサーバーに送信する。センターサーバーは各サイトの変数重要度ソートを統合して計算し、最終的なソート結果を取得する。この過程において、センターサーバーは各サイトの変数重要度ソート結果のみを受信し、患者レベルまでのデータを交換する必要がないため、効果的なグローバルな解を取得するだけでなく、データの安全性を効果的に確保し、特徴選別モデルの構築に安全・確実で効率的な解決案を提供する。 The present invention calculates a local variable importance sort based on the Gini index at each site and sends it to the center server. The center server integrates and calculates the variable importance sorts for each site and gets the final sort result. In this process, the center server receives only the variable importance sort results for each site and does not need to exchange data down to the patient level, so not only does it get an effective global solution, but it also secures the data. Effectively secure and provide a safe, reliable and efficient solution for building a feature selection model.

上記は本発明の実施例に過ぎず、本発明の保護範囲を制限するためのものではない。本発明の趣旨や原則でに創造的労働を経ずに行われたいかなる修正、等価置換、改良等は、いずれも本発明の保護範囲内に含まれるべきである。 The above is only an embodiment of the present invention and is not intended to limit the scope of protection of the present invention. Any modifications, equivalent substitutions, improvements, etc. made to the intent or principle of the invention without creative labor should be included within the scope of the invention.

Claims (1)

マルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステムであって、
協調計算に参加する各センターに配置されるフロントエンドプロセッサと、各センター特徴重要度ソート結果を受信して統合するセンターサーバーと、最終的な特徴重要度ソート結果をユーザーにフィードバックする結果表示モジュールと、を備え、
前記フロントエンドプロセッサは各センターのデータベースインターフェースからデータを読み取り、ランダムフォレストアルゴリズムにより該センターの特徴重要度ソート結果を計算することに用いられ、その具体的な計算ステップは、
該センターデータベースインターフェースからデータをサンプルセットとして読み取るステップAと、
ブートストラップ法(bootstrap)でサンプルセットからn個のサンプルを1つのトレーニングセットとしてランダムに選択するステップBと、
サンプリングにより取得されたトレーニングセットで1つの決定木を生成し、決定木の各ノードでいずれもd個の特徴をランダムに繰り返しなしで選択し、これらのd個の特徴を利用してそれぞれトレーニングセットを区画するステップCと、
ステップB~Cを合計q回繰り返し、qがランダムフォレストにおける決定木の個数であるステップDと、
トレーニングにより取得されたランダムフォレストでサンプルセットを予測するステップEと、
ジニ指数を評価指標として利用してステップEの予測結果に対して特徴重要度ソートを行うステップFと、
を含み、
前記ステップFは、
サンプルセットにh個の特徴
Figure 0007064681000031
がある場合に、各特徴Xについて、ノードmにおける特徴Xの重要度
Figure 0007064681000032
即ちノードmの分岐前後のジニ指数変化量を計算し、その式が以下のとおりであり、
Figure 0007064681000033
式中、GIが分岐前のノードmのジニ指数を示し、GIとGIがそれぞれ分岐後の2つの新しいノードl及びノードrのジニ指数を示し、ジニ指数の計算式が以下のとおりであり、
Figure 0007064681000034
KがK個の類別があることを示し、pxkがノードxにおける類別kが占有する比率を示すサブステップa)と、
特徴Xが決定木iに出現するノードは集合Eを構成する場合に、i番目の決定木におけるXの重要度
Figure 0007064681000035
が、
Figure 0007064681000036
であるサブステップb)と、
ランダムフォレストにq個の決定木がある場合に、各特徴Xのジニ指数スコア
Figure 0007064681000037
即ちランダムフォレストのすべての決定木におけるj番目の特徴のノード分割不純度の平均変化量を計算し、その式が
Figure 0007064681000038
であるサブステップc)と、
特徴Xのジニ指数スコア
Figure 0007064681000039
を正規化処理し、その式が、
Figure 0007064681000040
であるサブステップd)と、
すべての特徴の正規化後のジニ指数スコアを降順ソートするサブステップe)と、を含み、
前記センターサーバーがグローバルな特徴重要度ソート結果を計算することは、
各センターから送信された特徴重要度ソート結果を受信するサブステップAと、
各特徴について、すべてのセンターにおける該特徴のジニ指数スコアの平均値をグローバルな特徴重要度値として求めるサブステップBと、
グローバルな特徴重要度値の降順で、特徴を改めてソートするサブステップCと、を含むことを特徴とするマルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステム。
A feature importance sorting system based on the Random Forest algorithm in multi-center mode.
A front-end processor located in each center participating in the co-calculation, a center server that receives and integrates each center feature importance sort result, and a result display module that feeds back the final feature importance sort result to the user. , Equipped with
The front-end processor reads data from the database interface of each center and is used to calculate the feature importance sort result of the center by a random forest algorithm, and the specific calculation step is
Step A, which reads the data from the center database interface as a sample set,
Step B, in which n samples are randomly selected as one training set from the sample set by the bootstrap method, and
One decision tree is generated from the training set obtained by sampling, d features are randomly selected at each node of the decision tree without repetition, and each of these d features is used for the training set. Step C to partition
Steps B to C are repeated q times in total, and step D, in which q is the number of decision trees in the random forest, and
Step E, which predicts the sample set in the random forest acquired by training,
Step F, which sorts the feature importance of the prediction result of step E using the Gini index as an evaluation index,
Including
The step F is
H features in the sample set
Figure 0007064681000031
If there is, for each feature X j , the importance of the feature X j at the node m
Figure 0007064681000032
That is, the amount of change in the Gini index before and after the branch of the node m is calculated, and the formula is as follows.
Figure 0007064681000033
In the formula, GI m indicates the Gini index of the node m before branching, GI l and GI r indicate the Gini index of the two new nodes l and node r after branching, respectively, and the calculation formula of the Gini index is as follows. And
Figure 0007064681000034
Sub-step a), in which K indicates that there are K classifications, and pxk indicates the ratio occupied by the classification k in the node x.
When the node in which the feature X j appears in the decision tree i constitutes the set E, the importance of X j in the i-th decision tree
Figure 0007064681000035
but,
Figure 0007064681000036
Substep b), which is
Gini index score for each feature X j when there are q decision trees in a random forest
Figure 0007064681000037
That is, the average change amount of the node division impureness of the jth feature in all the decision trees of the random forest is calculated, and the formula is
Figure 0007064681000038
Substep c), which is
Feature Xj Gini index score
Figure 0007064681000039
Is normalized and the expression is
Figure 0007064681000040
Substep d), which is
Substep e) to sort the normalized Gini index scores of all features in descending order, including
It is not possible for the center server to calculate the global feature importance sort result.
Sub-step A, which receives the feature importance sort result sent from each center, and
For each feature, substep B, which obtains the average value of the Gini index scores of the feature at all centers as the global feature importance value,
A feature importance sorting system based on a random forest algorithm in a multicenter mode, comprising substep C, which sorts features again in descending order of global feature importance values.
JP2021532354A 2019-07-12 2020-04-07 Feature importance sorting system based on random forest algorithm in multi-center mode Active JP7064681B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910629792.1A CN110728291B (en) 2019-07-12 2019-07-12 Feature importance ranking system based on random forest algorithm in multi-center mode
CN201910629792.1 2019-07-12
PCT/CN2020/083589 WO2020233259A1 (en) 2019-07-12 2020-04-07 Multi-center mode random forest algorithm-based feature importance sorting system

Publications (2)

Publication Number Publication Date
JP2022508333A JP2022508333A (en) 2022-01-19
JP7064681B2 true JP7064681B2 (en) 2022-05-11

Family

ID=69217693

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021532354A Active JP7064681B2 (en) 2019-07-12 2020-04-07 Feature importance sorting system based on random forest algorithm in multi-center mode

Country Status (3)

Country Link
JP (1) JP7064681B2 (en)
CN (1) CN110728291B (en)
WO (1) WO2020233259A1 (en)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728291B (en) * 2019-07-12 2022-02-22 之江实验室 Feature importance ranking system based on random forest algorithm in multi-center mode
CN111401749A (en) * 2020-03-17 2020-07-10 三峡大学 Dynamic safety assessment method based on random forest and extreme learning regression
CN111982299B (en) * 2020-08-14 2021-08-17 国家卫星气象中心(国家空间天气监测预警中心) Dynamic data quality scoring method and system for satellite-borne microwave radiometer
CN112750029A (en) * 2020-12-30 2021-05-04 北京知因智慧科技有限公司 Credit risk prediction method, device, electronic equipment and storage medium
CN112951324A (en) * 2021-02-05 2021-06-11 广州医科大学 Pathogenic synonymous mutation prediction method based on undersampling
CN113408867B (en) * 2021-05-28 2023-07-21 北京大学 Urban burglary crime risk assessment method based on mobile phone user and POI data
CN113762712B (en) * 2021-07-26 2024-04-09 广西大学 Small hydropower cleaning rectification evaluation index screening strategy in big data environment
CN113642629B (en) * 2021-08-09 2023-12-08 厦门大学 Visualization method and device for improving reliability of spectroscopy analysis based on random forest
CN113413163B (en) * 2021-08-24 2021-11-19 山东大学 Heart sound diagnosis system for mixed deep learning and low-difference forest
CN113554519A (en) * 2021-08-25 2021-10-26 山大地纬软件股份有限公司 Medical insurance expenditure risk analysis method and system
CN115001739A (en) * 2022-04-19 2022-09-02 中国电子科技网络信息安全有限公司 Random forest based transverse worm attack detection method
CN115083519B (en) * 2022-05-18 2024-06-14 北京大学第三医院(北京大学第三临床医学院) Gene correlation characteristic fusion prediction method based on multi-source gene database
CN116226767B (en) * 2023-05-08 2023-10-17 国网浙江省电力有限公司宁波供电公司 Automatic diagnosis method for experimental data of power system
CN117112859B (en) * 2023-06-16 2024-05-14 中国联合网络通信有限公司深圳市分公司 Display method, device and computer readable storage medium for population movement evolution
CN117370899B (en) * 2023-12-08 2024-02-20 中国地质大学(武汉) Ore control factor weight determining method based on principal component-decision tree model
CN117493856B (en) * 2024-01-03 2024-06-14 佛山科学技术学院 Random forest-based method and equipment for analyzing characteristic factors of fruit picking

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109242021A (en) 2018-09-07 2019-01-18 浙江财经大学 A kind of classification prediction technique based on multistage mixed model
US20190197578A1 (en) 2017-12-26 2019-06-27 c/o Datorama Technologies, Ltd. Generating significant performance insights on campaigns data

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100543749C (en) * 2007-10-18 2009-09-23 中兴通讯股份有限公司 The method that the data of a plurality of data sources are unified to sort
US8818910B1 (en) * 2013-11-26 2014-08-26 Comrise, Inc. Systems and methods for prioritizing job candidates using a decision-tree forest algorithm
CN106856482A (en) * 2015-12-08 2017-06-16 中山爱科数字科技股份有限公司 Health data acquisition method
CN105931224A (en) * 2016-04-14 2016-09-07 浙江大学 Pathology identification method for routine scan CT image of liver based on random forests
US20180143199A1 (en) * 2016-11-23 2018-05-24 The Board Of Trustees Of The Leland Stanford Junior University Methods of identifying glioblastoma patients as susceptible to anti-angiogenic therapy using quantitative imaging features and molecular profiling
CN107908732B (en) * 2017-11-14 2020-02-07 北京恺思睿思信息技术有限公司 Mutually isolated multi-source big data fusion analysis method and system
CN109376750A (en) * 2018-06-15 2019-02-22 武汉大学 A kind of Remote Image Classification merging medium-wave infrared and visible light
CN109194523B (en) * 2018-10-01 2021-07-30 西安电子科技大学 Privacy protection multi-party diagnosis model fusion method and system and cloud server
CN110728291B (en) * 2019-07-12 2022-02-22 之江实验室 Feature importance ranking system based on random forest algorithm in multi-center mode

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190197578A1 (en) 2017-12-26 2019-06-27 c/o Datorama Technologies, Ltd. Generating significant performance insights on campaigns data
CN109242021A (en) 2018-09-07 2019-01-18 浙江财经大学 A kind of classification prediction technique based on multistage mixed model

Also Published As

Publication number Publication date
JP2022508333A (en) 2022-01-19
CN110728291B (en) 2022-02-22
CN110728291A (en) 2020-01-24
WO2020233259A1 (en) 2020-11-26

Similar Documents

Publication Publication Date Title
JP7064681B2 (en) Feature importance sorting system based on random forest algorithm in multi-center mode
US20220254493A1 (en) Chronic disease prediction system based on multi-task learning model
Anand et al. Prediction of diabetes based on personal lifestyle indicators
Nahiduzzaman et al. Hybrid CNN-SVD based prominent feature extraction and selection for grading diabetic retinopathy using extreme learning machine algorithm
US20170147777A1 (en) Method and apparatus for predicting health data value through generation of health data pattern
CN103729395A (en) Method and system for inferring inquiry answer
Nuankaew et al. Average weighted objective distance-based method for type 2 diabetes prediction
CN115497616B (en) Method, system, equipment and storage medium for auxiliary decision-making of infectious diseases
Nabi et al. Machine learning approach: Detecting polycystic ovary syndrome & it's impact on bangladeshi women
Singh Prediction of Thyroid Disease using Deep Learning Techniques
Manna et al. Diabetes prediction model using cloud analytics
Shukla et al. Cloud computing with artificial intelligence techniques for effective disease detection
CN112435745B (en) Method and device for recommending treatment strategy, electronic equipment and storage medium
CN116469534B (en) Hospital number calling management system and method thereof
Evirgen et al. Prediction and diagnosis of diabetic retinopathy using data mining technique
CN115966314B (en) Data processing method and device, electronic equipment and storage medium
CN112336310A (en) Heart disease diagnosis system based on FCBF and SVM fusion
Xao et al. Fasting blood glucose change prediction model based on medical examination data and data mining techniques
Xie et al. Predicting the risk of stroke based on imbalanced data set with missing data
Nalavade et al. Impelling Heart Attack Prediction System using Data Mining and Artificial Neural Network
Das et al. Application of neural network and machine learning in mental health diagnosis
Cabras et al. Biological Age Imputation by Data Depth: A Proposal and Some Preliminary Results
Atif et al. Missing data analysis in longitudinal studies: Findings from a quality of life study in Malaysian tuberculosis patients
Çokçetn et al. Machine Learning-Based Biometric Authentication with Photoplethysmography Signal
Jyothi et al. DISEASE PREDICTION USING NAIVE BAYES, RANDOM FOREST, DECISION TREE, KNN ALGORITHMS.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210607

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220330

R150 Certificate of patent or registration of utility model

Ref document number: 7064681

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150