JP6815708B2 - インフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体 - Google Patents
インフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体 Download PDFInfo
- Publication number
- JP6815708B2 JP6815708B2 JP2019556833A JP2019556833A JP6815708B2 JP 6815708 B2 JP6815708 B2 JP 6815708B2 JP 2019556833 A JP2019556833 A JP 2019556833A JP 2019556833 A JP2019556833 A JP 2019556833A JP 6815708 B2 JP6815708 B2 JP 6815708B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- candidate
- prediction model
- influenza
- feature set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010022000 influenza Diseases 0.000 title claims description 155
- 238000000034 method Methods 0.000 title claims description 73
- 238000004422 calculation algorithm Methods 0.000 claims description 65
- 230000008569 process Effects 0.000 claims description 34
- 238000000354 decomposition reaction Methods 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 12
- 238000012417 linear regression Methods 0.000 claims description 11
- 238000002790 cross-validation Methods 0.000 claims description 5
- 230000008030 elimination Effects 0.000 claims description 5
- 238000003379 elimination reaction Methods 0.000 claims description 5
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 claims 12
- 238000005259 measurement Methods 0.000 description 6
- 206010011224 Cough Diseases 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 2
- 206010028735 Nasal congestion Diseases 0.000 description 2
- 206010057190 Respiratory tract infections Diseases 0.000 description 2
- 206010046306 Upper respiratory tract infection Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 208000021760 high fever Diseases 0.000 description 2
- 208000037797 influenza A Diseases 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 229940072651 tylenol Drugs 0.000 description 2
- 241000712461 unidentified influenza virus Species 0.000 description 2
- 230000003442 weekly effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
Landscapes
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Complex Calculations (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Description
本願は、パリ条約に基づいて2018年05月31日に中国国家知識産権局に出願された、中国特許出願第201810543749.9号の「インフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体」と題する中国特許出願の優先権を主張し、当該出願の全体が参照によりここに組み込まれる。
複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ARIMAモデルを構築するステップと、
モデルパラメータを決定するように、世情キーワードを取得し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングするステップと、
前記ARIMAモデル及び前記xgboost予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築するステップと、
前記ARIMAモデルの目標時間ユニットに対する第1予測値を状態変数の測定値として、前記xgboost予測モデルの目標時間ユニットに対する第2予測値を状態変数の事前推定値として、現在の前記インフルエンザ予測モデルのカルマンゲインを計算するステップと、
計算されたカルマンゲインに基づき、前記インフルエンザ予測モデルにおける前記ARIMAモデル及び前記xgboost予測モデルの重みを更新し、重み更新後の前記インフルエンザ予測モデルが、前記目標時間ユニットの次の時間ユニットのインフルエンザサンプル症例の百分率を予測するために用いられるステップと、を含む。
複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ARIMAモデルを構築するステップと、
モデルパラメータを決定するように、世情キーワードを取得し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングするステップと、
前記ARIMAモデル及び前記xgboost予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築するステップと、
前記ARIMAモデルの目標時間ユニットに対する第1予測値を状態変数の測定値として、前記xgboost予測モデルの目標時間ユニットに対する第2予測値を状態変数の事前推定値として、現在の前記インフルエンザ予測モデルのカルマンゲインを計算するステップと、
計算されたカルマンゲインに基づき、前記インフルエンザ予測モデルにおける前記ARIMAモデル及び前記xgboost予測モデルの重みを更新し、重み更新後の前記インフルエンザ予測モデルが、前記目標時間ユニットの次の時間ユニットのインフルエンザサンプル症例の百分率を予測するために用いられるステップと、を実現する。
世情キーワードを決定し、前記世情キーワードに基づき、複数の連続した時間ユニット内における世情データ系列を取得するとともに、前記世情データ系列中における世情データを候補特徴として、候補特徴セットを構築するステップと、前記候補特徴セット中における候補特徴に対して、ウェーブレットノイズ除去処理及びトレンド除去処理を行うステップと、特徴の予め設定された数を決定するとともに、ウェーブレットノイズ除去処理及びトレンド除去処理が行われた後の候補特徴セットから前記予め設定された数の候補特徴をスクリーニングし、予測特徴セットを構成するステップと、モデルパラメータを決定するように、前記予測特徴セット及び前記複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率の実際観測値を用いて、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングするステップのような詳しいステップを含んでもよい。
であり、ここで、wは調整前の係数で、は調整後の係数である。
xgboostアルゴリズムに基づき識別器としてモデルを構築し、前記候補特徴セット中における候補特徴を前記識別器に入力し、特徴再帰除去交差検証アルゴリズムによって、モデル性能が予め設定された条件に達する時の特徴数を前記予め設定された数として選択するという方式を採用してもよい。
ここで、上記の式において、測定方程式の測定ゲインH=1であり、Kkはカルマンゲインであり、本実施例において、定数として、組み合わせ予測モデルにおいて、ARIMAモデル及びxgboost予測モデルの重みを決定する。
世情キーワードを決定し、前記世情キーワードに基づき、複数の連続した時間ユニット内における世情データ系列を取得するとともに、前記世情データ系列中における世情データを候補特徴として、候補特徴セットを構築するステップと、前記候補特徴セット中における候補特徴に対して、ウェーブレットノイズ除去処理及びトレンド除去処理を行うステップと、特徴の予め設定された数を決定するとともに、ウェーブレットノイズ除去処理及びトレンド除去処理が行われた後の候補特徴セットから前記予め設定された数の候補特徴をスクリーニングし、予測特徴セットを構成するステップと、モデルパラメータを決定するように、前記予測特徴セット及び前記複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率の実際観測値を用いて、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングするステップのような詳しいステップを含んでもよい。
ウェーブレット基底関数を決定し、前記ウェーブレット基底関数に応じて、前記候補特徴セット中における各特徴の形成した系列に対してウェーブレット分解を行うとともに、分解層数を決定し、ウェーブレットノイズ除去の閾値を決定し、決定された閾値に応じて、ウェーブレット分解後の予測特徴の各階層の係数に対して調整を行い、調整されたウェーブレット係数に対して逆変換再構成を行うことにより、ノイズ除去後の候補特徴を取得し、ウェーブレットノイズ除去処理後の候補特徴セット中における各時間ユニットに対応する候補特徴に対して、該時間ユニットの前の複数の連続した時間ユニットのデータを取得して線形回帰を行い、トレンド予測モデルを構築し、前記トレンド予測モデルに基づき、該時間ユニットに対応するベースライン予測値を取得し、該時間ユニットの候補特徴の実際値から前記ベースライン予測値を差し引くことにより、トレンド除去後の候補特徴を取得するという方式によって実現される。
であり、ここで、wは調整前の係数で、dは調整後の係数である。
xgboostアルゴリズムに基づき識別器としてモデルを構築し、前記候補特徴セット中における候補特徴を前記識別器に入力し、特徴再帰除去交差検証アルゴリズムによって、モデル性能が予め設定された条件に達する時の特徴数を前記予め設定された数として選択するという方式を採用してもよい。
ここで、上記の式において、測定方程式の測定ゲインH=1であり、Kkはカルマンゲインであり、本実施例において、定数として、組み合わせ予測モデルにおいて、ARIMAモデル及びxgboost予測モデルの重みを決定する。
第1予測モジュール10は、複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ARIMAモデルを構築するために用いられる。
第2予測モジュール20は、モデルパラメータを決定するように、世情キーワードを取得し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングするために用いられる。
モデル組み合わせモジュール30は、前記ARIMAモデル及び前記xgboost予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築するために用いられる。
ゲイン計算モジュール40は、前記ARIMAモデルの目標時間ユニットに対する第1予測値を状態変数の測定値として、前記xgboost予測モデルの目標時間ユニットに対する第2予測値を状態変数の事前推定値として、現在の前記インフルエンザ予測モデルのカルマンゲインを計算するために用いられる。
モデル更新モジュール50は、計算されたカルマンゲインに基づき、前記インフルエンザ予測モデルにおける前記ARIMAモデル及び前記xgboost予測モデルの重みを更新し、重み更新後の前記インフルエンザ予測モデルが、前記目標時間ユニットの次の時間ユニットのインフルエンザサンプル症例の百分率を予測するために用いられる。
複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ARIMAモデルを構築する動作と、
モデルパラメータを決定するように、世情キーワードを取得し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングする動作と、
前記ARIMAモデル及び前記xgboost予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築する動作と、
前記ARIMAモデルの目標時間ユニットに対する第1予測値を状態変数の測定値として、前記xgboost予測モデルの目標時間ユニットに対する第2予測値を状態変数の事前推定値として、現在の前記インフルエンザ予測モデルのカルマンゲインを計算する動作と、
計算されたカルマンゲインに基づき、前記インフルエンザ予測モデルにおける前記ARIMAモデル及び前記xgboost予測モデルの重みを更新し、重み更新後の前記インフルエンザ予測モデルが、前記目標時間ユニットの次の時間ユニットのインフルエンザサンプル症例の百分率を予測するために用いられる動作と、を実現するように、前記モデル生成プログラムが1つ又は複数のプロセッサによって実行できる。
Claims (15)
- インフルエンザ予測モデルの生成方法であって、
複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ARIMAモデルを構築するステップと、
モデルパラメータを決定するように、世情キーワードを取得し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングするステップと、
前記ARIMAモデル及び前記xgboost予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築するステップと、
前記ARIMAモデルの目標時間ユニットに対する第1予測値を状態変数の測定値として、前記xgboost予測モデルの目標時間ユニットに対する第2予測値を状態変数の事前推定値として、現在の前記インフルエンザ予測モデルのカルマンゲインを計算するステップと、
計算されたカルマンゲインに基づき、前記インフルエンザ予測モデルにおける前記ARIMAモデル及び前記xgboost予測モデルの重みを更新し、重み更新後の前記インフルエンザ予測モデルが、前記目標時間ユニットの次の時間ユニットのインフルエンザサンプル症例の百分率を予測するために用いられるステップと、を含むことを特徴とするインフルエンザ予測モデルの生成方法。 - モデルパラメータを決定するように、世情キーワードを決定し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングする前記ステップは、
世情キーワードを決定し、前記世情キーワードに基づき、複数の連続した時間ユニット内における世情データ系列を取得するとともに、前記世情データ系列中における世情データを候補特徴として、候補特徴セットを構築するステップと、
前記候補特徴セット中における候補特徴に対して、ウェーブレットノイズ除去処理及びトレンド除去処理を行うステップと、
特徴の予め設定された数を決定するとともに、ウェーブレットノイズ除去処理及びトレンド除去処理が行われた後の候補特徴セットから前記予め設定された数の候補特徴をスクリーニングし、予測特徴セットを構成するステップと、
モデルパラメータを決定するように、前記予測特徴セット及び前記複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率の実際観測値を用いて、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングするステップと、を含むことを特徴とする請求項1に記載のインフルエンザ予測モデルの生成方法。 - 前記候補特徴セット中における候補特徴に対して、ウェーブレットノイズ除去処理及びトレンド除去処理を行う前記ステップは、
ウェーブレット基底関数を決定し、前記ウェーブレット基底関数に応じて、前記候補特徴セット中における各特徴の形成した系列に対してウェーブレット分解を行うとともに、分解層数を決定するステップと、
ウェーブレットノイズ除去の閾値を決定し、決定された閾値に応じて、ウェーブレット分解後の予測特徴の各階層の係数に対して調整を行うステップと、
調整されたウェーブレット係数に対して逆変換再構成を行うことにより、ノイズ除去後の候補特徴を取得するステップと、
トレンド予測モデルを構築するように、ウェーブレットノイズ除去処理後の候補特徴セット中における各時間ユニットに対応する候補特徴に対して、該時間ユニットの前の複数の連続した時間ユニットのデータを取得して線形回帰を行い、且つ前記トレンド予測モデルに基づき、該時間ユニットに対応するベースライン予測値を取得するステップと、
該時間ユニットの候補特徴の実際値から前記ベースライン予測値を差し引くことにより、トレンド除去後の候補特徴を取得するステップと、を含むことを特徴とする請求項2に記載のインフルエンザ予測モデルの生成方法。 - 特徴の予め設定された数を決定する前記ステップは、
xgboostアルゴリズムに基づき識別器としてモデルを構築し、前記候補特徴セット中における候補特徴を前記識別器に入力し、特徴再帰除去交差検証アルゴリズムによって、モデル性能が予め設定された条件に達する時の特徴数を前記予め設定された数として選択するステップ、を含むことを特徴とする請求項2または3に記載のインフルエンザ予測モデルの生成方法。 - ウェーブレットノイズ除去処理及びトレンド除去処理が行われた後の候補特徴セットから前記予め設定された数の候補特徴をスクリーニングし、予測特徴セットを構成する前記ステップは、
xgboostアルゴリズムに基づき識別器としてモデルを構築し、前記候補特徴セット中における候補特徴を前記識別器に入力するとともに、特徴再帰除去アルゴリズムに応じて反復演算を行うステップと、
前記識別器の演算によって返送されたモデル係数を取得し、前記モデル係数に基づき、各候補特徴セット中における各候補特徴の重要度を決定するステップと、
各候補特徴の重要度に基づき、現在の候補特徴セットから重要度の最も小さいK個の候補特徴を取り外すステップと、
スクリーニングされた候補特徴数が前記予め設定された数に達するまで、上記ステップを繰り返し実行するステップと、
前記予め設定された数の候補特徴が予測特徴セットを構成するステップと、を含むことを特徴とする請求項2または3に記載のインフルエンザ予測モデルの生成方法。 - インフルエンザ予測モデルの生成装置であって、前記装置は、メモリ及びプロセッサを含み、前記メモリには、前記プロセッサで実行可能なモデル生成プログラムが記憶されており、前記モデル生成プログラムが前記プロセッサによって実行されると、
複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ARIMAモデルを構築するステップと、
モデルパラメータを決定するように、世情キーワードを取得し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングするステップと、
前記ARIMAモデル及び前記xgboost予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築するステップと、
前記ARIMAモデルの目標時間ユニットに対する第1予測値を状態変数の測定値として、前記xgboost予測モデルの目標時間ユニットに対する第2予測値を状態変数の事前推定値として、現在の前記インフルエンザ予測モデルのカルマンゲインを計算するステップと、
計算されたカルマンゲインに基づき、前記インフルエンザ予測モデルにおける前記ARIMAモデル及び前記xgboost予測モデルの重みを更新し、重み更新後の前記インフルエンザ予測モデルが、前記目標時間ユニットの次の時間ユニットのインフルエンザサンプル症例の百分率を予測するために用いられるステップと、を実現することを特徴とするインフルエンザ予測モデルの生成装置。 - モデルパラメータを決定するように、世情キーワードを決定し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングする前記ステップは、
世情キーワードを決定し、前記世情キーワードに基づき、複数の連続した時間ユニット内における世情データ系列を取得するとともに、前記世情データ系列中における世情データを候補特徴として、候補特徴セットを構築するステップと、
前記候補特徴セット中における候補特徴に対して、ウェーブレットノイズ除去処理及びトレンド除去処理を行うステップと、
特徴の予め設定された数を決定するとともに、ウェーブレットノイズ除去処理及びトレンド除去処理が行われた後の候補特徴セットから前記予め設定された数の候補特徴をスクリーニングし、予測特徴セットを構成するステップと、
モデルパラメータを決定するように、前記予測特徴セット及び前記複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率の実際観測値を用いて、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングするステップと、を含むことを特徴とする請求項6に記載のインフルエンザ予測モデルの生成装置。 - 前記候補特徴セット中における候補特徴に対して、ウェーブレットノイズ除去処理及びトレンド除去処理を行う前記ステップは、
ウェーブレット基底関数を決定し、前記ウェーブレット基底関数に応じて、前記候補特徴セット中における各特徴の形成した系列に対してウェーブレット分解を行うとともに、分解層数を決定するステップと、
ウェーブレットノイズ除去の閾値を決定し、決定された閾値に応じて、ウェーブレット分解後の予測特徴の各階層の係数に対して調整を行うステップと、
調整されたウェーブレット係数に対して逆変換再構成を行うことにより、ノイズ除去後の候補特徴を取得するステップと、
トレンド予測モデルを構築するように、ウェーブレットノイズ除去処理後の候補特徴セット中における各時間ユニットに対応する候補特徴に対して、該時間ユニットの前の複数の連続した時間ユニットのデータを取得して線形回帰を行い、且つ前記トレンド予測モデルに基づき、該時間ユニットに対応するベースライン予測値を取得するステップと、
該時間ユニットの候補特徴の実際値から前記ベースライン予測値を差し引くことにより、トレンド除去後の候補特徴を取得するステップと、を含むことを特徴とする請求項7に記載のインフルエンザ予測モデルの生成装置。 - 特徴の予め設定された数を決定する前記ステップは、
xgboostアルゴリズムに基づき識別器としてモデルを構築し、前記候補特徴セット中における候補特徴を前記識別器に入力し、特徴再帰除去交差検証アルゴリズムによって、モデル性能が予め設定された条件に達する時の特徴数を前記予め設定された数として選択するステップ、を含むことを特徴とする請求項7または8に記載のインフルエンザ予測モデルの生成装置。 - ウェーブレットノイズ除去処理及びトレンド除去処理が行われた後の候補特徴セットから前記予め設定された数の候補特徴をスクリーニングし、予測特徴セットを構成する前記ステップは、
xgboostアルゴリズムに基づき識別器としてモデルを構築し、前記候補特徴セット中における候補特徴を前記識別器に入力するとともに、特徴再帰除去アルゴリズムに応じて反復演算を行うステップと、
前記識別器の演算によって返送されたモデル係数を取得し、前記モデル係数に基づき、各候補特徴セット中における各候補特徴の重要度を決定するステップと、
各候補特徴の重要度に基づき、現在の候補特徴セットから重要度の最も小さいK個の候補特徴を取り外すステップと、
スクリーニングされた候補特徴数が前記予め設定された数に達するまで、上記ステップを繰り返し実行するステップと、
前記予め設定された数の候補特徴が予測特徴セットを構成するステップと、を含むことを特徴とする請求項7または8に記載のインフルエンザ予測モデルの生成装置。 - コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体にモデル生成プログラムが記憶されており、
複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ARIMAモデルを構築するステップと、
モデルパラメータを決定するように、世情キーワードを取得し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングするステップと、
前記ARIMAモデル及び前記xgboost予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築するステップと、
前記ARIMAモデルの目標時間ユニットに対する第1予測値を状態変数の測定値として、前記xgboost予測モデルの目標時間ユニットに対する第2予測値を状態変数の事前推定値として、現在の前記インフルエンザ予測モデルのカルマンゲインを計算するステップと、
計算されたカルマンゲインに基づき、前記インフルエンザ予測モデルにおける前記ARIMAモデル及び前記xgboost予測モデルの重みを更新し、重み更新後の前記インフルエンザ予測モデルが、前記目標時間ユニットの次の時間ユニットのインフルエンザサンプル症例の百分率を予測するために用いられるステップと、を実現するように、前記モデル生成プログラムが1つ又は複数のプロセッサによって実行できることを特徴とするコンピュータ可読記憶媒体。 - モデルパラメータを決定するように、世情キーワードを決定し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングする前記ステップは、
世情キーワードを決定し、前記世情キーワードに基づき、複数の連続した時間ユニット内における世情データ系列を取得するとともに、前記世情データ系列中における世情データを候補特徴として、候補特徴セットを構築するステップと、
前記候補特徴セット中における候補特徴に対して、ウェーブレットノイズ除去処理及びトレンド除去処理を行うステップと、
特徴の予め設定された数を決定するとともに、ウェーブレットノイズ除去処理及びトレンド除去処理が行われた後の候補特徴セットから前記予め設定された数の候補特徴をスクリーニングし、予測特徴セットを構成するステップと、
モデルパラメータを決定するように、前記予測特徴セット及び前記複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率の実際観測値を用いて、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングするステップと、を含むことを特徴とする請求項11に記載のコンピュータ可読記憶媒体。 - 前記候補特徴セット中における候補特徴に対して、ウェーブレットノイズ除去処理及びトレンド除去処理を行う前記ステップは、
ウェーブレット基底関数を決定し、前記ウェーブレット基底関数に応じて、前記候補特徴セット中における各特徴の形成した系列に対してウェーブレット分解を行うとともに、分解層数を決定するステップと、
ウェーブレットノイズ除去の閾値を決定し、決定された閾値に応じて、ウェーブレット分解後の予測特徴の各階層の係数に対して調整を行うステップと、
調整されたウェーブレット係数に対して逆変換再構成を行うことにより、ノイズ除去後の候補特徴を取得するステップと、
トレンド予測モデルを構築するように、ウェーブレットノイズ除去処理後の候補特徴セット中における各時間ユニットに対応する候補特徴に対して、該時間ユニットの前の複数の連続した時間ユニットのデータを取得して線形回帰を行い、且つ前記トレンド予測モデルに基づき、該時間ユニットに対応するベースライン予測値を取得するステップと、
該時間ユニットの候補特徴の実際値から前記ベースライン予測値を差し引くことにより、トレンド除去後の候補特徴を取得するステップと、を含むことを特徴とする請求項12に記載のコンピュータ可読記憶媒体。 - 特徴の予め設定された数を決定する前記ステップは、
xgboostアルゴリズムに基づき識別器としてモデルを構築し、前記候補特徴セット中における候補特徴を前記識別器に入力し、特徴再帰除去交差検証アルゴリズムによって、モデル性能が予め設定された条件に達する時の特徴数を前記予め設定された数として選択するステップ、を含むことを特徴とする請求項12または13に記載のコンピュータ可読記憶媒体。 - ウェーブレットノイズ除去処理及びトレンド除去処理が行われた後の候補特徴セットから前記予め設定された数の候補特徴をスクリーニングし、予測特徴セットを構成する前記ステップは、
xgboostアルゴリズムに基づき識別器としてモデルを構築し、前記候補特徴セット中における候補特徴を前記識別器に入力するとともに、特徴再帰除去アルゴリズムに応じて反復演算を行うステップと、
前記識別器の演算によって返送されたモデル係数を取得し、前記モデル係数に基づき、各候補特徴セット中における各候補特徴の重要度を決定するステップと、
各候補特徴の重要度に基づき、現在の候補特徴セットから重要度の最も小さいK個の候補特徴を取り外すステップと、
スクリーニングされた候補特徴数が前記予め設定された数に達するまで、上記ステップを繰り返し実行するステップと、
前記予め設定された数の候補特徴が予測特徴セットを構成するステップと、を含むことを特徴とする請求項12または13に記載のコンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810543749.9A CN108766585A (zh) | 2018-05-31 | 2018-05-31 | 流感预测模型的生成方法、装置及计算机可读存储介质 |
CN201810543749.9 | 2018-05-31 | ||
PCT/CN2018/102221 WO2019227716A1 (zh) | 2018-05-31 | 2018-08-24 | 流感预测模型的生成方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020525872A JP2020525872A (ja) | 2020-08-27 |
JP6815708B2 true JP6815708B2 (ja) | 2021-01-20 |
Family
ID=64004677
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019556833A Active JP6815708B2 (ja) | 2018-05-31 | 2018-08-24 | インフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP6815708B2 (ja) |
CN (1) | CN108766585A (ja) |
WO (1) | WO2019227716A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110111902B (zh) * | 2019-04-04 | 2022-05-27 | 平安科技(深圳)有限公司 | 急性传染病的发病周期预测方法、装置及存储介质 |
CN111242347B (zh) * | 2019-12-28 | 2021-01-01 | 浙江大学 | 基于历史权重更新的桥梁管养辅助决策系统 |
CN112015778A (zh) * | 2020-08-19 | 2020-12-01 | 上海满盛信息技术有限公司 | 一种水指纹预测算法 |
CN112163723B (zh) * | 2020-11-02 | 2023-09-12 | 西安热工研究院有限公司 | 基于情景划分的水电站中长期径流预测方法、介质及设备 |
CN112700885B (zh) * | 2021-01-13 | 2023-12-15 | 大连海事大学 | 一种基于卡尔曼滤波辨识新冠病毒传播模型参数的方法 |
CN112951440A (zh) * | 2021-02-04 | 2021-06-11 | 汕头大学医学院 | 一种登革热传播风险预测方法及受影响人口大小确定方法 |
CN113436751A (zh) * | 2021-06-29 | 2021-09-24 | 山东健康医疗大数据有限公司 | 一种周ili占比趋势预测系统及方法 |
CN114360739B (zh) * | 2022-01-05 | 2023-07-21 | 中国科学院地理科学与资源研究所 | 一种基于遥感云计算与深度学习的登革热风险预测方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101826090A (zh) * | 2009-09-15 | 2010-09-08 | 电子科技大学 | 基于最优模型的web舆情趋势预测方法 |
CN101847179B (zh) * | 2010-04-13 | 2012-07-18 | 中国疾病预防控制中心病毒病预防控制所 | 通过模型预测流感抗原的方法及应用 |
CN104517159A (zh) * | 2014-12-18 | 2015-04-15 | 上海交通大学 | 一种公交短时客流的预测方法 |
WO2017120579A1 (en) * | 2016-01-10 | 2017-07-13 | Presenso, Ltd. | System and method for validating unsupervised machine learning models |
CN105678080A (zh) * | 2016-01-11 | 2016-06-15 | 浪潮集团有限公司 | 通过大数据搜寻分析预测流感爆发可能性的方法 |
CN105824897A (zh) * | 2016-03-14 | 2016-08-03 | 湖南大学 | 基于卡尔曼滤波的混合推荐系统及方法 |
CN107688872A (zh) * | 2017-08-20 | 2018-02-13 | 平安科技(深圳)有限公司 | 预测模型建立装置、方法及计算机可读存储介质 |
-
2018
- 2018-05-31 CN CN201810543749.9A patent/CN108766585A/zh active Pending
- 2018-08-24 WO PCT/CN2018/102221 patent/WO2019227716A1/zh active Application Filing
- 2018-08-24 JP JP2019556833A patent/JP6815708B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
WO2019227716A1 (zh) | 2019-12-05 |
JP2020525872A (ja) | 2020-08-27 |
CN108766585A (zh) | 2018-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6815708B2 (ja) | インフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体 | |
CN108229667B (zh) | 基于人工神经网络类别的修剪 | |
JP2019533205A (ja) | ユーザキーワード抽出装置、方法、及びコンピュータ読み取り可能な記憶媒体 | |
CN110366734A (zh) | 优化神经网络架构 | |
US10146531B2 (en) | Method and apparatus for generating a refactored code | |
CN110476172A (zh) | 用于卷积神经网络的神经架构搜索 | |
WO2019036035A1 (en) | DATA PROCESSING APPARATUS FOR ACCESSING A SHARED MEMORY IN PROCESSING STRUCTURED DATA FOR MODIFYING A DATA STRUCTURE OF A PARAMETER VECTOR | |
WO2019227711A1 (zh) | 流感预测模型的生成方法、装置及计算机可读存储介质 | |
WO2018144534A1 (en) | Hardware-based machine learning acceleration | |
CN110114784A (zh) | 递归神经网络 | |
JP7414907B2 (ja) | 事前訓練済みモデルの決定方法及びその決定装置、電子機器並びに記憶媒体 | |
CN108985501B (zh) | 基于指数特征提取的股指预测方法、服务器及存储介质 | |
CN110462638A (zh) | 使用后验锐化训练神经网络 | |
CN111353601A (zh) | 用于预测模型结构的延时的方法和装置 | |
CN110968802B (zh) | 一种用户特征的分析方法、分析装置及可读存储介质 | |
JP2019508774A (ja) | データベースシステム最適化の方法、システム、電子装置及び記憶媒体 | |
CN109902286A (zh) | 一种实体识别的方法、装置及电子设备 | |
CN110348581B (zh) | 用户特征群中用户特征寻优方法、装置、介质及电子设备 | |
CN112949433A (zh) | 视频分类模型的生成方法、装置、设备和存储介质 | |
JP2019101681A (ja) | 見積り取得装置、見積り取得方法およびプログラム | |
CN116703466A (zh) | 基于改进灰狼算法的系统访问量预测方法及其相关设备 | |
KR102561799B1 (ko) | 디바이스에서 딥러닝 모델의 레이턴시를 예측하는 방법 및 시스템 | |
CN113961765B (zh) | 基于神经网络模型的搜索方法、装置、设备和介质 | |
EP3195158B1 (en) | Parallel processing using a bottom-up approach | |
US20210182696A1 (en) | Prediction of objective variable using models based on relevance of each model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191018 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191018 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201222 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201222 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6815708 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |