JP6815708B2 - インフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体 - Google Patents

インフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体 Download PDF

Info

Publication number
JP6815708B2
JP6815708B2 JP2019556833A JP2019556833A JP6815708B2 JP 6815708 B2 JP6815708 B2 JP 6815708B2 JP 2019556833 A JP2019556833 A JP 2019556833A JP 2019556833 A JP2019556833 A JP 2019556833A JP 6815708 B2 JP6815708 B2 JP 6815708B2
Authority
JP
Japan
Prior art keywords
model
candidate
prediction model
influenza
feature set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019556833A
Other languages
English (en)
Other versions
JP2020525872A (ja
Inventor
弦 李
弦 李
亮 徐
亮 徐
暁▲うぇん▼ 阮
暁▲うぇん▼ 阮
京 肖
京 肖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Publication of JP2020525872A publication Critical patent/JP2020525872A/ja
Application granted granted Critical
Publication of JP6815708B2 publication Critical patent/JP6815708B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu

Landscapes

  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Description

「関連出願の相互参照」
本願は、パリ条約に基づいて2018年05月31日に中国国家知識産権局に出願された、中国特許出願第201810543749.9号の「インフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体」と題する中国特許出願の優先権を主張し、当該出願の全体が参照によりここに組み込まれる。
本願は、コンピュータ技術分野に関し、特に、インフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体に関する。
現在、インフルエンザ予測は、常に、時系列自己相関に基づく時系列モデルを採用するか、又は外因性特徴を使用して回帰モデルを構築するか、又は異なるモデルを一体に組み合わせることで予測し、モデル組み合わせを使用すれば、各モデルアルゴリズムの優勢を発揮できると同時に、系列自体の変化規則及び外因性特徴の時系列モデルに対する修正をフィッティングすることにより、モデルの一般化能力を向上させる。
ただし、現在、広く使用されているモデル組み合わせ方法は平均法であり、即ち、異なるモデルの予測結果の平均値を計算し、計算された平均値を組み合わせモデルの予測結果とし、このようなモデル組み合わせ方法は、各モデルの予測能力を判定できず、さらに各モデルの重みを動的に調整できないため、組み合わせモデルの予測精度が低いことを引き起こす。
本願は、インフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体を提供し、本願の主な目的は、インフルエンザ予測モデルの予測精度を向上させることにある。
上記目的を達成するために、本願はさらに、インフルエンザ予測モデルの生成方法を提供し、該方法は、
複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ARIMAモデルを構築するステップと、
モデルパラメータを決定するように、世情キーワードを取得し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングするステップと、
前記ARIMAモデル及び前記xgboost予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築するステップと、
前記ARIMAモデルの目標時間ユニットに対する第1予測値を状態変数の測定値として、前記xgboost予測モデルの目標時間ユニットに対する第2予測値を状態変数の事前推定値として、現在の前記インフルエンザ予測モデルのカルマンゲインを計算するステップと、
計算されたカルマンゲインに基づき、前記インフルエンザ予測モデルにおける前記ARIMAモデル及び前記xgboost予測モデルの重みを更新し、重み更新後の前記インフルエンザ予測モデルが、前記目標時間ユニットの次の時間ユニットのインフルエンザサンプル症例の百分率を予測するために用いられるステップと、を含む。
また、上記目的を達成するために、本願はさらに、インフルエンザ予測モデルの生成装置を提供し、該装置は、メモリ及びプロセッサを含み、前記メモリには、前記プロセッサで実行可能なモデル生成プログラムが記憶されており、前記モデル生成プログラムが前記プロセッサによって実行されると、
複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ARIMAモデルを構築するステップと、
モデルパラメータを決定するように、世情キーワードを取得し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングするステップと、
前記ARIMAモデル及び前記xgboost予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築するステップと、
前記ARIMAモデルの目標時間ユニットに対する第1予測値を状態変数の測定値として、前記xgboost予測モデルの目標時間ユニットに対する第2予測値を状態変数の事前推定値として、現在の前記インフルエンザ予測モデルのカルマンゲインを計算するステップと、
計算されたカルマンゲインに基づき、前記インフルエンザ予測モデルにおける前記ARIMAモデル及び前記xgboost予測モデルの重みを更新し、重み更新後の前記インフルエンザ予測モデルが、前記目標時間ユニットの次の時間ユニットのインフルエンザサンプル症例の百分率を予測するために用いられるステップと、を実現する。
また、上記目的を達成するために、本願はさらに、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体にモデル生成プログラムが記憶されており、上記したインフルエンザ予測モデルの生成方法のステップを実現するように、前記モデル生成プログラムが1つ又は複数のプロセッサによって実行されてもよい。
本願にて提供されるインフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体は、複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ARIMAモデルを構築し、モデルパラメータを決定するように、世情キーワードを取得し、世情キーワードに基づき、複数の時間ユニット内における世情データ系列を取得し、世情データ系列中における世情データを予測特徴として、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングし、ARIMAモデル及びxgboost予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築し、インフルエンザ予測モデルによってインフルエンザ予測を行う過程で、ARIMAモデルの目標時間ユニットに対する第1予測値を状態変数の測定値として、xgboost予測モデルの目標時間ユニットに対する第2予測値を状態変数の事前推定値として、現在のインフルエンザ予測モデルのカルマンゲインを計算し、今回計算されたカルマンゲインに基づき、インフルエンザ予測モデルにおける2つのモデルの重みを更新し、重み更新後のインフルエンザ予測モデルが、次の時間ユニットのインフルエンザサンプル症例の百分率に用いられ、このような方式によって、インフルエンザ予測モデルにおける2つのモデルの重みに対する動的更新を実現し、組み合わせることで得られた予測モデルを、現在性能に優れたモデル出力に傾向させ、予測モデルの精度を向上させる。
本願の一実施例によるインフルエンザ予測モデルの生成方法の概略フローチャートである。 本願の一実施例によるインフルエンザ予測モデルの生成装置の内部構造概略図である。 本願の一実施例によるインフルエンザ予測モデルの生成装置におけるモデル生成プログラムの概略ブロック図である。 本願の目的の実現、機能的特徴及び利点は、実施例によって図面を参照しながら、さらに説明される。
なお、本明細書に記載される特定の実施例は、本願を解釈するためのものに過ぎず、本願を限定することを意図するものではない。
本願は、インフルエンザ予測モデルの生成方法を提供する。図1は、本願の一実施例によるインフルエンザ予測モデルの生成方法の概略フローチャートである。該方法は、ソフトウェア及び/又はハードウェアによって実現可能な装置によって実行されてもよい。
本実施例において、インフルエンザ予測モデルの生成方法は、ステップS10〜ステップS50を含む。
ステップS10、複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ARIMAモデルを構築する。
複数の時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、時系列自体の自己相関に基づき、ARIMA(Autoregressive Integrated Moving Average、自己回帰和分移動平均)モデルを構築する。例えば、目標時間ユニットのインフルエンザサンプル症例の百分率に対して予測を行う場合、該時間ユニットの前の複数の連続した時間ユニットの履歴インフルエンザサンプル症例の百分率データを取得し、さらにARIMAモデルを構築する。本実施例において、週間を時間ユニットとして、インフルエンザを予測する。
ステップS20、モデルパラメータを決定するように、世情キーワードを取得し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングする。
本願の実施例において、インフルエンザに関わる世情キーワードは、主に、インフルエンザウイルス、高熱、咳、鼻詰まり、快克、泰諾、上気道感染、咳き止め、A型インフルエンザなどのような複数のキーワードを含む。上記した世情キーワードに基づき、予め設定されたチャンネルから予測対象の目標領域における世情データを取得し、ここで、予め設定されたチャンネルは、バイドゥ検索及びウェイボーなどのソーシャルネットワークを含み、世情データは、主に、上記した世情キーワードのバイドゥ上にあるバイドゥ検索指数、及びウェイボー上にあるリリース回数を含む。特定のエリアを分析対象とすれば、エリアを目標領域として、該エリアの世情キーワードのバイドゥ検索指数及びウェイボーリリース回数を取得する。
また、本実施例において、週間を時間ユニットとして、過去5年間の週間当たりの上記した世情キーワードのバイドゥ上にあるバイドゥ検索指数及びウェイボー上にあるリリース回数を世情データとして取得し、各世情キーワードにとって、該世情キーワードの1つの予め設定されたチャンネル上にある世情データが260個のデータを含む系列を形成することができ、系列中における各データは、1つの候補特徴であり、全ての候補特徴が候補特徴セットを構成する。モデルパラメータを決定するように、該セット中における特徴を用いて、xgboost(eXtreme Gradient Boosting、極端勾配ブースティング)アルゴリズムに基づき構築されたxgboost予測モデルをトレーニングする。
さらに、いくつかの実施例において、特徴の関連性を向上させるために、候補特徴セット中における特徴に対して前処理を行った後、特徴スクリーニングを行い、スクリーニングされた特徴を用いて、xgboost予測モデルをトレーニングする。具体的には、
世情キーワードを決定し、前記世情キーワードに基づき、複数の連続した時間ユニット内における世情データ系列を取得するとともに、前記世情データ系列中における世情データを候補特徴として、候補特徴セットを構築するステップと、前記候補特徴セット中における候補特徴に対して、ウェーブレットノイズ除去処理及びトレンド除去処理を行うステップと、特徴の予め設定された数を決定するとともに、ウェーブレットノイズ除去処理及びトレンド除去処理が行われた後の候補特徴セットから前記予め設定された数の候補特徴をスクリーニングし、予測特徴セットを構成するステップと、モデルパラメータを決定するように、前記予測特徴セット及び前記複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率の実際観測値を用いて、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングするステップのような詳しいステップを含んでもよい。
ウェーブレットノイズ除去処理及びトレンド除去処理については、ウェーブレット基底関数を決定し、前記ウェーブレット基底関数に応じて、前記候補特徴セット中における各特徴の形成した系列に対してウェーブレット分解を行うとともに、分解層数を決定し、ウェーブレットノイズ除去の閾値を決定し、決定された閾値に応じて、ウェーブレット分解後の予測特徴の各階層の係数に対して調整を行い、調整されたウェーブレット係数に対して逆変換再構成を行うことにより、ノイズ除去後の候補特徴を取得し、ウェーブレットノイズ除去処理後の候補特徴セット中における各時間ユニットに対応する候補特徴に対して、該時間ユニットの前の複数の連続した時間ユニットのデータを取得して線形回帰を行い、トレンド予測モデルを構築し、前記トレンド予測モデルに基づき、該時間ユニットに対応するベースライン予測値を取得し、該時間ユニットの候補特徴の実際値から前記ベースライン予測値を差し引くことにより、トレンド除去後の候補特徴を取得するという方式によって実現される。
ウェーブレット基底関数を決定し、前記ウェーブレット基底関数に応じて、前記候補特徴セット中における各特徴の形成した系列に対してウェーブレット分解を行うとともに、分解層数を決定する。例えば、世情キーワード「高熱」の週間当たりのバイドゥ指数によって形成された系列に対してウェーブレット分解を行い、測定対象信号波形と接近する原則に基づき、db4を世情データ分解のウェーブレット基底関数として選定する。分解スケールの選択上において、世情データの長さテストに基づき、特定の範囲内における異なる分解スケール下において、ノイズ除去効果が高く、信号歪み度が低い分解層数を選択する。ウェーブレットノイズ除去の閾値を決定し、決定された閾値に応じて、ウェーブレット分解後の候補特徴の各階層の係数に対して調整を行う。具体的には、各特徴の系列の長さNに基づき、ウェーブレットノイズ除去の閾値thrを決定し、使用されたのは、過去52週間の履歴データであると仮定すると、各特徴系列の長さがN=52である。
ソフト閾値アルゴリズムを用いて、小さいウェーブレット係数をゼロに設定し、大きいウェーブレット係数に対してゼロへの縮小処理を行うことにより、分解後の候補特徴の各階層の係数を調整し、具体式は、
であり、ここで、wは調整前の係数で、は調整後の係数である。
調整されたウェーブレット係数に対して逆変換再構成を行うことにより、ノイズ除去後の候補特徴を取得する。
トレンド予測モデルを構築するように、ウェーブレットノイズ除去処理後の候補特徴セット中における各時間ユニットに対応する候補特徴に対して、該時間ユニットの前の複数の連続した時間ユニットのデータを取得して線形回帰を行い、且つトレンド予測モデルに基づき、該時間ユニットに対応するベースライン予測値を取得する。該時間ユニットの候補特徴の実際値からベースライン予測値を差し引くことにより、トレンド除去後の候補特徴を取得する。
例えば、ウェーブレットノイズ除去前処理後の候補特徴の各データポイント(即ち、1つの時間ユニットに対応する候補特徴)について、最初の52週間のデータを利用して線形回帰を行うことでトレンド予測モデルを構築し、なお、あるデータポイントの履歴データが52週間未満の場合、全ての履歴データを利用して線形回帰を行うことでトレンド予測モデルを構築する。トレンド予測モデルによって現在のデータポイントのベースライン予測値を取得する。現在ポイントの予測特徴の実際値からベースライン予測値を差し引くことにより、トレンド除去後の予測特徴を取得する。
場合によっては、いくつかの実施例において、異なるスクリーニング特徴数を設定し、予測結果を取得し、予測結果の精度に基づき、適当なスクリーニング特徴数を選択してもよい。又は、その他の実施例において、スクリーニング特徴数の決定については、
xgboostアルゴリズムに基づき識別器としてモデルを構築し、前記候補特徴セット中における候補特徴を前記識別器に入力し、特徴再帰除去交差検証アルゴリズムによって、モデル性能が予め設定された条件に達する時の特徴数を前記予め設定された数として選択するという方式を採用してもよい。
予め設定された数を決定した後、xgboostアルゴリズムに基づき識別器としてモデルを構築し、候補特徴セット中における候補特徴を識別器に入力するとともに、特徴再帰除去アルゴリズムに応じて反復演算を行う。識別器の演算によって返送されたモデル係数を取得し、モデル係数に基づき、各候補特徴セット中における各候補特徴の重要度を決定する。各候補特徴の重要度に基づき、現在の候補特徴セットから重要度の最も小さいK個の候補特徴を取り外す。スクリーニングされた候補特徴数が予め設定された数に達するまで、上記ステップを繰り返し実行する。予め設定された数の候補特徴は予測特徴セットを構成する。
予測特徴セット中における予測特徴を利用してxgboost予測モデルをトレーニングし、具体的には、前記複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率の実際観測値を取得し、1週間で取得した予測特徴及び該週間の次の週間のインフルエンザサンプル症例の百分率を1つのトレーニングサンプルとして、最も新しいインフルエンザ変化トレンドを反映できる現在予測週間の最初の複数の連続した週間のデータを選択し、例えば、現在予測週間の最初の52週間のデータをトレーニングセットとして、スクロール予測を行う。xgboostアルゴリズムに基づき予測モデルを構築し、gbtree(generalbalanced trees、汎用バイナリ検索ツリー)をbooster(加速器)として、二乗誤差損失関数に基づき、該予測モデルをトレーニングし、上記した損失関数を最小化にし、モデルパラメータを決定し、最終的なxgboost予測モデルを取得する。また、フォワード分布アルゴリズムを用いて、新しい回帰ツリーを構築することで現在モデルの残差又は残差近似値をフィッティングするとともに、最適化された正規項のオーバーフィッティングに対する抑制、及び並列化処理によって、アルゴリズムの性能を向上させる。
ステップS30、前記ARIMAモデル及び前記xgboost予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築する。
ステップS40、前記ARIMAモデルの目標時間ユニットに対する第1予測値を状態変数の測定値として、前記xgboost予測モデルの目標時間ユニットに対する第2予測値を状態変数の事前推定値として、現在の前記インフルエンザ予測モデルのカルマンゲインを計算する。
ステップS50、計算されたカルマンゲインに基づき、前記インフルエンザ予測モデルにおける前記ARIMAモデル及び前記xgboost予測モデルの重みを更新し、重み更新後の前記インフルエンザ予測モデルが、前記目標時間ユニットの次の時間ユニットのインフルエンザサンプル症例の百分率を予測するために用いられる。
ARIMAモデルの目標時間ユニットKに出力した第1予測値yAを離散時間過程で測定方程式によって得られた状態変数の測定値として、xgboost予測モデルの目標時間ユニットKに出力した第2予測値yxを離散時間過程で状態遷移方程式によって得られた状態変数の事前推定値として、計算することで現在予測のカルマンゲインを取得し、カルマンゲインに基づき、組み合わせることで得られたインフルエンザ予測モデルの重みを決定する。
カルマンフィルターアルゴリズムの表現式に基づき、インフルエンザ予測モデルの予測値、即ち、カルマンフィルターにおける状態変数の事後推定を取得でき、その表現式は、
ここで、上記の式において、測定方程式の測定ゲインH=1であり、Kはカルマンゲインであり、本実施例において、定数として、組み合わせ予測モデルにおいて、ARIMAモデル及びxgboost予測モデルの重みを決定する。
事後推定誤差共分散を最小化にする目標条件下で、カルマンフィルターにおけるKの反復計算式は、
本実施例にて提供されるインフルエンザ予測モデルの生成方法は、複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ARIMAモデルを構築し、モデルパラメータを決定するように、世情キーワードを取得し、世情キーワードに基づき、複数の時間ユニット内における世情データ系列を取得し、世情データ系列中における世情データを予測特徴として、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングし、ARIMAモデル及びxgboost予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築し、インフルエンザ予測モデルによってインフルエンザ予測を行う過程で、ARIMAモデルの目標時間ユニットに対する第1予測値を状態変数の測定値として、xgboost予測モデルの目標時間ユニットに対する第2予測値を状態変数の事前推定値として、現在のインフルエンザ予測モデルのカルマンゲインを計算し、今回計算されたカルマンゲインに基づき、インフルエンザ予測モデルにおける2つのモデルの重みを更新し、重み更新後のインフルエンザ予測モデルが、次の時間ユニットのインフルエンザサンプル症例の百分率に用いられ、このような方式によって、インフルエンザ予測モデルにおける2つのモデルの重みに対する動的更新を実現し、カルマンフィルターに基づくモデル融合は、時系列自体の変化規則を考慮するだけでなく、世情データを組み合わせて、系列の受けた干渉を修正し、モデル予測をより正確にするとともに、モデル重みをリアルタイム、且つ動的に調整することにより、組み合わせることで得られた予測モデルを、現在性能に優れたモデル出力に傾向させ、予測モデルの精度を向上させる。
本願はさらに、インフルエンザ予測モデルの生成装置を提供する。図2は、本願の一実施例によるインフルエンザ予測モデルの生成装置の内部構造概略図である。
本実施例において、インフルエンザ予測モデルの生成装置1は、PC(Personal Computer、パーソナルコンピュータ)であってもよいし、スマートフォン、タブレットコンピュータ、ポータブルコンピュータなどの端末装置であってもよい。該インフルエンザ予測モデルの生成装置1は、少なくともメモリ11、プロセッサ12、ネットワークインタフェース13、及び通信バス14を含む。
ここで、メモリ11は、フラッシュメモリ、ハードディスク、マルチメディアカード、カード型メモリ(例えば、SD又はDXメモリなど)、磁気メモリ、磁気ディスク、光ディスクなどを含む少なくとも1つの可読記憶媒体を含む。いくつかの実施例において、メモリ11は、例えば、該インフルエンザ予測モデルの生成装置1のハードディスクなど、インフルエンザ予測モデルの生成装置1の内部記憶ユニットであってもよい。別のいくつかの実施例において、メモリ11は、例えば、インフルエンザ予測モデルの生成装置1に設けられたプラグインハードドライブ、スマートメモリカード(Smart Media(登録商標) Card、SMC)、セキュアデジタル(Secure Digital、SD)カード、フラッシュカード(Flash Card)など、インフルエンザ予測モデルの生成装置1の外部記憶機器であってもよい。また、メモリ11はさらに、インフルエンザ予測モデルの生成装置1の内部記憶ユニット及び外部記憶機器の両方を含んでもよい。メモリ11は、例えば、モデル生成プログラム01のコードなど、インフルエンザ予測モデルの生成装置1にインストールされたアプリケーションソフトウェアや、様々なデータを記憶するために用いられるだけでなく、出力済み、又は出力予定のデータを一時的に記憶するために用いられる。
いくつかの実施例において、プロセッサ12は、例えば、モデル生成プログラム01を実行するなど、メモリ11に記憶されたプログラムコード、又は処理データを実行するために用いられる中央処理装置(Central Processing Unit、CPU)、コントローラ、マイクロコントローラ、マイクロプロセッサ、又は他のデータ処理チップであってもよい。
場合によっては、ネットワークインタフェース13は、常に、該装置1と他の電子機器との間に通信接続を確立するために用いられる、標準的な有線インタフェース、無線インタフェース(例えば、WI−FIインタフェース)を含んでもよい。
通信バス14は、これらのコンポーネント間の接続通信を実現するために用いられる。
場合によっては、該装置1はさらに、ディスプレイ(Display)、キーボード(Keyboard)のような入力ユニットを含んでもよいユーザインタフェースを含んでもよく、場合によっては、ユーザインタフェースはさらに、標準的な有線インタフェース、及び無線インタフェースを含んでもよい。場合によっては、いくつかの実施例において、ディスプレイは、LEDディスプレイ、液晶ディスプレイ、タッチ液晶ディスプレイ、及びOLED(Organic Light−Emitting Diode、有機発光ダイオード)タッチデバイスなどであってもよい。ここで、ディスプレイは、インフルエンザ予測モデルの生成装置1で処理される情報を表示し、及び可視化ユーザインタフェースを表示するために用いられる、表示パネル又はディスプレイユニットと適切に呼ばれることもできる。
図2は、コンポーネント11−14、及びモデル生成プログラム01を有するインフルエンザ予測モデルの生成装置1のみを示し、当業者であれば、図1に示した構造は、図面よりも、より少ない又はより多い部材を含むか、又は特定の部材を組み合わせるか、又は異なる形態で部材を配置してもよいため、インフルエンザ予測モデルの生成装置1に対する限定にならない。
図2に示した装置1の実施例において、メモリ11にモデル生成プログラム01が記憶されている。プロセッサ12は、メモリ11に記憶されているモデル生成プログラム01を実行する場合、ステップS10及びステップS20を実現する。
ステップS10、複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ARIMAモデルを構築する。
複数の時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、時系列自体の自己相関に基づき、ARIMA(Autoregressive Integrated Moving Average、自己回帰和分移動平均)モデルを構築する。例えば、目標時間ユニットのインフルエンザサンプル症例の百分率に対して予測を行う場合、該時間ユニットの前の複数の連続した時間ユニットの履歴インフルエンザサンプル症例の百分率データを取得し、さらにARIMAモデルを構築する。本実施例において、週間を時間ユニットとして、インフルエンザを予測する。
ステップS20、モデルパラメータを決定するように、世情キーワードを取得し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングする。
本願の実施例において、インフルエンザに関わる世情キーワードは、主に、インフルエンザウイルス、高熱、咳、鼻詰まり、快克、泰諾、上気道感染、咳き止め、A型インフルエンザなどのような複数のキーワードを含む。上記した世情キーワードに基づき、予め設定されたチャンネルから予測対象の目標領域における世情データを取得し、ここで、予め設定されたチャンネルは、バイドゥ検索及びウェイボーなどのソーシャルネットワークを含み、世情データは、主に、上記した世情キーワードのバイドゥ上にあるバイドゥ検索指数、及びウェイボー上にあるリリース回数を含む。特定のエリアを分析対象とすれば、エリアを目標領域として、該エリアの世情キーワードのバイドゥ検索指数及びウェイボーリリース回数を取得する。
また、本実施例において、週間を時間ユニットとして、過去5年間の週間当たりの上記した世情キーワードのバイドゥ上にあるバイドゥ検索指数及びウェイボー上にあるリリース回数を世情データとして取得し、各世情キーワードにとって、該世情キーワードの1つの予め設定されたチャンネル上にある世情データが260個のデータを含む系列を形成することができ、系列中における各データは、1つの候補特徴であり、全ての候補特徴が候補特徴セットを構成する。モデルパラメータを決定するように、該セット中における特徴を用いて、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングする。
さらに、いくつかの実施例において、特徴の関連性を向上させるために、候補特徴セット中における特徴に対して前処理を行った後、特徴スクリーニングを行い、スクリーニングされた特徴を用いて、xgboost予測モデルをトレーニングする。具体的には、ステップS20は、
世情キーワードを決定し、前記世情キーワードに基づき、複数の連続した時間ユニット内における世情データ系列を取得するとともに、前記世情データ系列中における世情データを候補特徴として、候補特徴セットを構築するステップと、前記候補特徴セット中における候補特徴に対して、ウェーブレットノイズ除去処理及びトレンド除去処理を行うステップと、特徴の予め設定された数を決定するとともに、ウェーブレットノイズ除去処理及びトレンド除去処理が行われた後の候補特徴セットから前記予め設定された数の候補特徴をスクリーニングし、予測特徴セットを構成するステップと、モデルパラメータを決定するように、前記予測特徴セット及び前記複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率の実際観測値を用いて、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングするステップのような詳しいステップを含んでもよい。
ウェーブレットノイズ除去処理及びトレンド除去処理については、
ウェーブレット基底関数を決定し、前記ウェーブレット基底関数に応じて、前記候補特徴セット中における各特徴の形成した系列に対してウェーブレット分解を行うとともに、分解層数を決定し、ウェーブレットノイズ除去の閾値を決定し、決定された閾値に応じて、ウェーブレット分解後の予測特徴の各階層の係数に対して調整を行い、調整されたウェーブレット係数に対して逆変換再構成を行うことにより、ノイズ除去後の候補特徴を取得し、ウェーブレットノイズ除去処理後の候補特徴セット中における各時間ユニットに対応する候補特徴に対して、該時間ユニットの前の複数の連続した時間ユニットのデータを取得して線形回帰を行い、トレンド予測モデルを構築し、前記トレンド予測モデルに基づき、該時間ユニットに対応するベースライン予測値を取得し、該時間ユニットの候補特徴の実際値から前記ベースライン予測値を差し引くことにより、トレンド除去後の候補特徴を取得するという方式によって実現される。
ウェーブレット基底関数を決定し、前記ウェーブレット基底関数に応じて、前記候補特徴セット中における各特徴の形成した系列に対してウェーブレット分解を行うとともに、分解層数を決定する。例えば、世情キーワード「高熱」の週間当たりのバイドゥ指数によって形成された系列に対してウェーブレット分解を行い、測定対象信号波形と接近する原則に基づき、db4を世情データ分解のウェーブレット基底関数として選定する。分解スケールの選択上において、世情データの長さテストに基づき、特定の範囲内における異なる分解スケール下において、ノイズ除去効果が高く、信号歪み度が低い分解層数を選択する。ウェーブレットノイズ除去の閾値を決定し、決定された閾値に応じて、ウェーブレット分解後の候補特徴の各階層の係数に対して調整を行う。具体的には、各特徴の系列の長さNに基づき、ウェーブレットノイズ除去の閾値thrを決定し、使用されたのは、過去52週間の履歴データであると仮定すると、各特徴系列の長さがN=52である。
ソフト閾値アルゴリズムを用いて、小さいウェーブレット係数をゼロに設定し、大きいウェーブレット係数に対してゼロへの縮小処理を行うことにより、分解後の候補特徴の各階層の係数を調整し、具体式は、
であり、ここで、wは調整前の係数で、dは調整後の係数である。
調整されたウェーブレット係数に対して逆変換再構成を行うことにより、ノイズ除去後の候補特徴を取得する。
トレンド予測モデルを構築するように、ウェーブレットノイズ除去処理後の候補特徴セット中における各時間ユニットに対応する候補特徴に対して、該時間ユニットの前の複数の連続した時間ユニットのデータを取得して線形回帰を行い、且つトレンド予測モデルに基づき、該時間ユニットに対応するベースライン予測値を取得する。該時間ユニットの候補特徴の実際値からベースライン予測値を差し引くことにより、トレンド除去後の候補特徴を取得する。
例えば、ウェーブレットノイズ除去前処理後の候補特徴の各データポイント(即ち、1つの時間ユニットに対応する候補特徴)について、最初の52週間のデータを利用して線形回帰を行うことでトレンド予測モデルを構築し、なお、あるデータポイントの履歴データが52週間未満の場合、全ての履歴データを利用して線形回帰を行うことでトレンド予測モデルを構築する。トレンド予測モデルによって現在のデータポイントのベースライン予測値を取得する。現在ポイントの予測特徴の実際値からベースライン予測値を差し引くことにより、トレンド除去後の予測特徴を取得する。
場合によっては、いくつかの実施例において、異なるスクリーニング特徴数を設定し、予測結果を取得し、予測結果の精度に基づき、適当なスクリーニング特徴数を選択してもよい。又は、その他の実施例において、スクリーニング特徴数の決定については、
xgboostアルゴリズムに基づき識別器としてモデルを構築し、前記候補特徴セット中における候補特徴を前記識別器に入力し、特徴再帰除去交差検証アルゴリズムによって、モデル性能が予め設定された条件に達する時の特徴数を前記予め設定された数として選択するという方式を採用してもよい。
予め設定された数を決定した後、xgboostアルゴリズムに基づき識別器としてモデルを構築し、候補特徴セット中における候補特徴を識別器に入力するとともに、特徴再帰除去アルゴリズムに応じて反復演算を行う。識別器の演算によって返送されたモデル係数を取得し、モデル係数に基づき、各候補特徴セット中における各候補特徴の重要度を決定する。各候補特徴の重要度に基づき、現在の候補特徴セットから重要度の最も小さいK個の候補特徴を取り外す。スクリーニングされた候補特徴数が予め設定された数に達するまで、上記ステップを繰り返し実行する。予め設定された数の候補特徴は予測特徴セットを構成する。
予測特徴セット中における予測特徴を利用してxgboost予測モデルをトレーニングし、具体的には、前記複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率の実際観測値を取得し、1週間で取得した予測特徴及び該週間の次の週間のインフルエンザサンプル症例の百分率を1つのトレーニングサンプルとして、最も新しいインフルエンザ変化トレンドを反映できる現在予測週間の最初の複数の連続した週間のデータを選択し、例えば、現在予測週間の最初の52週間のデータをトレーニングセットとして、スクロール予測を行う。xgboostアルゴリズムに基づき予測モデルを構築し、gbtree(generalbalanced trees、汎用バイナリ検索ツリー)をbooster(加速器)として、二乗誤差損失関数に基づき、該予測モデルをトレーニングし、上記した損失関数を最小化にし、モデルパラメータを決定し、最終的なxgboost予測モデルを取得する。また、フォワード分布アルゴリズムを用いて、新しい回帰ツリーを構築することで現在モデルの残差又は残差近似値をフィッティングするとともに、最適化された正規項のオーバーフィッティングに対する抑制、及び並列化処理によって、アルゴリズムの性能を向上させる。
前記ARIMAモデル及び前記xgboost予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築する。
前記ARIMAモデルの目標時間ユニットに対する第1予測値を状態変数の測定値として、前記xgboost予測モデルの目標時間ユニットに対する第2予測値を状態変数の事前推定値として、現在の前記インフルエンザ予測モデルのカルマンゲインを計算する。
計算されたカルマンゲインに基づき、前記インフルエンザ予測モデルにおける前記ARIMAモデル及び前記xgboost予測モデルの重みを更新し、重み更新後の前記インフルエンザ予測モデルが、前記目標時間ユニットの次の時間ユニットのインフルエンザサンプル症例の百分率を予測するために用いられる。
ARIMAモデルの目標時間ユニットKに出力した第1予測値yを離散時間過程で測定方程式によって得られた状態変数の測定値として、xgboost予測モデルの目標時間ユニットKに出力した第2予測値yを離散時間過程で状態遷移方程式によって得られた状態変数の事前推定値として、計算することで現在予測のカルマンゲインを取得し、カルマンゲインに基づき、組み合わせることで得られたインフルエンザ予測モデルの重みを決定する。
カルマンフィルターアルゴリズムの表現式に基づき、インフルエンザ予測モデルの予測値、即ち、カルマンフィルターにおける状態変数の事後推定を取得でき、その表現式は、
ここで、上記の式において、測定方程式の測定ゲインH=1であり、Kはカルマンゲインであり、本実施例において、定数として、組み合わせ予測モデルにおいて、ARIMAモデル及びxgboost予測モデルの重みを決定する。
事後推定誤差共分散を最小化にする目標条件下で、カルマンフィルターにおけるKの反復計算式は、
本実施例にて提供されるインフルエンザ予測モデルの生成装置は、複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ARIMAモデルを構築し、モデルパラメータを決定するように、世情キーワードを取得し、世情キーワードに基づき、複数の時間ユニット内における世情データ系列を取得し、世情データ系列中における世情データを予測特徴として、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングし、ARIMAモデル及びxgboost予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築し、インフルエンザ予測モデルによってインフルエンザ予測を行う過程で、ARIMAモデルの目標時間ユニットに対する第1予測値を状態変数の測定値として、xgboost予測モデルの目標時間ユニットに対する第2予測値を状態変数の事前推定値として、現在のインフルエンザ予測モデルのカルマンゲインを計算し、今回計算されたカルマンゲインに基づき、インフルエンザ予測モデルにおける2つのモデルの重みを更新し、重み更新後のインフルエンザ予測モデルが、次の時間ユニットのインフルエンザサンプル症例の百分率に用いられ、このような方式によって、インフルエンザ予測モデルにおける2つのモデルの重みに対する動的更新を実現し、カルマンフィルターに基づくモデル融合は、時系列自体の変化規則を考慮するだけでなく、世情データを組み合わせて、系列の受けた干渉を修正し、モデル予測をより正確にするとともに、モデル重みをリアルタイム、且つ動的に調整することにより、組み合わせることで得られた予測モデルを、現在性能に優れたモデル出力に傾向させ、予測モデルの精度を向上させる。
場合によっては、他の実施例において、モデル生成プログラムは、1つ又は複数のモジュールに分割されてもよく、本願を完了するように1つ又は複数のモジュールがメモリ11に記憶されるとともに、1つ又は複数のプロセッサ(本実施例では、プロセッサ12である)によって実行され、本願で言及されるモジュールは、モデル生成プログラムのインフルエンザ予測モデルの生成装置における実行過程を説明し、特定の機能を完了するための一連のコンピュータプログラム命令セグメントを意味する。
例えば、図3は、本願によるインフルエンザ予測モデルの生成装置の一実施例におけるモデル生成プログラムの概略ブロック図であり、該実施例において、モデル生成プログラムは、第1予測モジュール10、第2予測モジュール20、モデル組み合わせモジュール30、ゲイン計算モジュール40及びモデル更新モジュール50に分割されてもよく、例示的に、
第1予測モジュール10は、複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ARIMAモデルを構築するために用いられる。
第2予測モジュール20は、モデルパラメータを決定するように、世情キーワードを取得し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングするために用いられる。
モデル組み合わせモジュール30は、前記ARIMAモデル及び前記xgboost予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築するために用いられる。
ゲイン計算モジュール40は、前記ARIMAモデルの目標時間ユニットに対する第1予測値を状態変数の測定値として、前記xgboost予測モデルの目標時間ユニットに対する第2予測値を状態変数の事前推定値として、現在の前記インフルエンザ予測モデルのカルマンゲインを計算するために用いられる。
モデル更新モジュール50は、計算されたカルマンゲインに基づき、前記インフルエンザ予測モデルにおける前記ARIMAモデル及び前記xgboost予測モデルの重みを更新し、重み更新後の前記インフルエンザ予測モデルが、前記目標時間ユニットの次の時間ユニットのインフルエンザサンプル症例の百分率を予測するために用いられる。
上記の第1予測モジュール10、第2予測モジュール20、モデル組み合わせモジュール30、ゲイン計算モジュール40及びモデル更新モジュール50などのプログラムモジュールは実行される場合、実現する機能、又は動作ステップが上記の実施例とほとんど同じであるため、ここで説明を省略する。
また、本願の実施例はさらに、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体にモデル生成プログラムが記憶されており、
複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ARIMAモデルを構築する動作と、
モデルパラメータを決定するように、世情キーワードを取得し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングする動作と、
前記ARIMAモデル及び前記xgboost予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築する動作と、
前記ARIMAモデルの目標時間ユニットに対する第1予測値を状態変数の測定値として、前記xgboost予測モデルの目標時間ユニットに対する第2予測値を状態変数の事前推定値として、現在の前記インフルエンザ予測モデルのカルマンゲインを計算する動作と、
計算されたカルマンゲインに基づき、前記インフルエンザ予測モデルにおける前記ARIMAモデル及び前記xgboost予測モデルの重みを更新し、重み更新後の前記インフルエンザ予測モデルが、前記目標時間ユニットの次の時間ユニットのインフルエンザサンプル症例の百分率を予測するために用いられる動作と、を実現するように、前記モデル生成プログラムが1つ又は複数のプロセッサによって実行できる。
本願のコンピュータ可読記憶媒体の具体的な実施形態は、上記したインフルエンザ予測モデルの生成装置及び方法の各実施例とほとんど同じであるため、ここで説明を省略する。
なお、本明細書において、上記した本願の実施例の番号は、説明のためのものに過ぎず、実施例の優劣を表すものではない。且つ、用語「含む」、「包含」又はこれらの何れの変形は、非排他的な「包含」をカバーすることを意図し、これによって一連の要素を含む過程、装置、物品又は方法はこれらの要素を含むだけでなく、明確に記載されていない他の要素も含み、又は、このような過程、装置、物品又は方法が固有する要素も含むようになる。さらに多く制限されていない場合に、「一つの…を含む」という文章によって限定される要素について、当該要素を含む過程、装置、物品又は方法に他の同じ要素が存在することを排除しない。
当業者は、実施形態に関する上記の記載により、上記した実施例による方法は、ソフトウェアと、必要な汎用ハードウェアプラットフォームとを組み合わせた方式により実現でき、当然ながら、ハードウェアでも実現できるが、多くの場合には、前者がより好ましい実施形態であることを理解できるであろう。これにより、本願の技術的解決手段の趣旨又は従来技術について改良した部分を、ソフトウェア製品の形態で実現でき、前記コンピュータソフトウェア製品は、説明された1つの記憶媒体(例えば、ROM/RAM、磁気ディスク、光ディスク)に記憶されており、且つ、1台の端末装置(例えば、携帯電話、コンピュータ、サーバ、又はネットワーク機器など)により本願の各実施例に記載の方法を実行可能とするための複数のコマンドを含む。
以上に記載したことは本発明の好適な実施例だけであり、これをもって本発明の特許請求の範囲を限定するものではなく、本発明の明細書及び図面に準じてなされた同等の構造上もしくは手順上の変更、又はその他の関係技術分野への直接的もしくは間接的な適用は、全て本発明の特許請求の範囲に含まれるものとする。

Claims (15)

  1. インフルエンザ予測モデルの生成方法であって、
    複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ARIMAモデルを構築するステップと、
    モデルパラメータを決定するように、世情キーワードを取得し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングするステップと、
    前記ARIMAモデル及び前記xgboost予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築するステップと、
    前記ARIMAモデルの目標時間ユニットに対する第1予測値を状態変数の測定値として、前記xgboost予測モデルの目標時間ユニットに対する第2予測値を状態変数の事前推定値として、現在の前記インフルエンザ予測モデルのカルマンゲインを計算するステップと、
    計算されたカルマンゲインに基づき、前記インフルエンザ予測モデルにおける前記ARIMAモデル及び前記xgboost予測モデルの重みを更新し、重み更新後の前記インフルエンザ予測モデルが、前記目標時間ユニットの次の時間ユニットのインフルエンザサンプル症例の百分率を予測するために用いられるステップと、を含むことを特徴とするインフルエンザ予測モデルの生成方法。
  2. モデルパラメータを決定するように、世情キーワードを決定し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングする前記ステップは、
    世情キーワードを決定し、前記世情キーワードに基づき、複数の連続した時間ユニット内における世情データ系列を取得するとともに、前記世情データ系列中における世情データを候補特徴として、候補特徴セットを構築するステップと、
    前記候補特徴セット中における候補特徴に対して、ウェーブレットノイズ除去処理及びトレンド除去処理を行うステップと、
    特徴の予め設定された数を決定するとともに、ウェーブレットノイズ除去処理及びトレンド除去処理が行われた後の候補特徴セットから前記予め設定された数の候補特徴をスクリーニングし、予測特徴セットを構成するステップと、
    モデルパラメータを決定するように、前記予測特徴セット及び前記複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率の実際観測値を用いて、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングするステップと、を含むことを特徴とする請求項1に記載のインフルエンザ予測モデルの生成方法。
  3. 前記候補特徴セット中における候補特徴に対して、ウェーブレットノイズ除去処理及びトレンド除去処理を行う前記ステップは、
    ウェーブレット基底関数を決定し、前記ウェーブレット基底関数に応じて、前記候補特徴セット中における各特徴の形成した系列に対してウェーブレット分解を行うとともに、分解層数を決定するステップと、
    ウェーブレットノイズ除去の閾値を決定し、決定された閾値に応じて、ウェーブレット分解後の予測特徴の各階層の係数に対して調整を行うステップと、
    調整されたウェーブレット係数に対して逆変換再構成を行うことにより、ノイズ除去後の候補特徴を取得するステップと、
    トレンド予測モデルを構築するように、ウェーブレットノイズ除去処理後の候補特徴セット中における各時間ユニットに対応する候補特徴に対して、該時間ユニットの前の複数の連続した時間ユニットのデータを取得して線形回帰を行い、且つ前記トレンド予測モデルに基づき、該時間ユニットに対応するベースライン予測値を取得するステップと、
    該時間ユニットの候補特徴の実際値から前記ベースライン予測値を差し引くことにより、トレンド除去後の候補特徴を取得するステップと、を含むことを特徴とする請求項2に記載のインフルエンザ予測モデルの生成方法。
  4. 特徴の予め設定された数を決定する前記ステップは、
    xgboostアルゴリズムに基づき識別器としてモデルを構築し、前記候補特徴セット中における候補特徴を前記識別器に入力し、特徴再帰除去交差検証アルゴリズムによって、モデル性能が予め設定された条件に達する時の特徴数を前記予め設定された数として選択するステップ、を含むことを特徴とする請求項2または3に記載のインフルエンザ予測モデルの生成方法。
  5. ウェーブレットノイズ除去処理及びトレンド除去処理が行われた後の候補特徴セットから前記予め設定された数の候補特徴をスクリーニングし、予測特徴セットを構成する前記ステップは、
    xgboostアルゴリズムに基づき識別器としてモデルを構築し、前記候補特徴セット中における候補特徴を前記識別器に入力するとともに、特徴再帰除去アルゴリズムに応じて反復演算を行うステップと、
    前記識別器の演算によって返送されたモデル係数を取得し、前記モデル係数に基づき、各候補特徴セット中における各候補特徴の重要度を決定するステップと、
    各候補特徴の重要度に基づき、現在の候補特徴セットから重要度の最も小さいK個の候補特徴を取り外すステップと、
    スクリーニングされた候補特徴数が前記予め設定された数に達するまで、上記ステップを繰り返し実行するステップと、
    前記予め設定された数の候補特徴が予測特徴セットを構成するステップと、を含むことを特徴とする請求項2または3に記載のインフルエンザ予測モデルの生成方法。
  6. インフルエンザ予測モデルの生成装置であって、前記装置は、メモリ及びプロセッサを含み、前記メモリには、前記プロセッサで実行可能なモデル生成プログラムが記憶されており、前記モデル生成プログラムが前記プロセッサによって実行されると、
    複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ARIMAモデルを構築するステップと、
    モデルパラメータを決定するように、世情キーワードを取得し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングするステップと、
    前記ARIMAモデル及び前記xgboost予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築するステップと、
    前記ARIMAモデルの目標時間ユニットに対する第1予測値を状態変数の測定値として、前記xgboost予測モデルの目標時間ユニットに対する第2予測値を状態変数の事前推定値として、現在の前記インフルエンザ予測モデルのカルマンゲインを計算するステップと、
    計算されたカルマンゲインに基づき、前記インフルエンザ予測モデルにおける前記ARIMAモデル及び前記xgboost予測モデルの重みを更新し、重み更新後の前記インフルエンザ予測モデルが、前記目標時間ユニットの次の時間ユニットのインフルエンザサンプル症例の百分率を予測するために用いられるステップと、を実現することを特徴とするインフルエンザ予測モデルの生成装置。
  7. モデルパラメータを決定するように、世情キーワードを決定し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングする前記ステップは、
    世情キーワードを決定し、前記世情キーワードに基づき、複数の連続した時間ユニット内における世情データ系列を取得するとともに、前記世情データ系列中における世情データを候補特徴として、候補特徴セットを構築するステップと、
    前記候補特徴セット中における候補特徴に対して、ウェーブレットノイズ除去処理及びトレンド除去処理を行うステップと、
    特徴の予め設定された数を決定するとともに、ウェーブレットノイズ除去処理及びトレンド除去処理が行われた後の候補特徴セットから前記予め設定された数の候補特徴をスクリーニングし、予測特徴セットを構成するステップと、
    モデルパラメータを決定するように、前記予測特徴セット及び前記複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率の実際観測値を用いて、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングするステップと、を含むことを特徴とする請求項に記載のインフルエンザ予測モデルの生成装置。
  8. 前記候補特徴セット中における候補特徴に対して、ウェーブレットノイズ除去処理及びトレンド除去処理を行う前記ステップは、
    ウェーブレット基底関数を決定し、前記ウェーブレット基底関数に応じて、前記候補特徴セット中における各特徴の形成した系列に対してウェーブレット分解を行うとともに、分解層数を決定するステップと、
    ウェーブレットノイズ除去の閾値を決定し、決定された閾値に応じて、ウェーブレット分解後の予測特徴の各階層の係数に対して調整を行うステップと、
    調整されたウェーブレット係数に対して逆変換再構成を行うことにより、ノイズ除去後の候補特徴を取得するステップと、
    トレンド予測モデルを構築するように、ウェーブレットノイズ除去処理後の候補特徴セット中における各時間ユニットに対応する候補特徴に対して、該時間ユニットの前の複数の連続した時間ユニットのデータを取得して線形回帰を行い、且つ前記トレンド予測モデルに基づき、該時間ユニットに対応するベースライン予測値を取得するステップと、
    該時間ユニットの候補特徴の実際値から前記ベースライン予測値を差し引くことにより、トレンド除去後の候補特徴を取得するステップと、を含むことを特徴とする請求項に記載のインフルエンザ予測モデルの生成装置。
  9. 特徴の予め設定された数を決定する前記ステップは、
    xgboostアルゴリズムに基づき識別器としてモデルを構築し、前記候補特徴セット中における候補特徴を前記識別器に入力し、特徴再帰除去交差検証アルゴリズムによって、モデル性能が予め設定された条件に達する時の特徴数を前記予め設定された数として選択するステップ、を含むことを特徴とする請求項7または8に記載のインフルエンザ予測モデルの生成装置。
  10. ウェーブレットノイズ除去処理及びトレンド除去処理が行われた後の候補特徴セットから前記予め設定された数の候補特徴をスクリーニングし、予測特徴セットを構成する前記ステップは、
    xgboostアルゴリズムに基づき識別器としてモデルを構築し、前記候補特徴セット中における候補特徴を前記識別器に入力するとともに、特徴再帰除去アルゴリズムに応じて反復演算を行うステップと、
    前記識別器の演算によって返送されたモデル係数を取得し、前記モデル係数に基づき、各候補特徴セット中における各候補特徴の重要度を決定するステップと、
    各候補特徴の重要度に基づき、現在の候補特徴セットから重要度の最も小さいK個の候補特徴を取り外すステップと、
    スクリーニングされた候補特徴数が前記予め設定された数に達するまで、上記ステップを繰り返し実行するステップと、
    前記予め設定された数の候補特徴が予測特徴セットを構成するステップと、を含むことを特徴とする請求項7または8に記載のインフルエンザ予測モデルの生成装置。
  11. コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体にモデル生成プログラムが記憶されており、
    複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ARIMAモデルを構築するステップと、
    モデルパラメータを決定するように、世情キーワードを取得し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングするステップと、
    前記ARIMAモデル及び前記xgboost予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築するステップと、
    前記ARIMAモデルの目標時間ユニットに対する第1予測値を状態変数の測定値として、前記xgboost予測モデルの目標時間ユニットに対する第2予測値を状態変数の事前推定値として、現在の前記インフルエンザ予測モデルのカルマンゲインを計算するステップと、
    計算されたカルマンゲインに基づき、前記インフルエンザ予測モデルにおける前記ARIMAモデル及び前記xgboost予測モデルの重みを更新し、重み更新後の前記インフルエンザ予測モデルが、前記目標時間ユニットの次の時間ユニットのインフルエンザサンプル症例の百分率を予測するために用いられるステップと、を実現するように、前記モデル生成プログラムが1つ又は複数のプロセッサによって実行できることを特徴とするコンピュータ可読記憶媒体。
  12. モデルパラメータを決定するように、世情キーワードを決定し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングする前記ステップは、
    世情キーワードを決定し、前記世情キーワードに基づき、複数の連続した時間ユニット内における世情データ系列を取得するとともに、前記世情データ系列中における世情データを候補特徴として、候補特徴セットを構築するステップと、
    前記候補特徴セット中における候補特徴に対して、ウェーブレットノイズ除去処理及びトレンド除去処理を行うステップと、
    特徴の予め設定された数を決定するとともに、ウェーブレットノイズ除去処理及びトレンド除去処理が行われた後の候補特徴セットから前記予め設定された数の候補特徴をスクリーニングし、予測特徴セットを構成するステップと、
    モデルパラメータを決定するように、前記予測特徴セット及び前記複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率の実際観測値を用いて、xgboostアルゴリズムに基づき構築されたxgboost予測モデルをトレーニングするステップと、を含むことを特徴とする請求項11に記載のコンピュータ可読記憶媒体。
  13. 前記候補特徴セット中における候補特徴に対して、ウェーブレットノイズ除去処理及びトレンド除去処理を行う前記ステップは、
    ウェーブレット基底関数を決定し、前記ウェーブレット基底関数に応じて、前記候補特徴セット中における各特徴の形成した系列に対してウェーブレット分解を行うとともに、分解層数を決定するステップと、
    ウェーブレットノイズ除去の閾値を決定し、決定された閾値に応じて、ウェーブレット分解後の予測特徴の各階層の係数に対して調整を行うステップと、
    調整されたウェーブレット係数に対して逆変換再構成を行うことにより、ノイズ除去後の候補特徴を取得するステップと、
    トレンド予測モデルを構築するように、ウェーブレットノイズ除去処理後の候補特徴セット中における各時間ユニットに対応する候補特徴に対して、該時間ユニットの前の複数の連続した時間ユニットのデータを取得して線形回帰を行い、且つ前記トレンド予測モデルに基づき、該時間ユニットに対応するベースライン予測値を取得するステップと、
    該時間ユニットの候補特徴の実際値から前記ベースライン予測値を差し引くことにより、トレンド除去後の候補特徴を取得するステップと、を含むことを特徴とする請求項12に記載のコンピュータ可読記憶媒体。
  14. 特徴の予め設定された数を決定する前記ステップは、
    xgboostアルゴリズムに基づき識別器としてモデルを構築し、前記候補特徴セット中における候補特徴を前記識別器に入力し、特徴再帰除去交差検証アルゴリズムによって、モデル性能が予め設定された条件に達する時の特徴数を前記予め設定された数として選択するステップ、を含むことを特徴とする請求項12または13に記載のコンピュータ可読記憶媒体。
  15. ウェーブレットノイズ除去処理及びトレンド除去処理が行われた後の候補特徴セットから前記予め設定された数の候補特徴をスクリーニングし、予測特徴セットを構成する前記ステップは、
    xgboostアルゴリズムに基づき識別器としてモデルを構築し、前記候補特徴セット中における候補特徴を前記識別器に入力するとともに、特徴再帰除去アルゴリズムに応じて反復演算を行うステップと、
    前記識別器の演算によって返送されたモデル係数を取得し、前記モデル係数に基づき、各候補特徴セット中における各候補特徴の重要度を決定するステップと、
    各候補特徴の重要度に基づき、現在の候補特徴セットから重要度の最も小さいK個の候補特徴を取り外すステップと、
    スクリーニングされた候補特徴数が前記予め設定された数に達するまで、上記ステップを繰り返し実行するステップと、
    前記予め設定された数の候補特徴が予測特徴セットを構成するステップと、を含むことを特徴とする請求項12または13に記載のコンピュータ可読記憶媒体。
JP2019556833A 2018-05-31 2018-08-24 インフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体 Active JP6815708B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810543749.9A CN108766585A (zh) 2018-05-31 2018-05-31 流感预测模型的生成方法、装置及计算机可读存储介质
CN201810543749.9 2018-05-31
PCT/CN2018/102221 WO2019227716A1 (zh) 2018-05-31 2018-08-24 流感预测模型的生成方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
JP2020525872A JP2020525872A (ja) 2020-08-27
JP6815708B2 true JP6815708B2 (ja) 2021-01-20

Family

ID=64004677

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019556833A Active JP6815708B2 (ja) 2018-05-31 2018-08-24 インフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体

Country Status (3)

Country Link
JP (1) JP6815708B2 (ja)
CN (1) CN108766585A (ja)
WO (1) WO2019227716A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111902B (zh) * 2019-04-04 2022-05-27 平安科技(深圳)有限公司 急性传染病的发病周期预测方法、装置及存储介质
CN111242347B (zh) * 2019-12-28 2021-01-01 浙江大学 基于历史权重更新的桥梁管养辅助决策系统
CN112015778A (zh) * 2020-08-19 2020-12-01 上海满盛信息技术有限公司 一种水指纹预测算法
CN112163723B (zh) * 2020-11-02 2023-09-12 西安热工研究院有限公司 基于情景划分的水电站中长期径流预测方法、介质及设备
CN112700885B (zh) * 2021-01-13 2023-12-15 大连海事大学 一种基于卡尔曼滤波辨识新冠病毒传播模型参数的方法
CN112951440A (zh) * 2021-02-04 2021-06-11 汕头大学医学院 一种登革热传播风险预测方法及受影响人口大小确定方法
CN113436751A (zh) * 2021-06-29 2021-09-24 山东健康医疗大数据有限公司 一种周ili占比趋势预测系统及方法
CN114360739B (zh) * 2022-01-05 2023-07-21 中国科学院地理科学与资源研究所 一种基于遥感云计算与深度学习的登革热风险预测方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826090A (zh) * 2009-09-15 2010-09-08 电子科技大学 基于最优模型的web舆情趋势预测方法
CN101847179B (zh) * 2010-04-13 2012-07-18 中国疾病预防控制中心病毒病预防控制所 通过模型预测流感抗原的方法及应用
CN104517159A (zh) * 2014-12-18 2015-04-15 上海交通大学 一种公交短时客流的预测方法
WO2017120579A1 (en) * 2016-01-10 2017-07-13 Presenso, Ltd. System and method for validating unsupervised machine learning models
CN105678080A (zh) * 2016-01-11 2016-06-15 浪潮集团有限公司 通过大数据搜寻分析预测流感爆发可能性的方法
CN105824897A (zh) * 2016-03-14 2016-08-03 湖南大学 基于卡尔曼滤波的混合推荐系统及方法
CN107688872A (zh) * 2017-08-20 2018-02-13 平安科技(深圳)有限公司 预测模型建立装置、方法及计算机可读存储介质

Also Published As

Publication number Publication date
WO2019227716A1 (zh) 2019-12-05
JP2020525872A (ja) 2020-08-27
CN108766585A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
JP6815708B2 (ja) インフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体
CN108229667B (zh) 基于人工神经网络类别的修剪
JP2019533205A (ja) ユーザキーワード抽出装置、方法、及びコンピュータ読み取り可能な記憶媒体
CN110366734A (zh) 优化神经网络架构
US10146531B2 (en) Method and apparatus for generating a refactored code
CN110476172A (zh) 用于卷积神经网络的神经架构搜索
WO2019036035A1 (en) DATA PROCESSING APPARATUS FOR ACCESSING A SHARED MEMORY IN PROCESSING STRUCTURED DATA FOR MODIFYING A DATA STRUCTURE OF A PARAMETER VECTOR
WO2019227711A1 (zh) 流感预测模型的生成方法、装置及计算机可读存储介质
WO2018144534A1 (en) Hardware-based machine learning acceleration
CN110114784A (zh) 递归神经网络
JP7414907B2 (ja) 事前訓練済みモデルの決定方法及びその決定装置、電子機器並びに記憶媒体
CN108985501B (zh) 基于指数特征提取的股指预测方法、服务器及存储介质
CN110462638A (zh) 使用后验锐化训练神经网络
CN111353601A (zh) 用于预测模型结构的延时的方法和装置
CN110968802B (zh) 一种用户特征的分析方法、分析装置及可读存储介质
JP2019508774A (ja) データベースシステム最適化の方法、システム、電子装置及び記憶媒体
CN109902286A (zh) 一种实体识别的方法、装置及电子设备
CN110348581B (zh) 用户特征群中用户特征寻优方法、装置、介质及电子设备
CN112949433A (zh) 视频分类模型的生成方法、装置、设备和存储介质
JP2019101681A (ja) 見積り取得装置、見積り取得方法およびプログラム
CN116703466A (zh) 基于改进灰狼算法的系统访问量预测方法及其相关设备
KR102561799B1 (ko) 디바이스에서 딥러닝 모델의 레이턴시를 예측하는 방법 및 시스템
CN113961765B (zh) 基于神经网络模型的搜索方法、装置、设备和介质
EP3195158B1 (en) Parallel processing using a bottom-up approach
US20210182696A1 (en) Prediction of objective variable using models based on relevance of each model

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191018

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201222

R150 Certificate of patent or registration of utility model

Ref document number: 6815708

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250