JP6815708B2

JP6815708B2 - インフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体

Info

Publication number: JP6815708B2
Application number: JP2019556833A
Authority: JP
Inventors: 弦李; 亮徐; 暁▲うぇん▼ 阮; 京肖
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-05-31
Filing date: 2018-08-24
Publication date: 2021-01-20
Anticipated expiration: 2038-08-24
Also published as: CN108766585A; WO2019227716A1; JP2020525872A

Description

「関連出願の相互参照」
本願は、パリ条約に基づいて２０１８年０５月３１日に中国国家知識産権局に出願された、中国特許出願第２０１８１０５４３７４９．９号の「インフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体」と題する中国特許出願の優先権を主張し、当該出願の全体が参照によりここに組み込まれる。

本願は、コンピュータ技術分野に関し、特に、インフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体に関する。

現在、インフルエンザ予測は、常に、時系列自己相関に基づく時系列モデルを採用するか、又は外因性特徴を使用して回帰モデルを構築するか、又は異なるモデルを一体に組み合わせることで予測し、モデル組み合わせを使用すれば、各モデルアルゴリズムの優勢を発揮できると同時に、系列自体の変化規則及び外因性特徴の時系列モデルに対する修正をフィッティングすることにより、モデルの一般化能力を向上させる。

ただし、現在、広く使用されているモデル組み合わせ方法は平均法であり、即ち、異なるモデルの予測結果の平均値を計算し、計算された平均値を組み合わせモデルの予測結果とし、このようなモデル組み合わせ方法は、各モデルの予測能力を判定できず、さらに各モデルの重みを動的に調整できないため、組み合わせモデルの予測精度が低いことを引き起こす。

本願は、インフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体を提供し、本願の主な目的は、インフルエンザ予測モデルの予測精度を向上させることにある。

上記目的を達成するために、本願はさらに、インフルエンザ予測モデルの生成方法を提供し、該方法は、
複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ＡＲＩＭＡモデルを構築するステップと、
モデルパラメータを決定するように、世情キーワードを取得し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、ｘｇｂｏｏｓｔアルゴリズムに基づき構築されたｘｇｂｏｏｓｔ予測モデルをトレーニングするステップと、
前記ＡＲＩＭＡモデル及び前記ｘｇｂｏｏｓｔ予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築するステップと、
前記ＡＲＩＭＡモデルの目標時間ユニットに対する第１予測値を状態変数の測定値として、前記ｘｇｂｏｏｓｔ予測モデルの目標時間ユニットに対する第２予測値を状態変数の事前推定値として、現在の前記インフルエンザ予測モデルのカルマンゲインを計算するステップと、
計算されたカルマンゲインに基づき、前記インフルエンザ予測モデルにおける前記ＡＲＩＭＡモデル及び前記ｘｇｂｏｏｓｔ予測モデルの重みを更新し、重み更新後の前記インフルエンザ予測モデルが、前記目標時間ユニットの次の時間ユニットのインフルエンザサンプル症例の百分率を予測するために用いられるステップと、を含む。

また、上記目的を達成するために、本願はさらに、インフルエンザ予測モデルの生成装置を提供し、該装置は、メモリ及びプロセッサを含み、前記メモリには、前記プロセッサで実行可能なモデル生成プログラムが記憶されており、前記モデル生成プログラムが前記プロセッサによって実行されると、
複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ＡＲＩＭＡモデルを構築するステップと、
モデルパラメータを決定するように、世情キーワードを取得し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、ｘｇｂｏｏｓｔアルゴリズムに基づき構築されたｘｇｂｏｏｓｔ予測モデルをトレーニングするステップと、
前記ＡＲＩＭＡモデル及び前記ｘｇｂｏｏｓｔ予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築するステップと、
前記ＡＲＩＭＡモデルの目標時間ユニットに対する第１予測値を状態変数の測定値として、前記ｘｇｂｏｏｓｔ予測モデルの目標時間ユニットに対する第２予測値を状態変数の事前推定値として、現在の前記インフルエンザ予測モデルのカルマンゲインを計算するステップと、
計算されたカルマンゲインに基づき、前記インフルエンザ予測モデルにおける前記ＡＲＩＭＡモデル及び前記ｘｇｂｏｏｓｔ予測モデルの重みを更新し、重み更新後の前記インフルエンザ予測モデルが、前記目標時間ユニットの次の時間ユニットのインフルエンザサンプル症例の百分率を予測するために用いられるステップと、を実現する。

また、上記目的を達成するために、本願はさらに、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体にモデル生成プログラムが記憶されており、上記したインフルエンザ予測モデルの生成方法のステップを実現するように、前記モデル生成プログラムが１つ又は複数のプロセッサによって実行されてもよい。

本願にて提供されるインフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体は、複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ＡＲＩＭＡモデルを構築し、モデルパラメータを決定するように、世情キーワードを取得し、世情キーワードに基づき、複数の時間ユニット内における世情データ系列を取得し、世情データ系列中における世情データを予測特徴として、ｘｇｂｏｏｓｔアルゴリズムに基づき構築されたｘｇｂｏｏｓｔ予測モデルをトレーニングし、ＡＲＩＭＡモデル及びｘｇｂｏｏｓｔ予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築し、インフルエンザ予測モデルによってインフルエンザ予測を行う過程で、ＡＲＩＭＡモデルの目標時間ユニットに対する第１予測値を状態変数の測定値として、ｘｇｂｏｏｓｔ予測モデルの目標時間ユニットに対する第２予測値を状態変数の事前推定値として、現在のインフルエンザ予測モデルのカルマンゲインを計算し、今回計算されたカルマンゲインに基づき、インフルエンザ予測モデルにおける２つのモデルの重みを更新し、重み更新後のインフルエンザ予測モデルが、次の時間ユニットのインフルエンザサンプル症例の百分率に用いられ、このような方式によって、インフルエンザ予測モデルにおける２つのモデルの重みに対する動的更新を実現し、組み合わせることで得られた予測モデルを、現在性能に優れたモデル出力に傾向させ、予測モデルの精度を向上させる。

本願の一実施例によるインフルエンザ予測モデルの生成方法の概略フローチャートである。本願の一実施例によるインフルエンザ予測モデルの生成装置の内部構造概略図である。本願の一実施例によるインフルエンザ予測モデルの生成装置におけるモデル生成プログラムの概略ブロック図である。本願の目的の実現、機能的特徴及び利点は、実施例によって図面を参照しながら、さらに説明される。

なお、本明細書に記載される特定の実施例は、本願を解釈するためのものに過ぎず、本願を限定することを意図するものではない。

本願は、インフルエンザ予測モデルの生成方法を提供する。図１は、本願の一実施例によるインフルエンザ予測モデルの生成方法の概略フローチャートである。該方法は、ソフトウェア及び／又はハードウェアによって実現可能な装置によって実行されてもよい。

本実施例において、インフルエンザ予測モデルの生成方法は、ステップＳ１０〜ステップＳ５０を含む。

ステップＳ１０、複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ＡＲＩＭＡモデルを構築する。

複数の時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、時系列自体の自己相関に基づき、ＡＲＩＭＡ（ＡｕｔｏｒｅｇｒｅｓｓｉｖｅＩｎｔｅｇｒａｔｅｄＭｏｖｉｎｇＡｖｅｒａｇｅ、自己回帰和分移動平均）モデルを構築する。例えば、目標時間ユニットのインフルエンザサンプル症例の百分率に対して予測を行う場合、該時間ユニットの前の複数の連続した時間ユニットの履歴インフルエンザサンプル症例の百分率データを取得し、さらにＡＲＩＭＡモデルを構築する。本実施例において、週間を時間ユニットとして、インフルエンザを予測する。

ステップＳ２０、モデルパラメータを決定するように、世情キーワードを取得し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、ｘｇｂｏｏｓｔアルゴリズムに基づき構築されたｘｇｂｏｏｓｔ予測モデルをトレーニングする。

本願の実施例において、インフルエンザに関わる世情キーワードは、主に、インフルエンザウイルス、高熱、咳、鼻詰まり、快克、泰諾、上気道感染、咳き止め、Ａ型インフルエンザなどのような複数のキーワードを含む。上記した世情キーワードに基づき、予め設定されたチャンネルから予測対象の目標領域における世情データを取得し、ここで、予め設定されたチャンネルは、バイドゥ検索及びウェイボーなどのソーシャルネットワークを含み、世情データは、主に、上記した世情キーワードのバイドゥ上にあるバイドゥ検索指数、及びウェイボー上にあるリリース回数を含む。特定のエリアを分析対象とすれば、エリアを目標領域として、該エリアの世情キーワードのバイドゥ検索指数及びウェイボーリリース回数を取得する。

また、本実施例において、週間を時間ユニットとして、過去５年間の週間当たりの上記した世情キーワードのバイドゥ上にあるバイドゥ検索指数及びウェイボー上にあるリリース回数を世情データとして取得し、各世情キーワードにとって、該世情キーワードの１つの予め設定されたチャンネル上にある世情データが２６０個のデータを含む系列を形成することができ、系列中における各データは、１つの候補特徴であり、全ての候補特徴が候補特徴セットを構成する。モデルパラメータを決定するように、該セット中における特徴を用いて、ｘｇｂｏｏｓｔ（ｅＸｔｒｅｍｅＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇ、極端勾配ブースティング）アルゴリズムに基づき構築されたｘｇｂｏｏｓｔ予測モデルをトレーニングする。

さらに、いくつかの実施例において、特徴の関連性を向上させるために、候補特徴セット中における特徴に対して前処理を行った後、特徴スクリーニングを行い、スクリーニングされた特徴を用いて、ｘｇｂｏｏｓｔ予測モデルをトレーニングする。具体的には、
世情キーワードを決定し、前記世情キーワードに基づき、複数の連続した時間ユニット内における世情データ系列を取得するとともに、前記世情データ系列中における世情データを候補特徴として、候補特徴セットを構築するステップと、前記候補特徴セット中における候補特徴に対して、ウェーブレットノイズ除去処理及びトレンド除去処理を行うステップと、特徴の予め設定された数を決定するとともに、ウェーブレットノイズ除去処理及びトレンド除去処理が行われた後の候補特徴セットから前記予め設定された数の候補特徴をスクリーニングし、予測特徴セットを構成するステップと、モデルパラメータを決定するように、前記予測特徴セット及び前記複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率の実際観測値を用いて、ｘｇｂｏｏｓｔアルゴリズムに基づき構築されたｘｇｂｏｏｓｔ予測モデルをトレーニングするステップのような詳しいステップを含んでもよい。

ウェーブレットノイズ除去処理及びトレンド除去処理については、ウェーブレット基底関数を決定し、前記ウェーブレット基底関数に応じて、前記候補特徴セット中における各特徴の形成した系列に対してウェーブレット分解を行うとともに、分解層数を決定し、ウェーブレットノイズ除去の閾値を決定し、決定された閾値に応じて、ウェーブレット分解後の予測特徴の各階層の係数に対して調整を行い、調整されたウェーブレット係数に対して逆変換再構成を行うことにより、ノイズ除去後の候補特徴を取得し、ウェーブレットノイズ除去処理後の候補特徴セット中における各時間ユニットに対応する候補特徴に対して、該時間ユニットの前の複数の連続した時間ユニットのデータを取得して線形回帰を行い、トレンド予測モデルを構築し、前記トレンド予測モデルに基づき、該時間ユニットに対応するベースライン予測値を取得し、該時間ユニットの候補特徴の実際値から前記ベースライン予測値を差し引くことにより、トレンド除去後の候補特徴を取得するという方式によって実現される。

ウェーブレット基底関数を決定し、前記ウェーブレット基底関数に応じて、前記候補特徴セット中における各特徴の形成した系列に対してウェーブレット分解を行うとともに、分解層数を決定する。例えば、世情キーワード「高熱」の週間当たりのバイドゥ指数によって形成された系列に対してウェーブレット分解を行い、測定対象信号波形と接近する原則に基づき、ｄｂ４を世情データ分解のウェーブレット基底関数として選定する。分解スケールの選択上において、世情データの長さテストに基づき、特定の範囲内における異なる分解スケール下において、ノイズ除去効果が高く、信号歪み度が低い分解層数を選択する。ウェーブレットノイズ除去の閾値を決定し、決定された閾値に応じて、ウェーブレット分解後の候補特徴の各階層の係数に対して調整を行う。具体的には、各特徴の系列の長さＮに基づき、ウェーブレットノイズ除去の閾値ｔｈｒを決定し、使用されたのは、過去５２週間の履歴データであると仮定すると、各特徴系列の長さがＮ＝５２である。

ソフト閾値アルゴリズムを用いて、小さいウェーブレット係数をゼロに設定し、大きいウェーブレット係数に対してゼロへの縮小処理を行うことにより、分解後の候補特徴の各階層の係数を調整し、具体式は、
であり、ここで、ｗは調整前の係数で、は調整後の係数である。

調整されたウェーブレット係数に対して逆変換再構成を行うことにより、ノイズ除去後の候補特徴を取得する。

トレンド予測モデルを構築するように、ウェーブレットノイズ除去処理後の候補特徴セット中における各時間ユニットに対応する候補特徴に対して、該時間ユニットの前の複数の連続した時間ユニットのデータを取得して線形回帰を行い、且つトレンド予測モデルに基づき、該時間ユニットに対応するベースライン予測値を取得する。該時間ユニットの候補特徴の実際値からベースライン予測値を差し引くことにより、トレンド除去後の候補特徴を取得する。

例えば、ウェーブレットノイズ除去前処理後の候補特徴の各データポイント（即ち、１つの時間ユニットに対応する候補特徴）について、最初の５２週間のデータを利用して線形回帰を行うことでトレンド予測モデルを構築し、なお、あるデータポイントの履歴データが５２週間未満の場合、全ての履歴データを利用して線形回帰を行うことでトレンド予測モデルを構築する。トレンド予測モデルによって現在のデータポイントのベースライン予測値を取得する。現在ポイントの予測特徴の実際値からベースライン予測値を差し引くことにより、トレンド除去後の予測特徴を取得する。

場合によっては、いくつかの実施例において、異なるスクリーニング特徴数を設定し、予測結果を取得し、予測結果の精度に基づき、適当なスクリーニング特徴数を選択してもよい。又は、その他の実施例において、スクリーニング特徴数の決定については、
ｘｇｂｏｏｓｔアルゴリズムに基づき識別器としてモデルを構築し、前記候補特徴セット中における候補特徴を前記識別器に入力し、特徴再帰除去交差検証アルゴリズムによって、モデル性能が予め設定された条件に達する時の特徴数を前記予め設定された数として選択するという方式を採用してもよい。

予め設定された数を決定した後、ｘｇｂｏｏｓｔアルゴリズムに基づき識別器としてモデルを構築し、候補特徴セット中における候補特徴を識別器に入力するとともに、特徴再帰除去アルゴリズムに応じて反復演算を行う。識別器の演算によって返送されたモデル係数を取得し、モデル係数に基づき、各候補特徴セット中における各候補特徴の重要度を決定する。各候補特徴の重要度に基づき、現在の候補特徴セットから重要度の最も小さいＫ個の候補特徴を取り外す。スクリーニングされた候補特徴数が予め設定された数に達するまで、上記ステップを繰り返し実行する。予め設定された数の候補特徴は予測特徴セットを構成する。

予測特徴セット中における予測特徴を利用してｘｇｂｏｏｓｔ予測モデルをトレーニングし、具体的には、前記複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率の実際観測値を取得し、１週間で取得した予測特徴及び該週間の次の週間のインフルエンザサンプル症例の百分率を１つのトレーニングサンプルとして、最も新しいインフルエンザ変化トレンドを反映できる現在予測週間の最初の複数の連続した週間のデータを選択し、例えば、現在予測週間の最初の５２週間のデータをトレーニングセットとして、スクロール予測を行う。ｘｇｂｏｏｓｔアルゴリズムに基づき予測モデルを構築し、ｇｂｔｒｅｅ（ｇｅｎｅｒａｌｂａｌａｎｃｅｄｔｒｅｅｓ、汎用バイナリ検索ツリー）をｂｏｏｓｔｅｒ（加速器）として、二乗誤差損失関数に基づき、該予測モデルをトレーニングし、上記した損失関数を最小化にし、モデルパラメータを決定し、最終的なｘｇｂｏｏｓｔ予測モデルを取得する。また、フォワード分布アルゴリズムを用いて、新しい回帰ツリーを構築することで現在モデルの残差又は残差近似値をフィッティングするとともに、最適化された正規項のオーバーフィッティングに対する抑制、及び並列化処理によって、アルゴリズムの性能を向上させる。

ステップＳ３０、前記ＡＲＩＭＡモデル及び前記ｘｇｂｏｏｓｔ予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築する。

ステップＳ４０、前記ＡＲＩＭＡモデルの目標時間ユニットに対する第１予測値を状態変数の測定値として、前記ｘｇｂｏｏｓｔ予測モデルの目標時間ユニットに対する第２予測値を状態変数の事前推定値として、現在の前記インフルエンザ予測モデルのカルマンゲインを計算する。

ステップＳ５０、計算されたカルマンゲインに基づき、前記インフルエンザ予測モデルにおける前記ＡＲＩＭＡモデル及び前記ｘｇｂｏｏｓｔ予測モデルの重みを更新し、重み更新後の前記インフルエンザ予測モデルが、前記目標時間ユニットの次の時間ユニットのインフルエンザサンプル症例の百分率を予測するために用いられる。

ＡＲＩＭＡモデルの目標時間ユニットＫに出力した第１予測値ｙ_Aを離散時間過程で測定方程式によって得られた状態変数の測定値として、ｘｇｂｏｏｓｔ予測モデルの目標時間ユニットＫに出力した第２予測値ｙ_xを離散時間過程で状態遷移方程式によって得られた状態変数の事前推定値として、計算することで現在予測のカルマンゲインを取得し、カルマンゲインに基づき、組み合わせることで得られたインフルエンザ予測モデルの重みを決定する。

カルマンフィルターアルゴリズムの表現式に基づき、インフルエンザ予測モデルの予測値、即ち、カルマンフィルターにおける状態変数の事後推定を取得でき、その表現式は、
ここで、上記の式において、測定方程式の測定ゲインＨ＝１であり、Ｋ_ｋはカルマンゲインであり、本実施例において、定数として、組み合わせ予測モデルにおいて、ＡＲＩＭＡモデル及びｘｇｂｏｏｓｔ予測モデルの重みを決定する。

事後推定誤差共分散を最小化にする目標条件下で、カルマンフィルターにおけるＫ_ｋの反復計算式は、

本実施例にて提供されるインフルエンザ予測モデルの生成方法は、複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ＡＲＩＭＡモデルを構築し、モデルパラメータを決定するように、世情キーワードを取得し、世情キーワードに基づき、複数の時間ユニット内における世情データ系列を取得し、世情データ系列中における世情データを予測特徴として、ｘｇｂｏｏｓｔアルゴリズムに基づき構築されたｘｇｂｏｏｓｔ予測モデルをトレーニングし、ＡＲＩＭＡモデル及びｘｇｂｏｏｓｔ予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築し、インフルエンザ予測モデルによってインフルエンザ予測を行う過程で、ＡＲＩＭＡモデルの目標時間ユニットに対する第１予測値を状態変数の測定値として、ｘｇｂｏｏｓｔ予測モデルの目標時間ユニットに対する第２予測値を状態変数の事前推定値として、現在のインフルエンザ予測モデルのカルマンゲインを計算し、今回計算されたカルマンゲインに基づき、インフルエンザ予測モデルにおける２つのモデルの重みを更新し、重み更新後のインフルエンザ予測モデルが、次の時間ユニットのインフルエンザサンプル症例の百分率に用いられ、このような方式によって、インフルエンザ予測モデルにおける２つのモデルの重みに対する動的更新を実現し、カルマンフィルターに基づくモデル融合は、時系列自体の変化規則を考慮するだけでなく、世情データを組み合わせて、系列の受けた干渉を修正し、モデル予測をより正確にするとともに、モデル重みをリアルタイム、且つ動的に調整することにより、組み合わせることで得られた予測モデルを、現在性能に優れたモデル出力に傾向させ、予測モデルの精度を向上させる。

本願はさらに、インフルエンザ予測モデルの生成装置を提供する。図２は、本願の一実施例によるインフルエンザ予測モデルの生成装置の内部構造概略図である。

本実施例において、インフルエンザ予測モデルの生成装置１は、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ、パーソナルコンピュータ）であってもよいし、スマートフォン、タブレットコンピュータ、ポータブルコンピュータなどの端末装置であってもよい。該インフルエンザ予測モデルの生成装置１は、少なくともメモリ１１、プロセッサ１２、ネットワークインタフェース１３、及び通信バス１４を含む。

ここで、メモリ１１は、フラッシュメモリ、ハードディスク、マルチメディアカード、カード型メモリ（例えば、ＳＤ又はＤＸメモリなど）、磁気メモリ、磁気ディスク、光ディスクなどを含む少なくとも１つの可読記憶媒体を含む。いくつかの実施例において、メモリ１１は、例えば、該インフルエンザ予測モデルの生成装置１のハードディスクなど、インフルエンザ予測モデルの生成装置１の内部記憶ユニットであってもよい。別のいくつかの実施例において、メモリ１１は、例えば、インフルエンザ予測モデルの生成装置１に設けられたプラグインハードドライブ、スマートメモリカード（ＳｍａｒｔＭｅｄｉａ(登録商標) Ｃａｒｄ、ＳＭＣ）、セキュアデジタル（ＳｅｃｕｒｅＤｉｇｉｔａｌ、ＳＤ）カード、フラッシュカード（ＦｌａｓｈＣａｒｄ）など、インフルエンザ予測モデルの生成装置１の外部記憶機器であってもよい。また、メモリ１１はさらに、インフルエンザ予測モデルの生成装置１の内部記憶ユニット及び外部記憶機器の両方を含んでもよい。メモリ１１は、例えば、モデル生成プログラム０１のコードなど、インフルエンザ予測モデルの生成装置１にインストールされたアプリケーションソフトウェアや、様々なデータを記憶するために用いられるだけでなく、出力済み、又は出力予定のデータを一時的に記憶するために用いられる。

いくつかの実施例において、プロセッサ１２は、例えば、モデル生成プログラム０１を実行するなど、メモリ１１に記憶されたプログラムコード、又は処理データを実行するために用いられる中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）、コントローラ、マイクロコントローラ、マイクロプロセッサ、又は他のデータ処理チップであってもよい。

場合によっては、ネットワークインタフェース１３は、常に、該装置１と他の電子機器との間に通信接続を確立するために用いられる、標準的な有線インタフェース、無線インタフェース（例えば、ＷＩ−ＦＩインタフェース）を含んでもよい。

通信バス１４は、これらのコンポーネント間の接続通信を実現するために用いられる。

場合によっては、該装置１はさらに、ディスプレイ（Ｄｉｓｐｌａｙ）、キーボード（Ｋｅｙｂｏａｒｄ）のような入力ユニットを含んでもよいユーザインタフェースを含んでもよく、場合によっては、ユーザインタフェースはさらに、標準的な有線インタフェース、及び無線インタフェースを含んでもよい。場合によっては、いくつかの実施例において、ディスプレイは、ＬＥＤディスプレイ、液晶ディスプレイ、タッチ液晶ディスプレイ、及びＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔ−ＥｍｉｔｔｉｎｇＤｉｏｄｅ、有機発光ダイオード）タッチデバイスなどであってもよい。ここで、ディスプレイは、インフルエンザ予測モデルの生成装置１で処理される情報を表示し、及び可視化ユーザインタフェースを表示するために用いられる、表示パネル又はディスプレイユニットと適切に呼ばれることもできる。

図２は、コンポーネント１１−１４、及びモデル生成プログラム０１を有するインフルエンザ予測モデルの生成装置１のみを示し、当業者であれば、図１に示した構造は、図面よりも、より少ない又はより多い部材を含むか、又は特定の部材を組み合わせるか、又は異なる形態で部材を配置してもよいため、インフルエンザ予測モデルの生成装置１に対する限定にならない。

図２に示した装置１の実施例において、メモリ１１にモデル生成プログラム０１が記憶されている。プロセッサ１２は、メモリ１１に記憶されているモデル生成プログラム０１を実行する場合、ステップＳ１０及びステップＳ２０を実現する。

また、本実施例において、週間を時間ユニットとして、過去５年間の週間当たりの上記した世情キーワードのバイドゥ上にあるバイドゥ検索指数及びウェイボー上にあるリリース回数を世情データとして取得し、各世情キーワードにとって、該世情キーワードの１つの予め設定されたチャンネル上にある世情データが２６０個のデータを含む系列を形成することができ、系列中における各データは、１つの候補特徴であり、全ての候補特徴が候補特徴セットを構成する。モデルパラメータを決定するように、該セット中における特徴を用いて、ｘｇｂｏｏｓｔアルゴリズムに基づき構築されたｘｇｂｏｏｓｔ予測モデルをトレーニングする。

さらに、いくつかの実施例において、特徴の関連性を向上させるために、候補特徴セット中における特徴に対して前処理を行った後、特徴スクリーニングを行い、スクリーニングされた特徴を用いて、ｘｇｂｏｏｓｔ予測モデルをトレーニングする。具体的には、ステップＳ２０は、
世情キーワードを決定し、前記世情キーワードに基づき、複数の連続した時間ユニット内における世情データ系列を取得するとともに、前記世情データ系列中における世情データを候補特徴として、候補特徴セットを構築するステップと、前記候補特徴セット中における候補特徴に対して、ウェーブレットノイズ除去処理及びトレンド除去処理を行うステップと、特徴の予め設定された数を決定するとともに、ウェーブレットノイズ除去処理及びトレンド除去処理が行われた後の候補特徴セットから前記予め設定された数の候補特徴をスクリーニングし、予測特徴セットを構成するステップと、モデルパラメータを決定するように、前記予測特徴セット及び前記複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率の実際観測値を用いて、ｘｇｂｏｏｓｔアルゴリズムに基づき構築されたｘｇｂｏｏｓｔ予測モデルをトレーニングするステップのような詳しいステップを含んでもよい。

ウェーブレットノイズ除去処理及びトレンド除去処理については、
ウェーブレット基底関数を決定し、前記ウェーブレット基底関数に応じて、前記候補特徴セット中における各特徴の形成した系列に対してウェーブレット分解を行うとともに、分解層数を決定し、ウェーブレットノイズ除去の閾値を決定し、決定された閾値に応じて、ウェーブレット分解後の予測特徴の各階層の係数に対して調整を行い、調整されたウェーブレット係数に対して逆変換再構成を行うことにより、ノイズ除去後の候補特徴を取得し、ウェーブレットノイズ除去処理後の候補特徴セット中における各時間ユニットに対応する候補特徴に対して、該時間ユニットの前の複数の連続した時間ユニットのデータを取得して線形回帰を行い、トレンド予測モデルを構築し、前記トレンド予測モデルに基づき、該時間ユニットに対応するベースライン予測値を取得し、該時間ユニットの候補特徴の実際値から前記ベースライン予測値を差し引くことにより、トレンド除去後の候補特徴を取得するという方式によって実現される。

ウェーブレット基底関数を決定し、前記ウェーブレット基底関数に応じて、前記候補特徴セット中における各特徴の形成した系列に対してウェーブレット分解を行うとともに、分解層数を決定する。例えば、世情キーワード「高熱」の週間当たりのバイドゥ指数によって形成された系列に対してウェーブレット分解を行い、測定対象信号波形と接近する原則に基づき、ｄｂ４を世情データ分解のウェーブレット基底関数として選定する。分解スケールの選択上において、世情データの長さテストに基づき、特定の範囲内における異なる分解スケール下において、ノイズ除去効果が高く、信号歪み度が低い分解層数を選択する。ウェーブレットノイズ除去の閾値を決定し、決定された閾値に応じて、ウェーブレット分解後の候補特徴の各階層の係数に対して調整を行う。具体的には、各特徴の系列の長さＮに基づき、ウェーブレットノイズ除去の閾値thrを決定し、使用されたのは、過去５２週間の履歴データであると仮定すると、各特徴系列の長さがＮ＝５２である。

ソフト閾値アルゴリズムを用いて、小さいウェーブレット係数をゼロに設定し、大きいウェーブレット係数に対してゼロへの縮小処理を行うことにより、分解後の候補特徴の各階層の係数を調整し、具体式は、
であり、ここで、ｗは調整前の係数で、ｄは調整後の係数である。

前記ＡＲＩＭＡモデル及び前記ｘｇｂｏｏｓｔ予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築する。

前記ＡＲＩＭＡモデルの目標時間ユニットに対する第１予測値を状態変数の測定値として、前記ｘｇｂｏｏｓｔ予測モデルの目標時間ユニットに対する第２予測値を状態変数の事前推定値として、現在の前記インフルエンザ予測モデルのカルマンゲインを計算する。

計算されたカルマンゲインに基づき、前記インフルエンザ予測モデルにおける前記ＡＲＩＭＡモデル及び前記ｘｇｂｏｏｓｔ予測モデルの重みを更新し、重み更新後の前記インフルエンザ予測モデルが、前記目標時間ユニットの次の時間ユニットのインフルエンザサンプル症例の百分率を予測するために用いられる。

ＡＲＩＭＡモデルの目標時間ユニットＫに出力した第１予測値ｙ_ｘを離散時間過程で測定方程式によって得られた状態変数の測定値として、ｘｇｂｏｏｓｔ予測モデルの目標時間ユニットＫに出力した第２予測値ｙ_ｘを離散時間過程で状態遷移方程式によって得られた状態変数の事前推定値として、計算することで現在予測のカルマンゲインを取得し、カルマンゲインに基づき、組み合わせることで得られたインフルエンザ予測モデルの重みを決定する。

本実施例にて提供されるインフルエンザ予測モデルの生成装置は、複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ＡＲＩＭＡモデルを構築し、モデルパラメータを決定するように、世情キーワードを取得し、世情キーワードに基づき、複数の時間ユニット内における世情データ系列を取得し、世情データ系列中における世情データを予測特徴として、ｘｇｂｏｏｓｔアルゴリズムに基づき構築されたｘｇｂｏｏｓｔ予測モデルをトレーニングし、ＡＲＩＭＡモデル及びｘｇｂｏｏｓｔ予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築し、インフルエンザ予測モデルによってインフルエンザ予測を行う過程で、ＡＲＩＭＡモデルの目標時間ユニットに対する第１予測値を状態変数の測定値として、ｘｇｂｏｏｓｔ予測モデルの目標時間ユニットに対する第２予測値を状態変数の事前推定値として、現在のインフルエンザ予測モデルのカルマンゲインを計算し、今回計算されたカルマンゲインに基づき、インフルエンザ予測モデルにおける２つのモデルの重みを更新し、重み更新後のインフルエンザ予測モデルが、次の時間ユニットのインフルエンザサンプル症例の百分率に用いられ、このような方式によって、インフルエンザ予測モデルにおける２つのモデルの重みに対する動的更新を実現し、カルマンフィルターに基づくモデル融合は、時系列自体の変化規則を考慮するだけでなく、世情データを組み合わせて、系列の受けた干渉を修正し、モデル予測をより正確にするとともに、モデル重みをリアルタイム、且つ動的に調整することにより、組み合わせることで得られた予測モデルを、現在性能に優れたモデル出力に傾向させ、予測モデルの精度を向上させる。

場合によっては、他の実施例において、モデル生成プログラムは、１つ又は複数のモジュールに分割されてもよく、本願を完了するように１つ又は複数のモジュールがメモリ１１に記憶されるとともに、１つ又は複数のプロセッサ（本実施例では、プロセッサ１２である）によって実行され、本願で言及されるモジュールは、モデル生成プログラムのインフルエンザ予測モデルの生成装置における実行過程を説明し、特定の機能を完了するための一連のコンピュータプログラム命令セグメントを意味する。

例えば、図３は、本願によるインフルエンザ予測モデルの生成装置の一実施例におけるモデル生成プログラムの概略ブロック図であり、該実施例において、モデル生成プログラムは、第１予測モジュール１０、第２予測モジュール２０、モデル組み合わせモジュール３０、ゲイン計算モジュール４０及びモデル更新モジュール５０に分割されてもよく、例示的に、
第１予測モジュール１０は、複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ＡＲＩＭＡモデルを構築するために用いられる。
第２予測モジュール２０は、モデルパラメータを決定するように、世情キーワードを取得し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、ｘｇｂｏｏｓｔアルゴリズムに基づき構築されたｘｇｂｏｏｓｔ予測モデルをトレーニングするために用いられる。
モデル組み合わせモジュール３０は、前記ＡＲＩＭＡモデル及び前記ｘｇｂｏｏｓｔ予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築するために用いられる。
ゲイン計算モジュール４０は、前記ＡＲＩＭＡモデルの目標時間ユニットに対する第１予測値を状態変数の測定値として、前記ｘｇｂｏｏｓｔ予測モデルの目標時間ユニットに対する第２予測値を状態変数の事前推定値として、現在の前記インフルエンザ予測モデルのカルマンゲインを計算するために用いられる。
モデル更新モジュール５０は、計算されたカルマンゲインに基づき、前記インフルエンザ予測モデルにおける前記ＡＲＩＭＡモデル及び前記ｘｇｂｏｏｓｔ予測モデルの重みを更新し、重み更新後の前記インフルエンザ予測モデルが、前記目標時間ユニットの次の時間ユニットのインフルエンザサンプル症例の百分率を予測するために用いられる。

上記の第１予測モジュール１０、第２予測モジュール２０、モデル組み合わせモジュール３０、ゲイン計算モジュール４０及びモデル更新モジュール５０などのプログラムモジュールは実行される場合、実現する機能、又は動作ステップが上記の実施例とほとんど同じであるため、ここで説明を省略する。

また、本願の実施例はさらに、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体にモデル生成プログラムが記憶されており、
複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ＡＲＩＭＡモデルを構築する動作と、
モデルパラメータを決定するように、世情キーワードを取得し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、ｘｇｂｏｏｓｔアルゴリズムに基づき構築されたｘｇｂｏｏｓｔ予測モデルをトレーニングする動作と、
前記ＡＲＩＭＡモデル及び前記ｘｇｂｏｏｓｔ予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築する動作と、
前記ＡＲＩＭＡモデルの目標時間ユニットに対する第１予測値を状態変数の測定値として、前記ｘｇｂｏｏｓｔ予測モデルの目標時間ユニットに対する第２予測値を状態変数の事前推定値として、現在の前記インフルエンザ予測モデルのカルマンゲインを計算する動作と、
計算されたカルマンゲインに基づき、前記インフルエンザ予測モデルにおける前記ＡＲＩＭＡモデル及び前記ｘｇｂｏｏｓｔ予測モデルの重みを更新し、重み更新後の前記インフルエンザ予測モデルが、前記目標時間ユニットの次の時間ユニットのインフルエンザサンプル症例の百分率を予測するために用いられる動作と、を実現するように、前記モデル生成プログラムが１つ又は複数のプロセッサによって実行できる。

本願のコンピュータ可読記憶媒体の具体的な実施形態は、上記したインフルエンザ予測モデルの生成装置及び方法の各実施例とほとんど同じであるため、ここで説明を省略する。

なお、本明細書において、上記した本願の実施例の番号は、説明のためのものに過ぎず、実施例の優劣を表すものではない。且つ、用語「含む」、「包含」又はこれらの何れの変形は、非排他的な「包含」をカバーすることを意図し、これによって一連の要素を含む過程、装置、物品又は方法はこれらの要素を含むだけでなく、明確に記載されていない他の要素も含み、又は、このような過程、装置、物品又は方法が固有する要素も含むようになる。さらに多く制限されていない場合に、「一つの…を含む」という文章によって限定される要素について、当該要素を含む過程、装置、物品又は方法に他の同じ要素が存在することを排除しない。

当業者は、実施形態に関する上記の記載により、上記した実施例による方法は、ソフトウェアと、必要な汎用ハードウェアプラットフォームとを組み合わせた方式により実現でき、当然ながら、ハードウェアでも実現できるが、多くの場合には、前者がより好ましい実施形態であることを理解できるであろう。これにより、本願の技術的解決手段の趣旨又は従来技術について改良した部分を、ソフトウェア製品の形態で実現でき、前記コンピュータソフトウェア製品は、説明された１つの記憶媒体（例えば、ＲＯＭ／ＲＡＭ、磁気ディスク、光ディスク）に記憶されており、且つ、１台の端末装置（例えば、携帯電話、コンピュータ、サーバ、又はネットワーク機器など）により本願の各実施例に記載の方法を実行可能とするための複数のコマンドを含む。

以上に記載したことは本発明の好適な実施例だけであり、これをもって本発明の特許請求の範囲を限定するものではなく、本発明の明細書及び図面に準じてなされた同等の構造上もしくは手順上の変更、又はその他の関係技術分野への直接的もしくは間接的な適用は、全て本発明の特許請求の範囲に含まれるものとする。

Claims

インフルエンザ予測モデルの生成方法であって、
複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ＡＲＩＭＡモデルを構築するステップと、
モデルパラメータを決定するように、世情キーワードを取得し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、ｘｇｂｏｏｓｔアルゴリズムに基づき構築されたｘｇｂｏｏｓｔ予測モデルをトレーニングするステップと、
前記ＡＲＩＭＡモデル及び前記ｘｇｂｏｏｓｔ予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築するステップと、
前記ＡＲＩＭＡモデルの目標時間ユニットに対する第１予測値を状態変数の測定値として、前記ｘｇｂｏｏｓｔ予測モデルの目標時間ユニットに対する第２予測値を状態変数の事前推定値として、現在の前記インフルエンザ予測モデルのカルマンゲインを計算するステップと、
計算されたカルマンゲインに基づき、前記インフルエンザ予測モデルにおける前記ＡＲＩＭＡモデル及び前記ｘｇｂｏｏｓｔ予測モデルの重みを更新し、重み更新後の前記インフルエンザ予測モデルが、前記目標時間ユニットの次の時間ユニットのインフルエンザサンプル症例の百分率を予測するために用いられるステップと、を含むことを特徴とするインフルエンザ予測モデルの生成方法。
モデルパラメータを決定するように、世情キーワードを決定し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、ｘｇｂｏｏｓｔアルゴリズムに基づき構築されたｘｇｂｏｏｓｔ予測モデルをトレーニングする前記ステップは、
世情キーワードを決定し、前記世情キーワードに基づき、複数の連続した時間ユニット内における世情データ系列を取得するとともに、前記世情データ系列中における世情データを候補特徴として、候補特徴セットを構築するステップと、
前記候補特徴セット中における候補特徴に対して、ウェーブレットノイズ除去処理及びトレンド除去処理を行うステップと、
特徴の予め設定された数を決定するとともに、ウェーブレットノイズ除去処理及びトレンド除去処理が行われた後の候補特徴セットから前記予め設定された数の候補特徴をスクリーニングし、予測特徴セットを構成するステップと、
モデルパラメータを決定するように、前記予測特徴セット及び前記複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率の実際観測値を用いて、ｘｇｂｏｏｓｔアルゴリズムに基づき構築されたｘｇｂｏｏｓｔ予測モデルをトレーニングするステップと、を含むことを特徴とする請求項１に記載のインフルエンザ予測モデルの生成方法。
前記候補特徴セット中における候補特徴に対して、ウェーブレットノイズ除去処理及びトレンド除去処理を行う前記ステップは、
ウェーブレット基底関数を決定し、前記ウェーブレット基底関数に応じて、前記候補特徴セット中における各特徴の形成した系列に対してウェーブレット分解を行うとともに、分解層数を決定するステップと、
ウェーブレットノイズ除去の閾値を決定し、決定された閾値に応じて、ウェーブレット分解後の予測特徴の各階層の係数に対して調整を行うステップと、
調整されたウェーブレット係数に対して逆変換再構成を行うことにより、ノイズ除去後の候補特徴を取得するステップと、
トレンド予測モデルを構築するように、ウェーブレットノイズ除去処理後の候補特徴セット中における各時間ユニットに対応する候補特徴に対して、該時間ユニットの前の複数の連続した時間ユニットのデータを取得して線形回帰を行い、且つ前記トレンド予測モデルに基づき、該時間ユニットに対応するベースライン予測値を取得するステップと、
該時間ユニットの候補特徴の実際値から前記ベースライン予測値を差し引くことにより、トレンド除去後の候補特徴を取得するステップと、を含むことを特徴とする請求項２に記載のインフルエンザ予測モデルの生成方法。
特徴の予め設定された数を決定する前記ステップは、
ｘｇｂｏｏｓｔアルゴリズムに基づき識別器としてモデルを構築し、前記候補特徴セット中における候補特徴を前記識別器に入力し、特徴再帰除去交差検証アルゴリズムによって、モデル性能が予め設定された条件に達する時の特徴数を前記予め設定された数として選択するステップ、を含むことを特徴とする請求項２または３に記載のインフルエンザ予測モデルの生成方法。
ウェーブレットノイズ除去処理及びトレンド除去処理が行われた後の候補特徴セットから前記予め設定された数の候補特徴をスクリーニングし、予測特徴セットを構成する前記ステップは、
ｘｇｂｏｏｓｔアルゴリズムに基づき識別器としてモデルを構築し、前記候補特徴セット中における候補特徴を前記識別器に入力するとともに、特徴再帰除去アルゴリズムに応じて反復演算を行うステップと、
前記識別器の演算によって返送されたモデル係数を取得し、前記モデル係数に基づき、各候補特徴セット中における各候補特徴の重要度を決定するステップと、
各候補特徴の重要度に基づき、現在の候補特徴セットから重要度の最も小さいＫ個の候補特徴を取り外すステップと、
スクリーニングされた候補特徴数が前記予め設定された数に達するまで、上記ステップを繰り返し実行するステップと、
前記予め設定された数の候補特徴が予測特徴セットを構成するステップと、を含むことを特徴とする請求項２または３に記載のインフルエンザ予測モデルの生成方法。
インフルエンザ予測モデルの生成装置であって、前記装置は、メモリ及びプロセッサを含み、前記メモリには、前記プロセッサで実行可能なモデル生成プログラムが記憶されており、前記モデル生成プログラムが前記プロセッサによって実行されると、
複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ＡＲＩＭＡモデルを構築するステップと、
モデルパラメータを決定するように、世情キーワードを取得し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、ｘｇｂｏｏｓｔアルゴリズムに基づき構築されたｘｇｂｏｏｓｔ予測モデルをトレーニングするステップと、
前記ＡＲＩＭＡモデル及び前記ｘｇｂｏｏｓｔ予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築するステップと、
前記ＡＲＩＭＡモデルの目標時間ユニットに対する第１予測値を状態変数の測定値として、前記ｘｇｂｏｏｓｔ予測モデルの目標時間ユニットに対する第２予測値を状態変数の事前推定値として、現在の前記インフルエンザ予測モデルのカルマンゲインを計算するステップと、
計算されたカルマンゲインに基づき、前記インフルエンザ予測モデルにおける前記ＡＲＩＭＡモデル及び前記ｘｇｂｏｏｓｔ予測モデルの重みを更新し、重み更新後の前記インフルエンザ予測モデルが、前記目標時間ユニットの次の時間ユニットのインフルエンザサンプル症例の百分率を予測するために用いられるステップと、を実現することを特徴とするインフルエンザ予測モデルの生成装置。
モデルパラメータを決定するように、世情キーワードを決定し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、ｘｇｂｏｏｓｔアルゴリズムに基づき構築されたｘｇｂｏｏｓｔ予測モデルをトレーニングする前記ステップは、
世情キーワードを決定し、前記世情キーワードに基づき、複数の連続した時間ユニット内における世情データ系列を取得するとともに、前記世情データ系列中における世情データを候補特徴として、候補特徴セットを構築するステップと、
前記候補特徴セット中における候補特徴に対して、ウェーブレットノイズ除去処理及びトレンド除去処理を行うステップと、
特徴の予め設定された数を決定するとともに、ウェーブレットノイズ除去処理及びトレンド除去処理が行われた後の候補特徴セットから前記予め設定された数の候補特徴をスクリーニングし、予測特徴セットを構成するステップと、
モデルパラメータを決定するように、前記予測特徴セット及び前記複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率の実際観測値を用いて、ｘｇｂｏｏｓｔアルゴリズムに基づき構築されたｘｇｂｏｏｓｔ予測モデルをトレーニングするステップと、を含むことを特徴とする請求項６に記載のインフルエンザ予測モデルの生成装置。
前記候補特徴セット中における候補特徴に対して、ウェーブレットノイズ除去処理及びトレンド除去処理を行う前記ステップは、
ウェーブレット基底関数を決定し、前記ウェーブレット基底関数に応じて、前記候補特徴セット中における各特徴の形成した系列に対してウェーブレット分解を行うとともに、分解層数を決定するステップと、
ウェーブレットノイズ除去の閾値を決定し、決定された閾値に応じて、ウェーブレット分解後の予測特徴の各階層の係数に対して調整を行うステップと、
調整されたウェーブレット係数に対して逆変換再構成を行うことにより、ノイズ除去後の候補特徴を取得するステップと、
トレンド予測モデルを構築するように、ウェーブレットノイズ除去処理後の候補特徴セット中における各時間ユニットに対応する候補特徴に対して、該時間ユニットの前の複数の連続した時間ユニットのデータを取得して線形回帰を行い、且つ前記トレンド予測モデルに基づき、該時間ユニットに対応するベースライン予測値を取得するステップと、
該時間ユニットの候補特徴の実際値から前記ベースライン予測値を差し引くことにより、トレンド除去後の候補特徴を取得するステップと、を含むことを特徴とする請求項７に記載のインフルエンザ予測モデルの生成装置。
特徴の予め設定された数を決定する前記ステップは、
ｘｇｂｏｏｓｔアルゴリズムに基づき識別器としてモデルを構築し、前記候補特徴セット中における候補特徴を前記識別器に入力し、特徴再帰除去交差検証アルゴリズムによって、モデル性能が予め設定された条件に達する時の特徴数を前記予め設定された数として選択するステップ、を含むことを特徴とする請求項７または８に記載のインフルエンザ予測モデルの生成装置。
ウェーブレットノイズ除去処理及びトレンド除去処理が行われた後の候補特徴セットから前記予め設定された数の候補特徴をスクリーニングし、予測特徴セットを構成する前記ステップは、
ｘｇｂｏｏｓｔアルゴリズムに基づき識別器としてモデルを構築し、前記候補特徴セット中における候補特徴を前記識別器に入力するとともに、特徴再帰除去アルゴリズムに応じて反復演算を行うステップと、
前記識別器の演算によって返送されたモデル係数を取得し、前記モデル係数に基づき、各候補特徴セット中における各候補特徴の重要度を決定するステップと、
各候補特徴の重要度に基づき、現在の候補特徴セットから重要度の最も小さいＫ個の候補特徴を取り外すステップと、
スクリーニングされた候補特徴数が前記予め設定された数に達するまで、上記ステップを繰り返し実行するステップと、
前記予め設定された数の候補特徴が予測特徴セットを構成するステップと、を含むことを特徴とする請求項７または８に記載のインフルエンザ予測モデルの生成装置。
コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体にモデル生成プログラムが記憶されており、
複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率データを取得し、自己回帰和分移動平均ＡＲＩＭＡモデルを構築するステップと、
モデルパラメータを決定するように、世情キーワードを取得し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、ｘｇｂｏｏｓｔアルゴリズムに基づき構築されたｘｇｂｏｏｓｔ予測モデルをトレーニングするステップと、
前記ＡＲＩＭＡモデル及び前記ｘｇｂｏｏｓｔ予測モデルに基づき、カルマンフィルターアルゴリズムに基づくインフルエンザ予測モデルを構築するステップと、
前記ＡＲＩＭＡモデルの目標時間ユニットに対する第１予測値を状態変数の測定値として、前記ｘｇｂｏｏｓｔ予測モデルの目標時間ユニットに対する第２予測値を状態変数の事前推定値として、現在の前記インフルエンザ予測モデルのカルマンゲインを計算するステップと、
計算されたカルマンゲインに基づき、前記インフルエンザ予測モデルにおける前記ＡＲＩＭＡモデル及び前記ｘｇｂｏｏｓｔ予測モデルの重みを更新し、重み更新後の前記インフルエンザ予測モデルが、前記目標時間ユニットの次の時間ユニットのインフルエンザサンプル症例の百分率を予測するために用いられるステップと、を実現するように、前記モデル生成プログラムが１つ又は複数のプロセッサによって実行できることを特徴とするコンピュータ可読記憶媒体。
モデルパラメータを決定するように、世情キーワードを決定し、前記世情キーワードに基づき、前記複数の時間ユニット内における世情データ系列を取得し、前記世情データ系列中における世情データを予測特徴として、ｘｇｂｏｏｓｔアルゴリズムに基づき構築されたｘｇｂｏｏｓｔ予測モデルをトレーニングする前記ステップは、
世情キーワードを決定し、前記世情キーワードに基づき、複数の連続した時間ユニット内における世情データ系列を取得するとともに、前記世情データ系列中における世情データを候補特徴として、候補特徴セットを構築するステップと、
前記候補特徴セット中における候補特徴に対して、ウェーブレットノイズ除去処理及びトレンド除去処理を行うステップと、
特徴の予め設定された数を決定するとともに、ウェーブレットノイズ除去処理及びトレンド除去処理が行われた後の候補特徴セットから前記予め設定された数の候補特徴をスクリーニングし、予測特徴セットを構成するステップと、
モデルパラメータを決定するように、前記予測特徴セット及び前記複数の連続した時間ユニット内におけるインフルエンザサンプル症例の百分率の実際観測値を用いて、ｘｇｂｏｏｓｔアルゴリズムに基づき構築されたｘｇｂｏｏｓｔ予測モデルをトレーニングするステップと、を含むことを特徴とする請求項１１に記載のコンピュータ可読記憶媒体。
前記候補特徴セット中における候補特徴に対して、ウェーブレットノイズ除去処理及びトレンド除去処理を行う前記ステップは、
ウェーブレット基底関数を決定し、前記ウェーブレット基底関数に応じて、前記候補特徴セット中における各特徴の形成した系列に対してウェーブレット分解を行うとともに、分解層数を決定するステップと、
ウェーブレットノイズ除去の閾値を決定し、決定された閾値に応じて、ウェーブレット分解後の予測特徴の各階層の係数に対して調整を行うステップと、
調整されたウェーブレット係数に対して逆変換再構成を行うことにより、ノイズ除去後の候補特徴を取得するステップと、
トレンド予測モデルを構築するように、ウェーブレットノイズ除去処理後の候補特徴セット中における各時間ユニットに対応する候補特徴に対して、該時間ユニットの前の複数の連続した時間ユニットのデータを取得して線形回帰を行い、且つ前記トレンド予測モデルに基づき、該時間ユニットに対応するベースライン予測値を取得するステップと、
該時間ユニットの候補特徴の実際値から前記ベースライン予測値を差し引くことにより、トレンド除去後の候補特徴を取得するステップと、を含むことを特徴とする請求項１２に記載のコンピュータ可読記憶媒体。
特徴の予め設定された数を決定する前記ステップは、
ｘｇｂｏｏｓｔアルゴリズムに基づき識別器としてモデルを構築し、前記候補特徴セット中における候補特徴を前記識別器に入力し、特徴再帰除去交差検証アルゴリズムによって、モデル性能が予め設定された条件に達する時の特徴数を前記予め設定された数として選択するステップ、を含むことを特徴とする請求項１２または１３に記載のコンピュータ可読記憶媒体。
ウェーブレットノイズ除去処理及びトレンド除去処理が行われた後の候補特徴セットから前記予め設定された数の候補特徴をスクリーニングし、予測特徴セットを構成する前記ステップは、
ｘｇｂｏｏｓｔアルゴリズムに基づき識別器としてモデルを構築し、前記候補特徴セット中における候補特徴を前記識別器に入力するとともに、特徴再帰除去アルゴリズムに応じて反復演算を行うステップと、
前記識別器の演算によって返送されたモデル係数を取得し、前記モデル係数に基づき、各候補特徴セット中における各候補特徴の重要度を決定するステップと、
各候補特徴の重要度に基づき、現在の候補特徴セットから重要度の最も小さいＫ個の候補特徴を取り外すステップと、
スクリーニングされた候補特徴数が前記予め設定された数に達するまで、上記ステップを繰り返し実行するステップと、
前記予め設定された数の候補特徴が予測特徴セットを構成するステップと、を含むことを特徴とする請求項１２または１３に記載のコンピュータ可読記憶媒体。