JP2020527788A - Disease prediction methods and devices, computer devices and readable storage media - Google Patents

Disease prediction methods and devices, computer devices and readable storage media Download PDF

Info

Publication number
JP2020527788A
JP2020527788A JP2019572832A JP2019572832A JP2020527788A JP 2020527788 A JP2020527788 A JP 2020527788A JP 2019572832 A JP2019572832 A JP 2019572832A JP 2019572832 A JP2019572832 A JP 2019572832A JP 2020527788 A JP2020527788 A JP 2020527788A
Authority
JP
Japan
Prior art keywords
data
disease monitoring
weather
public opinion
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019572832A
Other languages
Japanese (ja)
Inventor
曉▲ウェイ▼ 阮
曉▲ウェイ▼ 阮
亮 徐
亮 徐
京 肖
京 肖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Publication of JP2020527788A publication Critical patent/JP2020527788A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu

Abstract

【課題】本願発明は疾患予測方法を提供することを目的とする。【解決手段】本願発明の疾患予測方法は、疾患監視データと、天気データと、世論データとを取得するステップと、前記疾患監視データ、天気データおよび世論データに対して前処理を行うステップと、多層LSTMモデルを構築するステップと、前記多層LSTMモデルに対してトレーニングと性能検証を行い、最適化された多層LSTMモデルを得るステップと、前記前処理された多層LSTMモデルによって予測時点で予測し、前記予測時点での疾患予測結果を得るステップとを含む。また、本願発明は、疾患予測装置、コンピューター装置、および可読記憶媒体を提供する。本願発明により、精度の高い疾患予測を実現することができる。【選択図】図1PROBLEM TO BE SOLVED: To provide a method for predicting a disease. The disease prediction method of the present invention includes a step of acquiring disease monitoring data, weather data, and public opinion data, a step of preprocessing the disease monitoring data, weather data, and public opinion data. A step of constructing a multi-layer LSTM model, a step of training and performing performance verification on the multi-layer LSTM model to obtain an optimized multi-layer LSTM model, and a step of predicting at the time of prediction by the pre-processed multi-layer LSTM model. The step of obtaining the disease prediction result at the time of the prediction is included. The present invention also provides a disease prediction device, a computer device, and a readable storage medium. According to the present invention, highly accurate disease prediction can be realized. [Selection diagram] Fig. 1

Description

本願発明は、予測技術の分野に関し、具体的には、疾患予測方法および装置、コンピューター装置及び不揮発性可読記憶媒体に関するものである。本願は、2018年04月11日中国特許局へ出願された中国出願番号201810321868.X、発明の名称:「疾患予測方法および装置、コンピューター装置及び可読記憶媒体」に基づく優先権を主張しており、その出願の全内容は本明細書中に参照として組み入れられている。 The present invention relates to the field of prediction technology, and specifically to disease prediction methods and devices, computer devices and non-volatile readable storage media. This application is filed with the Chinese Patent Office on April 11, 2018, with Chinese application number 201810321868. X, Title of the Invention: Claims priority based on "disease prediction methods and devices, computer devices and readable storage media", the entire contents of which application is incorporated herein by reference.

世界的な経済統合プロセスが加速するにつれて、経済活動とコミュニケーション活動が増加し、人の流れも日増しに頻繁になるため、疾患の流行と発生に有利な環境を提供し、公衆衛生上の問題がますます深刻になってきた。同時に、社会と自然環境にも変化が発生し、環境汚染や自然災害などの人々の健康に影響を及ぼす事態の増加も公衆衛生非常事態を発生させる可能性を向上させる。 As the global economic integration process accelerates, economic and communication activities increase and the flow of people becomes more frequent, providing a favorable environment for disease epidemics and outbreaks, and public health problems. Is getting more and more serious. At the same time, changes will occur in society and the natural environment, and an increase in situations that affect people's health such as environmental pollution and natural disasters will increase the possibility of public health emergencies.

どうやって疾患の公衆衛生非常事態を早期発見し、直ちに警告を出し、できるだけ早く適切な制御対策を講じて、公衆衛生非常事態による損失を最小限に抑えることは、長い間注目されてきた焦点であり、非常事態に対する対策の重要な内容でもある。公衆衛生非常事態の早期警告とは、関連するデータを収集、整理、分析および統合することにより、コンピューター、ネットワーク、通信などの現代の先進技術を運用し、事態の兆候に対して監視、識別、診断および評価を行い、そして、直ちに警告を出し、関連部門および公衆に、関連する対応および準備作業を行うように通知し、適時に効果的な予防、管理対策を講じさせて、できるだけ非常事態の発生を止め、または軽減し、または、事態による危害を軽減するものである。 How to detect a public health emergency of a disease early, issue an immediate warning, and take appropriate control measures as soon as possible to minimize the loss of a public health emergency has long been a focus of attention. It is also an important content of measures against emergencies. Early warning of a public health emergency is the operation of modern advanced technologies such as computers, networks, and communications by collecting, organizing, analyzing, and integrating relevant data to monitor, identify, and identify signs of the situation. Diagnose and evaluate, and issue immediate warnings, notify relevant departments and the public to take relevant response and preparatory work, and have timely and effective preventive and administrative measures taken to ensure as much emergency as possible. It stops or mitigates the outbreak, or mitigates the harm caused by the situation.

公衆衛生非常事態の早期警告における重要なタスクは、疾患の予測であり、即ち、過去の疾患監視データ(即ち、患者データ)に基づいて将来の疾患監視データを予測するものである。機械学習技術の発達に伴い、疾患予測に適用された機械学習方法がますます多くなっている。しかしながら、疾患予測に適用されている従来の機械学習では、多くの場合、特徴セットを手動で定義し、定義された特徴セットにおいて最適な特徴組み合せを検索する必要があり、効果が低いから、疾患予測の精度が影響される。 An important task in early warning of public health emergencies is disease prediction, i.e., predicting future disease monitoring data based on past disease monitoring data (ie, patient data). With the development of machine learning technology, more and more machine learning methods have been applied to disease prediction. However, conventional machine learning applied to disease prediction often requires manually defining a feature set and searching for the optimal feature combination in the defined feature set, which is less effective and therefore disease. The accuracy of the prediction is affected.

以上の問題点に鑑みて、精度の高い疾患予測を実現できる疾患予測方法および装置、コンピューター装置並びに不揮発性可読記憶媒体を提案する必要がある。 In view of the above problems, it is necessary to propose a disease prediction method and device, a computer device, and a non-volatile readable storage medium capable of realizing highly accurate disease prediction.

上記の課題を解決するために、本願発明の第1の態様は疾患予測方法を提供し、前記疾患予測方法は、
疾患監視データを取得し、前記疾患監視データは、時系列データであるステップと、前記疾患監視データと関連する天気データを取得し、前記天気データは、前記疾患監視データに対応する時系列データであるステップと、前記疾患監視データと関連する世論データを取得し、前記世論データは、前記疾患監視データに対応する時系列データであるステップと、前記疾患監視データと、前記天気データおよび前記世論データに対して前処理を行うステップと、多層長短期記憶リカレントニューラルネットワークモデル、即ち、多層LSTMモデルを構築するステップと、前処理された前記疾患監視データ、天気データおよび世論データからトレーニングデータと検証データを取得し、前記トレーニングデータと検証データを利用して前記多層LSTMモデルに対してトレーニングと性能検証を行い、最適化された多層LSTMモデルが得られるステップと、前処理された前記疾患監視データ、前記天気データおよび前記世論データから予測時点前の疾患監視データ、天気データおよび世論データを取得し、前記予測時点前の疾患監視データ、天気データおよび世論データを前記最適化された多層LSTMモデルに入力し、前記予測時点での疾患監視結果が得られるステップと、を含む。
In order to solve the above problems, the first aspect of the present invention provides a disease prediction method, wherein the disease prediction method is described.
The disease monitoring data is acquired, the disease monitoring data is a step that is time-series data, and the weather data associated with the disease monitoring data is acquired, and the weather data is time-series data corresponding to the disease monitoring data. A step and public opinion data related to the disease monitoring data are acquired, and the public opinion data is a step which is time-series data corresponding to the disease monitoring data, the disease monitoring data, the weather data, and the public opinion data. A step of preprocessing the data, a step of constructing a multi-layer long short-term memory recurrent neural network model, that is, a multi-layer RSTM model, and training data and verification data from the preprocessed disease monitoring data, weather data, and public opinion data. The step of obtaining an optimized multi-layer LSTM model by training and performing performance verification on the multi-layer LSTM model using the training data and the verification data, and the preprocessed disease monitoring data. Pre-predicted disease monitoring data, weather data and public opinion data are acquired from the weather data and the public opinion data, and the pre-predicted disease monitoring data, weather data and public opinion data are input to the optimized multi-layer LSTM model. However, the step of obtaining the disease monitoring result at the time of the prediction is included.

本願発明の第2の態様は、疾患予測装置を提供し、前記疾患予測装置は、
疾患監視データを取得し、前記疾患監視データは、時系列データである第一取得ユニットと、
前記疾患監視データと関連する天気データを取得し、前記天気データは、前記疾患監視データに対応する時系列データである第二取得ユニットと、
前記疾患監視データと関連する世論データを取得し、前記世論データは、前記疾患監視データに対応する時系列データである第三取得ユニットと、
前記疾患監視データ、前記天気データおよび前記世論データに対して前処理を行うための前処理ユニットと、
多層長短期記憶リカレントニューラルネットワークモデル、即ち、多層LSTMモデルを構築するための構築ユニットと、
前処理された前記疾患監視データ、前記天気データおよび前記世論データからトレーニングデータと検証データを取得し、前記トレーニングデータと前記検証データを利用して前記多層LSTMモデルに対してトレーニングと性能検証を行い、最適化された多層LSTMモデルが得られる最適化ユニットと、
前処理された前記疾患監視データ、前記天気データおよび前記世論データから予測時点前の疾患監視データ、天気データおよび世論データを取得し、前記予測時点前の疾患監視データ、天気データおよび世論データを前記最適化された多層LSTMモデルに入力し、前記予測時点での疾患監視結果が得られる予測ユニットとを含む。
A second aspect of the present invention provides a disease prediction device, wherein the disease prediction device
Disease monitoring data is acquired, and the disease monitoring data is the first acquisition unit, which is time-series data, and
The weather data related to the disease monitoring data is acquired, and the weather data includes a second acquisition unit which is time-series data corresponding to the disease monitoring data.
The public opinion data related to the disease monitoring data is acquired, and the public opinion data includes a third acquisition unit which is time-series data corresponding to the disease monitoring data.
A preprocessing unit for preprocessing the disease monitoring data, the weather data, and the public opinion data,
Multi-layer long short-term memory recurrent neural network model, that is, a construction unit for constructing a multi-layer RSTM model,
Training data and verification data are acquired from the preprocessed disease monitoring data, weather data, and public opinion data, and training and performance verification are performed on the multi-layer LSTM model using the training data and the verification data. , An optimization unit that provides an optimized multi-layer RSTM model,
The preprocessed disease monitoring data, the weather data, and the public opinion data are used to acquire the disease monitoring data, the weather data, and the public opinion data before the prediction time point, and the disease monitoring data, the weather data, and the public opinion data before the prediction time point are obtained. Includes a prediction unit that inputs into an optimized multi-layer RSTM model to obtain disease monitoring results at the time of prediction.

本願発明の第3の態様は、コンピューター装置を提供し、前記コンピューター装置は、メモリおよびプロセッサを備え、前記メモリは、少なくとも1つのコンピューター可読コマンドを格納しており、前記プロセッサは、少なくとも1つのコンピューター可読コマンドを実行して、
疾患監視データを取得し、前記疾患監視データは、時系列データであるステップと、前記疾患監視データと関連する天気データを取得し、前記天気データは、前記疾患監視データに対応する時系列データであるステップと、前記疾患監視データと関連する世論データを取得し、前記世論データは、前記疾患監視データに対応する時系列データであるステップと、前記疾患監視データと、前記天気データおよび前記世論データに対して前処理を行うステップと、多層長短期記憶リカレントニューラルネットワークモデル、即ち、多層LSTMモデルを構築するステップと、前処理された前記疾患監視データ、天気データおよび世論データからトレーニングデータと検証データを取得し、前記トレーニングデータと前記検証データを利用して前記多層LSTMモデルに対してトレーニングと性能検証を行い、最適化された多層LSTMモデルが得られるステップと、前処理された前記疾患監視データ、天気データおよび世論データから予測時点前の疾患監視データ、前記天気データおよび前記世論データを取得し、前記予測時点前の疾患監視データ、天気データおよび世論データを前記最適化された多層LSTMモデルに入力し、前記予測時点での疾患監視結果が得られるステップと、を実現する。
A third aspect of the present invention provides a computer device, wherein the computer device comprises a memory and a processor, the memory storing at least one computer-readable command, and the processor is at least one computer. Execute a readable command,
The disease monitoring data is acquired, the disease monitoring data is a step that is time-series data, and the weather data associated with the disease monitoring data is acquired, and the weather data is time-series data corresponding to the disease monitoring data. A step and public opinion data related to the disease monitoring data are acquired, and the public opinion data is a step which is time-series data corresponding to the disease monitoring data, the disease monitoring data, the weather data, and the public opinion data. A step of preprocessing the data, a step of constructing a multi-layer long short-term memory recurrent neural network model, that is, a multi-layer RSTM model, and training data and verification data from the preprocessed disease monitoring data, weather data, and public opinion data. The step of obtaining an optimized multi-layer LSTM model by training and performing performance verification on the multi-layer LSTM model using the training data and the verification data, and the preprocessed disease monitoring data. , The disease monitoring data before the prediction time point, the weather data and the public opinion data are acquired from the weather data and the public opinion data, and the disease monitoring data, the weather data and the public opinion data before the prediction time point are converted into the optimized multi-layer LSTM model. The step of inputting and obtaining the disease monitoring result at the time of the prediction is realized.

本願発明の第4の態様は、不揮発性可読記憶媒体を提供し、前記不揮発性可読記憶媒体は、少なくとも1つのコンピューター可読コマンドを格納しており、前記少なくとも1つのコンピューター可読コマンドはプロセッサによって、
疾患監視データを取得し、前記疾患監視データは、時系列データであるステップと、前記疾患監視データと関連する天気データを取得し、前記天気データは、前記疾患監視データに対応する時系列データであるステップと、前記疾患監視データと関連する世論データを取得し、前記世論データは、前記疾患監視データに対応する時系列データであるステップと、前記疾患監視データと、前記天気データおよび前記世論データに対して前処理を行うステップと、多層長短期記憶リカレントニューラルネットワークモデル、即ち、多層LSTMモデルを構築するステップと、前処理された前記疾患監視データ、天気データおよび世論データからトレーニングデータと検証データを取得し、前記トレーニングデータと前記検証データを利用して前記多層LSTMモデルに対してトレーニングと性能検証を行い、最適化された多層LSTMモデルが得られるステップと、前処理された前記疾患監視データ、天気データおよび世論データから予測時点前の疾患監視データ、前記天気データおよび前記世論データを取得し、前記予測時点前の疾患監視データ、天気データおよび世論データを前記最適化された多層LSTMモデルに入力し、前記予測時点での疾患監視結果が得られるステップと、を実現する。
A fourth aspect of the present invention provides a non-volatile readable storage medium, wherein the non-volatile readable storage medium stores at least one computer-readable command, and the at least one computer-readable command is by a processor.
The disease monitoring data is acquired, the disease monitoring data is a step that is time-series data, and the weather data associated with the disease monitoring data is acquired, and the weather data is time-series data corresponding to the disease monitoring data. A step and public opinion data related to the disease monitoring data are acquired, and the public opinion data is a step which is time-series data corresponding to the disease monitoring data, the disease monitoring data, the weather data, and the public opinion data. A step of preprocessing the data, a step of constructing a multi-layer long short-term memory recurrent neural network model, that is, a multi-layer RSTM model, and training data and verification data from the preprocessed disease monitoring data, weather data, and public opinion data. The step of obtaining an optimized multi-layer LSTM model by training and performing performance verification on the multi-layer LSTM model using the training data and the verification data, and the preprocessed disease monitoring data. , The disease monitoring data before the prediction time point, the weather data and the public opinion data are acquired from the weather data and the public opinion data, and the disease monitoring data, the weather data and the public opinion data before the prediction time point are converted into the optimized multi-layer LSTM model. The step of inputting and obtaining the disease monitoring result at the time of the prediction is realized.

本願発明は、疾患監視データを取得し、前記疾患監視データは、時系列データであるステップと、前記疾患監視データと関連する天気データを取得し、前記天気データは、前記疾患監視データに対応する時系列データであるステップと、前記疾患監視データと関連する世論データを取得し、前記世論データは、前記疾患監視データに対応する時系列データであるステップと、前記疾患監視データと、前記天気データおよび前記世論データに対して前処理を行うステップと、多層長短期記憶リカレントニューラルネットワークモデル、即ち、多層LSTMモデルを構築するステップと、前処理された前記疾患監視データ、天気データおよび世論データからトレーニングデータと検証データを取得し、前記トレーニングデータと前記検証データを利用して前記多層LSTMモデルに対してトレーニングと性能検証を行い、最適化された多層LSTMモデルが得られるステップと、前処理された前記疾患監視データ、前記天気データおよび前記世論データから予測時点前の疾患監視データ、天気データおよび世論データを取得し、前記予測時点前の疾患監視データ、天気データおよび世論データを前記最適化された多層LSTMモデルに入力し、前記予測時点での疾患監視結果が得られるステップと、を含む。 The present invention acquires disease monitoring data, the disease monitoring data acquires steps that are time-series data, and weather data related to the disease monitoring data, and the weather data corresponds to the disease monitoring data. A step that is time-series data and public opinion data related to the disease monitoring data are acquired, and the public opinion data is a step that is time-series data corresponding to the disease monitoring data, the disease monitoring data, and the weather data. And the step of preprocessing the public opinion data, the step of constructing a multi-layer long short-term memory recurrent neural network model, that is, a multi-layer RSTM model, and training from the preprocessed disease monitoring data, weather data, and public opinion data. The steps of acquiring data and verification data, training and performing performance verification on the multi-layer LSTM model using the training data and the verification data, and obtaining an optimized multi-layer LSTM model, and preprocessing were performed. The disease monitoring data, weather data and public opinion data before the prediction time point were acquired from the disease monitoring data, the weather data and the public opinion data, and the disease monitoring data, the weather data and the public opinion data before the prediction time point were optimized. It includes a step of inputting into a multi-layer LSTM model and obtaining a disease monitoring result at the time of the prediction.

本願発明は、多層LSTMモデルに基づいて罹患状況を予測する。LSTMモデルは、データから直接知識を抽出し、予測に役立つ特徴ベクトルを構築し、予測精度を向上させる。さらに、従来のRNN(Recurrent Neural Networks、リカレントニューラルネットワーク)モデルに比べると、LSTMモデルは、時系列データ量の多すぎ場合に引き起こされた長期依存時に勾配が解消するという問題を解決する。そして、本願発明は、影響を及ぼす要因として、天気データ、世論データを疾患予測に用い、疾患予測の精度を向上させる。したがって、本願発明は精度の高い疾患予測を実現する。 The present invention predicts morbidity based on a multi-layer RSTM model. The LSTM model extracts knowledge directly from the data, builds feature vectors that are useful for prediction, and improves prediction accuracy. Furthermore, compared to the conventional RNN (Recurrent Neural Networks) model, the LSTM model solves the problem that the gradient is eliminated during the long-term dependence caused when the amount of time series data is too large. The present invention uses weather data and public opinion data for disease prediction as influential factors to improve the accuracy of disease prediction. Therefore, the present invention realizes highly accurate disease prediction.

図1は、本願の実施例1に係る疾患予測方法のフローチャートである。FIG. 1 is a flowchart of a disease prediction method according to Example 1 of the present application.

図2は、本願の実施例2に係る疾患予測方法から疾患監視データと関連する天気データを取得する詳細なフローチャートである。FIG. 2 is a detailed flowchart for acquiring weather data related to disease monitoring data from the disease prediction method according to the second embodiment of the present application.

図3は、本願の実施例3に係る疾患予測装置の構成図である。FIG. 3 is a block diagram of the disease prediction device according to the third embodiment of the present application.

図4は、本願の実施例4に係る疾患予測装置の第二取得ユニットの詳細な構成図である。FIG. 4 is a detailed configuration diagram of the second acquisition unit of the disease prediction device according to the fourth embodiment of the present application.

図5は、本願の実施例5に係るコンピューター装置の概略図である。FIG. 5 is a schematic view of the computer device according to the fifth embodiment of the present application.

好ましくは、本願発明の疾患予測方法は、1つあるいは複数のコンピューター装置に適用される。前記コンピューター装置は、予め設定または記憶されたコマンドに従い、自動的に数値計算および/または情報処理を行うことができる装置であり、そのハードウェアはマイクロプロセッサ、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、プログラマブルゲートアレイ(Field−Programmable Gate Array、FPGA)、デジタルプロセッサ(Digital Signal Processor、DSP)、組み込み機器などを含むが、これらに限定されない。Preferably, the disease prediction method of the present invention applies to one or more computer devices. The computer device is a device capable of automatically performing numerical calculation and / or information processing according to preset or stored commands, and its hardware is a microprocessor and an application specific integrated circuit (Application Special Integrated Circuit). , ASIC), Programmable Gate Array (Field-Programmable Gate Array, FPGA), Digital Processor (DSP), Embedded Devices, and the like, but not limited to these.

実施例1
図1は、本願発明の実施例1に係る疾患予測方法のフローチャートである。前記疾患予測方法はコンピューター装置に適用される。前記疾患予測方法は多層長短期記憶リカレントニューラルネットワークモデルを利用して疾患監視データを予測し、精度の高い疾患予測結果を得る。
Example 1
FIG. 1 is a flowchart of a disease prediction method according to Example 1 of the present invention. The disease prediction method is applied to a computer device. The disease prediction method uses a multi-layer long short-term memory recurrent neural network model to predict disease monitoring data and obtain highly accurate disease prediction results.

図1が示したように、疾患予測方法は、具体的には以下のステップを含む。 As shown in FIG. 1, the disease prediction method specifically includes the following steps.

ステップ101において、時系列データである疾患監視データを取得する。 In step 101, the disease monitoring data, which is time series data, is acquired.

前記疾患監視データは、インフルエンザ、手足口病、麻疹、流行性耳下腺炎などの疾患データを含んでもよい。 The disease monitoring data may include disease data such as influenza, hand-foot-and-mouth disease, measles, and mumps.

事前設定された区域(例えば、省、市、地域)において、複数の監視拠点で構成される疾患監視ネットワークを確立し、前記監視拠点から疾患監視データを取得し、前記疾患監視データで疾患監視の時系列データを構成することができる。医療機構、学校、保育施設、薬局などを監視拠点として選択して、対応するターゲットの疾患監視とデータ収集を行うことができる。事前設定された条件を満たす場所を監視拠点として選択できる。前記事前設定された条件は、人数、規模などを含んでもよい。例えば、学生数が事前設定された数に達する学校、保育施設を監視拠点として選択する。また、規模(例えば、一日当りの売上高で統計)が事前設定規模に達する薬局を監視拠点として選択する。また、規模(例えば、一日当りの受診人数で統計)が事前設定規模に達する病院を監視拠点として選択する。 In a preset area (for example, province, city, region), a disease monitoring network consisting of a plurality of monitoring bases is established, disease monitoring data is acquired from the monitoring bases, and the disease monitoring data is used for disease monitoring. Time series data can be constructed. Medical institutions, schools, childcare facilities, pharmacies, etc. can be selected as monitoring bases for disease monitoring and data collection for the corresponding targets. You can select a location that meets the preset conditions as a monitoring base. The preset conditions may include the number of people, scale, and the like. For example, select schools and childcare facilities where the number of students reaches a preset number as monitoring bases. Also, select a pharmacy whose scale (for example, statistics based on daily sales) reaches a preset scale as a monitoring base. In addition, a hospital whose scale (for example, statistics based on the number of examinees per day) reaches a preset scale is selected as a monitoring base.

異なる時点での疾患監視データは、疾患監視の時系列データを構成する。例えば、日単位で収集された疾患監視データを疾患監視の時系列データとする。あるいは、週単位で収集された疾患監視データを疾患監視の時系列データとする。 Disease monitoring data at different time points constitutes time series data for disease monitoring. For example, disease monitoring data collected on a daily basis is used as time-series data for disease monitoring. Alternatively, the disease monitoring data collected on a weekly basis is used as time-series data for disease monitoring.

医療機構(主に病院を含む)は、疾患の早期発生兆候を把握できるのに最適な場所であり、疾患監視の最優先である。患者の受診状況に基づいて疾患監視データを取得する。 Medical institutions (mainly hospitals) are the best place to detect early signs of disease and are a top priority for disease monitoring. Acquire disease monitoring data based on the patient's consultation status.

一部の疾患患者中には、早期症状を緩和するために薬局へ薬を買いに行く人もいるので、薬局での薬の販売状況に基づいて疾患監視データを取得する。 Since some patients with some diseases go to pharmacies to buy medicines to relieve early symptoms, disease monitoring data is acquired based on the sales status of medicines at pharmacies.

児童、青少年は、疾患発生のリスクが高い対象、および疾患の伝播における重要な部分であるため、このターゲットへの監視も強化されるべきである。学校や保育施設は、児童や青少年の疾患発生を監視するのに適した場所である。学校や保育施設での児童、青少年の休暇状況に基づいて、疾患監視データを取得する。 Since children and adolescents are subjects at high risk of developing the disease and are an important part of disease transmission, surveillance of this target should also be strengthened. Schools and childcare facilities are good places to monitor disease outbreaks in children and adolescents. Obtain disease monitoring data based on the vacation status of children and adolescents in schools and childcare facilities.

したがって、本願発明では、疾患監視データを収集するために医療機構、学校、保育施設および薬局が主に選択される。もちろん、上記のデータ源の選択については、他の実施形態において他の注目されるターゲットまたは場所を監視のためのデータ源として追加または置換することができる。例えば、ホテルを疾患監視区域に含めて、ホテルの入居者の疾患監視データが取得できる。 Therefore, in the present invention, medical institutions, schools, childcare facilities and pharmacies are mainly selected for collecting disease monitoring data. Of course, for the above data source selection, other notable targets or locations in other embodiments can be added or replaced as data sources for monitoring. For example, the disease monitoring data of the resident of the hotel can be acquired by including the hotel in the disease monitoring area.

必要に応じて、任意のタイプの監視拠点(例えば医療機構)によって収集された疾患監視データのみを取得して疾患監視の時系列データを構成することができる。例えば、病院で収集された疾患監視データを取得して疾患監視の時系列データを構成することができる。あるいは、複数のタイプの監視拠点から収集された疾患監視データを組み合わせて疾患監視の時系列データを構成することもできる。例えば、病院で収集された疾患監視データを主とし、薬局から収集された疾患監視データを補足として、疾患監視の時系列データを構成することができる。 If necessary, only the disease monitoring data collected by any type of monitoring base (for example, a medical institution) can be acquired to configure the disease monitoring time series data. For example, disease monitoring data collected in a hospital can be acquired to construct time-series data for disease monitoring. Alternatively, disease monitoring data collected from a plurality of types of monitoring bases can be combined to form time-series data for disease monitoring. For example, time-series data for disease monitoring can be constructed mainly with disease monitoring data collected at a hospital and supplemented with disease monitoring data collected from a pharmacy.

疾患監視データは、疾患の受診数、受診率、罹患数、罹患率などの疾患データを含んでもよい。例えば、医療機構(例えば病院)から疾患(例えばインフルエンザ)の毎日の受診数を取得し、疾患(例えばインフルエンザ)の毎日の受診数を疾患監視データとしてもよい。または、学校から学生の疾患(例えばインフルエンザ)の毎日の罹患数を取得し、疾患(例えばインフルエンザ)の毎日の罹患数を疾患監視データとする。 Disease monitoring data may include disease data such as the number of disease visits, consultation rates, morbidity numbers, and morbidity rates. For example, the number of daily consultations for a disease (for example, influenza) may be obtained from a medical institution (for example, a hospital), and the number of daily consultations for a disease (for example, influenza) may be used as disease monitoring data. Alternatively, the daily prevalence of a student's disease (eg influenza) is obtained from the school and the daily prevalence of the disease (eg influenza) is used as disease monitoring data.

ステップ102において、前記疾患監視データと関連する天気データを取得し、前記天気データは、前記疾患監視データに対応する時系列データである。 In step 102, the weather data associated with the disease monitoring data is acquired, and the weather data is time series data corresponding to the disease monitoring data.

疾患監視データと関連する天気データとは、疾患監視データ(即ち、疾患の罹患データ)に影響を及ぼす天気データである。異なる天気データが前記疾患監視データに与える影響を事前に分析し、分析結果に基づいて前記疾患監視データに影響を及ぼし、または、より深刻な影響を与える天気を決定することができる。 The weather data associated with the disease monitoring data is the weather data that affects the disease monitoring data (that is, the disease morbidity data). The effect of different weather data on the disease monitoring data can be analyzed in advance, and the weather that affects the disease monitoring data or has a more serious effect can be determined based on the analysis result.

前記天気データは、湿度と、気温と、気圧と、降水量と、蒸気圧と、風速と、風向と、日照時間を含んでもよい。具体的な実施例では、前記天気データは毎日の平均気温、平均気圧、最高気温、最低気温、平均相対湿度、最小相対湿度、降水量、平均風速、日照時間、平均蒸気圧を含んでもよい。 The weather data may include humidity, temperature, atmospheric pressure, precipitation, vapor pressure, wind speed, wind direction, and sunshine duration. In a specific embodiment, the weather data may include daily mean temperature, mean barometric pressure, maximum temperature, minimum temperature, average relative humidity, minimum relative humidity, precipitation, average wind speed, sunshine duration, average vapor pressure.

前記天気データは、前記疾患監視データに対応する時間帯と同じであり、前記天気データは前記疾患監視データの統計周期(例えば、毎日、毎週)と同じである。例えば、前記疾患監視データが2018年1−2月の毎日の受診数である場合、前記天気データは2018年1−2月の毎日の天気データである。また、前記疾患監視データが2017年1−12月の毎週の受診数である場合、前記天気データは2017年1−12月の毎週の天気データ(例えば、週平均気温)である。 The weather data is the same as the time zone corresponding to the disease monitoring data, and the weather data is the same as the statistical cycle (for example, daily, weekly) of the disease monitoring data. For example, when the disease monitoring data is the number of daily consultations in January-February 2018, the weather data is the daily weather data in January-February 2018. When the disease monitoring data is the number of weekly consultations from January to December 2017, the weather data is the weekly weather data from January to December 2017 (for example, weekly average temperature).

天気情報ウェブサイト(例えば、中国天気網、新浪天気、捜狐天気など)から前記天気を捕獲することにより、天気データの信頼性を向上させることができる。任意のウェブページから前記天気データを捕獲することができる。 By capturing the weather from weather information websites (eg, China Weather Network, Sina Weather, Sohu Weather, etc.), the reliability of the weather data can be improved. The weather data can be captured from any web page.

所定のエリアの天気データを捕獲することができる。前記所定のエリアは、省、市、地域などを含んでもよい。例えば、深セン市の天気データを捕獲する。 It is possible to capture the weather data of a predetermined area. The predetermined area may include provinces, cities, regions and the like. For example, capture weather data for Shenzhen city.

所定の時間の天気データを捕獲することができる。前記所定の時間は年、月、日などを含んでもよい。例えば、2018年1−2月の毎日の天気データを捕獲する。 It is possible to capture weather data for a predetermined time. The predetermined time may include a year, a month, a day, and the like. For example, capture daily weather data for January-February 2018.

インターネットワームによって前記天気データを捕獲することができる。インターネットワームは、ウェブページにおけるデータ情報のコンテンツを自動的に抽出できるアプリケーションである。インターネットワームは、一般的に一つまたは複数の初期ウェブページのURL(シードURLとも呼ばれる)から、初期ウェブページのURLを取得し、特定のアルゴリズムや戦略(例えば、深さ優先探索戦略)に従い、ウェブページに対して捕獲を行う過程において、停止条件を満たすまで、現在のウェブページから新しいURLを絶えず抽出して対応するキューに入れる。URLは、Uniform Resource Locatorの略であり、即ち、ユニフォームリソースロケータである。 The weather data can be captured by an internet worm. Internet worms are applications that can automatically extract the content of data information on web pages. Internet worms typically obtain the URL of an initial web page from the URL of one or more initial web pages (also called the seed URL) and follow a particular algorithm or strategy (eg, a depth-priority search strategy). In the process of capturing a web page, new URLs are constantly extracted from the current web page and placed in the corresponding queue until the stop condition is met. URL is an abbreviation for Uniform Resource Locator, that is, a uniform resource locator.

天気情報ウェブサイトにオープン化されたAPIインターフェース(例えば、中国天気網にオープン化されたAPIインターフェース)によって、前記天気データを捕獲することができる。APIは、アプリケーションインターフェース(application interface)の略であり、APIインターフェースを介して、コンピューターソフトウェア間の相互通信を実現することができる。天気情報ウェブサイトにオープン化されたAPIインターフェースを介して、JSON形式またはXML形式のデータを返信することができる。 The weather data can be captured by an API interface opened on a weather information website (for example, an API interface opened on the China Weather Network). API is an abbreviation for application interface, and mutual communication between computer software can be realized via the API interface. Data in JSON format or XML format can be returned via the API interface opened on the weather information website.

具体的な実施例では、天気情報ウェブサイトにオープン化されたAPIインターフェースを介して、インターネットワームによって前記天気データを捕獲することができる。天気情報ウェブサイトにオープン化されたAPIインターフェースを介して、インターネットワームによって前記天気データを捕獲する具体的なプロセスについては、図2を参照してください。 In a specific embodiment, the weather data can be captured by an internet worm via an API interface opened on a weather information website. See Figure 2 for the specific process of capturing the weather data by an internet worm via the API interface opened on the weather information website.

ステップ103において、前記疾患監視データと関連し、かつ前記疾患監視データに対応する時系列データである世論データを取得する。 In step 103, public opinion data that is related to the disease monitoring data and is time-series data corresponding to the disease monitoring data is acquired.

疾患監視データと関連する世論データとは、前記疾患監視データを示す世論データということである。一例として、疾患(例えば、インフルエンザ)の流行期に入ると、罹患した人数の増加に伴い、疾患に関連する単語(例えば、インフルエンザ、タミフル、高熱などの特定の単語)をインターネットで検索する人が多くなるため、これらの単語の検索量が大幅に増加する。また、疾患(例えば、インフルエンザ)の流行期に入ると、罹患した人数の増加に伴い、ニュース、フォーラム、ブログ、掲示板などの世論ウェブサイトに発表された疾患関連コンテンツ(例えば、疾患情報、治療情報など)が多くなっている。したがって、疾患監視データと関連する世論データに基づいて疾患を予測することができる。 The public opinion data associated with the disease monitoring data is public opinion data indicating the disease monitoring data. As an example, during an epidemic of a disease (eg, influenza), as the number of people affected increases, people searching the Internet for disease-related words (eg, certain words such as influenza, Tamiflu, and high fever). As the number increases, the amount of searches for these words increases significantly. In addition, during the epidemic of a disease (eg, influenza), disease-related content (eg, disease information, treatment information) published on public opinion websites such as news, forums, blogs, and bulletin boards as the number of affected people increases. Etc.) are increasing. Therefore, disease can be predicted based on disease monitoring data and associated public opinion data.

前記世論データは、特定の単語の検索回数を含んでもよい。例えば、所定の検索エンジンによる特定の単語の検索回数(例えば、特定の地域において、所定の検索エンジンによる特定の単語に対する1日あたりの検索回数)を統計することができる。 The opinion data may include the number of searches for a particular word. For example, the number of searches for a specific word by a predetermined search engine (for example, the number of searches per day for a specific word by a predetermined search engine in a specific area) can be statistic.

前記世論データは、また、特定の世論ウェブサイト(例えば、ニュース、フォーラム、ブログ、掲示板など)に含まれている特定の単語に関する世論情報の数を含んでもよい。 The opinion data may also include the number of opinion information about a particular word contained on a particular opinion website (eg, news, forums, blogs, bulletin boards, etc.).

前記特定の単語とは、予測される疾患に関連する単語であり、例えば、前記特定の単語が疾患の症状に関連する単語であれば、予測される疾患がインフルエンザである場合、前記特定の単語は、突然発症、高熱、悪寒、頭痛、力がなく、喉の炎症、筋肉痛、空咳などを含んでもよい。また、予測される疾患が手足口病である場合、前記特定の単語は、口の痛み、拒食、低熱、手部の小さいヘルペス、口部の小さい潰瘍などを含んでもよい。 The specific word is a word related to a predicted disease, for example, if the specific word is a word related to a symptom of a disease, and the predicted disease is influenza, the specific word. May include sudden onset, high fever, chills, headache, weakness, throat irritation, myalgia, dry cough, etc. Also, if the predicted disease is hand-foot-and-mouth disease, the particular word may include mouth pain, anorexia nervosa, low-grade fever, small cold sores on the hands, small ulcers on the mouth, and the like.

前記世論データは、前記疾患監視データに対応する時間帯と同じであり、かつ前記世論データは、前記疾患監視の統計周期(例えば、毎日、毎週)と同じである。例えば、前記疾患監視データが2018年1−2月の毎日の受診数であると、前記世論データは2018年1−2月の毎日の世論データ(例えば、特定の単語が一日あたり検索された回数)である。また、前記疾患監視データが2017年1−12月の毎週の受診数であると、前記世論データは2017年1−12月の毎週の世論データ(例えば、特定の単語が一週あたり検索された回数)である。 The opinion data is the same as the time zone corresponding to the disease monitoring data, and the opinion data is the same as the statistical cycle of the disease monitoring (for example, daily, weekly). For example, if the disease monitoring data is the number of daily consultations from January to February 2018, the opinion data is the daily opinion data from January to February 2018 (for example, a specific word is searched per day). Number of times). Further, if the disease monitoring data is the number of weekly consultations from January to December 2017, the opinion data is the weekly opinion data from January to December 2017 (for example, the number of times a specific word is searched per week). ).

ステップ101−103を任意の順序に従って実行することができ、また、並列実行することもできる。 Steps 101-103 can be executed in any order and can be executed in parallel.

ステップ104において、前記疾患監視データ、天気データおよび世論データに対して前処理を行う。 In step 104, preprocessing is performed on the disease monitoring data, weather data, and public opinion data.

疾患監視データ、天気データおよび世論データに対する前処理は、異常データ処理を含んでもよい。疾患監視データ、天気データおよび世論データに対して異常データ処理を行う原因は、前記疾患監視データ、天気データおよび世論データにおける異常データを修正し、疾患予測の信頼性と精度を向上させるためである。 Preprocessing for disease monitoring data, weather data and public opinion data may include anomalous data processing. The reason why the abnormality data processing is performed on the disease monitoring data, the weather data, and the public opinion data is to correct the abnormality data in the disease monitoring data, the weather data, and the public opinion data, and to improve the reliability and accuracy of the disease prediction. ..

前記異常データ処理は、前記疾患監視データ、天気データおよび世論データに欠損値を補完することを含んでもよい。欠損値前後のデータの平均値または中央値で欠損値を補完することができ、または、回帰フィッティングという方法で欠損値を補完することもできる。 The anomaly data processing may include complementing missing values in the disease monitoring data, weather data and public opinion data. The missing value can be complemented by the average or median of the data before and after the missing value, or the missing value can be complemented by a method called regression fitting.

さらに、前記異常データ処理は、前記疾患監視データ、天気データおよび世論データにおける異常値を修正することを含むこともできる。前記異常値は、他のデータから大きく逸脱する数値である。前記異常値を、補間法で修正することができる。 Furthermore, the anomaly data processing can also include correcting outliers in the disease monitoring data, weather data and public opinion data. The outlier is a numerical value that greatly deviates from other data. The outliers can be corrected by an interpolation method.

疾患監視データ、天気データおよび世論データに対する前処理は、また、前記疾患監視データ、天気データおよび世論データに対するデータ形式の変換を含んでもよい。例えば、疾患監視データ、天気データおよび世論データに対して標準化処理を行うことにより、疾患監視データ、天気データおよび世論データに一致性の標準形式を備えさせて、LSTMモデルの入力データとすることに適する。 Preprocessing for disease monitoring data, weather data and public opinion data may also include conversion of the data format to said disease monitoring data, weather data and public opinion data. For example, by performing standardization processing on disease monitoring data, weather data, and public opinion data, the disease monitoring data, weather data, and public opinion data are provided with a standard format of consistency and used as input data of an LSTM model. Suitable.

ステップ105において、多層長短期記憶リカレントニューラルネットワーク(Long Short−term Memory Recurrent Neural Network)モデル、即ち、多層LSTMモデルを構築する。前記多層LSTMモデルは、二層のLSTMセル層と一層の完全接続層を含み、第一層のLSTMセル層は、入力データ(例えば、前記疾患監視データ、天気データおよび世論データで構成される入力データ)に対して特徴を構築し、第一非表示層ユニットを取得するために用いられ、前記第二層のLSTMセル層は、前記第一非表示層ユニットを組み合せ、第二非表示層ユニットを得るために用いられ、前記完全接続層は、前記第二非表示層ユニットに基づいて、予測結果(例えば、疾患予測結果)を得るために用いられ、LSTMセル層は、それぞれ忘却ゲート、入力ゲート、出力ゲートを含み、前記忘却ゲート、入力ゲート、出力ゲートによって、前記LSTMセル層の記憶状態が制御される。 In step 105, a multi-layer long short-term memory recurrent neural network (Long Short-term Memory Recurrent Neural Network) model, that is, a multi-layer LSTM model is constructed. The multi-layer LSTM model includes two LSTM cell layers and one fully connected layer, and the first LSTM cell layer is an input composed of input data (for example, the disease monitoring data, weather data and public opinion data). (Data) used to build features and acquire first hidden layer units, the second layer LSTM cell layer combines the first hidden layer units and the second hidden layer unit. The fully connected layer is used to obtain a prediction result (eg, disease prediction result) based on the second hidden layer unit, and the LSTM cell layer is used to obtain an oblivion gate and an input, respectively. The storage state of the LSTM cell layer is controlled by the oblivion gate, the input gate, and the output gate, including the gate and the output gate.

LSTMモデルは、時間リカレントニューラルネットワークモデルである。従来のリカレントニューラルネットワーク(Recurrent Neural Network、RNN)モデルに対して、LSTMモデルは、LSTMセル層で複数のゲートを構築することによって情報を記憶するため、それはモデルトレーニング過程の中で、勾配はすぐに解消しない。 The LSTM model is a time recurrent neural network model. In contrast to traditional Recurrent Neural Network (RNN) models, LSTM models store information by building multiple gates in the LSTM cell layer, which means that the gradient is immediate during the model training process. Does not resolve.

本方法に使用される多層LSTMモデルは、二層のLSTMセル層と一層の完全接続層を含み、第一層のLSTMセル層は、入力データ(例えば、前記疾患監視データ、天気データおよび世論データで構成される入力データ)に対して特徴を構築し、第一非表示層ユニットを取得するために用いられ、前記第二層のLSTMセル層は、前記第一非表示層ユニットを組み合せ、第二非表示層ユニットを得るために用いられる。前記完全接続層は、前記第二非表示層ユニットに基づいて予測値を得る。前記第一非表示層ユニットは局所的特徴であるが、前記第二非表示層ユニットは全体の特徴である。つまり、第一層のLSTMセル層は、局所的データを抽出するために用いられるものであるが、第二層のLSTMセル層は、局所的データに合わせて、全体の特徴を得るために用いられるものであり、前記完全接続層は、全体の特徴に基づいて予測結果(例えば、疾患予測結果)を得るために用いられるものである。 The multi-layer LSTM model used in the method includes two LSTM cell layers and one fully connected layer, the first LSTM cell layer being input data (eg, said disease monitoring data, weather data and public opinion data). The LSTM cell layer of the second layer is a combination of the first hidden layer units, and is used to construct a feature for the input data composed of the first hidden layer unit. (Ii) Used to obtain a hidden layer unit. The fully connected layer obtains a predicted value based on the second hidden layer unit. The first non-display layer unit is a local feature, while the second non-display layer unit is an overall feature. That is, the LSTM cell layer of the first layer is used to extract local data, while the LSTM cell layer of the second layer is used to obtain the overall characteristics according to the local data. The fully connected layer is used to obtain a prediction result (for example, a disease prediction result) based on the overall characteristics.

LSTMセル層は、忘却ゲート、入力ゲート、出力ゲートを含み、前記忘却ゲート、入力ゲート、出力ゲートによって、LSTMセル層の記憶状態が制御される。入力ゲートは、現在の時点での入力を受信するかどうかを決定し、出力ゲートは記憶状態を出力するかどうかを決定する。 The LSTM cell layer includes a forgetting gate, an input gate, and an output gate, and the storage state of the LSTM cell layer is controlled by the forgetting gate, the input gate, and the output gate. The input gate determines whether to receive the input at the current time, and the output gate determines whether to output the storage state.

一実施例では、LSTMセル層の忘却ゲートf、入力ゲートi、出力ゲートo、記憶状態cおよび非表示層ユニットhを以下のように計算することができる。In one embodiment, it is possible to calculate the forgetting gate f t of LSTM cell layer, the input gate i t, the output gate o t, the memory state c t and hidden layer units h t as follows.

Figure 2020527788
Figure 2020527788

そのうち、W、U、bは忘却ゲートのパラメータであり、W、U、bは入力ゲートのパラメータであり、W、U、bは、出力ゲートのパラメータであり、W、U、bは記憶ユニットのパラメータである。Among them, W f, U f, b f is a parameter of the forgetting gate, W i, U i, b i is the parameter of the input gate, W o, U o, b o is an parameter of an output gate , W c , U c , bc are parameters of the storage unit.

他の実施例では、LSTMセル層の忘却ゲートf、入力ゲートi、出力ゲートo、記憶状

Figure 2020527788
In another embodiment, the forgetting gate f t of LSTM cell layer, the input gate i t, the output gate o t, the storage form
Figure 2020527788

ステップ106において、前処理された前記疾患監視データ、天気データおよび世論データからトレーニングデータと検証データを取得し、前記トレーニングデータと検証データによって前記多層LSTMモデルに対してトレーニングと性能検証を行い、最適化された多層LSTMモデルを得る。 In step 106, training data and verification data are acquired from the preprocessed disease monitoring data, weather data, and public opinion data, and the training data and verification data are used to perform training and performance verification on the multi-layer LSTM model, which is optimal. Obtain a multi-layered RSTM model.

前処理された前記疾患監視データ、天気データおよび世論データから時系列データを切り取り、前記トレーニングデータと前記検証データを構成してもよい。 Time-series data may be cut out from the preprocessed disease monitoring data, weather data, and public opinion data to form the training data and the verification data.

前記多層LSTMモデルの入力データは、所定の次元(例えば、1000次元)のベクトルである。切り取った時系列データにおいて、各時点に対応する前処理された疾患監視データ、天気データおよび世論データで所定の次元のベクトルを構築し、各時点に対応するベクトルを時間順に前記多層LSTMモデルに順次入力し、前記多層LSTMモデルに対してトレーニングや検証を行うために用いることができる。 The input data of the multi-layer RSTM model is a vector having a predetermined dimension (for example, 1000 dimensions). In the cut time series data, a vector of a predetermined dimension is constructed from the preprocessed disease monitoring data, weather data, and public opinion data corresponding to each time point, and the vector corresponding to each time point is sequentially put into the multilayer RSTM model in chronological order. It can be input and used for training and verification of the multi-layer RSTM model.

例えば、前処理された前記疾患監視データ、天気データおよび世論データから、前記多層LSTMモデルに対してトレーニングを行うための第一時系列データを切り取る。切り取った第一時系列データにおいて、各時点に対応する前処理された疾患監視データ、天気データおよび世論データで所定の次元の第一ベクトルを構築し、各時点に対応する第一ベクトルを時間順に前記多層LSTMモデルに順次入力し、前記多層LSTMモデルに対してトレーニングを行うために用いられる。前処理された前記疾患監視データ、天気データおよび世論データから、前記多層LSTMモデルに対して検証を行うための第二時系列データを切り取る。切り取った第二時系列データにおいて、各時点に対応する前処理された疾患監視データ、天気データおよび世論データで所定の次元の第二ベクトルを構築し、各時点に対応する第二ベクトルを時間順に前記多層LSTMモデルに順次入力し、前記多層LSTMモデルに対して検証を行うために用いられる。 For example, from the preprocessed disease monitoring data, weather data, and public opinion data, first temporary series data for training the multi-layer RSTM model is cut out. In the cut out first temporary series data, the first vector of a predetermined dimension is constructed from the preprocessed disease monitoring data, weather data, and public opinion data corresponding to each time point, and the first vector corresponding to each time point is arranged in chronological order. It is used to sequentially input data into the multi-layer LSTM model and train the multi-layer LSTM model. From the preprocessed disease monitoring data, weather data and public opinion data, second time series data for verification against the multi-layer LSTM model is cut out. In the cut second time series data, a second vector of a predetermined dimension is constructed from the preprocessed disease monitoring data, weather data, and public opinion data corresponding to each time point, and the second vector corresponding to each time point is arranged in chronological order. It is used to sequentially input data to the multi-layer LSTM model and perform verification on the multi-layer LSTM model.

前記多層LSTMモデルに対してトレーニングを行う際には、前記多層LSTMモデルの損失関数を平均二乗誤差として定義してもよく、前記多層LSTMモデルのパラメータを調整することにより、前記平均二乗誤差の最小値が得られる。トレーニング過程において、RMSpropアルゴリズムを使用することができる。RMSpropは、改善された確率的勾配降下アルゴリズムである。平均二乗誤差とRMSpropアルゴリズムは、従来技術であるため、ここで、説明を省略する。 When training the multi-layer LSTM model, the loss function of the multi-layer LSTM model may be defined as a mean square error, and by adjusting the parameters of the multi-layer LSTM model, the mean square error can be minimized. The value is obtained. The RMSprop algorithm can be used during the training process. RMSprop is an improved stochastic gradient descent algorithm. Since the mean square error and the RMSprop algorithm are conventional techniques, description thereof will be omitted here.

ステップ107において、前処理された前記疾患監視データ、天気データおよび世論データから予測時点前の疾患監視データ、天気データおよび世論データを取得し、前記予測時点前の疾患監視データ、天気データおよび世論データを前記最適化された多層LSTMモデルに入力し、前記予測時点での疾患監視結果を得る。 In step 107, the disease monitoring data, weather data, and public opinion data before the prediction time point are acquired from the preprocessed disease monitoring data, weather data, and public opinion data, and the disease monitoring data, weather data, and public opinion data before the prediction time point are acquired. Is input to the optimized multi-layer RSTM model, and the disease monitoring result at the time of the prediction is obtained.

取得した予測時点前の疾患監視データ、天気データおよび世論データは時系列データである。取得した予測時点前の疾患監視データ、天気データおよび世論データにおいて、各時点に対応する前処理された疾患監視データ、天気データおよび世論データで所定の次元の第三ベクトルを構築し、各時点に対応する第三ベクトルを時間順に前記多層LSTMモデルに順次入力して、予測時点で疾患予測を行うことができる。 The acquired disease monitoring data, weather data, and public opinion data before the prediction time point are time series data. In the acquired disease monitoring data, weather data, and public opinion data before the predicted time point, a third vector of a predetermined dimension is constructed from the preprocessed disease monitoring data, weather data, and public opinion data corresponding to each time point, and at each time point. The corresponding third vector can be sequentially input into the multi-layer RSTM model in chronological order to predict the disease at the time of prediction.

疾患予測時、初期時点から前記所定の時点での予測値を得るまで、最適化された多層LSTMモデルは、現在の時点での入力データ、および前の時点での非表示層ユニットを一層ずつ組み合わせることによって現在の時点での各非表示層ユニットを得て、現在の時点での非表示層ユニットに基づいて現在の時点での予測値を得て、時間順に再帰処理を絶えず行うことで、次の時点での非表示層ユニットおよび予測値を取得する。 At the time of disease prediction, from the initial time point to obtaining the predicted value at the predetermined time point, the optimized multi-layer RSTM model combines the input data at the current time point and the hidden layer unit at the previous time point layer by layer. By obtaining each hidden layer unit at the current time point, obtaining the predicted value at the current time point based on the hidden layer unit at the current time point, and constantly performing recursive processing in chronological order, the following Get the hidden layer unit and predicted value at the time of.

実施例1は、多層LSTMモデルによって罹患データを予測するものである。LSTMモデルは、データから知識を直接抽出し、予測に役たつ特徴ベクトルを構築し、予測精度を向上させることができる。さらに、従来のRNNモデルに比べると、LSTMモデルは、時系列データ量の多すぎ場合に引き起こされた長期依存時に勾配が解消するという問題を解決する。そして、実施例1は、影響を及ぼす要因として、天気データ、世論データを疾患予測に用い、疾患予測の精度を向上させる。 Example 1 predicts morbidity data by a multi-layer RSTM model. The LSTM model can directly extract knowledge from the data, construct a feature vector useful for prediction, and improve the prediction accuracy. Further, compared with the conventional RNN model, the LSTM model solves the problem that the gradient disappears at the time of long-term dependence caused when the amount of time series data is too large. Then, in Example 1, weather data and public opinion data are used for disease prediction as influential factors to improve the accuracy of disease prediction.

実施例2
図2は、本願の実施例2に係る疾患予測方法から疾患監視データと関連する天気データ(即ち、図1におけるステップ102)を取得する詳細なフローチャートである。
Example 2
FIG. 2 is a detailed flowchart for acquiring weather data (that is, step 102 in FIG. 1) associated with disease monitoring data from the disease prediction method according to the second embodiment of the present application.

天気情報ウェブサイトにオープン化されたAPIインターフェースを介して、インターネットワームによって前記天気データを捕獲することができる。図2に示すように、具体的には、以下のステップを含んでもよい。 The weather data can be captured by an internet worm via an API interface opened on a weather information website. Specifically, as shown in FIG. 2, the following steps may be included.

ステップ201において、前記天気情報ウェブサイトのAPIインターフェース向けのシードURLおよび後続のURLを生成する。 In step 201, a seed URL and a subsequent URL for the API interface of the weather information website are generated.

シードURLは、インターネットワームが全ての作業を行うための基礎と前提である。シードURLは、一つであってもよいし、複数であってもよい。天気情報ウェブサイトのURLの構造上の特徴を分析し、URLの構造上の特徴に基づいて後続のURLを得ることができる。 The seed URL is the basis and premise for the Internet worm to do all the work. The seed URL may be one or a plurality. The structural features of the URL of the weather information website can be analyzed and subsequent URLs can be obtained based on the structural features of the URL.

ステップ202において、前記天気情報ウェブサイトのAPIインターフェースにHTTPリクエストを送信し、前記APIインターフェースにアクセスするように要求する。 In step 202, an HTTP request is sent to the API interface of the weather information website to request access to the API interface.

GET方式で、前記天気情報ウェブサイトのAPIインターフェースにHTTPリクエストを送信することができる。天気情報ウェブサイトがその提供した天気データの取得に同意すると、HTTP応答を返信することにより、天気データを取得する操作を行うことを通知する。 The GET method can send an HTTP request to the API interface of the weather information website. When the weather information website agrees to acquire the weather data provided by the website, it notifies that the operation for acquiring the weather data is to be performed by returning an HTTP response.

ステップ203において、前記天気情報ウェブサイトが提供したデータ内容に対して分析と識別を行うことにより、前記データ内容を調べる。 In step 203, the data content is examined by analyzing and identifying the data content provided by the weather information website.

天気情報ウェブサイトは、特定の形式のデータ内容を提供するため、前記データ内容を調べるには、天気情報ウェブサイトが提供した特定の形式のデータ内容に対して分析と識別を行う必要がある。例えば、前記天気情報ウェブサイトのAPIインターフェースが提供したデータの形式がJSONである。JSONはデータ交換形式であり、C言語に類似した文法習慣を使用したものである。当該JSON形式のデータ内容に対して分析と識別を行うことにより、前記データ内容を調べる。 Since the weather information website provides the data content in a specific format, it is necessary to analyze and identify the data content in the specific format provided by the weather information website in order to examine the data content. For example, the data format provided by the API interface of the weather information website is JSON. JSON is a data exchange format that uses grammatical customs similar to C language. The data content is examined by analyzing and identifying the data content in the JSON format.

ステップ204において、前記データ内容が所定の情報内容であるかどうかを判断する。 In step 204, it is determined whether or not the data content is a predetermined information content.

特定の天気データを取得するには、前記データ内容が所定の情報内容であるかどうかを判断しなければいけない。前記データ内容が所定の情報内容でなければ、該データ内容を捨て、そうでなければ、次のステップに進む。 In order to acquire specific weather data, it must be determined whether or not the data content is a predetermined information content. If the data content is not the predetermined information content, the data content is discarded, and if not, the process proceeds to the next step.

ステップ205において、前記データ内容が所定の情報内容である場合、前記データ内容を捕獲する。 In step 205, when the data content is a predetermined information content, the data content is captured.

データ捕獲の最終目標は、ネットワークにおけるデータ内容を捕獲してローカルにすることである。JSON形式のデータ内容に対して、前記データ内容を捕獲する際、深さ優先検索戦略によって状態空間検索を行うことができる。 The ultimate goal of data capture is to capture and localize the data content in the network. When capturing the data content in the JSON format, the state space search can be performed by the depth-first search strategy.

ステップ206において、捕獲したデータ内容を前記天気データとしてローカルに記憶する。 In step 206, the captured data content is locally stored as the weather data.

コンピューター装置にデータベースを作成し、前記天気データを前記データベースに記憶することができる。 A database can be created in a computer device, and the weather data can be stored in the database.

従来の全てのインターネットワームは、まず、一つまたは複数のエントリーURLを設定し、ウェブページを捕獲する過程において、捕獲戦略に従い、現在のウェブページから、新しいURLを抽出してキューに入れることにより、URLに対応するウェブページ内容を取得し、ウェブページ内容をローカルに記憶し、そして、次のエントリーURLとして、有効なアドレスを抽出し、クロールが完了すると停止する。ウェブページ数が劇的に増加するにつれて、従来のインターネットワームは、多数の無関係なウェブページをダウンロードする。天気情報ウェブサイトにオープン化されたAPIインターフェースを介して、インターネットワームによって前記天気データを捕獲することにより、無関係なウェブページをダウンロードすることを回避し、天気データを効率的に取得して、疾患予測効率を向上させる。 All conventional Internet worms first set one or more entry URLs, and in the process of capturing a web page, follow the capture strategy and extract a new URL from the current web page and queue it. , Acquires the web page content corresponding to the URL, stores the web page content locally, extracts a valid address as the next entry URL, and stops when the crawl is completed. As the number of web pages increases dramatically, traditional Internet worms download a large number of irrelevant web pages. By capturing the weather data by internet worms through the API interface opened on the weather information website, you can avoid downloading irrelevant web pages, get the weather data efficiently, and get the disease. Improve prediction efficiency.

実施例3
図3は、本願の実施例3に係る疾患予測装置の構成図である。図3に示すように、前記疾患予測装置10は、第一取得ユニット301、第二取得ユニット302、第三取得ユニット303、前処理ユニット304、構築ユニット305、最適化ユニット306、予測ユニット307を含んでもよい。
Example 3
FIG. 3 is a block diagram of the disease prediction device according to the third embodiment of the present application. As shown in FIG. 3, the disease prediction device 10 includes a first acquisition unit 301, a second acquisition unit 302, a third acquisition unit 303, a pretreatment unit 304, a construction unit 305, an optimization unit 306, and a prediction unit 307. It may be included.

第一取得ユニット301は、時系列データである疾患監視データを取得するために用いられる。 The first acquisition unit 301 is used to acquire disease monitoring data which is time series data.

前記疾患監視データは、インフルエンザ、手足口病、麻疹、流行性耳下腺炎などの疾患データを含んでもよい。 The disease monitoring data may include disease data such as influenza, hand-foot-and-mouth disease, measles, and mumps.

事前設定された区域(例えば、省、市、地域)において複数の監視拠点で構成される疾患監視ネットワークを確立し、前記監視拠点から疾患監視データを取得し、前記疾患監視データを疾患監視の時系列データとする。医療機構、学校、保育施設、薬局などを監視拠点として選択して、対応するターゲットの疾患監視とデータ収集を行うことができる。事前設定された条件を満たす場所を監視拠点として選択できる。前記事前設定された条件は、人数、規模などを含んでもよい。例えば、生徒数が事前設定された数に達する学校や保育施設を監視拠点として選択する。また、規模(例えば、一日当りの売上高で統計)が事前設定規模に達する薬局を、規模(例えば、一日当りの受診人数で統計)が事前設定規模に達する病院を監視拠点として選択する。 Establish a disease monitoring network consisting of multiple monitoring bases in a preset area (for example, province, city, region), acquire disease monitoring data from the monitoring bases, and use the disease monitoring data for disease monitoring. Let it be series data. Medical institutions, schools, childcare facilities, pharmacies, etc. can be selected as monitoring bases for disease monitoring and data collection for the corresponding targets. You can select a location that meets the preset conditions as a monitoring base. The preset conditions may include the number of people, scale, and the like. For example, select a school or childcare facility where the number of students reaches a preset number as a monitoring base. In addition, a pharmacy whose scale (for example, statistics based on daily sales) reaches a preset scale is selected as a monitoring base, and a hospital whose scale (for example, statistics based on the number of examinees per day) reaches a preset scale is selected as a monitoring base.

異なる時点での疾患監視データは、疾患監視の時系列データを構成する。例えば、日単位で収集された疾患監視データを疾患監視の時系列データとする。あるいは、週単位で収集された疾患監視データを疾患監視の時系列データとする。 Disease monitoring data at different time points constitutes time series data for disease monitoring. For example, disease monitoring data collected on a daily basis is used as time-series data for disease monitoring. Alternatively, the disease monitoring data collected on a weekly basis is used as time-series data for disease monitoring.

医療機構(主に病院を含む)は、疾患の早期発生兆候を把握するのに最適な場所であり、疾患監視の最優先である。患者の受診状況に基づいて疾患監視データを取得する。 Medical institutions (mainly hospitals) are the best place to detect early signs of disease and are a top priority for disease monitoring. Acquire disease monitoring data based on the patient's consultation status.

一部の疾患患者中には、早期症状を緩和するために薬局へ薬を買いに行く人もいるので、薬局での薬の販売状況に基づいて疾患監視データを取得する。 Since some patients with some diseases go to pharmacies to buy medicines to relieve early symptoms, disease monitoring data is acquired based on the sales status of medicines at pharmacies.

児童や青少年は、疾患発生のリスクが高い対象、および疾患の伝播における重要な部分であるため、このターゲットへの監視も強化されるべきである。学校や保育施設は、児童や青少年の疾患発生を監視するのに適した場所である。学校や保育施設での児童や青少年の休暇状況に基づいて、疾患監視データを取得する。 Since children and adolescents are at high risk of developing the disease and are an important part of disease transmission, surveillance of this target should also be strengthened. Schools and childcare facilities are good places to monitor disease outbreaks in children and adolescents. Acquire disease monitoring data based on the vacation status of children and adolescents in schools and childcare facilities.

したがって、本願発明では、疾患監視データを収集するために医療機構、学校、保育施設および薬局が主に選択される。もちろん、上記のデータ源の選択については、他の実施形態に限って他の注目されるターゲットまたは場所を監視のためのデータ源として追加または置換しない。例えば、ホテルを疾患監視区域に含めて、ホテルの入居者の疾患監視データを取得する。 Therefore, in the present invention, medical institutions, schools, childcare facilities and pharmacies are mainly selected for collecting disease monitoring data. Of course, the above data source selection does not add or replace other notable targets or locations as monitoring data sources only in other embodiments. For example, the hotel is included in the disease monitoring area, and the disease monitoring data of the resident of the hotel is acquired.

必要に応じて、任意のタイプの監視拠点(例えば医療機構)によって収集された疾患監視データのみを取得して疾患監視の時系列データを構成することができる。例えば、病院で収集された疾患監視データを取得して疾患監視の時系列データを構成することができる。あるいは、複数のタイプの監視拠点から収集された疾患監視データを組み合わせて疾患監視の時系列データを構成することもできる。例えば、病院で収集された疾患監視データを主とし、薬局から収集された疾患監視データを補足として、疾患監視の時系列データを構成することができる。 If necessary, only the disease monitoring data collected by any type of monitoring base (for example, a medical institution) can be acquired to configure the disease monitoring time series data. For example, disease monitoring data collected in a hospital can be acquired to construct time-series data for disease monitoring. Alternatively, disease monitoring data collected from a plurality of types of monitoring bases can be combined to form time-series data for disease monitoring. For example, time-series data for disease monitoring can be constructed mainly with disease monitoring data collected at a hospital and supplemented with disease monitoring data collected from a pharmacy.

疾患監視データは、疾患の受診数、受診率、罹患数、罹患率などの疾患データを含んでもよい。例えば、医療機構(例えば病院)から疾患(例えばインフルエンザ)の毎日の受診数を取得し、疾患(例えばインフルエンザ)の毎日の受診数を疾患監視データとしてもよい。または、学校から学生の疾患(例えばインフルエンザ)の毎日の罹患数を取得し、疾患(例えばインフルエンザ)の毎日の罹患数を疾患監視データとする。 Disease monitoring data may include disease data such as the number of disease visits, consultation rates, morbidity numbers, and morbidity rates. For example, the number of daily consultations for a disease (for example, influenza) may be obtained from a medical institution (for example, a hospital), and the number of daily consultations for a disease (for example, influenza) may be used as disease monitoring data. Alternatively, the daily prevalence of a student's disease (eg influenza) is obtained from the school and the daily prevalence of the disease (eg influenza) is used as disease monitoring data.

第二取得ユニット302は、前記疾患監視データと関連し、かつ前記疾患監視データに対応する時系列データである天気データを取得するために用いられる。 The second acquisition unit 302 is used to acquire weather data that is related to the disease monitoring data and is time-series data corresponding to the disease monitoring data.

疾患監視データと関連する天気データとは、疾患監視データ(即ち、疾患の罹患データ)に影響を及ぼす天気データということである。異なる天気データが前記疾患監視データに与える影響を事前に分析し、分析結果に基づいて前記疾患監視データに影響を及ぼし、または、より深刻な影響を与える天気を決定ことができる。 The weather data associated with the disease monitoring data is the weather data that affects the disease monitoring data (that is, the disease morbidity data). The effect of different weather data on the disease monitoring data can be analyzed in advance, and the weather that affects the disease monitoring data or has a more serious effect can be determined based on the analysis result.

前記天気データは、湿度と、気温と、気圧と、降水量と、蒸気圧と、風速と、風向と、日照時間とを含んでもよい。具体的な実施例では、前記天気データは毎日の平均気温、平均気圧、最高気温、最低気温、平均相対湿度、最小相対湿度、降水量、平均風速、日照時間、平均蒸気圧を含んでもよい。 The weather data may include humidity, temperature, atmospheric pressure, precipitation, vapor pressure, wind speed, wind direction, and sunshine duration. In a specific embodiment, the weather data may include daily mean temperature, mean barometric pressure, maximum temperature, minimum temperature, average relative humidity, minimum relative humidity, precipitation, average wind speed, sunshine duration, average vapor pressure.

前記天気データは、前記疾患監視データに対応する時間帯と同じであり、そして、前記天気データは前記疾患監視データの統計周期(例えば、毎日、毎週)と同じである。例えば、前記疾患監視データが2018年1−2月の毎日の受診数である場合、前記天気データは2018年1−2月の毎日の天気データである。また、前記疾患監視データが2017年1−12月の毎週の受診数である場合、前記天気データは2017年1−12月の毎週の天気データ(例えば、週平均気温)である。 The weather data is the same as the time zone corresponding to the disease monitoring data, and the weather data is the same as the statistical cycle of the disease monitoring data (eg, daily, weekly). For example, when the disease monitoring data is the number of daily consultations in January-February 2018, the weather data is the daily weather data in January-February 2018. When the disease monitoring data is the number of weekly consultations from January to December 2017, the weather data is the weekly weather data from January to December 2017 (for example, weekly average temperature).

天気情報ウェブサイト(例えば、中国天気網、新浪天気、捜狐天気など)から前記天気を捕獲することにより、天気データの信頼性を向上させることができる。理解されるものとして、任意のウェブページから前記天気データを捕獲することができる。 By capturing the weather from weather information websites (eg, China Weather Network, Sina Weather, Sohu Weather, etc.), the reliability of the weather data can be improved. As will be appreciated, the weather data can be captured from any web page.

所定のエリアの天気データを捕獲することができる。前記所定のエリアは、省、市、地域などを含んでもよい。例えば、深セン市の天気データを捕獲する。 It is possible to capture the weather data of a predetermined area. The predetermined area may include provinces, cities, regions and the like. For example, capture weather data for Shenzhen city.

所定の時間の天気データを捕獲することができる。前記所定の時間は年、月、日などを含んでもよい。例えば、2018年1−2月の毎日の天気データを捕獲する。 It is possible to capture weather data for a predetermined time. The predetermined time may include a year, a month, a day, and the like. For example, capture daily weather data for January-February 2018.

インターネットワームによって前記天気データを捕獲することができる。 The weather data can be captured by an internet worm.

天気情報ウェブサイトにオープン化されたAPIインターフェース(例えば、中国天気網にオープン化されたAPIインターフェース)によって、前記天気データを捕獲することができる。 The weather data can be captured by an API interface opened on a weather information website (for example, an API interface opened on the China Weather Network).

具体的な実施例では、天気情報ウェブサイトにオープン化されたAPIインターフェースを介して、インターネットワームによって前記天気データを捕獲することができる。天気情報ウェブサイトにオープン化されたAPIインターフェースを介して、インターネットワームによって前記天気データを捕獲する具体的なプロセスについては、図2を参照してください。 In a specific embodiment, the weather data can be captured by an internet worm via an API interface opened on a weather information website. See Figure 2 for the specific process of capturing the weather data by an internet worm via the API interface opened on the weather information website.

第三取得ユニット303は、前記疾患監視データと関連し、かつ前記疾患監視データに対応する時系列データである世論データを取得するために用いられる。 The third acquisition unit 303 is used to acquire public opinion data which is time-series data related to the disease monitoring data and corresponding to the disease monitoring data.

疾患監視データと関連する世論データとは、前記疾患監視データを示す世論データということである。一例として、疾患(例えば、インフルエンザ)の流行期に入ると、罹患した人数の増加に伴い、疾患に関連する単語(例えば、インフルエンザ、タミフル、高熱などの特定の単語)をインターネットで検索する人が多くなるため、これらの単語の検索量が大幅に増加する。また、疾患(例えば、インフルエンザ)の流行期に入ると、罹患した人数の増加に伴い、ニュース、フォーラム、ブログ、掲示板などの世論ウェブサイトに発表された疾患関連コンテンツ(例えば、疾患情報、治療情報など)が多くなっている。したがって、疾患監視データと関連する世論データに基づいて疾患を予測することができる。 The public opinion data associated with the disease monitoring data is public opinion data indicating the disease monitoring data. As an example, during an epidemic of a disease (eg, influenza), as the number of people affected increases, people searching the Internet for disease-related words (eg, certain words such as influenza, Tamiflu, and high fever). As the number increases, the amount of searches for these words increases significantly. In addition, during the epidemic of a disease (eg, influenza), disease-related content (eg, disease information, treatment information) published on public opinion websites such as news, forums, blogs, and bulletin boards as the number of affected people increases. Etc.) are increasing. Therefore, disease can be predicted based on disease monitoring data and associated public opinion data.

前記世論データは、特定の単語の検索回数を含んでもよい。例えば、所定の検索エンジンによる特定の単語の検索回数(例えば、特定の地域において、所定の検索エンジンによる特定の単語に対する1日あたりの検索回数)を統計することができる。 The opinion data may include the number of searches for a particular word. For example, the number of searches for a specific word by a predetermined search engine (for example, the number of searches per day for a specific word by a predetermined search engine in a specific area) can be statistic.

前記世論データは、また、特定の世論ウェブサイト(例えば、ニュース、フォーラム、ブログ、掲示板など)に含まれている特定の単語に関する世論情報の数を含んでもよい。 The opinion data may also include the number of opinion information about a particular word contained on a particular opinion website (eg, news, forums, blogs, bulletin boards, etc.).

前記特定の単語とは、予測される疾患に関連する単語であり、例えば、前記特定の単語が疾患の症状に関連する単語であれば、予測される疾患がインフルエンザである場合、前記特定の単語は、突然発症、高熱、悪寒、頭痛、力がなく、喉の炎症、筋肉痛、空咳などを含んでもよい。また、予測される疾患が手足口病である場合、前記特定の単語は、口の痛み、拒食、低熱、手部の小さいヘルペス、口部の小さい潰瘍などを含んでもよい。 The specific word is a word related to a predicted disease, for example, if the specific word is a word related to a symptom of a disease, and the predicted disease is influenza, the specific word. May include sudden onset, high fever, chills, headache, weakness, throat irritation, myalgia, dry cough, etc. Also, if the predicted disease is hand-foot-and-mouth disease, the particular word may include mouth pain, anorexia nervosa, low-grade fever, small cold sores on the hands, small ulcers on the mouth, and the like.

前記世論データは、前記疾患監視データに対応する時間帯と同じであり、かつ前記世論データは、前記疾患監視の統計周期(例えば、毎日、毎週)と同じである。例えば、前記疾患監視データが2018年1−2月の毎日の受診数であると、前記世論データは2018年1−2月の毎日の世論データ(例えば、特定の単語が一日あたり検索された回数)である。また、前記疾患監視データが2017年1−12月の毎週の受診数であると、前記世論データは2017年1−12月の毎週の世論データ(例えば、特定の単語が一週あたり検索された回数)である。 The opinion data is the same as the time zone corresponding to the disease monitoring data, and the opinion data is the same as the statistical cycle of the disease monitoring (for example, daily, weekly). For example, if the disease monitoring data is the number of daily consultations from January to February 2018, the opinion data is the daily opinion data from January to February 2018 (for example, a specific word is searched per day). Number of times). Further, if the disease monitoring data is the number of weekly consultations from January to December 2017, the opinion data is the weekly opinion data from January to December 2017 (for example, the number of times a specific word is searched per week). ).

前処理ユニット304は、前記疾患監視データ、天気データおよび世論データに対して前処理を行うために用いられる。 The pretreatment unit 304 is used to preprocess the disease monitoring data, weather data, and public opinion data.

疾患監視データ、天気データおよび世論データに対する前処理は、異常データ処理を含んでもよい。疾患監視データ、天気データおよび世論データに対して異常データ処理を行う原因は、前記疾患監視データ、天気データおよび世論データにおける異常データを修正し、疾患予測の信頼性と精度を向上させるためである。 Preprocessing for disease monitoring data, weather data and public opinion data may include anomalous data processing. The reason why the abnormality data processing is performed on the disease monitoring data, the weather data, and the public opinion data is to correct the abnormality data in the disease monitoring data, the weather data, and the public opinion data, and to improve the reliability and accuracy of the disease prediction. ..

前記異常データ処理は、前記疾患監視データ、天気データおよび世論データに欠損値を補完することを含んでもよい。欠損値前後のデータの平均値または中央値で欠損値を補完することができ、または、回帰フィッティングという方法で欠損値を補完することもできる。 The anomaly data processing may include complementing missing values in the disease monitoring data, weather data and public opinion data. The missing value can be complemented by the average or median of the data before and after the missing value, or the missing value can be complemented by a method called regression fitting.

さらに、前記異常データ処理は、前記疾患監視データ、天気データおよび世論データにおける異常値を修正することを含むこともできる。前記異常値は、他のデータから大きく逸脱する数値である。前記異常値を、補間法で修正することができる。 Furthermore, the anomaly data processing can also include correcting outliers in the disease monitoring data, weather data and public opinion data. The outlier is a numerical value that greatly deviates from other data. The outliers can be corrected by an interpolation method.

疾患監視データ、天気データおよび世論データに対する前処理は、また、前記疾患監視データ、天気データおよび世論データに対するデータ形式の変換を含んでもよい。例えば、疾患監視データ、天気データおよび世論データに対して標準化処理を行うことにより、疾患監視データ、天気データおよび世論データに一致性の標準形式を備えさせて、LSTMモデルの入力データとすることに適する。 Preprocessing for disease monitoring data, weather data and public opinion data may also include conversion of the data format to said disease monitoring data, weather data and public opinion data. For example, by performing standardization processing on disease monitoring data, weather data, and public opinion data, the disease monitoring data, weather data, and public opinion data are provided with a standard format of consistency and used as input data of an LSTM model. Suitable.

構築ユニット305は、多層長短期記憶リカレントニューラルネットワーク(LongShort−term Memory Recurrent Neural Network)モデル、即ち、多層LSTMモデルを構築するために用いられる。前記多層LSTMモデルは、二層のLSTMセル層と一層の完全接続層を含み、第一層のLSTMセル層は、入力データ(例えば、前記疾患監視データ、天気データおよび世論データで構成される入力データ)に対して特徴を構築し、第一非表示層ユニットを取得するために用いられ、前記第二層のLSTMセル層は、前記第一非表示層ユニットを組み合せ、第二非表示層ユニットを得るために用いられ、前記完全接続層は、前記第二非表示層ユニットに基づいて、予測結果(例えば、疾患予測結果)を得るために用いられ、LSTMセル層は、それぞれ忘却ゲート、入力ゲート、出力ゲートを含み、前記忘却ゲート、入力ゲート、出力ゲートによって、前記LSTMセル層の記憶状態が制御される。 The construction unit 305 is used to construct a multi-layer long short-term memory recurrent neural network (Long Short-term Memory Recurrent Neural Network) model, that is, a multi-layer RSTM model. The multi-layer LSTM model includes two LSTM cell layers and one fully connected layer, and the first LSTM cell layer is an input composed of input data (for example, the disease monitoring data, weather data and public opinion data). (Data) used to build features and acquire first hidden layer units, the second layer LSTM cell layer combines the first hidden layer units and the second hidden layer unit. The fully connected layer is used to obtain a prediction result (eg, disease prediction result) based on the second hidden layer unit, and the LSTM cell layer is used to obtain an oblivion gate and an input, respectively. The storage state of the LSTM cell layer is controlled by the oblivion gate, the input gate, and the output gate, including the gate and the output gate.

本方法に使用される多層LSTMモデルは、二層のLSTMセル層と一層の完全接続層を含み、第一層のLSTMセル層は、入力データ(例えば、前記疾患監視データ、天気データおよび世論データで構成される入力データ)に対して特徴を構築し、第一非表示層ユニットを取得するために用いられ、前記第二層のLSTMセル層は、前記第一非表示層ユニットを組み合せ、第二非表示層ユニットを得るために用いられる。前記完全接続層は、前記第二非表示層ユニットに基づいて予測値を得る。前記第一非表示層ユニットは局所的特徴であるが、前記第二非表示層ユニットは全体の特徴である。つまり、第一層のLSTMセル層は、局所的データを抽出するために用いられるものであるが、第二層のLSTMセル層は、局所的データに合わせて、全体の特徴を得るために用いられるものであり、前記完全接続層は、全体の特徴に基づいて予測結果(例えば、疾患予測結果)を得るために用いられるものである。 The multi-layer LSTM model used in the method includes two LSTM cell layers and one fully connected layer, the first LSTM cell layer being input data (eg, said disease monitoring data, weather data and public opinion data). The LSTM cell layer of the second layer is a combination of the first hidden layer units, and is used to construct a feature for the input data composed of the first hidden layer unit. (Ii) Used to obtain a hidden layer unit. The fully connected layer obtains a predicted value based on the second hidden layer unit. The first non-display layer unit is a local feature, while the second non-display layer unit is an overall feature. That is, the LSTM cell layer of the first layer is used to extract local data, while the LSTM cell layer of the second layer is used to obtain the overall characteristics according to the local data. The fully connected layer is used to obtain a prediction result (for example, a disease prediction result) based on the overall characteristics.

LSTMセル層は、忘却ゲート、入力ゲート、出力ゲートを含み、前記忘却ゲート、入力ゲート、出力ゲートによって、LSTMセル層の記憶状態が制御される。入力ゲートは、現在の時点での入力を受信するかどうかを決定し、出力ゲートは記憶状態を出力するかどうかを決定する。 The LSTM cell layer includes a forgetting gate, an input gate, and an output gate, and the storage state of the LSTM cell layer is controlled by the forgetting gate, the input gate, and the output gate. The input gate determines whether to receive the input at the current time, and the output gate determines whether to output the storage state.

一実施例では、LSTMセル層の忘却ゲートf、入力ゲートi、出力ゲートo、記憶状態cおよび非表示層ユニットhを以下のように計算することができる。

Figure 2020527788
In one embodiment, it is possible to calculate the forgetting gate f t of LSTM cell layer, the input gate i t, the output gate o t, the memory state c t and hidden layer units h t as follows.
Figure 2020527788

そのうち、W、U、bは忘却ゲートのパラメータであり、W、U、bは入力ゲートのパラメータであり、W、U、bは出力ゲートのパラメータであり、W、U、bは記憶ユニットのパラメータである。Among them, W f, U f, b f is a parameter of the forgetting gate, W i, U i, b i is the parameter of the input gate, W o, U o, b o is a parameter of an output gate, W c , U c , and b c are parameters of the storage unit.

他の実施例では、LSTMセル層の忘却ゲートf、入力ゲートi、出力ゲートo、記憶状態cおよび非表示層ユニットhを以下のように計算することができる。In another embodiment, it is possible to calculate the forgetting gate f t of LSTM cell layer, the input gate i t, the output gate o t, the memory state c t and hidden layer units h t as follows.

Figure 2020527788
Figure 2020527788

最適化ユニット306は、前処理された前記疾患監視データ、天気データおよび世論データからトレーニングデータと検証データを取得し、前記トレーニングデータと検証データによって前記多層LSTMモデルに対してトレーニングと性能検証を行い、最適化された多層LSTMモデルを得るために用いられる。 The optimization unit 306 acquires training data and verification data from the preprocessed disease monitoring data, weather data, and public opinion data, and performs training and performance verification on the multi-layer LSTM model using the training data and verification data. , Used to obtain an optimized multi-layer RSTM model.

前処理された前記疾患監視データ、天気データおよび世論データから時系列データを切り取り、前記トレーニングデータと前記検証データを構成してもよい。 Time-series data may be cut out from the preprocessed disease monitoring data, weather data, and public opinion data to form the training data and the verification data.

前記多層LSTMモデルの入力データは、所定の次元(例えば、1000次元)のベクトルである。切り取った時系列データにおいて、各時点に対応する前処理された疾患監視データ、天気データおよび世論データで所定の次元のベクトルを構築し、各時点に対応するベクトルを時間順に前記多層LSTMモデルに順次入力し、前記多層LSTMモデルに対してトレーニングや検証を行うために用いることができる。 The input data of the multi-layer RSTM model is a vector having a predetermined dimension (for example, 1000 dimensions). In the cut time series data, a vector of a predetermined dimension is constructed from the preprocessed disease monitoring data, weather data, and public opinion data corresponding to each time point, and the vector corresponding to each time point is sequentially put into the multilayer RSTM model in chronological order. It can be input and used for training and verification of the multi-layer RSTM model.

例えば、前処理された前記疾患監視データ、天気データおよび世論データから、前記多層LSTMモデルに対してトレーニングを行うための第一時系列データを切り取る。切り取った第一時系列データにおいて、各時点に対応する前処理された疾患監視データ、天気データおよび世論データで所定の次元の第一ベクトルを構築し、各時点に対応する第一ベクトルを時間順に前記多層LSTMモデルに順次入力し、前記多層LSTMモデルに対してトレーニングを行うために用いられる。前処理された前記疾患監視データ、天気データおよび世論データから、前記多層LSTMモデルに対して検証を行うための第二時系列データを切り取る。切り取った第二時系列データにおいて、各時点に対応する前処理された疾患監視データ、天気データおよび世論データで所定の次元の第二ベクトルを構築し、各時点に対応する第二ベクトルを時間順に前記多層LSTMモデルに順次入力し、前記多層LSTMモデルに対して検証を行うために用いられる。 For example, from the preprocessed disease monitoring data, weather data, and public opinion data, the first time series data for training the multi-layer RSTM model is cut out. In the cut out first temporary series data, the first vector of a predetermined dimension is constructed from the preprocessed disease monitoring data, weather data, and public opinion data corresponding to each time point, and the first vector corresponding to each time point is arranged in chronological order. It is used to sequentially input data into the multi-layer LSTM model and train the multi-layer LSTM model. From the preprocessed disease monitoring data, weather data and public opinion data, second time series data for verification against the multi-layer RSTM model is cut out. In the cut second time series data, a second vector of a predetermined dimension is constructed from the preprocessed disease monitoring data, weather data, and public opinion data corresponding to each time point, and the second vector corresponding to each time point is arranged in chronological order. It is used to sequentially input data to the multi-layer LSTM model and perform verification on the multi-layer LSTM model.

前記多層LSTMモデルに対してトレーニングを行う際には、前記多層LSTMモデルの損失関数を平均二乗誤差として定義してもよく、前記多層LSTMモデルのパラメータを調整することにより、前記平均二乗誤差の最小値が得られる。トレーニング過程において、RMSpropアルゴリズムを使用することができる。RMSpropは、改善された確率的勾配降下アルゴリズムである。平均二乗誤差とRMSpropアルゴリズムは、従来技術であるため、ここで、説明を省略する。 When training the multi-layer LSTM model, the loss function of the multi-layer LSTM model may be defined as a mean square error, and by adjusting the parameters of the multi-layer LSTM model, the mean square error can be minimized. The value is obtained. The RMSprop algorithm can be used during the training process. RMSprop is an improved stochastic gradient descent algorithm. Since the mean square error and the RMSprop algorithm are conventional techniques, description thereof will be omitted here.

予測ユニット307は、前処理された前記疾患監視データ、天気データおよび世論データから予測時点前の疾患監視データ、天気データおよび世論データを取得し、前記予測時点前の疾患監視データ、天気データおよび世論データを前記最適化された多層LSTMモデルに入力し、前記予測時点での疾患監視結果を得る。 The prediction unit 307 acquires the disease monitoring data, the weather data, and the public opinion data before the prediction time point from the preprocessed disease monitoring data, the weather data, and the public opinion data, and the disease monitoring data, the weather data, and the public opinion before the prediction time point. The data is input to the optimized multi-layer RSTM model to obtain disease monitoring results at the time of prediction.

取得した予測時点前の疾患監視データ、天気データおよび世論データは時系列データである。取得した予測時点前の疾患監視データ、天気データおよび世論データにおいて、各時点に対応する前処理された疾患監視データ、天気データおよび世論データで所定の次元の第三ベクトルを構築し、各時点に対応する第三ベクトルを時間順に前記多層LSTMモデルに順次入力して、予測時点で疾患予測を行うことができる。 The acquired disease monitoring data, weather data, and public opinion data before the prediction time point are time series data. In the acquired disease monitoring data, weather data, and public opinion data before the predicted time point, a third vector of a predetermined dimension is constructed from the preprocessed disease monitoring data, weather data, and public opinion data corresponding to each time point, and at each time point. The corresponding third vector can be sequentially input into the multi-layer RSTM model in chronological order to predict the disease at the time of prediction.

疾患予測時、初期時点から前記所定の時点での予測値を得るまで、最適化された多層LSTMモデルは、現在の時点での入力データ、および前の時点での非表示層ユニットを層ずつ組み合わせることによって現在の時点での各非表示層ユニットを得て、現在の時点での非表示層ユニットに基づいて現在の時点での予測値を得て、時間順に再帰処理を絶えず行うことで、次の時点での非表示層ユニットおよび予測値を取得する。 At the time of disease prediction, from the initial time point to obtaining the predicted value at the predetermined time point, the optimized multi-layer RSTM model combines the input data at the current time point and the hidden layer unit at the previous time point layer by layer. By obtaining each hidden layer unit at the current time point, obtaining the predicted value at the current time point based on the hidden layer unit at the current time point, and constantly performing recursive processing in chronological order, the following Get the hidden layer unit and predicted value at the time of.

実施例3は、多層LSTMモデルによって罹患データを予測するものである。LSTMモデルは、データから知識を直接抽出し、予測に役たつ特徴ベクトルを構築し、予測精度を向上させることができる。さらに、従来のRNNモデルに比べると、LSTMモデルは、時系列データ量の多すぎる場合に引き起こされた長期依存時に勾配が解消するという問題を解決する。そして、実施例3は、影響を及ぼす要因として、天気データ、世論データを疾患予測に用い、疾患予測の精度を向上させる。 Example 3 predicts morbidity data by a multi-layer RSTM model. The LSTM model can directly extract knowledge from the data, construct a feature vector useful for prediction, and improve the prediction accuracy. Furthermore, compared to the conventional RNN model, the LSTM model solves the problem that the gradient disappears during the long-term dependence caused when the amount of time series data is too large. Then, in Example 3, weather data and public opinion data are used for disease prediction as influential factors to improve the accuracy of disease prediction.

実施例4
図4は、本願の実施例4に係る疾患予測装置の第二取得ユニット(即ち、図3における302)の詳細な構成図である。
Example 4
FIG. 4 is a detailed configuration diagram of the second acquisition unit (that is, 302 in FIG. 3) of the disease prediction device according to the fourth embodiment of the present application.

第二取得ユニット302は、天気情報ウェブサイトにオープン化されたAPIインターフェースを介して、インターネットワームによって前記天気データを捕獲することができる。図4に示すように、第二取得ユニット302は、生成サブユニット3021と、リクエストサブユニット3022と、分析サブユニット3023と、判断サブユニット3024と、捕獲サブユニット3025と、記憶サブユニット3026を含んでもよい。 The second acquisition unit 302 can capture the weather data by an internet worm via an API interface opened on the weather information website. As shown in FIG. 4, the second acquire unit 302 includes a generation subunit 3021, a request subunit 3022, an analysis subunit 3023, a judgment subunit 3024, a capture subunit 3025, and a storage subunit 3026. It may be.

生成サブユニット3021は、前記天気情報ウェブサイトのAPIインターフェース向けのシードURLおよび後続のURLを生成するために用いられる。 The generation subunit 3021 is used to generate a seed URL and a subsequent URL for the API interface of the weather information website.

シードURLは、インターネットワームが全ての作業を行うための基礎と前提である。シードURLは、一つであってもよいし、複数であってもよい。天気情報ウェブサイトのURLの構造上の特徴を分析し、URLの構造上の特徴に基づいて後続のURLを得ることができる。 The seed URL is the basis and premise for the Internet worm to do all the work. The seed URL may be one or a plurality. The structural features of the URL of the weather information website can be analyzed and subsequent URLs can be obtained based on the structural features of the URL.

リクエストサブユニット3022は、前記天気情報ウェブサイトのAPIインターフェースにHTTPリクエストを送信し、前記APIインターフェースにアクセスするように要求するために用いられる。 The request subunit 3022 is used to send an HTTP request to the API interface of the weather information website and request access to the API interface.

GET方式で、前記天気情報ウェブサイトのAPIインターフェースにHTTPリクエストを送信することができる。天気情報ウェブサイトがその提供した天気データの取得に同意すると、HTTP応答を返信することにより、天気データを取得する操作を行うことを通知する。 The GET method can send an HTTP request to the API interface of the weather information website. When the weather information website agrees to acquire the weather data provided by the website, it notifies that the operation for acquiring the weather data is to be performed by returning an HTTP response.

分析サブユニット3023は、前記天気情報ウェブサイトが提供したデータ内容に対して分析と識別を行うことにより、前記データ内容を調べるために用いられる。 The analysis subunit 3023 is used to examine the data content by analyzing and identifying the data content provided by the weather information website.

天気情報ウェブサイトは、特定の形式のデータ内容を提供するため、前記データ内容を調べるには、天気情報ウェブサイトが提供した特定の形式のデータ内容に対して分析と識別を行う必要がある。例えば、前記天気情報ウェブサイトのAPIインターフェースが提供したデータの形式がJSONである。JSONはデータ交換形式であり、C言語に類似した文法習慣を使用したものである。当該JSON形式のデータ内容に対して分析と識別を行うことにより、前記データ内容を調べる。 Since the weather information website provides the data content in a specific format, it is necessary to analyze and identify the data content in the specific format provided by the weather information website in order to examine the data content. For example, the data format provided by the API interface of the weather information website is JSON. JSON is a data exchange format that uses grammatical customs similar to C language. The data content is examined by analyzing and identifying the data content in the JSON format.

判断サブユニット3024は、前記データ内容が所定の情報内容であるかどうかを判断するために用いられる。 The determination subunit 3024 is used to determine whether or not the data content is a predetermined information content.

特定の天気データを取得するには、前記データ内容が所定の情報内容であるかどうかを判断しなければいけない。前記データ内容が所定の情報内容でなければ、該データ内容を捨て、そうでなければ、次のステップに進む。 In order to acquire specific weather data, it must be determined whether or not the data content is a predetermined information content. If the data content is not the predetermined information content, the data content is discarded, and if not, the process proceeds to the next step.

捕獲サブユニット3025は、前記データ内容が所定の情報内容である場合、前記データ内容を捕獲するために用いられる。 The capture subunit 3025 is used to capture the data content when the data content is a predetermined information content.

データ捕獲の最終目標は、ネットワークにおけるデータ内容を捕獲してローカルにすることである。JSON形式のデータ内容に対して、前記データ内容を捕獲する際、深さ優先検索戦略によって状態空間検索を行うことができる。 The ultimate goal of data capture is to capture and localize the data content in the network. When capturing the data content in the JSON format, the state space search can be performed by the depth-first search strategy.

記憶サブユニット3026は、捕獲したデータ内容を前記天気データとしてローカルに記憶するために用いられる。 The storage subunit 3026 is used to locally store the captured data content as the weather data.

コンピューター装置にデータベースを作成し、前記天気データを前記データベースに記憶することができる。 A database can be created in a computer device, and the weather data can be stored in the database.

ウェブページ数が劇的に増加するにつれて、従来のインターネットワームは、多数の無関係なウェブページをダウンロードすることになる。第二取得ユニット302は、天気情報ウェブサイトにオープン化されたAPIインターフェースを介して、インターネットワームによって前記天気データを捕獲することにより、無関係なウェブページをダウンロードすることを回避し、天気データを効率的に取得して、疾患予測効率を向上させることができる。 As the number of web pages increases dramatically, traditional Internet worms will download a large number of irrelevant web pages. The second acquisition unit 302 avoids downloading irrelevant web pages by capturing the weather data by an internet worm via an API interface opened on the weather information website, and streamlines the weather data. It is possible to improve the disease prediction efficiency.

実施例5
図5は、本願の実施例5に係るコンピューター装置の概略図である。前記コンピューター装置1は、メモリ20、プロセッサ30および前記メモリ20に記憶されており、かつ、前記プロセッサ30に実行できる疾患予測プログラムのようなコンピューター可読コマンド40を含む。前記プロセッサ30が前記コンピューター可読コマンド40を実行する際に、上記疾患予測方法の実施例におけるステップを実現し、例えば、図1に示すステップ101−107である。または、前記プロセッサ30が前記コンピューター可読コマンド40を実行する際に、上記装置の実施例における各モジュール/ユニットの機能を実現し、例えば、図3におけるユニット301−307である。
Example 5
FIG. 5 is a schematic view of the computer device according to the fifth embodiment of the present application. The computer device 1 includes a memory 20, a processor 30, and a computer-readable command 40 such as a disease prediction program stored in the memory 20 and executed by the processor 30. When the processor 30 executes the computer-readable command 40, the steps in the embodiment of the disease prediction method are realized, for example, steps 101-107 shown in FIG. Alternatively, when the processor 30 executes the computer-readable command 40, the function of each module / unit in the embodiment of the device is realized, for example, units 301-307 in FIG.

例示的には、前記コンピューター可読コマンド40は一つまたは複数のモジュール/ユニットに分けられており、前記一つまたは複数のモジュール/ユニットは前記メモリ20に記憶され、かつ、前記プロセッサ30によって実行され、したがって、本願発明を実現する。前記一つまたは複数のモジュール/ユニットは、特定の機能を実現できる一連のコンピューター可読コマンドセグメントであってもよく、該コマンドセグメントは、前記コンピューター装置1における前記コンピューター可読コマンド40の実行プロセスを説明するためのものである。例えば、前記コンピューター可読コマンド40を図3におけるユニット301、302、303、304、305、306、307に分けることができ、各ユニットの機能については、実施例3を参照してください。 Illustratively, the computer-readable command 40 is divided into one or more modules / units, the one or more modules / units are stored in the memory 20 and executed by the processor 30. Therefore, the present invention is realized. The one or more modules / units may be a series of computer-readable command segments capable of achieving a particular function, which describes the process of executing the computer-readable command 40 in the computer apparatus 1. Is for. For example, the computer-readable command 40 can be divided into units 301, 302, 303, 304, 305, 306, and 307 in FIG. 3, and for the functions of each unit, refer to Example 3.

前記コンピューター装置1は、デスクトップコンピューター、ノートパソコン、パームトップコンピューターおよびクラウドサーバーなどのコンピューティングデバイスであってもよい。当業者であれば理解されるように、前記概略図5は、コンピューター装置1の一例にすぎず、コンピューター装置1を限定するものではなく、図に示されたものより多く、または、より少ない部材を含み、あるいは、一部の部材、または、異なる部材を組み合わせたものであってもよく、例えば、前記コンピューター装置1は、さらに、入出力装置、ネットワークアクセス装置、バスなどを含んでもよい。 The computer device 1 may be a computing device such as a desktop computer, a laptop computer, a palmtop computer, and a cloud server. As will be appreciated by those skilled in the art, the schematic view 5 is merely an example of a computer device 1, does not limit the computer device 1, and has more or less members than those shown in the figure. , Or a part of the members, or a combination of different members. For example, the computer device 1 may further include an input / output device, a network access device, a bus, and the like.

前記プロセッサ30は、中央処理ユニット(Central Processing Unit、CPU)であってもよいし、他の汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor、DSP)、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、フィールドプログラマブルゲートアレイ(Field−Programmable Gate Array、FPGA)、または、他のプログラマブルロジックデバイス、ディスクリートゲート、またはトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントなどであってもよい。汎用プロセッサはマイクロプロセッサであり、または、該プロセッサ30は任意の従来のプロセッサなどであってもよく、前記プロセッサ30は前記コンピューター装置1の制御センターであり、様々なインターフェースと回線を介してコンピューター装置1全体の各部分を接続する。 The processor 30 may be a central processing unit (CPU), another general-purpose processor, a digital signal processor (DSP), an integrated circuit for a specific application (Application Special Integrated Circuit, ASIC). ), A field programmable gate array (Field-Programmable Gate Array, FPGA), or other programmable logic device, discrete gate, or transistor logic device, discrete hardware component, and the like. The general-purpose processor may be a microprocessor, or the processor 30 may be any conventional processor or the like, and the processor 30 is a control center of the computer device 1 and is a computer device via various interfaces and lines. 1 Connect each part of the whole.

前記メモリ20は、前記コンピューター可読コマンド40および/またはモジュール/ユニットを記憶するために用いることができ、前記プロセッサ30は、前記メモリ20内に記憶されているコンピューター可読コマンドおよび/またはモジュール/ユニットを動作させ、または実行し、およびメモリ20内に記憶されているデータを呼び出すことにより、前記コンピューター装置1の各機能を実現する。前記メモリ20は、主として、プログラム記憶領域とデータ記憶領域を含んでもよく、ここで、プログラム記憶領域にオペレーティングシステムと、少なくとも一つの機能に必要なアプリケーション(例えば、音声再生機能、画像再生機能など)などを記憶することができる。データ記憶領域には、コンピューター装置1の使用に応じて作成されたデータ(例えば、オーディオデータ、電話帳など)などを記憶することができる。また、メモリ20は、高速ランダムアクセスメモリを含んでもよいし、ハードディスク、メモリ、プラグインハードディスクのような不揮発性メモリと、スマートメディアカード(Smart Media Card、SMC)と、セキュアデジタル(Secure Digital、SD)カードと、フラッシュカード(Flash Card)と、少なくとも一つのディスクストレージデバイスと、フラッシュストレージデバイスと、または、他の揮発性ソリッドステートストレージデバイスを含んでもよい。 The memory 20 can be used to store the computer-readable commands 40 and / or modules / units, and the processor 30 stores computer-readable commands and / or modules / units stored in the memory 20. Each function of the computer device 1 is realized by operating or executing the data and calling the data stored in the memory 20. The memory 20 may mainly include a program storage area and a data storage area, wherein the program storage area includes an operating system and an application required for at least one function (for example, a voice reproduction function, an image reproduction function, etc.). Etc. can be memorized. Data (for example, audio data, telephone directory, etc.) created according to the use of the computer device 1 can be stored in the data storage area. Further, the memory 20 may include a high-speed random access memory, a non-volatile memory such as a hard disk, a memory, and a plug-in hard disk, a SmartMedia Card (SMC), and a secure digital (Secure Digital, SD). ) Cards, Flash Cards, at least one disk storage device, flash storage devices, or other volatile solid state storage devices.

前記コンピューター装置1に集積されたモジュール/ユニットは、ソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売、または使用される場合、不揮発性可読記憶媒体に記憶することができる。このような理解に基づき、本願は、上記実施例の方法における全てまたは一部のプロセスを実現し、また、コンピューター可読コマンドによって関連するハードウェアに完成させるようにコマンドを出すこともでき、前記コンピューター可読コマンドは不揮発性可読記憶媒体に記憶されており、該コンピューター可読コマンドがプロセッサによって実行される場合、上記各方法の実施例のステップを実現することができる。前記不揮発性可読記憶媒体は、前記コンピューター可読コマンドコードをキャリーできるいかなる実体または装置、記録媒体、Uディスク、モバイルハードディスク、磁気ディスク、光ディスク、コンピューターメモリ、読み取り専用メモリ(ROM、Read−Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、電気搬送波信号、電気通信信号、およびソフトウェア配布媒体などを含んでもよい。 The module / unit integrated in the computer device 1 is realized in the form of a software functional unit, and can be stored in a non-volatile readable storage medium when sold or used as an independent product. Based on this understanding, the present application can implement all or part of the process in the methods of the above embodiments, and can also command the relevant hardware to complete with computer-readable commands, said computer. The readable command is stored in a non-volatile readable storage medium, and when the computer readable command is executed by a processor, the steps of the embodiments of each of the above methods can be realized. The non-volatile readable storage medium is any entity or device capable of carrying the computer-readable command code, a recording medium, a U disk, a mobile hard disk, a magnetic disk, an optical disk, a computer memory, a read-only memory (ROM, Read-Only Memory), and the like. Random access memory (RAM, Random Access Memory), electric carrier signals, telecommunications signals, software distribution media, and the like may be included.

また、「含む」という言葉は、他のユニットまたはステップを除外するものではなく、単数も複数を除外するものではないことが明らかである。コンピューター装置の請求項に記載された複数のユニットまたはコンピューター装置を、同一のユニット、あるいは、コンピューター装置によってソフトウェアまたはハードウェアを通じて実現することもできる。第一、第二などの単語は任意の特定の順序を表すものではなく、名称を表すためのものである。 It is also clear that the word "contains" does not exclude other units or steps, nor does it exclude the singular or the plural. The plurality of units or computer devices described in the computer device claims can also be realized through software or hardware by the same unit or computer device. Words such as first and second do not represent any particular order, but rather names.

最後的には、上記の実施例は、本願発明の技術的解決策を説明するためにのみ使用され、それに限定されないことに留意されたい。本願発明は、好ましい実施例を参照して詳細に説明されるが、当業者は、本願発明の技術的解決策の趣旨と範囲から逸脱することなく、本願発明の技術的解決策を修正または同等に置換できることを理解すべきである。 Finally, it should be noted that the above embodiments are used only to illustrate the technical solutions of the present invention and are not limited thereto. The invention of the present application will be described in detail with reference to preferred embodiments, but those skilled in the art will modify or equivalent the technical solution of the present invention without departing from the spirit and scope of the technical solution of the present invention. It should be understood that it can be replaced with.

Claims (20)

疾患監視データを取得し、前記疾患監視データは、時系列データであるステップと、
前記疾患監視データと関連する天気データを取得し、前記天気データは、前記疾患監視データに対応する時系列データであるステップと、
前記疾患監視データと関連する世論データを取得し、前記世論データは、前記疾患監視データに対応する時系列データであるステップと、
前記疾患監視データと、前記天気データおよび前記世論データに対して前処理を行うステップと、
多層長短期記憶リカレントニューラルネットワークモデル、即ち、多層LSTMモデルを構築するステップと、
前処理された前記疾患監視データ、天気データおよび世論データからトレーニングデータと検証データを取得し、前記トレーニングデータと前記検証データを利用して前記多層LSTMモデルに対してトレーニングと性能検証を行い、最適化された多層LSTMモデルが得られるステップと、
前処理された前記疾患監視データ、前記天気データおよび前記世論データから予測時点前の疾患監視データ、天気データおよび世論データを取得し、前記予測時点前の疾患監視データ、天気データおよび世論データを前記最適化された多層LSTMモデルに入力し、前記予測時点での疾患監視結果が得られるステップと、
を含むことを特徴とする疾患予測方法。
The disease monitoring data is acquired, and the disease monitoring data is a time-series data step and
A step of acquiring weather data related to the disease monitoring data, and the weather data is time-series data corresponding to the disease monitoring data,
The public opinion data related to the disease monitoring data is acquired, and the public opinion data is a step that is time-series data corresponding to the disease monitoring data.
A step of preprocessing the disease monitoring data, the weather data, and the public opinion data, and
Multi-layer long short-term memory recurrent neural network model, that is, the steps to build a multi-layer RSTM model,
Training data and verification data are acquired from the preprocessed disease monitoring data, weather data, and public opinion data, and the training data and the verification data are used to perform training and performance verification on the multilayer LSTM model, which is optimal. Steps to obtain a multi-layered RSTM model
The preprocessed disease monitoring data, the weather data, and the public opinion data are used to acquire the disease monitoring data, the weather data, and the public opinion data before the prediction time point, and the disease monitoring data, the weather data, and the public opinion data before the prediction time point are obtained. Steps to input into an optimized multi-layer LSTM model and obtain disease monitoring results at the time of prediction,
A method for predicting a disease, which comprises.
ウェブページから天気データを捕獲するステップは、
天気情報ウェブサイトのAPIインターフェース向けのシードURLおよび後続のURLを生成するステップと、
前記天気情報ウェブサイトのAPIインターフェースにHTTPリクエストを送信し、前記APIインターフェースにアクセスするように要求するステップと、
前記天気情報ウェブサイトが提供したデータ内容に対して分析と識別を行って、前記データ内容を調べるステップと、
前記データ内容が所定の情報内容であるかどうかを判断するステップと、
前記データ内容が所定の情報内容である場合、前記データ内容を捕獲するステップと、
捕獲したデータ内容を前記天気データとしてローカルに記憶するステップと、
を備えることを特徴とする請求項1に記載の方法。
The steps to capture weather data from a web page are
Steps to generate seed URLs and subsequent URLs for the weather information website API interface,
A step of sending an HTTP request to the API interface of the weather information website and requesting access to the API interface.
The steps of analyzing and identifying the data content provided by the weather information website and examining the data content,
A step of determining whether or not the data content is a predetermined information content, and
When the data content is a predetermined information content, the step of capturing the data content and
The step of locally storing the captured data contents as the weather data, and
The method according to claim 1, wherein the method is provided.
前記世論データは、特定の単語の検索回数、または、特定の世論ウェブサイトに含まれている特定の単語に関する世論情報の数を備えることを特徴とする請求項1に記載の方法。 The method according to claim 1, wherein the public opinion data includes the number of searches for a specific word or the number of public opinion information about a specific word contained in a specific public opinion website. 前記疾患監視データ、前記天気データおよび前記世論データに対して前処理を行うステップは、
前記疾患監視データ、前記天気データおよび前記世論データに欠損値を補完するステップと、
前記疾患監視データ、前記天気データおよび前記世論データにおける異常値を修正するステップと、
前記疾患監視データ、前記天気データおよび前記世論データに対してデータ形式の変換を行うステップと、
を備えることを特徴とする請求項1に記載の方法。
The step of preprocessing the disease monitoring data, the weather data, and the public opinion data is
Steps to supplement missing values to the disease monitoring data, the weather data, and the public opinion data,
Steps to correct outliers in the disease monitoring data, the weather data and the public opinion data, and
The step of converting the data format to the disease monitoring data, the weather data, and the public opinion data, and
The method according to claim 1, wherein the method is provided.
前記天気データは、湿度と、気温と、気圧と、降水量と、蒸気圧と、風速と、風向と、日照時間を備えることを特徴とする請求項1−4のいずれかに記載の方法。The method according to any one of claims 1-4, wherein the weather data includes humidity, temperature, atmospheric pressure, precipitation, vapor pressure, wind speed, wind direction, and sunshine duration. 前記多層LSTMモデルは、二層のLSTMセル層と一層の完全接続層を含み、第一層のLSTMセル層は、入力データに対して特徴を構築して、第一非表示層ユニットを取得するために用いられ、第二層のLSTMセル層は、前記第一非表示層ユニットを組み合せ、第二非表示層ユニットを得るために用いられ、前記完全接続層は、前記第二非表示層ユニットに基づいて予測結果を得るために用いられ、各LSTMセル層は、それぞれ忘却ゲート、入力ゲート、出力ゲートを含み、前記忘却ゲート、前記入力ゲート、前記出力ゲートによって、前記LSTMセル層の記憶状態が制御されることを特徴とする請求項1−4のいずれかに記載の方法。 The multi-layer LSTM model includes two LSTM cell layers and one fully connected layer, and the first LSTM cell layer builds features on the input data to acquire the first hidden layer unit. The second LSTM cell layer is used to combine the first non-display layer units to obtain a second non-display layer unit, and the fully connected layer is the second non-display layer unit. Each LSTM cell layer includes an oblivion gate, an input gate, and an output gate, respectively, and the storage state of the LSTM cell layer is obtained by the oblivion gate, the input gate, and the output gate. The method according to any one of claims 1-4, wherein is controlled. 前記多層LSTMモデルに対してトレーニングを行う過程において、使用される損失関数が平均二乗誤差であり、使用されるアルゴリズムがRMSpropアルゴリズムであることを特徴とする請求項1−4のいずれかに記載の方法。 The invention according to any one of claims 1-4, wherein the loss function used in the process of training the multi-layer RSTM model is a mean square error, and the algorithm used is an RMSprop algorithm. Method. 疾患監視データを取得し、前記疾患監視データは、時系列データである第一取得ユニットと、
前記疾患監視データと関連する天気データを取得し、前記天気データは、前記疾患監視データに対応する時系列データである第二取得ユニットと、
前記疾患監視データと関連する世論データを取得し、前記世論データは、前記疾患監視データに対応する時系列データである第三取得ユニットと、
前記疾患監視データ、前記天気データおよび前記世論データに対して前処理を行う前処理ユニットと、
多層長短期記憶リカレントニューラルネットワークモデル、即ち、多層LSTMモデルを構築する構築ユニットと、
前処理された前記疾患監視データ、前記天気データおよび前記世論データからトレーニングデータと検証データを取得し、前記トレーニングデータと前記検証データを利用して前記多層LSTMモデルに対してトレーニングと性能検証を行い、最適化された多層LSTMモデルが得られる最適化ユニットと、
前処理された前記疾患監視データ、前記天気データおよび前記世論データから予測時点前の疾患監視データ、天気データおよび世論データを取得し、前記予測時点前の疾患監視データ、天気データおよび世論データを前記最適化された多層LSTMモデルに入力し、前記予測時点での疾患監視結果が得られる予測ユニットと、
を備えることを特徴とする疾患予測装置。
Disease monitoring data is acquired, and the disease monitoring data is the first acquisition unit, which is time-series data, and
The weather data related to the disease monitoring data is acquired, and the weather data includes a second acquisition unit which is time-series data corresponding to the disease monitoring data.
The public opinion data related to the disease monitoring data is acquired, and the public opinion data includes a third acquisition unit which is time-series data corresponding to the disease monitoring data.
A preprocessing unit that preprocesses the disease monitoring data, the weather data, and the public opinion data, and
A multi-layer long short-term memory recurrent neural network model, that is, a construction unit for constructing a multi-layer RSTM model,
Training data and verification data are acquired from the preprocessed disease monitoring data, weather data, and public opinion data, and training and performance verification are performed on the multi-layer LSTM model using the training data and the verification data. , An optimization unit that provides an optimized multi-layer RSTM model,
The preprocessed disease monitoring data, the weather data, and the public opinion data are used to acquire the disease monitoring data, the weather data, and the public opinion data before the prediction time point, and the disease monitoring data, the weather data, and the public opinion data before the prediction time point are obtained. A prediction unit that inputs to an optimized multi-layer RSTM model and obtains disease monitoring results at the time of prediction.
A disease prediction device comprising.
コンピューター装置であって、
前記コンピューター装置は、メモリおよびプロセッサを備え、前記メモリは、少なくとも1つのコンピューター可読コマンドを格納しており、前記プロセッサは、少なくとも1つのコンピューター可読コマンドを実行して、
疾患監視データを取得し、前記疾患監視データは、時系列データであるステップと、
前記疾患監視データと関連する天気データを取得し、前記天気データは、前記疾患監視データに対応する時系列データであるステップと、
前記疾患監視データと関連する世論データを取得し、前記世論データは、前記疾患監視データに対応する時系列データであるステップと、
前記疾患監視データと、前記天気データおよび前記世論データに対して前処理を行うステップと、
多層長短期記憶リカレントニューラルネットワークモデル、即ち、多層LSTMモデルを構築するステップと、
前処理された前記疾患監視データ、天気データおよび世論データからトレーニングデータと検証データを取得し、前記トレーニングデータと検証データを利用して前記多層LSTMモデルに対してトレーニングと性能検証を行い、最適化された多層LSTMモデルが得られるステップと、
前処理された前記疾患監視データ、前記天気データおよび前記世論データから予測時点前の疾患監視データ、天気データおよび世論データを取得し、前記予測時点前の疾患監視データ、天気データおよび世論データを前記最適化された多層LSTMモデルに入力し、前記予測時点での疾患監視結果が得られるステップと、
を実現することを特徴とするコンピューター装置。
It ’s a computer device,
The computer device comprises a memory and a processor, which stores at least one computer-readable command, and the processor executes at least one computer-readable command.
The disease monitoring data is acquired, and the disease monitoring data is a time-series data step and
A step of acquiring weather data related to the disease monitoring data, and the weather data is time-series data corresponding to the disease monitoring data,
The public opinion data related to the disease monitoring data is acquired, and the public opinion data is a step that is time-series data corresponding to the disease monitoring data.
A step of preprocessing the disease monitoring data, the weather data, and the public opinion data, and
Multi-layer long short-term memory recurrent neural network model, that is, the steps to build a multi-layer RSTM model,
Training data and verification data are acquired from the preprocessed disease monitoring data, weather data, and public opinion data, and the training data and verification data are used to perform training and performance verification on the multilayer RSTM model for optimization. Steps to obtain a multi-layered RSTM model
The preprocessed disease monitoring data, the weather data, and the public opinion data are used to acquire the disease monitoring data, the weather data, and the public opinion data before the prediction time point, and the disease monitoring data, the weather data, and the public opinion data before the prediction time point are obtained. Steps to input into an optimized multi-layer LSTM model and obtain disease monitoring results at the time of prediction,
A computer device characterized by realizing.
前記ウェブページから天気データを捕獲するステップは、
天気情報ウェブサイトのAPIインターフェース向けのシードURLおよび後続のURLを生成するステップと、
前記天気情報ウェブサイトのAPIインターフェースにHTTPリクエストを送信し、前記APIインターフェースにアクセスするように要求するステップと、
前記天気情報ウェブサイトが提供したデータ内容に対して分析と識別を行って、前記データ内容を調べるステップと、
前記データ内容が所定の情報内容であるかどうかを判断するステップと、
前記データ内容が所定の情報内容である場合、前記データ内容を捕獲するステップと、
捕獲したデータ内容を前記天気データとしてローカルに記憶するステップと、
を備えることを特徴とする請求項9に記載のコンピューター装置。
The steps to capture weather data from the web page
Steps to generate seed URLs and subsequent URLs for the weather information website API interface,
A step of sending an HTTP request to the API interface of the weather information website and requesting access to the API interface.
The steps of analyzing and identifying the data content provided by the weather information website and examining the data content,
A step of determining whether or not the data content is a predetermined information content, and
When the data content is a predetermined information content, the step of capturing the data content and
The step of locally storing the captured data contents as the weather data, and
9. The computer device according to claim 9.
前記世論データは、特定の単語の検索回数、または、特定の世論ウェブサイトに含まれている特定の単語に関する世論情報の数を備えることを特徴とする請求項9に記載のコンピューター装置。 The computer device according to claim 9, wherein the public opinion data includes the number of searches for a specific word or the number of public opinion information about a specific word contained in a specific public opinion website. 前記疾患監視データ、前記天気データおよび前記世論データに対して前処理を行うステップは、
前記疾患監視データ、前記天気データおよび前記世論データに欠損値を補完するステップと、
前記疾患監視データ、前記天気データおよび前記世論データにおける異常値を修正するステップと、
前記疾患監視データ、前記天気データおよび前記世論データに対してデータの形式変換を行うステップと、
を備えることを特徴とする請求項9に記載のコンピューター装置。
The step of preprocessing the disease monitoring data, the weather data, and the public opinion data is
Steps to supplement missing values to the disease monitoring data, the weather data, and the public opinion data,
Steps to correct outliers in the disease monitoring data, the weather data and the public opinion data, and
The step of converting the format of the disease monitoring data, the weather data, and the public opinion data, and
9. The computer device according to claim 9.
前記天気データは、湿度と、気温と、気圧と、降水量と、蒸気圧と、風速と、風向と、日照時間とを備えることを特徴とする請求項9−12のいずれかに記載のコンピューター装置。The computer according to any one of claims 9-12, wherein the weather data includes humidity, temperature, atmospheric pressure, precipitation, vapor pressure, wind speed, wind direction, and sunshine duration. apparatus. 前記多層LSTMモデルは、二層のLSTMセル層と一層の完全接続層を含み、第一層のLSTMセル層は、入力データに対して特徴を構築し、第一非表示層ユニットを取得するために用いられ、前記第二層のLSTMセル層は、前記第一非表示層ユニットを組み合せ、第二非表示層ユニットを得るために用いられ、前記完全接続層は、前記第二非表示層ユニットに基づいて予測結果を得るために用いられ、LSTMセル層は、それぞれ忘却ゲート、入力ゲート、出力ゲートを含み、前記忘却ゲート、前記入力ゲート、前記出力ゲートによって、前記LSTMセル層の記憶状態が制御されることを特徴とする請求項9−12のいずれかに記載のコンピューター装置。 The multi-layer LSTM model includes two LSTM cell layers and one fully connected layer, for the first LSTM cell layer to build features for input data and acquire a first hidden layer unit. The second layer of the LSTM cell layer is used to combine the first non-display layer units to obtain a second non-display layer unit, and the fully connected layer is the second non-display layer unit. The LSTM cell layer includes an oblivion gate, an input gate, and an output gate, respectively, and the oblivion gate, the input gate, and the output gate cause the storage state of the LSTM cell layer to be stored. The computer device according to any one of claims 9-12, characterized in that it is controlled. 不揮発性可読記憶媒体であって、
前記不揮発性可読記憶媒体は、少なくとも1つのコンピューター可読コマンドを格納しており、
前記少なくとも1つのコンピューター可読コマンドは、プロセッサによって、
疾患監視データを取得し、前記疾患監視データは、時系列データであるステップと、
前記疾患監視データと関連する天気データを取得し、前記天気データは、前記疾患監視データに対応する時系列データであるステップと、
前記疾患監視データと関連する世論データを取得し、前記世論データは、前記疾患監視データに対応する時系列データであるステップと、
前記疾患監視データと、前記天気データおよび前記世論データに対して前処理を行うステップと、
多層長短期記憶リカレントニューラルネットワークモデル、即ち、多層LSTMモデルを構築するステップと、
前処理された前記疾患監視データ、天気データおよび世論データからトレーニングデータと検証データを取得し、前記トレーニングデータと前記検証データを利用して前記多層LSTMモデルに対してトレーニングと性能検証を行い、最適化された多層LSTMモデルが得られるステップと、
前処理された前記疾患監視データ、前記天気データおよび前記世論データから予測時点前の疾患監視データ、天気データおよび世論データを取得し、前記予測時点前の疾患監視データ、天気データおよび世論データを前記最適化された多層LSTMモデルに入力し、前記予測時点での疾患監視結果が得られるステップと、
を実現することを特徴とする不揮発性可読記憶媒体。
It is a non-volatile readable storage medium
The non-volatile readable storage medium stores at least one computer readable command.
The at least one computer-readable command is determined by the processor.
The disease monitoring data is acquired, and the disease monitoring data is a time-series data step and
A step of acquiring weather data related to the disease monitoring data, and the weather data is time-series data corresponding to the disease monitoring data,
The public opinion data related to the disease monitoring data is acquired, and the public opinion data is a step that is time-series data corresponding to the disease monitoring data.
A step of preprocessing the disease monitoring data, the weather data, and the public opinion data, and
Multi-layer long short-term memory recurrent neural network model, that is, the steps to build a multi-layer RSTM model,
Training data and verification data are acquired from the preprocessed disease monitoring data, weather data, and public opinion data, and the training data and the verification data are used to perform training and performance verification on the multilayer LSTM model, which is optimal. Steps to obtain a multi-layered RSTM model
The preprocessed disease monitoring data, the weather data, and the public opinion data are used to acquire the disease monitoring data, the weather data, and the public opinion data before the prediction time point, and the disease monitoring data, the weather data, and the public opinion data before the prediction time point are obtained. Steps to input into an optimized multi-layer LSTM model and obtain disease monitoring results at the time of prediction,
A non-volatile readable storage medium characterized by the realization of.
ウェブページから天気データを捕獲するステップは、
天気情報ウェブサイトのAPIインターフェース向けのシードURLおよび後続のURLを生成するステップと、
前記天気情報ウェブサイトのAPIインターフェースにHTTPリクエストを送信し、前記APIインターフェースにアクセスするように要求するステップと、
前記天気情報ウェブサイトが提供したデータ内容に対して分析と識別を行って、前記データ内容を調べるステップと、
前記データ内容が所定の情報内容であるかどうかを判断するステップと、
前記データ内容が所定の情報内容である場合、前記データ内容を捕獲するステップと、
捕獲したデータ内容を前記天気データとしてローカルに記憶するステップと、
を備えることを特徴とする請求項15に記載の記憶媒体。
The steps to capture weather data from a web page are
Steps to generate seed URLs and subsequent URLs for the weather information website API interface,
A step of sending an HTTP request to the API interface of the weather information website and requesting access to the API interface.
The steps of analyzing and identifying the data content provided by the weather information website and examining the data content,
A step of determining whether or not the data content is a predetermined information content, and
When the data content is a predetermined information content, the step of capturing the data content and
The step of locally storing the captured data contents as the weather data, and
15. The storage medium according to claim 15, wherein the storage medium is provided with.
前記世論データは、特定の単語の検索回数、または、特定の世論ウェブサイトに含まれている特定の単語に関する世論情報の数を備えることを特徴とする請求項15に記載の記憶媒体。 The storage medium according to claim 15, wherein the public opinion data includes the number of searches for a specific word or the number of public opinion information about a specific word contained in a specific public opinion website. 前記疾患監視データ、前記天気データおよび前記世論データに対して行う前処理は、
前記疾患監視データ、前記天気データおよび前記世論データに欠損値を補完するステップと、
前記疾患監視データ、前記天気データおよび前記世論データにおける異常値を修正するステップと、
前記疾患監視データ、前記天気データおよび前記世論データに対してデータ形式の変換を行うステップと、
を備えることを特徴とする請求項15に記載の記憶媒体。
The preprocessing performed on the disease monitoring data, the weather data, and the public opinion data is
Steps to supplement missing values to the disease monitoring data, the weather data, and the public opinion data,
Steps to correct outliers in the disease monitoring data, the weather data and the public opinion data, and
The step of converting the data format to the disease monitoring data, the weather data, and the public opinion data, and
15. The storage medium according to claim 15, wherein the storage medium is provided with.
前記天気データは、湿度と、気温と、気圧と、降水量と、蒸気圧と、風速と、風向と、日照時間を備えることを特徴とする請求項15−18のいずれかに記載の記憶媒体。 The storage medium according to any one of claims 15-18, wherein the weather data includes humidity, air temperature, atmospheric pressure, precipitation, vapor pressure, wind speed, wind direction, and sunshine time. .. 前記多層LSTMモデルは、二層のLSTMセル層と一層の完全接続層を含み、第一層のLSTMセル層は、入力データに対して特徴を構築し、第一非表示層ユニットを取得するために用いられ、前記第二層のLSTMセル層は、前記第一非表示層ユニットを組み合せ、第二非表示層ユニットを得るために用いられ、前記完全接続層は、前記第二非表示層ユニットに基づいて予測結果を得るために用いられ、LSTMセル層は、それぞれ忘却ゲート、入力ゲート、出力ゲートを含み、前記忘却ゲート、前記入力ゲート、前記出力ゲートによって、前記LSTMセル層の記憶状態が制御されることを特徴とする請求項15−18のいずれかに記載の記憶媒体。 The multi-layer LSTM model includes two LSTM cell layers and one fully connected layer, for the first LSTM cell layer to build features for input data and acquire a first hidden layer unit. The second layer of the LSTM cell layer is used to combine the first non-display layer units to obtain a second non-display layer unit, and the fully connected layer is the second non-display layer unit. The LSTM cell layer includes an oblivion gate, an input gate, and an output gate, respectively, and the memory state of the LSTM cell layer is determined by the oblivion gate, the input gate, and the output gate, respectively. The storage medium according to any one of claims 15-18, characterized in that it is controlled.
JP2019572832A 2018-04-11 2018-08-10 Disease prediction methods and devices, computer devices and readable storage media Pending JP2020527788A (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810321868.X 2018-04-11
CN201810321868.XA CN108648829A (en) 2018-04-11 2018-04-11 Disease forecasting method and device, computer installation and readable storage medium storing program for executing
PCT/CN2018/099847 WO2019196286A1 (en) 2018-04-11 2018-08-10 Illness prediction method and device, computer device, and readable storage medium

Publications (1)

Publication Number Publication Date
JP2020527788A true JP2020527788A (en) 2020-09-10

Family

ID=63746032

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019572832A Pending JP2020527788A (en) 2018-04-11 2018-08-10 Disease prediction methods and devices, computer devices and readable storage media

Country Status (3)

Country Link
JP (1) JP2020527788A (en)
CN (1) CN108648829A (en)
WO (1) WO2019196286A1 (en)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109473177B (en) * 2018-10-31 2023-07-14 平安科技(深圳)有限公司 Method for determining medical development trend based on prediction model and related products
CN109545386B (en) * 2018-11-02 2021-07-20 深圳先进技术研究院 Influenza spatiotemporal prediction method and device based on deep learning
CN109599177B (en) * 2018-11-27 2023-04-11 华侨大学 Method for predicting medical treatment track through deep learning based on medical history
CN109615226B (en) * 2018-12-12 2020-12-29 焦点科技股份有限公司 Operation index abnormity monitoring method
CN109859854A (en) * 2018-12-17 2019-06-07 中国科学院深圳先进技术研究院 Prediction Method of Communicable Disease, device, electronic equipment and computer-readable medium
CN109656918A (en) * 2019-01-04 2019-04-19 平安科技(深圳)有限公司 Prediction technique, device, equipment and the readable storage medium storing program for executing of epidemic disease disease index
CN110085327A (en) * 2019-04-01 2019-08-02 东莞理工学院 Multichannel LSTM neural network Influenza epidemic situation prediction technique based on attention mechanism
CN109991685A (en) * 2019-04-03 2019-07-09 北京市天元网络技术股份有限公司 A kind of precipitation prediction technique and device based on more LSTM Model Fusions
CN110162398A (en) * 2019-04-11 2019-08-23 平安科技(深圳)有限公司 A kind of dispatching method, device and the terminal device of diseases analysis model
CN110111885B (en) * 2019-05-09 2023-09-19 腾讯科技(深圳)有限公司 Attribute prediction method, attribute prediction device, computer equipment and computer readable storage medium
CN110379522B (en) * 2019-07-23 2022-08-12 四川骏逸富顿科技有限公司 Disease prevalence trend prediction system and method
CN110675959B (en) * 2019-08-19 2023-07-07 平安科技(深圳)有限公司 Intelligent data analysis method and device, computer equipment and storage medium
CN110491522A (en) * 2019-08-28 2019-11-22 九州通医疗信息科技(武汉)有限公司 Infectious disease monitoring method and system based on medicine sales data
CN110706823A (en) * 2019-11-15 2020-01-17 广州地理研究所 Method for predicting respiratory system disease morbidity based on lag analysis and LSTM
CN111161880B (en) * 2019-12-23 2022-12-02 深圳平安医疗健康科技服务有限公司 Medical information classification method and device based on classification model and computer equipment
CN111312401B (en) * 2020-01-14 2021-12-17 之江实验室 After-physical-examination chronic disease prognosis system based on multi-label learning
CN111370122B (en) * 2020-02-27 2023-12-19 西安交通大学 Time sequence data risk prediction method and system based on knowledge guidance and application thereof
CN111415752B (en) * 2020-03-01 2023-05-12 集美大学 Hand-foot-and-mouth disease prediction method integrating meteorological factors and search indexes
CN111430040A (en) * 2020-03-03 2020-07-17 广东省公共卫生研究院 Hand-foot-and-mouth disease epidemic situation prediction method based on case, weather and pathogen monitoring data
CN111968753A (en) * 2020-08-06 2020-11-20 平安科技(深圳)有限公司 Epidemic situation monitoring method and device, computer equipment and storage medium
CN111986763A (en) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 Disease data analysis method and device, electronic device and storage medium
CN111933300B (en) * 2020-09-28 2021-02-12 平安科技(深圳)有限公司 Epidemic situation prevention and control effect prediction method, device, server and storage medium
CN111883262B (en) * 2020-09-28 2021-01-15 平安科技(深圳)有限公司 Epidemic situation trend prediction method and device, electronic equipment and storage medium
CN113057588A (en) * 2021-03-17 2021-07-02 上海电气集团股份有限公司 Disease early warning method, device, equipment and medium
CN113035352B (en) * 2021-04-27 2022-06-21 河南科技大学 Diabetic retinopathy early warning method based on BP neural network
CN113268871B (en) * 2021-05-21 2023-04-07 燕山大学 Cement chimney NOX prediction method based on multivariable time sequence depth network model
CN116013522A (en) * 2022-12-31 2023-04-25 中日友好医院(中日友好临床医学研究所) Prediction method and system for postherpetic neuralgia

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105812463A (en) * 2016-03-10 2016-07-27 深圳市前海安测信息技术有限公司 Disease early warning system and method based on medical big data
JP2017059031A (en) * 2015-09-17 2017-03-23 日本電気株式会社 Information processing apparatus, information processing method, and program
JP2018055548A (en) * 2016-09-30 2018-04-05 株式会社Nextremer Interactive device, learning device, interactive method, learning method, and program

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106030589A (en) * 2014-02-19 2016-10-12 赫尔实验室有限公司 Disease prediction system using open source data
CN105022783A (en) * 2015-06-03 2015-11-04 南京邮电大学 Hadoop based user service security system and method
CN106529113A (en) * 2015-09-15 2017-03-22 平安科技(深圳)有限公司 Reminding information sending method and server
CN105678080A (en) * 2016-01-11 2016-06-15 浪潮集团有限公司 Method for predicting influenza outbreak possibility through big data search and analysis
CN105808942A (en) * 2016-03-04 2016-07-27 深圳市前海安测信息技术有限公司 Analysis and early warning system and method of medical big data
CN107180152A (en) * 2016-03-09 2017-09-19 日本电气株式会社 Disease forecasting system and method
CN106022527A (en) * 2016-05-27 2016-10-12 河南明晰信息科技有限公司 Trajectory prediction method and device based on map tiling and LSTM cyclic neural network
CN107239859B (en) * 2017-06-05 2018-05-08 国网山东省电力公司电力科学研究院 Heating load forecasting method based on series connection shot and long term memory Recognition with Recurrent Neural Network
CN108288502A (en) * 2018-04-11 2018-07-17 平安科技(深圳)有限公司 Disease forecasting method and device, computer installation and readable storage medium storing program for executing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017059031A (en) * 2015-09-17 2017-03-23 日本電気株式会社 Information processing apparatus, information processing method, and program
CN105812463A (en) * 2016-03-10 2016-07-27 深圳市前海安测信息技术有限公司 Disease early warning system and method based on medical big data
JP2018055548A (en) * 2016-09-30 2018-04-05 株式会社Nextremer Interactive device, learning device, interactive method, learning method, and program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谷田 和章: "ソーシャルメディアによる風邪流行の予測", 言語処理学会第18回年次大会発表論文集, JPN6021001597, 13 March 2012 (2012-03-13), pages 563 - 566, ISSN: 0004428463 *

Also Published As

Publication number Publication date
CN108648829A (en) 2018-10-12
WO2019196286A1 (en) 2019-10-17

Similar Documents

Publication Publication Date Title
JP2020527788A (en) Disease prediction methods and devices, computer devices and readable storage media
WO2019196280A1 (en) Disease prediction method and device, computer device and readable storage medium
US9032513B2 (en) Systems and methods for event stream platforms which enable applications
WO2019196278A1 (en) Weather data acquisition method and apparatus, computer apparatus and readable storage medium
Li et al. Creation of environmental health information system for public health service: A pilot study
WO2019200786A1 (en) Method for forecasting public sentiment data, device, terminal, and storage medium
US10755197B2 (en) Rule-based feature engineering, model creation and hosting
CN108292257A (en) System and method for explaining client-server affairs
Sarkar et al. A conceptual distributed framework for improved and secured healthcare system
CN113094477B (en) Data structuring method and device, computer equipment and storage medium
Turk et al. A predictive internet-based model for COVID-19 hospitalization census
Gilbert et al. Public health surveillance
Giacalone et al. BIG DATA: ISSUES AND AN OVERVIEW IN SOME STRATEGIC SECTORS.
CN111863178A (en) Method, device, medium and electronic device for issuing medical report
Thai et al. Optimizing patient transportation by applying cloud computing and big data analysis
Clim et al. Health services in smart cities: Choosing the big data mining based decision support
Parthiban et al. Big data architecture for capturing, storing, analyzing and visualizing of web server logs
CN114064923A (en) Data processing method and device, electronic equipment and storage medium
Wynia et al. Ethical triage demands a better triage survivability score
Tsoi et al. How can we better use Twitter to find a person who got lost due to dementia?
CN111488500A (en) Medical problem information processing method and device and storage medium
CN116453125A (en) Data input method, device, equipment and storage medium based on artificial intelligence
Wang Public health emergency decision-making and management system sound research using rough set attribute reduction and blockchain
Ma et al. Joint covid-19 and influenza-like illness forecasts in the United States using internet search information
CN113780855A (en) Medical institution supervision method and device, computer equipment and storage medium

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191216

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210126

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210907