CN110610767B

CN110610767B - 发病率监测方法、装置、设备及存储介质

Info

Publication number: CN110610767B
Application number: CN201910706318.4A
Authority: CN
Inventors: 陈娴娴; 阮晓雯; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2023-06-02
Anticipated expiration: 2039-08-01
Also published as: WO2021017733A1; US20220254513A1; JP2022536785A; CN110610767A; JP7295278B2

Abstract

本发明涉及人工智能技术领域，公开了一种基于历史疾病信息的发病率监测方法，根据预置的门控递归神经网络与集成学习算法的结合对历史病历数据的不断自主学习，形成基于历史疾病信息的发病率监测的预测模型，然后根据待测疾病的疾病数据输入值预测模型中进行预测和监控。本发明还公开了一种基于历史疾病信息的发病率监测装置、设备及计算机可读存储介质，本发明通过上述的算法与神经网络的结合来从历史病历数据中捕捉到一定的规律性，而形成预测模型，且门控递归神经网络与集成学习算法的相结合不仅简化了模型对数据的记忆量，而且还加快了对疾病预测的效率，实现了疾病流行的快速准确预测，能及时启动预警，便于相关工作人员的流行疾病的防控部署准备。

Description

发病率监测方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种发病率监测方法、装置、设备及存储介质。

背景技术

随着科技与经济、生活一体化进程的加快，经济与交流活动增加，人群流动日益频繁，为疾病的传播与爆发提供了有利环境，公共卫生健康问题越来越严峻。同时，社会与自然环境也发生着变化，环境污染、自然灾害等影响公众健康事件的增多也增加了突发公共卫生事件爆发的可能性。

如何能早期识别到疾病突发，及时发出预警，尽早采取相应的控制措施，将疾病爆发所带来的损伤降到最低，是当前医疗科技比较关注的重点之一。

尤其是流感疾病的监控上，例如登革热，主要在热带和亚热带地区流行，主要位于南部城市较为流行，是一种具有季节性流行传播的疾毒之一，而这种疾毒的传播和影响因素比较多，而且危害程度和影响力度都是比较不明显的，为了预防这类型的病毒，目前在医学界中主要是通过季节的气候和天气，以及机器学习来判断是否产生，而对于发病率的预测，现有的控制方式是通过采样某一区域上的样本以及诱发因素，根据样本和诱发因素进行模型的训练、测试，然后根据模型和实时的数据进行发病的预测，这种方式对于影响疾病的发病的因素并不能进行有效的集成在一个模型中，导致机器未能及时学习，而影响了疾病预测的准确率。

发明内容

本发明的主要目的在于提供一种基于历史疾病信息的发病率监测方法、装置、设备及存储介质，旨在解决现有技术中以机器学习方式，对疾病发病率监测的准确率不高的技术问题。

为实现上述目的，本发明提供一种基于历史疾病信息的发病率监测方法，所述基于历史疾病信息的发病率监测方法包括以下步骤：

获取疾病的历史病历数据，根据预先划分好的不同的年龄段区间对所述历史病历数据进行归类划分处理；

基于归类划分处理后的所述历史病历数据，通过预置的门控递归神经网络和集成学习算法对各年龄段区间中的历史病历数据进行模型训练的自主学习操作，生成预测模型，其中，所述预测模型用于实现对待预测疾病的发病率的预测计算；

获取待预测的疾病的种类、待预测的时间点，以及所述时间点之前的相关数据，将所述相关数据输入到所述预测模型中，计算得到所述时间点上的待预测疾病的发病率的预测结果，其中，所述相关数据包括在所述时间点之前监测到的病例数据。

可选的，所述基于归类划分处理后的所述历史病历数据，通过预置的门控递归神经网络和集成学习算法对各年龄段区间中的历史病历数据进行模型训练的自主学习操作，生成预测模型的步骤包括：

通过样本随机抽取方式从划分后的每个类别的历史病历数据中抽取至少两个训练样本；

从抽取的所述训练样本中选择一个训练样本作为初始样本，根据所述初始样本进行模型的初步训练，得到所述预测模型的模型雏形；

通过所述门控递归神经网络在所述模型雏形中增加信息存储门，针对从各个类别中抽取到的所述训练样本，利用所述集成学习算法，对增加了所述信息存储门后的所述模型雏形进行二次深度训练学习，以构建出所述预测模型。

可选的，所述针对从各个类别中抽取到的所述训练样本，利用所述集成学习算法，对增加了所述信息存储门后的所述模型雏形进行二次深度训练学习，以构建出所述预测模型包括：

基于所述集成学习算法对每个所述训练样本进行特征分裂的训练，得到第一训练特征；

将所述第一训练特征依次输入至所述模型雏形中，进行深度的特征训练，得到具有多分枝的决策树模型，并将所述决策树模型作为所述预测模型。

可选的，在所述获取所述时间点之前的相关数据的步骤之前，还包括：

获取与所述历史病历数据对应的医疗生态信息，所述医疗生态信息包括天气数据、医疗水平数据和疾病监控数据中的至少一种；

在所述将所述第一训练特征依次输入至所述模型雏形中，进行深度的特征训练，得到具有多分枝的决策树模型的步骤之后，还包括：

通过所述集成学习算法将所述医疗生态信息进行特征分裂的训练，得到第二训练特征；

将所述第二训练特征输入至所述决策树模型中，进行三次深度训练学习，以构建出完整的所述预测模型。

可选的，在所述基于归类划分处理后的所述历史病历数据，通过预置的门控递归神经网络和集成学习算法对各年龄段区间中的历史病历数据进行模型训练的自主学习操作，生成预测模型的步骤之后，还包括：

从所述历史病历数据中随机截取一时间段的病历数据，并输入至所述预测模型中，得到与所述时间段的病历数据对应的发病数量的预测值；

判断所述预测值是否满足所述时间段的病历数据对应的实际发病数据，得到模型校验结果；

根据所述模型校验结果，确定是否执行四次深度训练，以实现对所述预测模型的优化，其中所述四次深度训练为重复所述二次深度训练学习和所述三次深度训练学习的过程。

可选的，在所述获取待预测的疾病的种类、待预测的时间点，以及所述时间点之前的相关数据，将所述相关数据输入到所述预测模型中，计算得到所述时间点上的待预测疾病的发病率的预测结果的步骤之后，还包括：

若判定所述模型校验结果为所述预测值不满足所述实际发病数据，则从所述历史病历数据中提取若N个样本数据，并通过加法机制对用于训练所述预测模型的训练样本进行更新和/或重置处理，根据更新和/或重置处理后的训练样本进行预测模型的训练，其中，N大于或等于2。

可选的，所述集成学习算法为随机森林学习算法。

此外，为实现上述目的，本发明还提供了一种基于历史疾病信息的发病率监测装置，所述基于历史疾病信息的发病率监测装置包括：

第一数据获取模块，用于获取疾病的历史病历数据，根据预先划分好的不同的年龄段区间对所述历史病历数据进行归类划分处理；

模型训练模块，用于基于归类划分处理后的所述历史病历数据，通过预置的门控递归神经网络和集成学习算法对各年龄段区间中的历史病历数据进行模型训练的自主学习操作，生成预测模型，其中，所述预测模型用于实现对待预测疾病的发病率的预测计算；

发病预测模块，用于获取待预测的疾病的种类、待预测的时间点，以及所述时间点之前的相关数据，将所述相关数据输入到所述预测模型中，计算得到所述时间点上的待预测疾病的发病率的预测结果，其中，所述相关数据包括在所述时间点之前监测到的病例数据。

可选的，所述模型训练模块包括样本提取单元、模型生成单元和深度训练单元；

所述样本提取单元，用于通过样本随机抽取方式从划分后的每个类别的历史病历数据中抽取至少两个训练样本；

所述模型生成单元，用于从抽取的所述训练样本中选择一个训练样本作为初始样本，根据所述初始样本进行模型的初步训练，得到所述预测模型的模型雏形；

所述深度训练单元，用于通过所述门控递归神经网络在所述模型雏形中增加信息存储门，针对从各个类别中抽取到的所述训练样本，利用所述集成学习算法，对增加了所述信息存储门后的所述模型雏形进行二次深度训练学习，以构建出所述预测模型。

可选的，所述深度训练单元用于基于所述集成学习算法对每个所述训练样本进行特征分裂的训练，得到第一训练特征；将所述第一训练特征依次输入至所述模型雏形中，进行深度的特征训练，得到具有多分枝的决策树模型，并将所述决策树模型作为所述预测模型。

可选的，所述基于历史疾病信息的发病率监测装置还包括第二数据获取模块，用于获取与所述历史病历数据对应的医疗生态信息，所述医疗生态信息包括天气数据、医疗水平数据和疾病监控数据中的至少一种；

所述深度训练单元还用于通过所述集成学习算法将所述医疗生态信息进行特征分裂的训练，得到第二训练特征；将所述第二训练特征输入至所述决策树模型中，进行三次深度训练学习，以构建出完整的所述预测模型。

可选的，所述基于历史疾病信息的发病率监测装置还包括抽样模块和检验模块；

所述抽样模块，用于从所述历史病历数据中随机截取一时间段的病历数据，并输入至所述预测模型中，得到与所述时间段的病历数据对应的发病数量的预测值；

所述检验模块，用于判断所述预测值是否满足所述时间段的病历数据对应的实际发病数据，得到模型校验结果；根据所述模型校验结果，确定是否执行四次深度训练，以实现对所述预测模型的优化，其中所述四次深度训练为重复所述二次深度训练学习和所述三次深度训练学习的过程。

可选的，所述基于历史疾病信息的发病率监测装置还包括样本更新模块，用于若判定所述模型校验结果为所述预测值不满足所述实际发病数据，则从所述历史病历数据中提取若N个样本数据，并通过加法机制对用于训练所述预测模型的训练样本进行更新和/或重置处理，根据更新和/或重置处理后的训练样本进行预测模型的训练，其中，N大于或等于2。

可选的，所述集成学习算法为随机森林学习算法。

此外，为实现上述目的，本发明还一种基于历史疾病信息的发病率监测设备，所述基于历史疾病信息的发病率监测设备包括：存储器、处理器以及存储在所述存储器上并在所述处理器上运行的基于历史疾病信息的发病率监测程序，所述基于历史疾病信息的发病率监测程序被所述处理器执行时实现如上述任一项所述的基于历史疾病信息的发病率监测方法的步骤。

此外，为实现上述目的，本发明还一种计算机可读存储介质，所述计算机可读存储介质上存储有基于历史疾病信息的发病率监测程序，所述基于历史疾病信息的发病率监测程序被处理器执行时实现如上述任一项所述的基于历史疾病信息的发病率监测方法的步骤。

本发明通过根据预置的门控递归神经网络Gate Recurrent Unit与集成学习算法的结合对历史病历数据的不断自主学习，形成基于历史疾病信息的发病率监测的预测模型，基于该种算法与神经网络的结合来从历史病历数据中捕捉到一定的规律性，而形成预测模型，且Gate Recurrent Unit网络与集成学习算法的相结合不仅简化了模型对数据的记忆量，而且还加快了对疾病预测的效率，实现了疾病流行的快速准确预测，能及时启动预警，便于相关工作人员的流行疾病的防控部署准备。

附图说明

图1为本发明提供的基于历史疾病信息的发病率监测方法第一实施例的流程示意图；

图2为本发明提供的基于历史疾病信息的发病率监测方法第二实施例的流程示意图；

图3为本发明实施例方案涉及的服务器运行环境的结构示意图；

图4为本发明提供的基于历史疾病信息的发病率监测装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

在本发明提出的采用组合算法神经网络来实现对基于历史疾病信息的发病率监测的方法，通过神经网络中的Gate Recurrent Unit和Random Forest(随机森林学习算法)的结合对病历的长时间学习训练，生成对应的预测模型，基于对历史病历数据的学习，可以充分地捕捉发病的规律性、共通性和有效性，提高了数据模型的统计精度；基于上述构建的预测模型进行发病人数的预测，由于采用的是Gate Recurrent Unit的学习方式，使得模型对于数据信息的记忆时长增长了，且记忆的信息也相对简化了些，从而实现了更长时间的预测，并且预测的准确度相对于现有的模型预测方式来说，本提案的准确度更高且精准，更加方便于医护人员对疾病的防控部署的落实。

本发明实施例中提出的疾病预测方案，可以通过现有的疾病防御预测系统来实现的，但是该系统是设置了实现本实施例提供的基于历史疾病信息的发病率监测方法步骤的程序来实现，该系统的物理实现可以是个人计算机(PC)、服务器、智能手机等；基于这样的硬件结果，提出本发明基于历史疾病信息的发病率监测方法的各个实施例，为描述方便，该设备以服务器为例进行说明。

参照图1，图1为本发明实施例提供的基于历史疾病信息的发病率监测方法的流程图。在本实施例中，所述基于历史疾病信息的发病率监测方法具体包括以下步骤：

步骤S110，获取疾病的历史病历数据，根据预先划分好的不同的年龄段区间对所述历史病历数据进行归类划分处理；

在该步骤中，在获取登革热的历史病历数据时，可以从目前开放式医疗系统的病历数据库中调取，也可以是从互联网上的一些医疗专家咨询网上提样获取。

具体地，在获取上述历史病历数据时，具体可以根据时间、地区和病历类型等条件提取，例如选择A、B、C地区，时间为某一年后只能病历人数最高的几个月中的病历，并且从该几个月中获取到的病历中，还需要优先考虑选择覆盖所有危险等级，这样才能保证获取到的历史病历数据的全面性。

在实际应用中，对于这些数据的获取，可以是通过从预先设置地区上的疾病监控中心的网络上获取，可选的，该疾病监控中心可以是医疗机构、学校和幼托机构、药店等，这些监控中心分别对相应的目标人群进行疾病监测及数据采集。可以选择满足预设条件的场所作为数据的获取来源。所述预设条件可以包括人数、规模，甚至还可以是全部监控点按比例提取等。例如，选择学生人数达到预设数量的学校和幼托机构作为获取点。又如，选择规模(例如以日营业额统计)达到预设规模的药店作为获取点。再如，选择规模(例如以日就医人数统计)达到预设规模的医院作为获取点。

在本实施例中，所述病历数据中包括了发病人的信息和疾病种类，例如年龄、性别、职业和居住地等等。优选的，为了使得数据根据有参考性，选取的数据会设置为较长的历史时间，可选的选择举例当前时间点较近的2-3年时间段内，这样的数据更加有实时参考性，可以避免了一些病毒的特殊变异的情况。

在本实施例中，在对历史病历数据进行分类时，可以按照人群进行分类，也可以是根据发病特征进行分类；在实际应用中，由于不同人的生活方式或者习惯都会有差异，生活习惯的不同也可以会导致登革热发病率的变化，比如可分为高密度生活人群、工厂人群、高新职业人群等，由于在高密度人群中的环境和卫生都相对比较差，这样会引来较多的蚊虫，而登革热的传播正是以蚊虫为传播途径。

再者，还可以根据历史病历中患者的严重程度进行划分，比如：典型登革热、轻型登革热和重型登革热，并统计每个程度中的患者人数。

在实际应用中，一般使用该方法进行发病数量预测时，都会是有针对性地对某一种疾病进行预测，但是不排除没有设置疾病种类的情况，这是在获取历史病历数据后，在分类的过程中除了上述的情况分类之外，还需要引入对疾病类型的分类，具体的这里的疾病应当理解为是具有传播和传染特性的疾病，比如登革热、流感、手足口病、麻疹、流行性腮腺炎等流行疾病。

步骤S120，基于归类划分处理后的所述历史病历数据，通过预置的门控递归神经网络和集成学习算法对各年龄段区间中的历史病历数据进行模型训练的自主学习操作，生成预测模型，其中，所述预测模型用于实现对待预测疾病的发病率的预测计算；

在该步骤中，GRU(Gate Recurrent Unit)是循环神经网络(Recurrent NeuralNetwork)的一种，其拥有学习观察值序列的潜力，在本案中作为构建训练模型的主要方式，而集成学习算法是对多种不同的数据控制训练在GRU网络构成的模型中，这样就不需要单独训练多个模型来进行疾病的预测，并且通过GRU构建的模型可以称之为GRU模型，具体是通过构建一些门来存储信息，并且其在模型训练的过程中，梯度不会很快消失，同时该种方式建立的模型其记忆的信息不需要太多，存储的时间长度也相比其他的模型会久很多。

步骤S130，获取待预测的疾病的种类、待预测的时间点，以及所述时间点之前的相关数据，将所述相关数据输入到所述预测模型中，计算得到所述时间点上的待预测疾病的发病率的预测结果，其中，所述相关数据包括在所述时间点之前监测到的病例数据。

在本实施例中，通过上述的步骤来实现对未来一段时间内的某疾病的发病人数的预测，则必须要确定预测的时间段，并且还需要结合距离当前时间段内较接近的某个时间点的病历数据来进行预测，而这里的病历数据可以是选择与步骤S110中的历史病历数据存在重复的，当然也可以是选择不存在重复的。

为了能够进一步提高预测的精准度，在本案的步骤S110中，在获取了历史病历数据之后，还可以包括对上述的历史病历数据进行共性/发病规律的分析，这里的共性或者规律的分析指的是分析所述历史病历数据中的发病规律，例如统计所有患者的居住环境，并进行相互比较，从而确定居住环境是否是诱发该流行疾病的原因之一，是否是对导致当年发病人数增高或者减少的因素。再比如，确认病毒本身是否存在变异的情况，若是，则需要将变异与环境相结合做进一步的分析，判断病毒的变异与环境是否存在关系等等，这些分析到的信息都是可以通过步骤S120中的模型训练通过集成学习算法集成到模型中，从而可以保证了对于疾病发病人数的精准预测。

在本实施例中，进一步地，在对历史病历数据进行分类后，还可以针对类别后的每个类别进行单一的分析，分别针对不同的类别进行分析，在其分析的过程中包括对发病人数的统计，以及发病因数的统计等等，也即是说，可以在进行模型训练时，可以针对每个类别训练出一个模型来单独使用。

例如获取的历史病历数据中是相对于当前时刻之前的连续三年的A地区中发病病历，而基于三年的数据中，首先将比例数据进行年度划分，再对每年度中的发病患者的病历进行分类，按照典型登革热、轻型登革热和重型登革热三类进行划分，然后比较每年度中各类别中人数变化。

同时，在对历史病历分类后还对发病的外在因素进行分析，比如发生登革热当时的时间内，外界环境怎么样，先后比对三个年度中的各种数据，最终输出一个发病的规律，将这些规律也作为病历数据存储，并在训练模型时一并集成训练，通过这样的方式对数据进行了处理后，将其训练到模型中，使得模型的全面性更高，在预测时可以结合更多的数据进行分析预测，进一步提高了预测精准度，也提高了对这些疾病的防控部署工作的力度和针对性。

进一步的，在本实施例中，所述基于归类划分处理后的所述历史病历数据，通过预置的门控递归神经网络(GRU)和集成学习算法对各年龄段区间中的历史病历数据进行模型训练的自主学习操作，生成预测模型的步骤包括：

在该实现过程中，在根据GRU神经网络进行模型的创建后，对于后续根据病历数据对模型的训练集成具体可以是：

首先，从步骤S110中获取到的历史病历数据中使用Bootstraping方法随机有放回采样选出M个样本，共进行n_tree次采样，生成n_tree个训练样本，组成一个训练集；

对于n_tree个训练集，基于创建的训练模型训练n_tree个决策树模型；

对于单个决策树模型，假设训练样本特征的个数为n，那么每次分裂时根据信息增益/信息增益比/基尼指数选择最好的特征进行分裂；

每棵树模型都一直这样分裂下去，直到该节点的所有训练样本都属于同一类，而在该分裂训练过程中不需要对模型进行剪枝处理；

将生成的多棵决策树通过集成学习算法进行集成处理，形成疾病预测模型。

进一步地，通过GRU神经网络和集成学习算法的结合训练出的模型还具有回归模型的作用，对数据进行了一定程度的回归验证，防止了数据的梯度弥散而影响预测结果。

在本实施例中，针对从各个类别中抽取到的所述训练样本，利用所述集成学习算法，对增加了所述信息存储门后的所述模型雏形进行二次深度训练学习，以构建出所述预测模型的步骤具体还可以包括：

即是通过集成学习算法对每个训练样本进行的训练特征的分裂处理，得到第一训练特征；

然后，将所述第一训练特征分别对所述初始模型训练，得到具有多分枝的决策树模型，将所述决策树模型作为所述疾病预测模型。

在实际应用中，对于集成学习算法具体可以采用随机森林学习算法RandomForest来实现，该算法对于数据的集成处理具有极高的准确率，可以实现随机性的引入，使得随机森林不容易过拟合，同时随机森林也具有很好的抗噪声能力，能处理很高维度的数据，并且不用做特征选择，既能处理离散型数据，也能处理连续型数据，数据集无需规范化，训练速度快，可以得到变量重要性排序，更重要的是容易实现对不同影响因素的并行化处理。

在本实施例中，所述基于历史疾病信息的发病率监测方法，还包括：

在实际应用中，该步骤具体可以是在获取所述时间点之前的相关数据之前来实现，也可以是在从医疗系统或者是网页上获取历史病历数据的同时执行，也即说，该步骤所获取的医疗生态信息是与初始获取的历史病历数据相对应，从而使得使用历史病历数据训练预测模型时，引入更多的变化因素，大大提高了预测模型的精准度。

这时，对于在训练预测模型的步骤中，还包括：

在实际应用中，将获取到的医疗生态信息添加到模型的训练过程中，可以是通过上述的方式添加到决策树模型中采用深度训练的方式实现，也可以是直接在第一次深度训练中添加。

在本实施例中，该天气数据包括气温、湿度等，在实际应用中，所述医疗生态信息可能还包括人群密度等。在对疾病预测模型的训练时，在根据数据进行模型的学习训练，并形成完成的神经网络(Gate Recurrent Unit)和随机森林算法(Random Forest)相结合训练模型过程中，通过循环神经网络对历史病历数据的不断学习形成一个稳定巩固的模型，而对于医疗生态信息的增加训练，可以通过加法机制将天气数据、医疗水平数据和疾病监控数据以及人们的身体健康水平来准确预测出发病概率以及某地区的整体发病人数，增加到模型的训练中，使得训练出来的模型的全面性更好，预测的精准度也更加高。

在本实施例中，其疾病监控数据具体可以是用户在平时的生活中对于防御药物的购买和使用情况，以及平时对于身体状态的咨询历史等等，这些都是可以作为判断当前时间点上人们的身体健康状况的要素，而身体的健康程度对于一些流行疾病的抵抗能力也是影响是否发病的因素之一。

在本实施例中，在所述基于归类划分处理后的所述历史病历数据，通过预置的门控递归神经网络和集成学习算法对各年龄段区间中的历史病历数据进行模型训练的自主学习操作，生成预测模型的步骤之后，还包括：

在实际应用中，具体可以通过从所述历史病历数据中随机抽取部分病历数据，并输入至所述疾病预测模型中，得到与所述部分病历数据对应的时间段内的发病数量的预测值；

判断所述预测值是否所述部分病历数据对应的时间段内的实际发病数据；

根据所述判断结果确定是否需要进行深度训练优化所述疾病预测模型。

对于该验证的过程，具体可以按以下举例实现：

从所述历史病历数据中截取用于训练所述疾病预测模型的某一时间段内的序列数据；从截取的序列数据中将每个时间点对应的训练模型所需的数据构造一个预设维度的训练集，按照时间顺序，将各个时间点对应的训练集依次输入所述疾病预测模型，用于对所述疾病预测模型进行训练。从所述历史病历数据中截取用于训练所述疾病预测模型的某一时间段内的序列数据；从截取的序列数据中将每个时间点对应的训练模型所需的数据构造一个预设维度的验证集，按照时间顺序，将各个时间点对应的验证集依次输入所述疾病预测模型，用于对所述多层GRU模型进行验证。

进一步的，若判定所述模型校验结果为所述预测值不满足所述实际发病数据时，在所述获取待预测的疾病的种类、待预测的时间点，以及所述时间点之前的相关数据，将所述相关数据输入到所述预测模型中，计算得到所述时间点上的待预测疾病的发病率的预测结果的步骤之后，还包括：

从所述历史病历数据中提取若N个样本数据，并通过加法机制对用于训练所述预测模型的训练样本进行更新和/或重置处理，根据更新和/或重置处理后的训练样本进行预测模型的训练，其中，N大于或等于2。

具体的，通过提取定量的历史病历数据；利用加法机制对训练所述疾病预测模型的数据进行更新和/或重置处理，并根据更新和/或重置处理后的历史病历数据进行疾病预测模型的训练。

在本实施例中，对于模型学习的训练，并不只是对历史病历数据的学习训练，其还包括对实时的病患数据进行学习更新，即是通过Gate Recurrent Unit的学习训练模型中，可以通过增加学习训练的方式对模型进行更新改进，同时还可以在对病历数据学习的过程中还可以通过一些算法对数据进行收紧处理，例如在RNN结构以外,从t至t-1传播时添加加法机制，防止数据梯度弥散，update和reset直接快捷地对信息进行控制，对数据的参数进行减缩提炼，以较少的参数实现对信息的长期记忆，更好地作用于发病人数的预测中。

在本实施例中，除了通过上述的学习训练当时之外，还可以结合机器学习中稳定性极高的树模型Random Forest进行集成，将Random Forest重要性筛选后的历史病历数据的特征输入Gate Recurrent Unit进行模型集成，从而可以得到更加精准预测的模型。

在本实施例中，对于步骤130的实现实际上是在得到的预测模型后，通过获取待预测的数据输入到预测模型上即可实现自动的发病人数预测，而该待预测的数据包括预测时间点和一些其他的实验数据，优选的，在该实现方式中，实验数据为天气数据、医疗水平，以及根据该时间点从历史病历数据从提取与该时间点相同的历史病历数据，例如该时间点为2018年3月，那么提取的历史病历数据应该为2017年3月、2016年3月等等，也即是说只针对月份来进行提出历史病历数据。

基于这些实验数据，输入到预测模型中，得到对应于该时间点上的发病人数的预测数据。

综上所述，本发明实施例提供的基于历史疾病信息的发病率监测方法，通过在循环神经网络与Random Forest算法的结合中，通过树模型与循环神经网络的集成来提高模型对历史病历数据规律的记忆，并通过不断地学习更新模型来提高模型的精确度，保证在使用模型进行发病人数的预测时，可以精准预测未来长时间段内的发病人数，同时预测高效快捷，能实现流行预警，对防控部署工作起到很大的定位与推动作用。

下面以具体的疾病监控为例对本发明提供的基于历史疾病信息的发病率监测方法进行详细的说明，如图2所示，为基于历史疾病信息的发病率监测方法的具体实现流程图，例如登革热疾病的预测，对于该基于历史疾病信息的发病率监测方法具体包括以下步骤：

步骤S210，从已开放的医疗系统和医疗相关的网页中提取登革热的病例数据；

在该步骤中，所提取的病例数据包括用户信息、发病原因、发病时的环境信息以及当时的医疗水平等等数据。

当然，对于该步骤的执行，处理从系统和网页上获取之外，还可以通过一些社区调研活动的平台上获取，或者是通过对不同的生活人群的调查统计获取。在实际应用中，优选的，选择根据不同的生活环境的人群的医护站中获取的数据是最好的，环境和人民的生活习惯是导致疾病高发的比较重要的因素，从这些因素中考虑获取的数据是比较能体现疾病发病的预测。

步骤S220，根据获取到的病例数据提取病例数据的共性规律和因素；

在该步骤中，对于共性规律和因素的提取，具体可以采用现有的特征提取算法来实现，例如关键词的提取算法等等。

步骤S230，通过GRU神经网络和随机森林算法的结合使用对特征提取后的病例数据进行模型训练学习，构建出疾病发病的预测模型；

在实际应用中，通过样本随机抽取方式从提取后的病例数据中抽取若干个具有代表性的病例数据作为模型的训练样本；

通过所述GRU神经网络在所述模型雏形中增加信息存储门，针对从各个类别中抽取到的所述训练样本，利用所述集成学习算法，对增加了所述信息存储门后的所述模型雏形进行二次深度训练学习，以构建出所述预测模型。

步骤S240，获取未来某个时间段的登革热的预测时间点，以及该预测时间点上的预测的环境信息和当前的登革热的监控数据；

步骤S250，将上述的数据输入到预测模型中，计算出登革热的发病率的预测值；

步骤S260，基于该预测值进行预告警，并采取对应的防御措施。

在本实施例中，通过采用神经网络和随机森林算法来进行自主的训练学习，从而统计出每次发病的规律或者共同之处，根据规律或者共同之处实现对未来一段时间内的发病率预测。此外，在通过神经网络和随机森林算法的自主学习训练统计之外，还结合了一些模型来增加统计的集中性，例如通过树模型或者是通过加法机制，对信息的简单记忆，从而提高神经网络模型的创建效率，提高预测的精准度。

为了解决上述的问题，本发明还提供一种基于历史疾病信息的发病率监测设备，该基于历史疾病信息的发病率监测设备可以用于实现本发明实施例提供的基于历史疾病信息的发病率监测方法，其物理实现以服务器的方式存在，该服务器的具体硬件实现如图1所示。

参见图3，该服务器包括：处理器301，例如CPU，通信总线302、用户接口303，网络接口304，存储器305。其中，通信总线302用于实现这些组件之间的连接通信。用户接口303可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，网络接口304可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器305可以是高速RAM存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器305可选的还可以是独立于前述处理器301的存储装置。

本领域技术人员可以理解，图3中示出的设备的硬件结构并不构成对基于历史疾病信息的发病率监测装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图3所示，作为一种计算机可读存储介质的存储器305中可以包括操作系统、网络通信模块、用户接口模块以及基于历史疾病信息的发病率监测程序。其中，操作系统是管理和基于历史疾病信息的发病率监测装置和软件资源的程序，支基于历史疾病信息的发病率监测程序以及其它软件和/或程序的运行。

在图3所示的服务器的硬件结构中，网络接口104主要用于接入网络；用户接口103设备上执行的案例信息，以及执行案例过程中所产生的数据，而处理器301可以用于调用存储器305中存储的基于历史疾病信息的发病率监测程序，并执行以下基于历史疾病信息的发病率监测方法的各实施例的操作。

在本发明实施例中，对于图3的实现还可以是一种手机等可以触控操作的移动终端，该移动终端的处理器通过读取存储在缓存器或者存储单元中的可以实现基于历史疾病信息的发病率监测方法的程序代码对历史病历数据进行分析，自主训练学习，生成基于历史疾病信息的发病率监测的预测模型，而这学习的过程中结合随机森林算法来随机插入可能影响疾病发病的影响因素来提高模型的训练精度。

为了解决上述的问题，本发明实施例还提供了一种基于历史疾病信息的发病率监测装置，参照图4，图4为本发明实施例提供的基于历史疾病信息的发病率监测装置的功能模块的示意图。在本实施例中，该装置包括：

第一数据获取模块41，用于获取疾病的历史病历数据，根据预先划分好的不同的年龄段区间对所述历史病历数据进行归类划分处理；

模型训练模块42，用于基于归类划分处理后的所述历史病历数据，通过预置的门控递归神经网络和集成学习算法对各年龄段区间中的历史病历数据进行模型训练的自主学习操作，生成预测模型，其中，所述预测模型用于实现对待预测疾病的发病率的预测计算；

发病预测模块43，用于获取待预测的疾病的种类、待预测的时间点，以及所述时间点之前的相关数据，将所述相关数据输入到所述预测模型中，计算得到所述时间点上的待预测疾病的发病率的预测结果，其中，所述相关数据包括在所述时间点之前监测到的病例数据。

基于与上述本发明实施例的基于历史疾病信息的发病率监测方法相同的实施例说明内容，因此本实施例对基于历史疾病信息的发病率监测装置的实施例内容不做过多赘述。

本实施例通过神经网络中的Gate Recurrent Unit和Random Forest(随机森林学习算法)的结合对病历的长时间学习训练，生成对应的预测模型，基于对历史病历数据的学习，可以充分地捕捉发病的规律性、共通性和有效性，提高了数据模型的统计精度；基于上述构建的与猜测模型进行发病人数的预测，由于采用的是Gate Recurrent Unit的学习方式，使得模型对于数据信息的记忆时长增长了，且记忆的信息也相对简化了些，从而实现了更长时间的预测，并且预测的准确度相对于现有的模型预测方式来说，本提案的准确度更高且精准，更加方便于医护人员对疾病的防控部署的落实。

本发明还提供一种计算机可读存储介质。

本实施例中，所述计算机可读存储介质上存储有基于历史疾病信息的发病率监测程序，所述H5网页的基于历史疾病信息的发病率监测程序被处理器执行时实现如上述任一项实施例中所述的基于历史疾病信息的发病率监测方法的步骤。其中，基于历史疾病信息的发病率监测程序被处理器执行时所实现的方法可参照本发明基于历史疾病信息的发病率监测方法的各个实施例，因此不再过多赘述。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

Claims

1.一种基于历史疾病信息的发病率监测方法，其特征在于，所述基于历史疾病信息的发病率监测方法包括以下步骤：

获取待预测的疾病的种类、待预测的时间点，以及所述时间点之前的相关数据，将所述相关数据输入到所述预测模型中，计算得到所述时间点上的待预测疾病的发病率的预测结果，其中，所述相关数据包括在所述时间点之前监测到的病例数据；

所述基于归类划分处理后的所述历史病历数据，通过预置的门控递归神经网络和集成学习算法对各年龄段区间中的历史病历数据进行模型训练的自主学习操作，生成预测模型的步骤包括：通过样本随机抽取方式从划分后的每个类别的历史病历数据中抽取至少两个训练样本；从抽取的所述训练样本中选择一个训练样本作为初始样本，根据所述初始样本进行模型的初步训练，得到所述预测模型的模型雏形；通过所述门控递归神经网络在所述模型雏形中增加信息存储门，针对从各个类别中抽取到的所述训练样本，利用所述集成学习算法，对增加了所述信息存储门后的所述模型雏形进行二次深度训练学习，以构建出所述预测模型；

所述针对从各个类别中抽取到的所述训练样本，利用所述集成学习算法，对增加了所述信息存储门后的所述模型雏形进行二次深度训练学习，以构建出所述预测模型包括：基于所述集成学习算法对每个所述训练样本进行特征分裂的训练，得到第一训练特征；将所述第一训练特征依次输入至所述模型雏形中，进行深度的特征训练，得到具有多分枝的决策树模型，并将所述决策树模型作为所述预测模型；

在所述获取所述时间点之前的相关数据的步骤之前，还包括：获取与所述历史病历数据对应的医疗生态信息，所述医疗生态信息包括天气数据、医疗水平数据和疾病监控数据中的至少一种；

在所述将所述第一训练特征依次输入至所述模型雏形中，进行深度的特征训练，得到具有多分枝的决策树模型的步骤之后，还包括：通过所述集成学习算法将所述医疗生态信息进行特征分裂的训练，得到第二训练特征；将所述第二训练特征输入至所述决策树模型中，进行三次深度训练学习，以构建出完整的所述预测模型。

2.如权利要求1所述的基于历史疾病信息的发病率监测方法，其特征在于，在所述基于归类划分处理后的所述历史病历数据，通过预置的门控递归神经网络和集成学习算法对各年龄段区间中的历史病历数据进行模型训练的自主学习操作，生成预测模型的步骤之后，还包括：

3.如权利要求2所述的基于历史疾病信息的发病率监测方法，其特征在于，在所述获取待预测的疾病的种类、待预测的时间点，以及所述时间点之前的相关数据，将所述相关数据输入到所述预测模型中，计算得到所述时间点上的待预测疾病的发病率的预测结果的步骤之后，还包括：

4.如权利要求3所述的基于历史疾病信息的发病率监测方法，其特征在于，所述集成学习算法为随机森林学习算法。

5.一种基于历史疾病信息的发病率监测装置，其特征在于，所述基于历史疾病信息的发病率监测装置包括：

发病预测模块，用于获取待预测的疾病的种类、待预测的时间点，以及所述时间点之前的相关数据，将所述相关数据输入到所述预测模型中，计算得到所述时间点上的待预测疾病的发病率的预测结果，其中，所述相关数据包括在所述时间点之前监测到的病例数据；

所述模型训练模块，还用于通过样本随机抽取方式从划分后的每个类别的历史病历数据中抽取至少两个训练样本；从抽取的所述训练样本中选择一个训练样本作为初始样本，根据所述初始样本进行模型的初步训练，得到所述预测模型的模型雏形；通过所述门控递归神经网络在所述模型雏形中增加信息存储门，针对从各个类别中抽取到的所述训练样本，利用所述集成学习算法，对增加了所述信息存储门后的所述模型雏形进行二次深度训练学习，以构建出所述预测模型；

所述模型训练模块，还用于基于所述集成学习算法对每个所述训练样本进行特征分裂的训练，得到第一训练特征；将所述第一训练特征依次输入至所述模型雏形中，进行深度的特征训练，得到具有多分枝的决策树模型，并将所述决策树模型作为所述预测模型；

所述装置还包括：医疗生态信息获取模块，用于获取与所述历史病历数据对应的医疗生态信息，所述医疗生态信息包括天气数据、医疗水平数据和疾病监控数据中的至少一种；

所述装置还包括：第二模型训练模块，用于通过所述集成学习算法将所述医疗生态信息进行特征分裂的训练，得到第二训练特征；将所述第二训练特征输入至所述决策树模型中，进行三次深度训练学习，以构建出完整的所述预测模型。

6.一种基于历史疾病信息的发病率监测设备，其特征在于，所述基于历史疾病信息的发病率监测设备包括：存储器、处理器以及存储在所述存储器上并在所述处理器上运行的基于历史疾病信息的发病率监测程序，所述基于历史疾病信息的发病率监测程序被所述处理器执行时实现如权利要求1-4中任一项所述的基于历史疾病信息的发病率监测方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于历史疾病信息的发病率监测程序，所述基于历史疾病信息的发病率监测程序被处理器执行时实现如权利要求1-4中任一项所述的基于历史疾病信息的发病率监测方法的步骤。