CN112669983B

CN112669983B - 基于不完整数据深度学习的传染病协同预测方法和机器人

Info

Publication number: CN112669983B
Application number: CN202011627000.6A
Authority: CN
Inventors: 朱定局
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2023-08-04
Anticipated expiration: 2040-12-30
Also published as: CN112669983A

Abstract

基于不完整数据深度学习的传染病协同预测方法和机器人，包括：目标传染病获取步骤；每一区域模型初始化步骤；每一区域模型训练步骤；每一区域模型使用步骤。上述方法、系统和机器人，对不同的数据源进行组合，并且构建相应的深度学习模型，数据源不同组合的数据训练出来的深度学习预测模型具有不同的预测准确率，不同预测准确率则代表其可信的程度，通过寻找可信度最高的模型，进而可以找到最佳的数据源组合和最佳的模型，从而使得多源数据能够在提高预测准确率上发挥重要作用。同时计算出每一深度学习预测模型的可信误差范围，进而根据模型预测的结果和可信误差范围就能得到可信的结果范围，能够极大提高预测结果的可用性。

Description

基于不完整数据深度学习的传染病协同预测方法和机器人

技术领域

本发明涉及人工智能技术领域，特别是涉及一种基于不完整数据深度学习的传染病协同预测方法和机器人。

背景技术

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：多源大数据有一个很大的问题就是有些数据源不是非常稳定和可靠，所以经常存在数据缺失的情况。当新发重大传染病大数据有很多来源时，如何协同各种来源的数据，使之不冲突且能相互补益？而且有时多个数据发生冲突时并不知道哪个是对，那个是错，那又怎么办？传统的方式是将多源数据进行相互比对来进行校正，但现实中多源数据大多是异构的，例如望诊的数据和闻诊的数据是完全异构的，医院上报的数据指标与个人上报的数据指标与互联网上的数据指标也是完全异构的，所以根本无法通过简单比对的方式进行相互纠偏。

因此，现有技术还有待于改进和发展。

发明内容

基于此，有必要针对现有技术的缺陷或不足，提供基于不完整数据深度学习的传染病协同预测方法和机器人，以解决现有技术中传染病在开始阶段数据不足成为深度学习障碍的问题，提高传染病初期时空预测模型的效果。

第一方面，本发明实施例提供一种人工智能方法，所述方法包括：

目标传染病获取步骤：获取待预测的传染病作为目标传染病；

每一区域模型初始化步骤：为每一区域的所有数据源的每一组合初始化一个深度学习模型作为所述每一区域所述每一数据源组合的传染病预测模型；若每一区域包括K1种数据源，每一区域的所有数据源的每一组合包括所述每一区域的每一种数据源，所述每一区域的每二种数据源，…,所述每一区域的每K1种数据源；

每一区域模型训练步骤：将所述每一区域的每一时间段的所述每一数据源组合的数据作为输入，将所述每一区域的每一时间段的目标传染病疫情真实结果作为预期输出，对所述每一区域所述每一数据源组合的传染病预测模型进行训练，得到所述每一区域所述每一数据源组合的传染病预测模型；将所述每一区域的每一时间段的所述每一数据源组合的数据作为输入，将所述每一区域的每一时间段的目标传染病疫情真实结果作为预期输出，通过测试，获取所述每一区域所述每一数据源组合的传染病预测模型的预测准确率，作为所述每一区域所述每一数据源组合的传染病预测模型的可信度，获取所述每一区域所述每一数据源组合的传染病预测模型的预测输出与预期输出的差异值的最大范围；将所述最大范围作为所述每一区域所述每一数据源组合的传染病预测模型的可信误差范围；获取可信度最高的所述每一区域所述每一数据源组合的传染病预测模型作为所述每一区域的最佳传染病预测模型；将所述最高可信度作为所述每一区域的最佳传染病预测模型的可信度；将可信度最高的所述每一区域所述每一数据源组合作为所述每一区域的最佳数据源组合；将可信度最高的所述每一区域所述每一数据源组合的传染病预测模型的可信误差范围作为所述每一区域的最佳传染病预测模型的可信误差范围；

每一区域模型使用步骤：在使用时，将所述每一区域的当前时间段的最佳数据源组合的数据作为输入，通过所述每一区域的最佳传染病预测模型的计算，得到的输出作为所述每一区域的当前时间段的目标传染病疫情预测结果；将所述每一区域的最佳传染病预测模型的可信度作为所述每一区域的当前时间段的目标传染病疫情预测结果的可信度；将所述每一区域的最佳传染病预测模型的的可信误差范围作为所述每一区域的当前时间段的目标传染病疫情预测结果的可信误差范围。例如，预测结果是X，可信误差范围是(-P，+Q)，则可信的结果范围是(X-P，X+Q)，也就是说结果肯定是在(X-P，X+Q)这个范围中。

优选地，所述方法还包括：

每M区域模型初始化步骤：为每M个区域的所有数据源的每一组合初始化一个深度学习模型作为所述每M个区域所述每一数据源组合的传染病预测模型；若每M个区域包括K1种数据源，每M个区域的所有数据源的每一组合包括所述每M个区域的每一种数据源，所述每M个区域的每二种数据源，…,所述每M个区域的每K1种数据源；

每M区域模型训练步骤：将所述每M个区域的每一时间段的所述每一数据源组合的数据作为输入，将所述每M个区域的每一时间段的目标传染病疫情真实结果作为预期输出，对所述每M个区域所述每一数据源组合的传染病预测模型进行训练，得到所述每M个区域所述每一数据源组合的传染病预测模型；将所述每M个区域的每一时间段的所述每一数据源组合的数据作为输入，将所述每M个区域的每一时间段的目标传染病疫情真实结果作为预期输出，通过测试，获取所述每M个区域所述每一数据源组合的传染病预测模型的预测准确率，作为所述每M个区域所述每一数据源组合的传染病预测模型的可信度，获取所述每M个区域所述每一数据源组合的传染病预测模型的预测输出与预期输出的差异值的最大范围；将所述最大范围作为所述每M个区域所述每一数据源组合的传染病预测模型的可信误差范围；获取可信度最高的所述每M个区域所述每一数据源组合的传染病预测模型作为所述每M个区域的最佳传染病预测模型；将可信度最高的所述每M个区域所述每一数据源组合作为所述每M个区域的最佳数据源组合；

每M区域模型使用步骤：在使用时，将所述每M个区域的当前时间段的最佳数据源组合的数据作为输入，通过所述每M个区域的最佳传染病预测模型的计算，得到的输出作为所述每M个区域的当前时间段的目标传染病疫情预测结果；将所述每M个区域的最佳传染病预测模型的可信度作为所述每M个区域的当前时间段的目标传染病疫情预测结果的可信度；将所述每M个区域的最佳传染病预测模型的可信误差范围作为所述每M个区域的当前时间段的目标传染病疫情预测结果的可信误差范围。

优选地，所述方法还包括：

每M区域联合模型初始化步骤：为每M个区域初始化一个深度学习模型作为所述每M个区域的联合传染病预测模型；

每M区域联合模型训练步骤：将所述每M个区域中每一区域在每一时间段的所述最佳数据源组合的数据作为输入，通过所述每一区域的最佳传染病预测模型的计算，将所述每一区域的最佳传染病预测模型的预设隐层输出的特征数据，作为所述每M个区域的联合传染病预测模型的输入，将所述每M个区域的每一时间段的目标传染病疫情真实结果作为预期输出，对所述每M个区域的联合传染病预测模型进行训练，得到所述每M个区域的联合传染病预测模型；通过测试，获取所述每M个区域的联合传染病预测模型的预测准确率，作为所述每M个区域的联合传染病预测模型的可信度，获取所述每M个区域的联合传染病预测模型的预测输出与预期输出的差异值的最大范围；将所述最大范围作为所述每M个区域的联合传染病预测模型的可信误差范围；

每M区域联合模型使用步骤：在使用时，将所述每M个区域中每一区域在当前时间段的所述最佳数据源组合的数据作为输入，通过所述每一区域的最佳传染病预测模型的计算，将所述每一区域的最佳传染病预测模型的预设隐层输出的特征数据，作为所述每M个区域的联合传染病预测模型的输入，通过所述每M个区域的联合传染病预测模型的计算，得到的输出作为所述每M个区域的当前时间段的目标传染病疫情预测结果；将所述每M个区域的联合传染病预测模型的可信度作为所述每M个区域的当前时间段的目标传染病疫情预测结果的可信度；将所述每M个区域的联合传染病预测模型的的可信误差范围作为所述每M个区域的当前时间段的目标传染病疫情预测结果的可信误差范围。

优选地，所述方法还包括：

每M个区域模型选择步骤：比较所述每M个区域的最佳传染病预测模型的可信度与所述每M个区域的联合传染病预测模型的可信度，若所述每M个区域的最佳传染病预测模型的可信度大于所述每M个区域的联合传染病预测模型的可信度，则将所述每M个区域的最佳传染病预测模型作为所述每M个区域的优选传染病预测模型，否则将所述每M个区域的联合传染病预测模型作为所述每M个区域的优选传染病预测模型。

优选地，所述方法还包括：

数据源补全步骤：若每一区域每一时间段的所有数据源的每一组合中的任一数据源有所缺失，则对缺少的数据源在对应的预设取值范围内由专家系统或根据知识库或复制其他样本中该数据源数据进行赋值。

第二方面，本发明实施例提供一种人工智能系统，所述系统包括：

目标传染病获取模块：获取待预测的传染病作为目标传染病；

每一区域模型初始化模块：为每一区域的所有数据源的每一组合初始化一个深度学习模型作为所述每一区域所述每一数据源组合的传染病预测模型；若每一区域包括K1种数据源，每一区域的所有数据源的每一组合包括所述每一区域的每一种数据源，所述每一区域的每二种数据源，…,所述每一区域的每K1种数据源；

每一区域模型训练模块：将所述每一区域的每一时间段的所述每一数据源组合的数据作为输入，将所述每一区域的每一时间段的目标传染病疫情真实结果作为预期输出，对所述每一区域所述每一数据源组合的传染病预测模型进行训练，得到所述每一区域所述每一数据源组合的传染病预测模型；将所述每一区域的每一时间段的所述每一数据源组合的数据作为输入，将所述每一区域的每一时间段的目标传染病疫情真实结果作为预期输出，通过测试，获取所述每一区域所述每一数据源组合的传染病预测模型的预测准确率，作为所述每一区域所述每一数据源组合的传染病预测模型的可信度，获取所述每一区域所述每一数据源组合的传染病预测模型的预测输出与预期输出的差异值的最大范围；将所述最大范围作为所述每一区域所述每一数据源组合的传染病预测模型的可信误差范围；获取可信度最高的所述每一区域所述每一数据源组合的传染病预测模型作为所述每一区域的最佳传染病预测模型；将所述最高可信度作为所述每一区域的最佳传染病预测模型的可信度；将可信度最高的所述每一区域所述每一数据源组合作为所述每一区域的最佳数据源组合；将可信度最高的所述每一区域所述每一数据源组合的传染病预测模型的可信误差范围作为所述每一区域的最佳传染病预测模型的可信误差范围；

每一区域模型使用模块：在使用时，将所述每一区域的当前时间段的最佳数据源组合的数据作为输入，通过所述每一区域的最佳传染病预测模型的计算，得到的输出作为所述每一区域的当前时间段的目标传染病疫情预测结果；将所述每一区域的最佳传染病预测模型的可信度作为所述每一区域的当前时间段的目标传染病疫情预测结果的可信度；将所述每一区域的最佳传染病预测模型的的可信误差范围作为所述每一区域的当前时间段的目标传染病疫情预测结果的可信误差范围。

优选地，所述系统还包括：

每M区域模型初始化模块：为每M个区域的所有数据源的每一组合初始化一个深度学习模型作为所述每M个区域所述每一数据源组合的传染病预测模型；若每M个区域包括K1种数据源，每M个区域的所有数据源的每一组合包括所述每M个区域的每一种数据源，所述每M个区域的每二种数据源，…,所述每M个区域的每K1种数据源；

每M区域模型训练模块：将所述每M个区域的每一时间段的所述每一数据源组合的数据作为输入，将所述每M个区域的每一时间段的目标传染病疫情真实结果作为预期输出，对所述每M个区域所述每一数据源组合的传染病预测模型进行训练，得到所述每M个区域所述每一数据源组合的传染病预测模型；将所述每M个区域的每一时间段的所述每一数据源组合的数据作为输入，将所述每M个区域的每一时间段的目标传染病疫情真实结果作为预期输出，通过测试，获取所述每M个区域所述每一数据源组合的传染病预测模型的预测准确率，作为所述每M个区域所述每一数据源组合的传染病预测模型的可信度，获取所述每M个区域所述每一数据源组合的传染病预测模型的预测输出与预期输出的差异值的最大范围；将所述最大范围作为所述每M个区域所述每一数据源组合的传染病预测模型的可信误差范围；获取可信度最高的所述每M个区域所述每一数据源组合的传染病预测模型作为所述每M个区域的最佳传染病预测模型；将可信度最高的所述每M个区域所述每一数据源组合作为所述每M个区域的最佳数据源组合；

每M区域模型使用模块：在使用时，将所述每M个区域的当前时间段的最佳数据源组合的数据作为输入，通过所述每M个区域的最佳传染病预测模型的计算，得到的输出作为所述每M个区域的当前时间段的目标传染病疫情预测结果；将所述每M个区域的最佳传染病预测模型的可信度作为所述每M个区域的当前时间段的目标传染病疫情预测结果的可信度；将所述每M个区域的最佳传染病预测模型的可信误差范围作为所述每M个区域的当前时间段的目标传染病疫情预测结果的可信误差范围。

优选地，所述系统还包括：

每M区域联合模型初始化模块：为每M个区域初始化一个深度学习模型作为所述每M个区域的联合传染病预测模型；

每M区域联合模型训练模块：将所述每M个区域中每一区域在每一时间段的所述最佳数据源组合的数据作为输入，通过所述每一区域的最佳传染病预测模型的计算，将所述每一区域的最佳传染病预测模型的预设隐层输出的特征数据，作为所述每M个区域的联合传染病预测模型的输入，将所述每M个区域的每一时间段的目标传染病疫情真实结果作为预期输出，对所述每M个区域的联合传染病预测模型进行训练，得到所述每M个区域的联合传染病预测模型；通过测试，获取所述每M个区域的联合传染病预测模型的预测准确率，作为所述每M个区域的联合传染病预测模型的可信度，获取所述每M个区域的联合传染病预测模型的预测输出与预期输出的差异值的最大范围；将所述最大范围作为所述每M个区域的联合传染病预测模型的可信误差范围；

每M区域联合模型使用模块：在使用时，将所述每M个区域中每一区域在当前时间段的所述最佳数据源组合的数据作为输入，通过所述每一区域的最佳传染病预测模型的计算，将所述每一区域的最佳传染病预测模型的预设隐层输出的特征数据，作为所述每M个区域的联合传染病预测模型的输入，通过所述每M个区域的联合传染病预测模型的计算，得到的输出作为所述每M个区域的当前时间段的目标传染病疫情预测结果；将所述每M个区域的联合传染病预测模型的可信度作为所述每M个区域的当前时间段的目标传染病疫情预测结果的可信度；将所述每M个区域的联合传染病预测模型的的可信误差范围作为所述每M个区域的当前时间段的目标传染病疫情预测结果的可信误差范围。

优选地，所述系统还包括：

每M个区域模型选择模块：比较所述每M个区域的最佳传染病预测模型的可信度与所述每M个区域的联合传染病预测模型的可信度，若所述每M个区域的最佳传染病预测模型的可信度大于所述每M个区域的联合传染病预测模型的可信度，则将所述每M个区域的最佳传染病预测模型作为所述每M个区域的优选传染病预测模型，否则将所述每M个区域的联合传染病预测模型作为所述每M个区域的优选传染病预测模型。

优选地，所述系统还包括：

数据源补全模块：若每一区域每一时间段的所有数据源的每一组合中的任一数据源有所缺失，则对缺少的数据源在对应的预设取值范围内由专家系统或根据知识库或复制其他样本中该数据源数据进行赋值。

第三方面，本发明实施例提供一种人工智能装置，所述装置包括第二方面实施例任意一项所述系统的模块。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现第一方面实施例任意一项所述方法的步骤。

第五方面，本发明实施例提供一种机器人，包括存储器、处理器及存储在存储器上并可在处理器上运行的人工智能机器人程序，所述处理器执行所述程序时实现第一方面实施例任意一项所述方法的步骤。

本实施例提供的基于不完整数据深度学习的传染病协同预测方法和机器人，包括：目标传染病获取步骤；每一区域模型初始化步骤；每一区域模型训练步骤；每一区域模型使用步骤。上述方法、系统和机器人，对不同的数据源进行组合，并且构建相应的深度学习模型，数据源不同组合的数据训练出来的深度学习预测模型具有不同的预测准确率，不同预测准确率则代表其可信的程度，通过寻找可信度最高的模型，进而可以找到最佳的数据源组合和最佳的模型，从而使得多源数据能够在提高预测准确率上发挥重要作用。同时计算出每一深度学习预测模型的可信误差范围，进而根据模型预测的结果和可信误差范围就能得到可信的结果范围，能够极大提高预测结果的可用性。

附图说明

图1为本发明的实施例提供的人工智能方法的流程图；

图2为本发明的实施例提供的人工智能方法包括的流程图；

图3为本发明的实施例提供的人工智能方法包括的流程图；

图4为本发明的实施例提供的传染病个人风险时空预测的多源大数据协同关系图；

图5为本发明的实施例提供的多源大数据缺失情况下的基于多源大数据深度学习的传染病协同时空预测模型路线图；

图6为本发明的实施例提供的考虑可信度情况下的基于多源大数据深度学习的传染病协同时空预测模型路线示意图。

具体实施方式

下面结合本发明实施方式，对本发明实施例中的技术方案进行详细地描述。

本发明的基本实施例

本发明的一个实施例提供一种人工智能方法，如图1所示，所述方法包括：目标传染病获取步骤；每一区域模型初始化步骤；每一区域模型训练步骤；每一区域模型使用步骤。技术效果：所述方法对不同的数据源进行组合，并且构建相应的深度学习模型，数据源不同组合的数据训练出来的深度学习预测模型具有不同的预测准确率，不同预测准确率则代表其可信的程度，通过寻找可信度最高的模型，进而可以找到最佳的数据源组合和最佳的模型，从而使得多源数据能够在提高预测准确率上发挥重要作用。同时计算出每一深度学习预测模型的可信误差范围，进而根据模型预测的结果和可信误差范围就能得到可信的结果范围，能够极大提高预测结果的可用性。

在一个优选的实施例中，如图2所示，所述方法还包括：每M区域模型初始化步骤；每M区域模型训练步骤；每M区域模型使用步骤。技术效果：所述方法通过对每一区域进行扩展得到M区域的预测模型，使得所述方法具有更好的扩展性，能够用于更大的区域的预测。

在一个优选的实施例中，如图3所示，所述方法还包括：每M区域联合模型初始化步骤；每M区域联合模型训练步骤；每M区域联合模型使用步骤。技术效果：所述方法通过对每一区域进行扩展得到M个区域的预测模型，同时利用每一区域的深度学习预测模型的隐层输出的特征数据作为每M个区域的深度学习预测模型的隐层输入，从而使得每一区域的模型与每M个区域的模型能够相互协同进行预测，进而使得不同范围的区域的模型之间可以实现协同预测。

在一个优选的实施例中，所述方法还包括：每M个区域模型选择步骤。技术效果：所述方法通过比较可信度从每M个区域的最佳传染病预测模型和每M个区域的联合传染病预测模型中选择出更可信的模型，从而使得不同途径得到的每M个区域传染病预测模型可以择优选出最好的模型供用户使用。

在一个优选的实施例中，所述方法还包括：数据源补全步骤。技术效果：所述方法通过对缺少的数据源进行补全，从而使得多源数据的传染病预测能够适合现实中数据不全的情况，提高方法的适用性。

本发明的优选实施例

每一区域模型使用步骤：在使用时，将所述每一区域的当前时间段的最佳数据源组合的数据作为输入，通过所述每一区域的最佳传染病预测模型的计算，得到的输出作为所述每一区域的当前时间段的目标传染病疫情预测结果；将所述每一区域的最佳传染病预测模型的可信度作为所述每一区域的当前时间段的目标传染病疫情预测结果的可信度；将所述每一区域的最佳传染病预测模型的的可信误差范围作为所述每一区域的当前时间段的目标传染病疫情预测结果的可信误差范围。

每M区域联合模型训练步骤：将所述每M个区域中每一区域在每一时间段的所述最佳数据源组合的数据作为输入，通过所述每一区域的最佳传染病预测模型的计算，将所述每一区域的最佳传染病预测模型的预设隐层输出的特征数据(预设隐层例如取离输出层最近或较近的隐层或其他隐层)，作为所述每M个区域的联合传染病预测模型的输入，将所述每M个区域的每一时间段的目标传染病疫情真实结果作为预期输出，对所述每M个区域的联合传染病预测模型进行训练，得到所述每M个区域的联合传染病预测模型；通过测试，获取所述每M个区域的联合传染病预测模型的预测准确率，作为所述每M个区域的联合传染病预测模型的可信度，获取所述每M个区域的联合传染病预测模型的预测输出与预期输出的差异值的最大范围；将所述最大范围作为所述每M个区域的联合传染病预测模型的可信误差范围；

每M区域联合模型使用步骤：在使用时，将所述每M个区域中每一区域在当前时间段的所述最佳数据源组合的数据作为输入，通过所述每一区域的最佳传染病预测模型的计算，将所述每一区域的最佳传染病预测模型的预设隐层输出的特征数据(预设隐层例如取离输出层最近或较近的隐层或其他隐层)，作为所述每M个区域的联合传染病预测模型的输入，通过所述每M个区域的联合传染病预测模型的计算，得到的输出作为所述每M个区域的当前时间段的目标传染病疫情预测结果；将所述每M个区域的联合传染病预测模型的可信度作为所述每M个区域的当前时间段的目标传染病疫情预测结果的可信度；将所述每M个区域的联合传染病预测模型的的可信误差范围作为所述每M个区域的当前时间段的目标传染病疫情预测结果的可信误差范围。

本发明的其他实施例

多源大数据有一个很大的问题就是有些数据源不是非常稳定和可靠，所以经常存在数据缺失的情况，怎么办？本实施例采用的解决方法是通过自动生成缺少的输入项，构成完整输入数据后得到各类输出数据，来提高基于不完整数据深度学习的传染病协同预测方法和机器人的可用性。关键难点在于如何自动生成缺少的输入项，随机生成的效果肯定不好，本实施例采用的解决方案是缺少的输入项在对应的预设取值范围内由专家系统或根据知识库或复制其他样本中该输入项数据进行多次符合分布规律的赋值来生成。

当新发重大传染病大数据有很多来源时，如何协同各种来源的数据，使之不冲突且能相互补益？而且有时多个数据发生冲突时并不知道哪个是对，那个是错，那又怎么办？传统的方式是将多源数据进行相互比对来进行校正，但本实施例中多源数据大多是异构的，例如望诊的数据和闻诊的数据是完全异构的，医院上报的数据指标与个人上报的数据指标与互联网上的数据指标也是完全异构的，所以根本无法通过简单比对的方式进行相互纠偏，该怎么办？本实施例采用的解决方法是通过不同来源的数据的模型之间相互制约来进行纠偏，然后通过数据源和模型的可信度来解决冲突问题，通过多源数据训练出多个时空预测模型，然后根据数据源和模型的可信度进行模型的顶层特征的融合。关键难点在于如何将可信度体现到基于多源大数据深度学习的疫情时空预测模型中？本实施例采用的解决方案是将各源模型的顶层特征数据赋予一定的可信权重后再作为疫情时空预测模型的输入。

具体如下：

对于个人风险预测而言，数据源包括望、闻、问、切数据及其他数据。对于区域疫情时空预测而言，第一数据源为医院上报的监测数据，第二数据源为本实施例自助的新发重大传染病个人风险预测的新发重大传染病预测数据，第三数据源为各地政府、各部门通过APP或在线网站采集的用户填报的新发重大传染病监测数据，第四数据源为从互联网上获取的新发重大传染病监测数据。将多种来源的大数据进行有机融合进行深度学习的新发重大传染病协同时空预测，能够极大减少单一来源数据的污染或不确定因素而造成的误判，能够使得不同数据源的模型相互之间能够起到相互纠偏的效果。

1)新发重大传染病个人风险时空预测的多源大数据

分布在全国各地的大量用户可以自己通过本实施例自助的新发重大传染病个人风险预测系统进行自助的望闻问切预测时，使用手机摄像头、手机麦克风、手机APP、用户输入来采集用户数据，进行望闻问切的数据采集。图4展示的是新发重大传染病个人风险时空预测的多源大数据协同关系图。

望诊的数据：从人的舌象可以看出是否受寒、受热，是否有湿气、病气，新发重大传染病感染者的舌象也会有其特征；面部特征(从人的面部气色来识别)、手部特征(从人的掌纹、指纹、手部气色、指甲颜色及纹理来识别)进行识别和诊断其感染了新发重大传染病的概率。其中，舌部特征为必选特征，面部特征为可选特征，手部特征是否纳入系统，需要在研究过程中进行论证。

闻诊的数据：用户说话声(就是让用户有意喘气、咳嗽、说指定的字词例如“啊”，因为感染前和感染后声音是不同的)进行识别和诊断来预测其感染了新发重大传染病的概率。

问诊的数据：通过大数据聊天机器人向用户提能够辅助诊断新发重大传染病症状相关的问题，然后根据用户的回答来预测用户感染了新发重大传染病的概率。

切诊的数据：通过提示用户利用手机免费app自测心跳速度、血氧含量等指标并输入系统，然后根据用户的输入数据来预测其感染了新发重大传染病的概率。

其他数据：用户如果以前去过医院检查，那么检查数据，家族病史，个人病历，体重、血型等个人体征数据也都可以作为其他数据源。

2)多源大数据缺失情况下的基于多源大数据深度学习的新发重大传染病协同时空预测模型

传统情况下采用的数据源都是经过挑选的非常稳定来源的数据源，而本实施例拟发挥多源大数据的优势，但多源大数据有一个很大的问题就是有些数据源不是非常稳定和可靠，所以经常存在数据缺失的情况，这是本实施例需要研究解决的一个问题。

现有基于大数据深度学习的模型通过输入数据和输出数据进行训练，然后在使用阶段将输入数据输入训练好的模型，得到输出。可是，训练好的基于大数据深度学习的模型只能接受完整的输入数据(在训练时也会存在这个问题)，而无法接受不完整的输入数据，但使用多源数据时，部分样本的部分数据来源可能会有数据缺失，当有数据缺失时如何进行基于不完整数据深度学习的传染病协同预测方法和机器人的训练和预测是在实际中必须要解决的问题。

本实施例拟通过自动生成缺少的输入项，构成完整输入数据后得到各类输出数据，来提高基于不完整数据深度学习的传染病协同预测方法和机器人的可用性。图5展示的是多源大数据缺失情况下的基于多源大数据深度学习的新发重大传染病协同时空预测模型路线图。

多源大数据缺失情况下的基于多源大数据深度学习的新发重大传染病协同时空预测模型构建的主要步骤为：

1)获取基于不完整数据深度学习的传染病协同预测方法和机器人及其输入项和输出项。

2)获取不完整输入数据及其缺少的输入项。

3)获取缺少的输入项的预设取值范围。

4)对缺少的输入项在对应的预设取值范围内由专家系统或根据知识库或复制其他样本中该输入项数据进行多次赋值，获得缺少的输入项对应的多份输入数据，将该缺少的输入项对应的多份输入数据与待预测的不完整输入数据组合得到多份完整的输入数据。

5)将得到的多份完整的输入数据输入基于不完整数据深度学习的传染病协同预测方法和机器人，得到多份输出。

6)统计多个输出，根据每类输出所占的比例及概率计算得到基于不完整数据深度学习的传染病协同预测方法和机器人的输出。

4)考虑可信度的基于多源大数据深度学习的新发重大传染病协同时空预测模型

当新发重大传染病大数据有很多来源时，如何协同各种来源的数据，使之不冲突且能相互补益？而且有时多个数据发生冲突时并不知道哪个是对，那个是错，那又怎么办？传统的方式是将多源数据进行相互比对来进行校正，但本实施例中多源数据大多是异构的，例如望诊的数据和闻诊的数据是完全异构的，医院上报的数据指标与个人上报的数据指标与互联网上的数据指标也不是同构的，所以根本无法通过简单比对的方式进行相互纠偏，该怎么办？本实施例采用的解决方案是通过不同来源的数据的模型之间相互制约来进行纠偏，然后通过数据源和模型的可信度来解决冲突问题，通过多源数据训练出多个时空预测模型，然后根据数据源和模型的可信度进行模型的顶层特征的融合。

新发重大传染病个人风险时空预测的多源大数据的可信度：望、闻、问、切、它子模型的可信度随着望、闻、问、切、它子模型的预测准确率而提升，所以各子模型应该根据其准确率赋予一定的可信度从而提高综合辩证的准确率。

新发重大传染病区域疫情时空预测的多源大数据的可信度：基于多源大数据的新发重大传染病协同监测的关键是分析出不同数据源的可信度，这种分析可以通过常识、专家知识、大数据手段来获取，例如第一数据源是通过医院获取的，自然可信度最高；第二数据源的可信度则取决于系统的准确率，所以是动态地根据系统的准确率来确定的；第三数据源是用户自己填报的，所以可信度也是中高等，第四数据源因为是从互联网获取的，虽然单个信息的可信度不确定，但汇总之后形成的统计信息的可信度也是可以接受的，从宏观上进行统计和参考是很有价值的。

如何将可信度体现到基于多源大数据深度学习的疫情时空预测模型中？本实施例采用的解决方案是将各源模型的顶层特征数据赋予一定的可信权重后再作为疫情时空预测模型的输入，从而使得可信度高的数据源的模型的顶层特征数据能获得更大的权重被输入到更高层的模型中，来提高基于不完整数据深度学习的传染病协同预测方法和机器人的准确率。图6展示的是考虑可信度情况下的基于多源大数据深度学习的新发重大传染病协同时空预测模型路线图。

考虑可信度情况下的基于多源大数据深度学习的新发重大传染病协同时空预测模型构建的主要步骤为：

1)通过知识库获取每种数据源的可信度(如果不存在这样的知识库，则将每种数据源的可信度都设置为相同)。

2)获取各级时空模型的预测准确率(该预测准确率为未考虑可信度情况下的时空模型预测准确率)，来作为各级时空模型的预测可信度。

3)将每种数据源的可信度与该种数据源作为输入的各级时空模型的预测可信度根据知识库中的预设比例进行加权(默认情况下为取平均值)后得到以每种数据源作为输入的时空模型对应的可信度。

4)对每个时空模型的所有输入模型的可信度进行归一化，使得每个时空模型的输入模型的可信度之和为一。

5)将可信度作为各级时空模型的顶层特征输入更高级时空模型时的权值。这样就能使得各级时空模型的顶层特征在输入更高级时空模型时所能起到的影响随着可信度发生变化。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，则对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于深度学习的传染病协同预测方法，其特征在于，所述方法包括：

每一区域模型初始化步骤：为每一区域的所有数据源的每一组合初始化一个深度学习模型作为所述每一区域每一数据源组合的传染病预测模型；若每一区域包括K1种数据源，每一区域的所有数据源的每一组合包括所述每一区域的每一种数据源，所述每一区域的每二种数据源，…, 所述每一区域的每K1种数据源；

对于区域疫情时空预测而言，第一数据源为医院上报的监测数据，第二数据源为自助的新发重大传染病个人风险预测的新发重大传染病预测数据，第三数据源为各地政府、各部门通过APP或在线网站采集的用户填报的新发重大传染病监测数据，第四数据源为从互联网上获取的新发重大传染病监测数据；

对于个人风险预测而言，数据源包括望、闻、问、切以及其他数据；望诊的数据包括舌部特征、面部特征、手部特征；闻诊的数据包括用户说话声；问诊的数据包括通过聊天机器人向用户提问而获得的用户的回答；切诊的数据包括用户利用手机app自测并输入系统的心跳速度、血氧含量；其他数据包括检查数据、家族病史、个人病历、个人体征数据；

每一区域模型训练步骤：将所述每一区域的每一时间段的所述每一数据源组合的数据作为输入，将所述每一区域的每一时间段的目标传染病疫情真实结果作为预期输出，对所述每一区域所述每一数据源组合的传染病预测模型进行训练，得到所述每一区域所述每一数据源组合的传染病预测模型；将所述每一区域的每一时间段的所述每一数据源组合的数据作为输入，将所述每一区域的每一时间段的目标传染病疫情真实结果作为预期输出，通过测试，获取所述每一区域所述每一数据源组合的传染病预测模型的预测准确率，作为所述每一区域所述每一数据源组合的传染病预测模型的可信度，获取所述每一区域所述每一数据源组合的传染病预测模型的预测输出与预期输出的差异值的最大范围；将所述最大范围作为所述每一区域所述每一数据源组合的传染病预测模型的可信误差范围；获取可信度最高的所述每一区域所述每一数据源组合的传染病预测模型作为所述每一区域的最佳传染病预测模型；将最高可信度作为所述每一区域的最佳传染病预测模型的可信度；将可信度最高的所述每一区域所述每一数据源组合作为所述每一区域的最佳数据源组合；将可信度最高的所述每一区域所述每一数据源组合的传染病预测模型的可信误差范围作为所述每一区域的最佳传染病预测模型的可信误差范围；

每一区域模型使用步骤：在使用时，将所述每一区域的当前时间段的最佳数据源组合的数据作为输入，通过所述每一区域的最佳传染病预测模型的计算，得到的输出作为所述每一区域的当前时间段的目标传染病疫情预测结果；将所述每一区域的最佳传染病预测模型的可信度作为所述每一区域的当前时间段的目标传染病疫情预测结果的可信度；将所述每一区域的最佳传染病预测模型的的可信误差范围作为所述每一区域的当前时间段的目标传染病疫情预测结果的可信误差范围；所述方法还包括：

每M区域模型初始化步骤：为每M个区域的所有数据源的每一组合初始化一个深度学习模型作为所述每M个区域所述每一数据源组合的传染病预测模型；若每M个区域包括K1种数据源，每M个区域的所有数据源的每一组合包括所述每M个区域的每一种数据源，所述每M个区域的每二种数据源，…, 所述每M个区域的每K1种数据源；

每M区域模型使用步骤：在使用时，将所述每M个区域的当前时间段的最佳数据源组合的数据作为输入，通过所述每M个区域的最佳传染病预测模型的计算，得到的输出作为所述每M个区域的当前时间段的目标传染病疫情预测结果；将所述每M个区域的最佳传染病预测模型的可信度作为所述每M个区域的当前时间段的目标传染病疫情预测结果的可信度；将所述每M个区域的最佳传染病预测模型的可信误差范围作为所述每M个区域的当前时间段的目标传染病疫情预测结果的可信误差范围；所述方法还包括：

每M区域联合模型使用步骤：在使用时，将所述每M个区域中每一区域在当前时间段的所述最佳数据源组合的数据作为输入，通过所述每一区域的最佳传染病预测模型的计算，将所述每一区域的最佳传染病预测模型的预设隐层输出的特征数据，作为所述每M个区域的联合传染病预测模型的输入，通过所述每M个区域的联合传染病预测模型的计算，得到的输出作为所述每M个区域的当前时间段的目标传染病疫情预测结果；将所述每M个区域的联合传染病预测模型的可信度作为所述每M个区域的当前时间段的目标传染病疫情预测结果的可信度；将所述每M个区域的联合传染病预测模型的的可信误差范围作为所述每M个区域的当前时间段的目标传染病疫情预测结果的可信误差范围；

所述方法还包括：

2.根据权利要求1所述的基于深度学习的传染病协同预测方法，其特征在于，所述方法还包括：

3.一种基于深度学习的传染病协同预测系统，其特征在于，所述系统包括：

每一区域模型初始化模块：为每一区域的所有数据源的每一组合初始化一个深度学习模型作为所述每一区域每一数据源组合的传染病预测模型；若每一区域包括K1种数据源，每一区域的所有数据源的每一组合包括所述每一区域的每一种数据源，所述每一区域的每二种数据源，…, 所述每一区域的每K1种数据源；第一数据源为医院上报的监测数据，第二数据源为自助的新发重大传染病个人风险预测的新发重大传染病预测数据，第三数据源为各地政府、各部门通过APP或在线网站采集的用户填报的新发重大传染病监测数据，第四数据源为从互联网上获取的新发重大传染病监测数据；第一数据源通过医院获取，可信度最高；第二数据源的可信度取决于系统的准确率；第三数据源由用户自己填报，可信度中高等；第四数据源从互联网获取，汇总之后形成的统计信息具有可以接受的可信度；

每一区域模型训练模块：将所述每一区域的每一时间段的所述每一数据源组合的数据作为输入，将所述每一区域的每一时间段的目标传染病疫情真实结果作为预期输出，对所述每一区域所述每一数据源组合的传染病预测模型进行训练，得到所述每一区域所述每一数据源组合的传染病预测模型；将所述每一区域的每一时间段的所述每一数据源组合的数据作为输入，将所述每一区域的每一时间段的目标传染病疫情真实结果作为预期输出，通过测试，获取所述每一区域所述每一数据源组合的传染病预测模型的预测准确率，作为所述每一区域所述每一数据源组合的传染病预测模型的可信度，获取所述每一区域所述每一数据源组合的传染病预测模型的预测输出与预期输出的差异值的最大范围；将所述最大范围作为所述每一区域所述每一数据源组合的传染病预测模型的可信误差范围；获取可信度最高的所述每一区域所述每一数据源组合的传染病预测模型作为所述每一区域的最佳传染病预测模型；将最高可信度作为所述每一区域的最佳传染病预测模型的可信度；将可信度最高的所述每一区域所述每一数据源组合作为所述每一区域的最佳数据源组合；将可信度最高的所述每一区域所述每一数据源组合的传染病预测模型的可信误差范围作为所述每一区域的最佳传染病预测模型的可信误差范围；

每一区域模型使用模块：在使用时，将所述每一区域的当前时间段的最佳数据源组合的数据作为输入，通过所述每一区域的最佳传染病预测模型的计算，得到的输出作为所述每一区域的当前时间段的目标传染病疫情预测结果；将所述每一区域的最佳传染病预测模型的可信度作为所述每一区域的当前时间段的目标传染病疫情预测结果的可信度；将所述每一区域的最佳传染病预测模型的的可信误差范围作为所述每一区域的当前时间段的目标传染病疫情预测结果的可信误差范围；

所述系统还包括：

每M区域模型初始化模块：为每M个区域的所有数据源的每一组合初始化一个深度学习模型作为所述每M个区域所述每一数据源组合的传染病预测模型；若每M个区域包括K1种数据源，每M个区域的所有数据源的每一组合包括所述每M个区域的每一种数据源，所述每M个区域的每二种数据源，…, 所述每M个区域的每K1种数据源；

每M区域模型使用模块：在使用时，将所述每M个区域的当前时间段的最佳数据源组合的数据作为输入，通过所述每M个区域的最佳传染病预测模型的计算，得到的输出作为所述每M个区域的当前时间段的目标传染病疫情预测结果；将所述每M个区域的最佳传染病预测模型的可信度作为所述每M个区域的当前时间段的目标传染病疫情预测结果的可信度；将所述每M个区域的最佳传染病预测模型的可信误差范围作为所述每M个区域的当前时间段的目标传染病疫情预测结果的可信误差范围；

每M区域联合模型使用模块：在使用时，将所述每M个区域中每一区域在当前时间段的所述最佳数据源组合的数据作为输入，通过所述每一区域的最佳传染病预测模型的计算，将所述每一区域的最佳传染病预测模型的预设隐层输出的特征数据，作为所述每M个区域的联合传染病预测模型的输入，通过所述每M个区域的联合传染病预测模型的计算，得到的输出作为所述每M个区域的当前时间段的目标传染病疫情预测结果；将所述每M个区域的联合传染病预测模型的可信度作为所述每M个区域的当前时间段的目标传染病疫情预测结果的可信度；将所述每M个区域的联合传染病预测模型的的可信误差范围作为所述每M个区域的当前时间段的目标传染病疫情预测结果的可信误差范围；

每M个区域模型选择模块：比较所述每M个区域的最佳传染病预测模型的可信度与所述每M个区域的联合传染病预测模型的可信度，若所述每M个区域的最佳传染病预测模型的可信度大于所述每M个区域的联合传染病预测模型的可信度，则将所述每M个区域的最佳传染病预测模型作为所述每M个区域的优选传染病预测模型，否则将所述每M个区域的联合传染病预测模型作为所述每M个区域的优选传染病预测模型；

4.一种基于深度学习的传染病协同预测机器人，包括存储器、处理器及存储在存储器上并可在处理器上运行的人工智能机器人程序，其特征在于，所述处理器执行所述程序时实现权利要求1-2任意一项所述方法的步骤。

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1-2任意一项所述方法的步骤。