CN114743690A

CN114743690A - 传染病的预警方法、装置、介质及电子设备

Info

Publication number: CN114743690A
Application number: CN202210481944.XA
Authority: CN
Inventors: 李思敏; 蔡康宁; 陈丽仪
Original assignee: Yidu Cloud Beijing Technology Co Ltd
Current assignee: Yidu Cloud Beijing Technology Co Ltd
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-07-12

Abstract

本公开属于数据处理技术领域，涉及一种传染病的预警方法及装置、存储介质、电子设备。该方法包括：获取样本数据集，样本数据集包括目标人群的密接信息以及目标人群的确诊信息；对密接信息进行量化处理得到特征数据；根据交叉验证方法划分样本数据集，并根据划分后的样本数据集对应的特征数据和确诊信息训练模型，得到初始化模型；对初始化模型中的特征数据进行验证，得到风险评估模型；获取待测人群的密接信息，并根据风险评估模型对待测人群的密接信息进行风险评估得到待测人群密接转确诊的概率，以根据密接转确诊的概率对传染病进行预警。本公开为获得具有良好解释性的风险评估模型提供了数据保障，提供了一种自动化和智能化的传染病预警方式。

Description

传染病的预警方法、装置、介质及电子设备

技术领域

本公开涉及数据处理技术领域，尤其涉及一种传染病的预警方法、传染病的预警装置、计算机可读存储介质及电子设备。

背景技术

对于传染病等重要疾病来说，能够对目标人群，例如密切接触人群(密接)进行合理应对策略是非常重要的。例如，在当前传染病防控过程中，对密接的管理作为防止病毒传播的重要基础和关键环节，其顺利与否直接影响着传染病的防控效果。

在传统的传染病防控方法中，密接的管理主要划分为密接和次密两级，根据这两个风险登记进行统一管理。显然，这种方法管理粒度过粗，在传染病规模大、密接人数多的时候，容易出现管理混乱，使得高风险密接与低风险密接产生接触，进而发生二次感染。在进行设计应对策略的时候，面对成百上千的密接，如果应对策略过严格，会使得人群产生怨言；如果应对策略过松，又会增加传染病反复的风险。

鉴于此，本领域亟需开发一种新的传染病的预警方法及装置。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种传染病的预警方法、传染病的预警装置、计算机可读存储介质及电子设备，进而至少在一定程度上克服由于相关技术的限制而导致的目标人群划分不精细且不准确的技术问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供一种传染病的预警方法，所述方法包括：获取样本数据集，所述样本数据集包括目标人群的密接信息以及目标人群的确诊信息；

对所述密接信息进行量化处理得到特征数据；

根据交叉验证方法划分所述样本数据集，并根据划分后的样本数据集对应的特征数据和确诊信息训练模型，得到初始化模型；

对所述初始化模型中的所述特征数据进行验证，得到风险评估模型；

获取待测人群的密接信息，并根据所述风险评估模型对所述待测人群的密接信息进行风险评估得到所述待测人群密接转确诊的概率，以根据所述密接转确诊的概率对传染病进行预警。

在本公开的一种示例性实施例中，在获取样本数据集之后，所述方法还包括：

构建与所述样本数据集对应的信息数据库；

在所述信息数据库中采集密接信息，所述密接信息包括目标人群的自身信息以及与所述目标人群相关的确诊患者之间的关联信息。

在本公开的一种示例性实施例中，所述根据交叉验证方法划分所述样本数据集，并根据划分后的样本数据集对应的特征数据和确诊信息训练模型，得到初始化模型，包括：

利用交叉检验算法对所述样本数据集进行划分得到训练集和校验集，并利用所述训练集对应的所述特征数据和所述确诊信息进行求解得到初始参数；

利用所述初始参数训练模型，得到初始化模型。

在本公开的一种示例性实施例中，所述对所述初始化模型中的所述特征数据进行验证，得到风险评估模型，包括：

利用所述训练集和所述校验集对应的所述特征数据和所述确诊信息对所述初始化模型中的初始参数进行调整得到目标参数；

根据所述目标参数得到风险评估模型，所述目标参数对应于所述风险评估模型中包括的所述特征数据。

在本公开的一种示例性实施例中，在所述对所述初始化模型中的所述特征数据进行验证，得到风险评估模型；之后，所述方法还包括：

获取与所述目标参数对应的参数阈值，并将所述目标参数与所述参数阈值进行比较得到第一比较结果；

根据所述第一比较结果确定与所述目标参数对应的所述数据特征对待测人群密接转确诊的概率的作用方式。

在本公开的一种示例性实施例中，所述根据所述风险评估模型对所述待测人群的密接信息进行风险评估得到所述待测人群密接转确诊的概率，包括：

对所述待测人群的密接信息进行量化处理得到待评估特征数据；

将所述待评估特征数据输入至所述风险评估模型中，以使所述风险评估模型输出所述待测人群密接转确诊的概率。

在本公开的一种示例性实施例中，所述根据所述密接转确诊的概率对所述传染病进行预警，包括：

获取与所述待测人群密接转确诊的概率对应的概率阈值，并对所述待测人群密接转确诊的概率与所述概率阈值进行比较得到第二比较结果；

根据所述第二比较结果对所述传染病进行预警。

根据本公开的一个方面，提供一种传染病的预警装置，所述装置包括：

样本获取模块，被配置为获取样本数据集，所述样本数据集包括目标人群的密接信息以及目标人群的确诊信息；

量化处理模块，被配置为对所述密接信息进行量化处理得到特征数据；

模型训练模块，被配置为根据交叉验证方法划分所述样本数据集，并根据划分后的样本数据集对应的特征数据和确诊信息训练模型，得到初始化模型；

模型验证模块，被配置为对所述初始化模型中的所述特征数据进行验证，得到风险评估模型；

概率预警模块，被配置为获取待测人群的密接信息，并根据所述风险评估模型对所述待测人群的密接信息进行风险评估得到所述待测人群密接转确诊的概率，以根据所述密接转确诊的概率对传染病进行预警。

根据本公开的一个方面，提供一种电子设备，包括：处理器和存储器；其中，存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现上述任意示例性实施例的传染病的预警方法。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意示例性实施例中的传染病的预警方法。

由上述技术方案可知，本公开示例性实施例中的传染病的预警方法、传染病的预警装置、计算机存储介质及电子设备至少具备以下优点和积极效果：

在本公开的示例性实施例提供的方法及装置中，根据交叉验证方法划分样本数据集，以利用样本数据集对应的特征数据和确诊信息进行风险评估模型训练，从而得到影响风险评估结果的特征，实现了特征数据的精简处理，为获得具有良好解释性的风险评估模型提供了数据保障和理论支持。更进一步的，利用风险评估模型对待测人群的密接信息进行风险评估得到待测人群密接转确诊的概率，提供了一种自动化和智能化的患病风险评估方式，快速、准确且有效的预测待测人群中与确诊患者接触后被传染的概率，实现了对待测人群的精细化和准确化的风险评分和精准管理，极大地降低了因待测人群患病风险投入的人力成本和时间成本，同时减少了对待测人群的生活干扰。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开示例性实施例中一种传染病的预警方法的流程示意图；

图2示意性示出本公开示例性实施例中在样本数据集中采集密接信息的方法的流程示意图；

图3示意性示出本公开示例性实施例中训练得到初始化模型的方法的流程示意图；

图4示意性示出本公开示例性实施例中得到风险评估模型的方法的流程示意图；

图5示意性示出本公开示例性实施例中分析风险评估模型的方法的流程示意图；

图6示意性示出本公开示例性实施例中对待测人群的密接信息进行风险评估的方法的流程示意图；

图7示意性示出本公开示例性实施例中根据密接转确诊的概率对传染病进行预警的方法的流程示意图；

图8示意性示出本公开示例性实施例中一种传染病的预警装置的结构示意图；

图9示意性示出本公开示例性实施例中一种用于实现传染病的预警方法的电子设备；

图10示意性示出本公开示例性实施例中一种用于实现传染病的预警方法的计算机可读存储介质。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”和“第二”等仅作为标记使用，不是对其对象的数量限制。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

对于传染病等重要疾病来说，能够对目标人群，例如密切接触人群进行合理应对策略是非常重要的。例如，在当前传染病防控过程中，对密接的管理作为防止病毒传播的重要基础和关键环节，其顺利与否直接影响着传染病的防控效果。

在传统的传染病防控方法中，密接的管理主要划分为密接和次密两级。其中，密接为直接接触被感染者的人群。而次密为接触过密接的人群。进而，根据密接和次密两个风险登记进行统一管理。

显然，这种方法管理粒度过粗，在传染病规模大、密接人数多的时候，容易出现管理混乱，使得高风险密接与低风险密接产生接触，进而发生二次感染。在进行设计应对策略的时候，面对成百上千的密接，如果策略过严格，会造成负面影响；如果应对策略过松，又会增加传染病反复传播的风险，因此，如何有效预测是否被传染病患者传染是亟待解决的问题。

针对相关技术中存在的问题，本公开提出了一种传染病的预警方法。图1示出了传染病的预警方法的流程图，如图1所示，传染病的预警方法至少包括以下步骤：

步骤S110.获取样本数据集，样本数据集包括目标人群的密接信息以及目标人群的确诊信息。

步骤S120.对密接信息进行量化处理得到特征数据。

步骤S130.根据交叉验证方法划分样本数据集，并根据划分后的样本数据集对应的特征数据和确诊信息训练模型，得到初始化模型。

步骤S140.对初始化模型中的特征数据进行验证，得到风险评估模型。

步骤S150.获取待测人群的密接信息，并根据风险评估模型对待测人群的密接信息进行风险评估得到待测人群密接转确诊的概率，以根据密接转确诊的概率对传染病进行预警。

在本公开的示例性实施例中，根据交叉验证方法划分样本数据集，以利用样本数据集对应的特征数据和确诊信息进行风险评估模型训练，从而得到影响风险评估结果的特征，实现了特征数据的精简处理，为获得具有良好解释性的风险评估模型提供了数据保障和理论支持。更进一步的，利用风险评估模型对待测人群的密接信息进行风险评估得到待测人群密接转确诊的概率，提供了一种自动化和智能化的患病风险评估方式，快速、准确且有效的预测待测人群中与确诊患者接触后被传染的概率，实现了对待测人群的精细化和准确化的风险评分和精准管理，极大地降低了因待测人群患病风险投入的人力成本和时间成本，同时减少了对待测人群的生活干扰。

下面对传染病的预警方法的各个步骤进行详细说明。

在步骤S110中，获取样本数据集，样本数据集包括目标人群的密接信息以及目标人群的确诊信息。

在本公开的示例性实施例中，建立风险评估模型可以基于历史已经发生的人群数据，亦即样本数据集。具体的，获取多个历史数据集以确定样本数据集。

当目标人群为传染病的密切接触人群时，该多个历史数据集可以是三个历史阶段对应的数据集。

第一个可以是本次传染病中已经采集的密切接触者数据，第二个可以是本市上一次传染病中积累的密切接触者数据，第三个可以是其他城市类似传染病中积累的密切接触者数据。

为根据多个历史数据集筛选出样本数据集，可以根据第一种本次传染病中已经采集的密切接触者数据统计出本次传染病密切接触者的人数和本次传染病密切接触者中转阳的人数。

获取与本次传染病密切接触者中转阳的人数对应的确诊数量阈值。

其中，确诊数量阈值可以设置为10个，也可以根据实际情况和需求设置其他数量阈值，本示例性实施例对此不做特殊限定。

若本次传染病密切接触者中转阳的人数大于或等于确诊数量阈值，在多个历史数据集中确定本次传染病中已经采集的密切接触者数据为样本数据集。

当本次传染病密切接触者中转阳的人数为15，确认数量阈值为10时，本次传染病密切接触者中转阳的人数大于对应的确诊数量阈值，因此可以确定多个历史数据集中的本次传染病中已经采集的密切接触者数据为样本数据集。

因此，当本次传染病已经产生较多密切接触者的情况下，其中可能会有部分密切接触者转阳，可以采用本次传染病中已经采集的密切接触者数据为样本数据集。

若本次传染病密切接触者中转阳的人数数量小于确诊数量阈值，且本次传染病密切接触者的总数大于或等于对应的数量阈值，在多个历史数据集中确定本市上一次传染病中积累的密切接触者数据为样本数据集。

当本次传染病密切接触者中转阳的人数为5，确认数量阈值为10，且本次传染病密切接触者的总数为15，对应的数量阈值为10时，确定本次传染病密切接触者中转阳的人数小于确诊数量阈值，且本次传染病密切接触者的总数大于或等于对应的数量阈值，因此可以确定多个历史数据集中的本市上一次传染病中积累的密切接触者数据为样本数据集。

其中，本市上一次传染病中积累的密切接触者数据可以包括本市上一次传染病中积累的密切接触者数据，或者是本市上几轮中某一轮传染病中积累的密切接触者数据。

若本次传染病密切接触者的总数小于对应的数量阈值，在多个历史数据集中确定其他城市类似传染病中积累的密切接触者数据为样本数据集。

当本次传染病密切接触者的总数为5，对应的数量阈值为10时，确定本次传染病密切接触者的总数小于对应的数量阈值，因此可以确定多个历史数据集中的其他城市类似传染病中积累的密切接触者数据为样本数据集。

其中，样本数据集可以包括其他城市类似传染病中积累的密切接触者数据。

通过对多种历史数据集进行统计和对应阈值的比较结果确定样本数据集，能够根据当前病情的发展情况合理选择数据源，为后续待测人群的风险评估提供充足且精准的样本数据集，保证了患病风险评估的准确性。

值得说明的是，其中，样本数据集是指历史阶段内与确诊患者密切接触的人群对应的特征数据，所述样本数据集包括与确诊患者接触后确诊的患者对应的特征数据，以及与确诊患者接触后未确诊的患者对应的特征数据。

在获取到样本数据集之后，可以在该样本数据集中采集密接信息。

在可选的实施例中，图2示出了在样本数据集中采集密接信息的方法的流程示意图，如图2所示，该方法至少包括以下步骤：在步骤S210中，构建与样本数据集对应的信息数据库。

通常来讲，疾控部门为了管理密切接触者，会针对密切接触者的样本数据集建立对应的信息数据库，以根据该信息数据库的数据构建风险评估模型所需的数据集。换言之，该信息数据库也就是密接信息库。

在步骤S220中，在信息数据库中采集密接信息，密接信息包括目标人群的自身信息以及与目标人群相关的确诊患者之间的关联信息。

从建立好的信息数据库中可以采集密接信息。密接信息主要分两类，一类是目标人群(密接人群)的自身信息，例如年龄、性别等；另一类是目标人群与接触的确诊患者之间的关联信息，例如接触类型、接触频率等。

具体的，密接信息可以包括性别、年龄、密接/次密、接触类型、与病例/密接关系类型、末次接触日期距今天数、关联病例关联密接数量、接触时长/分钟、接触频率、接触防护/是否佩戴口罩、是否转阳等。

其中，性别可以包括男、女和未知。

年龄可以分为0～7、7～22、22～50、50+。

接触类型可以包括同餐、同屋/同床、同住、娱乐活动(同游/共同参与娱乐活动)、同室工作学习、同机/同车/同乘交通工具、诊疗护理、其他(例如同时空)。

与病例/密接关系类型可以包括亲人、亲戚、朋友、同事、邻居和其他。

末次接触日期距今天数设置在0～30之间；关联病例关联密接数量分为0～10、10～20、20～50、50～100、100～200、200～500、500～1000、1000～2000、2000～5000和5000～10000。

接触时长/分钟分为1分钟内、10分钟内、1小时内、10小时内和10小时以上。

接触频率分为偶尔、一般和经常。

接触防护/是否佩戴口罩分为是和否。

是否转阳也可以分为是或否。是否转阳即本申请中的确诊信息。

除此之外，也可以因地制宜，根据目标人群是否去过某个高风险场所，或者是否为某个风险单位成员，或者是否从事某种高风险工作，以增加更多的密接信息，以便于在不同情况下的密接信息的精准采集工作。

在本示例性实施例中，通过构建信息数据库采集密接信息，便于样本数据集的管理，并且也能够为采集密接信息或者其他数据处理任务提供数据资源，为各种数据处理任务提供了便捷方式，也丰富了信息数据库的应用场景。

在步骤S120中，对密接信息进行量化处理得到特征数据。

在本公开的示例性实施例中，采集到密接信息之后，能够对该密接信息进行量化处理，以得到特征数据。

具体的，可以按照表1所示的方式对密接信息进行量化处理。

表1

举例而言，在采集的密接信息对应的确诊信息中，将该目标人群转阳标为1，未转阳标为0。其他密接信息的加工方式如表1的取值范围和映射值所示。

在步骤S130中，根据交叉验证方法划分样本数据集，并根据划分后的样本数据集对应的特征数据和确诊信息训练模型，得到初始化模型。

在本公开的示例性实施例中，在加工得到特征数据之后，可以对该特征数据进行交叉验证处理，以得到初始化模型。

在可选的实施例中，图3示出了训练得到初始化模型的方法的流程示意图，如图3所示，该方法至少包括以下步骤：在步骤S310中，利用交叉检验算法对样本数据集进行划分得到训练集和校验集，并利用训练集对应的特征数据和确诊信息进行求解得到初始参数。

为了使得构造的风险评估模型准确，可以对特征数据和确诊信息进行验证评估。进一步的，为了保证验证评估的公正性，可以采用多折交叉检验的方法。

一般情况下，将K折交叉验证用于模型调优，找到使得模型泛化性能最优的超参值。找到后，在全部训练集上重新训练模型，并使用独立测试集对模型性能做出最终评价。

K折交叉验证使用了无重复抽样技术的好处，那就是每次迭代过程中每个样本点只有一次被划入训练集或测试集的机会。

如果训练数据集相对较小，则增大K值。增大K值，在每次迭代过程中将会有更多的数据用于模型训练，能够得到最小偏差，同时，算法时间延长。并且，训练块间高度相似，导致评价结果方差较高。

如果训练集相对较大，则减小K值。减小K值，降低模型在不同的数据块上进行重复拟合的性能评估的计算成本，在平均性能的基础上获得模型的准确评估。

具体的，K折交叉验证的具体步骤可以是：第一步将原始数据集划分为相等的K部分(“折”)；第二步将第1部分作为测试集，其余作为训练集；第三步训练模型，计算模型在测试集上的准确率；第四步每次用不同的部分作为测试集，并重复步骤2和3K次；第五步将平均准确率作为最终的模型准确率。

举例而言，该多折交叉校验可以是5折交叉检验。

将获取到的样本数据集按照5折交叉检验的方式划分为5份，其中一份样本数据集对应的特征数据和确诊信息作为校验集，剩余4份样本数据集对应的特征数据和确诊信息作为训练集。

值得说明的是，在进行5折交叉检验数据划分的时候，要将转阳的阳性样本平均的划分在各个校验集和训练集中。

机器学习中几乎都可以看到损失函数后面会添加一个额外项，常用的额外项一般有两种，一般英文称作l₁-norm和l₂-norm，中文称作L1正则化和L2正则化，或者L1范数和L2范数。

L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓“惩罚”是指对损失函数中的某些参数做一些限制。

对于线性回归模型，使用L1正则化的模型建叫做Lasso回归，使用L2正则化的模型叫做Ridge回归(岭回归)。

当正则化参数选择L1正则化的模型时，Lasso回归的损失函数如公式(1)所示：

在公式(1)中，加号后面的一项α‖w‖₁即为L1正则化项。

一般回归分析中w表示特征的系数，从上式可以看到正则化项是对系数做了处理(限制)。L1正则化是指权值向量w中各个元素的绝对值之和，通常表示为‖w‖₁。

一般都会在正则化项之前添加一个系数，可以用α表示，也可以用λ表示。

当正则化函数选择L1正则化时，L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择。

其中，稀疏矩阵指的是很多元素为0，只有少数元素是非零值的矩阵，即得到的线性回归模型的大部分系数都是0。

通常，机器学习中特征数量很多，例如文本处理时，如果将一个词组作为一个特征，那么特征数量会达到上万个。在预测或分类时，过多的特征显然难以选择，但是如果代入这些特征得到的模型是一个稀疏模型，表示只有少数特征对这个模型有贡献，绝大部分特征是没有贡献的，或者贡献微小(因为它们前面的系数是0或者是很小的值，即使去掉对模型也没有什么影响)，此时，就可以只关注系数是非零值的特征。这就是稀疏模型与特征选择的关系。

因此，采用L1正则化可以精简数据特征，去除多余字段的干扰，以获得解释性良好的风险评估模型。

在利用训练集对L1正则化的正则化函数进行求解的过程中，可以在满足本次求解的条件时，停止对L1正则化的求解。

具体的，带L1正则化的损失函数如公式(2)所示：

J＝J₀+α∑_w|w| (2)

其中，J₀是原始的损失函数，加号后面的一项是L1正则化项，α为正则化系数。

注意到L1正则化是权值的绝对值和，J是带有绝对值符号的函数，因此J是不完全可微的。

机器学习的任务就是要用过一些方法，例如梯度下降等，求出损失函数的最小值。

当在原始损失函数J₀后添加L1正则化项时，相当于对原始损失函数J₀做了一个约束。令L＝α∑_w|w|，则J＝J₀+L，此时可以在L的约束下求出原始损失函数J₀取最小值的解。

当不满足结束对正则化函数进行求解的条件，亦即公式(2)时，调整正则化系数α，再次将训练集中的数据特征代入L1正则化函数中得到与调整后的正则化系数α对应的损失值，再次判断是否满足结束正则化函数求解的条件。以此类推，直至满足结束正则化函数求解的条件，结束求解得到初始参数。其中，该初始参数即为最终结束正则化函数求解的正则化系数α。

由于在5折交叉检验的过程中，将样本数据集按照训练集和测试集4:1的比例重复划分5次，得到5份训练集，因此根据5份训练集对应的特征数据和确诊信息能够得到5组初始参数。

在步骤S320中，利用初始参数训练模型，得到初始化模型。

在求解出5组初始参数之后，可以利用初始参数训练模型，以得到初始化模型。

具体的，可以是将5组初始参数代入建立好的模型中。

其中，该模型可以是一逻辑回归模型，该逻辑回归模型如公式(3)所示：

其中，y为是否转阳的标签，x为数据特征，w为初始参数，b为偏置项。

并且，将初始参数代入至该模型中，以得到初始化模型。因此，可以分别得到5组初始参数对应的5个初始化模型。

在步骤S140中，对初始化模型中的特征数据进行验证，得到风险评估模型。

在本公开的示例性实施例中，训练得到初始化模型之后，可以进一步对初始化模型中的特征数据进行验证，以得到最终的风险评估模型。

在可选的实施例中，图4示出了得到风险评估模型的方法的流程示意图，如图4所示，该方法至少可以包括以下步骤：在步骤S410中，利用训练集和校验集对应的特征数据和确诊信息对初始化模型中的初始参数进行调整得到目标参数。

进一步的，令5个初始化模型输出对应的训练集和校验集的目标人群密接转确诊的概率结果，并且，将目标人群密接转确诊的概率结果中最贴近该历史密切接触者的实际情况的初始参数确定为目标参数。

举例而言，当5组初始参数为0.1、0.3、1、3和10时，可以将0.1、0.3、1、3和10分别代入公式(3)，以得到5组初始参数不同的初始化模型。

并且，将样本数据集中密接信息对应的特征数据分别输入至5组初始参数不同的初始化模型中，以使5组初始参数不同的初始化模型分别输出5个目标人群密接转确诊的概率结果。

由于样本数据集中的密切接触者的确诊信息已知，因此可以将5个目标人群密接转确诊的概率结果与对应密切接触者的确诊信息进行比较，以确定最贴合该密切接触者患者情况的5个目标人群密接转确诊的概率结果对应的初始参数为目标参数。此时，该目标参数为最优的L1正则项参数。

在本示例性实施例中，通过对初始模型中的初始参数进行调整能够得到最优的目标参数，为获得解释性良好的风险评估模型提供了参数依据。

在步骤S420中，根据目标参数得到风险评估模型，目标参数对应于风险评估模型中包括的特征数据。

在确定目标参数之后，可以利用该目标参数构建风险评估模型。

具体的，确定与目标参数对应的初始化模型，并通过目标参数构建风险评估模型，目标参数对应于与风险评估模型中包括的特征数据。

确定出的与目标参数对应的初始化模型可以是建立好的未确定目标参数的逻辑回归模型公式(3)，因此，在确定出目标参数之后，可以将该目标参数代入公式(3)，以构建出风险评估模型。此时，该风险评估模型中的w为目标参数。

值得说明的是，由于风险评估模型可以是建立好的已确定目标参数的逻辑回归模型，因此，w表征回归系数。并且，在该风险评估模型中，不同的数据特征都对应有一个回归系数。因此，目标参数是一组回归系数。

在构建好风险评估模型之后，可以保存该风险评估模型。并且，可以对该风险评估模型的回归系数进行分析，以对传染病传播提供更加深入的了解。

在可选的实施例中，图5示出了分析风险评估模型的方法的流程示意图，如图5所示，该方法至少包括以下步骤：在步骤S510中，获取与目标参数对应的参数阈值，并将目标参数与参数阈值进行比较得到第一比较结果。

一般的，参数阈值可以设置为0，也可以根据实际情况和需求设置其他数值，本示例性实施例对此不做特殊限定。

在确定参数阈值之后，可以将目标参数与参数阈值进行比较得到第一比较结果。

当目标参数包括一组回归系数时，可以将每一个回归系数与该参数阈值进行比较。

在步骤S520中，根据第一比较结果确定与目标参数对应的数据特征对待测人群密接转确诊的概率的作用方式。

若第一比较结果为目标参数大于参数阈值，确定与目标参数对应的数据特征对待测人群密接转确诊的概率存在正向作用。

当目标参数中的一个回归系数与参数阈值的第一比较结果为该回归系数大于参数阈值时，表明该回归系数对应的数据特征对待测人群密接转确诊的概率存在正向作用。

举例而言，当是否戴口罩这一数据特征对应的回归系数大于参数阈值时，表明是否戴口罩会对待测人群密接转确诊的概率产生正向作用。

若第一比较结果为目标参数等于参数阈值，确定与目标参数对应的数据特征对待测人群密接转确诊的概率无作用。

当目标参数中的一个回归系数与参数阈值的第一比较结果为该回归系数等于参数阈值时，表明该回归系数对应的数据特征对待测人群密接转确诊的概率不存在任何作用。

当性别这一数据特征对应的回归系数等于参数阈值时，表明性别不会对待测人群密接转确诊的概率产生任何作用。

若第一比较结果为目标参数小于参数阈值，确定与目标参数对应的数据特征对待测人群密接转确诊的概率存在反向作用。

当目标参数中的一个回归系数与参数阈值的第一比较结果为该回归系数小于参数阈值时，表明该回归系数对应的数据特征对待测人群密接转确诊的概率会产生反向作用。

在本示例性实施例中，通过目标参数中回归系数与对应参数阈值的比较结果能够确定数据特征对患病风险结果的作用方式，提高了风险评估模型的可解释性，有助于人员对传染病传播形成深入理解。

除此之外，也可以是若第一比较结果为目标参数小于参数阈值，确定与目标参数对应的数据特征对待测人群密接转确诊的概率无作用。

当目标参数中的一个回归系数与参数阈值的第一比较结果为该回归系数小于参数阈值时，表明该回归系数对应的数据特征对待测人群密接转确诊的概率不会产生任何作用。

显然，在对风险评估模型进行分析之后，管理人员能够更加深入的了解到什么样的接触方式更容易出现病毒传播，什么样的患者或者场景更容易发生病毒传播等。

并且，当管理人员发现风险评估模型中的数据特征存在不合理之处时，还可以对该数据特征进行调整或进行删除，以提高风险评估模型的泛化能力，使得风险评估模型更加合理和准确。

值得说明的是，当风险评估模型为其他逻辑回归模型，或者其他模型时，也可以根据对应的目标参数解读数据特征对患病风险结果产生的作用，本示例性实施例对此不做特殊限定。

进一步的，可以利用风险评估模型对待测人群进行密接转确诊的概率的预测。

在步骤S150中，获取待测人群的密接信息，并根据风险评估模型对待测人群的密接信息进行风险评估得到待测人群密接转确诊的概率，以根据密接转确诊的概率对传染病进行预警。

在本公开的示例性实施例中，构建好风险评估模型之后，可以利用该风险评估模型对待测人群进行风险评估。

在可选的实施例中，图6示出了对待测人群的密接信息进行风险评估的方法的流程示意图，如图6所示，该方法至少包括以下步骤：在步骤S610中，对待测人群的密接信息进行量化处理得到待评估特征数据。

在采集到待测人群的密接信息时，可以按照表1所示的方式对该待测人群的密接信息进行量化处理得到待评估特征数据，在此不再赘述。

在步骤S620中，将待评估特征数据输入至风险评估模型中，以使风险评估模型输出待测人群密接转确诊的概率。

进一步的，将该待评估特征数据输入至风险评估模型中，该风险评估模型可以输出本次传染病的所有密接人群(待测人群)的评估风险分数，以作为待测人群密接转确诊的概率。

在本示例性实施例中，通过对待评估数据数据进行量化处理和风险评估能够得到待测人群的患病风险结果，提高了风险评估的效率和准确性，也为精细化风险管理提供了数据支持。

在确定待测人群的密接转确诊的概率之后，可以根据密接转确诊的概率确定对传染病进行预警。

在可选的实施例中，图7示出了根据密接转确诊的概率对传染病进行预警的方法的流程示意图，如图7所示，该方法至少包括以下步骤：在步骤S710中，获取与待测人群密接转确诊的概率对应的概率阈值，并对待测人群密接转确诊的概率与概率阈值进行比较得到第二比较结果。

一般的，概率阈值可以是0.8，也可以根据实际情况和需求设置其他数值的概率阈值，本示例性实施例对此不做特殊限定。

在获取到概率阈值之后，可以将待测人群密接转确诊的概率与该概率阈值进行比较，以得到第二比较结果。

在步骤S720中，根据第二比较结果对传染病进行预警。

若第二比较结果为待测人群密接转确诊的概率大于或等于概率阈值，可以对该传染病进行预警，例如，根据第二比较结果，确定待测人群密接转确诊的概率大于或等于概率阈值的人数超过人数阈值，则确定采用第一措施，以对该传染病进行预警。

当患病风险结果为0.9，风险阈值为0.8时，此时的第二比较结果是患病风险结果大于风险阈值，可以确定该待测人群为高风险人群。

具体的，第一措施可以包括对该高风险人群尽快完成尽量完整的流行病学调查，还可以包括扩大该高风险人群的次密接判定范围，还可以包括对该高风险人群单独隔离和转运，还可以包括对该高风险人群增加隔离时间等措施。

其中，扩大该高风险人群的次密接判定范围可以是采取将该高风险人群居住地整栋楼人群都划为次密接的方式。

并且，对该高风险人群单独隔离和转运能够减少隔离和转运期间的传播风险，对该高风险人群增加隔离时间可以有效应对潜伏期的患者出现。

若第二比较结果为待测人群密接转确诊的概率小于风险阈值，确定采用第二措施。

当患病风险结果为0.4，风险阈值为0.8时，此时的第二比较结果是患病风险结果小于风险阈值，可以确定该待测人群为低风险人群。因此，对该低风险人群采取第二措施。

具体的，第二措施可以包括采取减少集中隔离，采取居家隔离的方式，来减少对低风险人群正常生活的干扰。

因此，以风险阈值为间隔，可以形成简化的密接风险评分表，例如该密接风险评分表包括0～0.8这一级和0.8～1这一级，帮助防疫人员第一时间进行风险判断，提升对待测人群采取措施的效率，节约对待测人群进行管理时投入的时间成本。

在本示例性实施例中，通过待测人群密接转确诊的概率和概率阈值的第二比较结果能够针对不同待测人群采取个性化的处理措施，从而在对待测人群进行转运、隔离、流调、核酸和解除隔离等诸多环节有所侧重，在应对大量待测人群的情况下合理规划防疫资源，在保证防疫效果的同时减少对群众生活的干扰。

在本公开的示例性实施例中的传染病的预警方法中，根据交叉验证方法划分样本数据集，以利用样本数据集对应的特征数据和确诊信息进行风险评估模型训练，从而得到影响风险评估结果的特征，实现了特征数据的精简处理，为获得具有良好解释性的风险评估模型提供了数据保障和理论支持。

更进一步的，利用风险评估模型对待测人群的密接信息进行风险评估得到待测人群密接转确诊的概率，提供了一种自动化和智能化的患病风险评估方式，快速、准确且有效的预测待测人群中的高风险人群和低风险人群，在高风险人群和低风险人群在转运、隔离、流调、检测和解除隔离的多个环节有所侧重，应对大量密接人群的时候合理的规划防疫资源，进行精细化风险评分和精准管理，减少高风险密接与低风险密接产生接触，进而减少发生二次感染。因此，极大地降低了因待测人群患病风险投入的人力成本和时间成本，同时减少了对待测人群的生活干扰。

此外，在本公开的示例性实施例中，还提供一种传染病的预警装置。图8示出了传染病的预警装置的结构示意图，如图8所示，传染病的预警装置800可以包括：样本获取模块810、量化处理模块820、模型训练模块830、模型验证模块840和概率预警模块850。其中：

样本获取模块810，被配置为获取样本数据集，所述样本数据集包括目标人群的密接信息以及目标人群的确诊信息；

量化处理模块820，被配置为对所述密接信息进行量化处理得到特征数据；

模型训练模块830，被配置为根据交叉验证方法划分所述样本数据集，并根据划分后的样本数据集对应的特征数据和确诊信息训练模型，得到初始化模型；

模型验证模块840，被配置为对所述初始化模型中的所述特征数据进行验证，得到风险评估模型；

概率预警模块850，被配置为获取待测人群的密接信息，并根据所述风险评估模型对所述待测人群的密接信息进行风险评估得到所述待测人群密接转确诊的概率，以根据所述密接转确诊的概率对传染病进行预警。

构建与所述样本数据集对应的信息数据库；

利用所述初始参数训练模型，得到初始化模型。

根据所述第二比较结果对所述传染病进行预警。

上述传染病的预警装置800的具体细节已经在对应的传染病的预警方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了传染病的预警装置800的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

下面参照图9来描述根据本发明的这种实施例的电子设备900。图9显示的电子设备900仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于：上述至少一个处理单元910、上述至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910)的总线930、显示单元940。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元910执行，使得所述处理单元910执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

存储单元920可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)921和/或高速缓存存储单元922，还可以进一步包括只读存储单元(ROM)923。

存储单元920还可以包括具有一组(至少一个)程序模块925的程序/实用工具924，这样的程序模块925包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线930可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备900也可以与一个或多个外部设备1100(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备900交互的设备通信，和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口950进行。并且，电子设备900还可以通过网络适配器960与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器940通过总线930与电子设备900的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备900使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

参考图10所示，描述了根据本发明的实施例的用于实现上述方法的程序产品1000，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种传染病的预警方法，其特征在于，所述方法包括：

获取样本数据集，所述样本数据集包括目标人群的密接信息以及目标人群的确诊信息；

对所述密接信息进行量化处理得到特征数据；

2.根据权利要求1所述的传染病的预警方法，其特征在于，在获取样本数据集之后，所述方法还包括：

构建与所述样本数据集对应的信息数据库；

3.根据权利要求1所述的传染病的预警方法，其特征在于，所述根据交叉验证方法划分所述样本数据集，并根据划分后的样本数据集对应的特征数据和确诊信息训练模型，得到初始化模型，包括：

利用所述初始参数训练模型，得到初始化模型。

4.根据权利要求3所述的传染病的预警方法，其特征在于，所述对所述初始化模型中的所述特征数据进行验证，得到风险评估模型，包括：

5.根据权利要求4所述的传染病的预警方法，其特征在于，在所述对所述初始化模型中的所述特征数据进行验证，得到风险评估模型；之后，所述方法还包括：

6.根据权利要求1所述的传染病的预警方法，其特征在于，所述根据所述风险评估模型对所述待测人群的密接信息进行风险评估得到所述待测人群密接转确诊的概率，包括：

7.根据权利要求1所述的传染病的预警方法，其特征在于，所述根据所述密接转确诊的概率对传染病进行预警，包括：

根据所述第二比较结果对所述传染病进行预警。

8.一种传染病的预警装置，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被发送器执行时实现权利要求1-7中任意一项所述的传染病的预警方法。

10.一种电子设备，其特征在于，包括：

发送器；

存储器，用于存储所述发送器的可执行指令；

其中，所述发送器被配置为经由执行所述可执行指令来执行权利要求1-7中任意一项所述的传染病的预警方法。