CN110211701B

CN110211701B - 一种模型生成方法、数据处理方法及对应装置

Info

Publication number: CN110211701B
Application number: CN201910520846.0A
Authority: CN
Inventors: 戴松世
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2021-05-25
Anticipated expiration: 2039-06-17
Also published as: CN110211701A

Abstract

本申请实施例的目的在于提供一种模型生成方法、数据处理方法及对应装置，该模型生成方法包括：获取多个用户中每个用户的预设时间点的生理特征、与预设时间点的生理特征对应的生存状态时长以及预设时间点采用的干预策略，其中，生存状态时长为预设时间点与用户的生存状态改变的时间点相距的时长；将预设时间点的生理特征和预设时间点采用的干预策略作为输入量，将生存状态时长作为输出量，对生存状态模型进行训练，得到训练完成的生存状态模型。

Description

一种模型生成方法、数据处理方法及对应装置

技术领域

本申请涉及人工智能应用技术领域，具体而言，涉及一种模型生成方法、数据处理方法及对应装置。

背景技术

目前评估生存状态的方案，只是通过统计各种生理特征下的用户的生存状态来计算各种生理特征的死亡率，进而通过用户当前的生理特征来匹配对应的死亡率来表征用户当前的生存状态，存在着用户当前的生存状态仅通过死亡率来衡量过于片面的问题。

发明内容

本申请实施例的目的在于提供一种模型生成方法、数据处理方法及对应装置，用于解决目前评估生存状态的方案存在的用户当前的生存状态仅通过死亡率来衡量过于片面的问题。

为了实现上述目的，本申请提供了以下技术方案如下：

第一方面：本申请提供了一种模型生成方法，所述方法包括：获取多个用户中每个用户的预设时间点的生理特征、与所述预设时间点的生理特征对应的生存状态时长以及所述预设时间点采用的干预策略，其中，所述生存状态时长为所述预设时间点与所述用户的生存状态改变的时间点相距的时长；将所述预设时间点的生理特征和所述预设时间点采用的干预策略作为输入量，将所述生存状态时长作为输出量，对生存状态模型进行训练，得到训练完成的所述生存状态模型。

上述方案设计的方法，通过历史用户预设时间点的生理特征和在预设时间点采用的干预策略为输入，将生存状态时长为输出训练得到生存状态模型，能够反映具体患者的个体状态、反映患者个体当前离死亡终点的时间距离以及反映患者个体当前离痊愈出院的时间距离，解决了仅以死亡率来衡量生存状态过于片面的问题，使得对患者当前的生存状态预测地更加全面。

在第一方面的可选实施方式中，在所述得到训练完成的生存状态模型之后，所述方法还包括：获取在所述预设时间点具有相同生理状态的多个用户中每个用户的多项生理特征、每个用户在所述预设时间点各自采用的干预策略、每个用户对应的生存状态时长以及所述采用的干预策略对每个用户生理特征改变程度的影响值；在所述预设时间点相同生理特征的多个用户的多项生理特征、每个用户在所述预设时间点采用的干预策略以及每个用户对应的生存状态时长作为输入量，将所述采用的干预策略对每个用户生理特征改变程度的影响值作为输出量，对强化学习模型进行训练，得到训练完成的所述强化学习模型。

上述方案设计的方法，训练的强化学习模型能够预测每个时间节点的用户采用的干预策略对用户生理特征的影响，进而在后续的应用中可根据影响来选择有益的干预策略，使得用户采用的干预策略更加准确和可靠。

在第一方面的可选实施方式中，在所述得到训练完成的生存状态模型之后，所述方法还包括：将多个用户中每个用户所述预设时间点的生理特征、所述预设时间点的生理特征对应的生存状态时长以及在所述预设时间点采用的干预策略对每个用户生理特征改变程度的影响值作为输入量，将每个用户在所述预设时间点采用的干预策略作为输出量，对方案选择模型进行训练，得到训练完成的所述方案选择模型。

上述方案设计的方法，训练得到的方案选择模型能够对建议的方案进行直接输出，节约了方案判断选择的时间。

第二方面：本申请提供一种数据处理方法，利用第一方面中训练得出的生存状态模型以及强化学习模型进行数据处理，所述方法包括：获取用户当前的生理特征以及多个待选取的干预策略；将所述用户当前的生理特征以及多个待选取的干预策略中的每个干预策略输入所述生存状态模型，获得每个干预策略对应的生存状态时长；将所述用户当前的生理特征、多个待选取的干预策略和每个干预策略对应的生存状态时长输入所述强化学习模型，获得每个干预策略对所述用户的生存状态时长的影响值；根据所述影响值确定建议采用的干预策略。

上述方案设计的方法，通过将用户的生理特征输入训练得到的生存状态模型和强化学习模型，可获得建议用户此时采用的干预策略，使得采用的干预策略为多个干预策略中对患者最优的策略，并且具有一定的保障。

在第二方面的可选实施方式中，所述根据所述影响值确定建议采用的干预策略，包括：响应于用户的操作指令，根据所述影响值从多个待选取的干预策略中选取建议采用的干预策略。

在第二方面的可选实施方式中，所述根据所述影响值确定建议采用的干预策略，包括：将所述影响值按照从大到小的顺序进行排序，将排序最靠前的影响值对应的干预策略确定为建议采用的干预策略。

第三方面：本申请提供一种数据处理方法，利用第一方面中训练得出的方案选择模型进行数据处理，所述方法包括：获取用户当前的生理特征以及多个待选取的干预策略；将所述用户当前的生理特征以及多个待选取的干预策略中的每个干预策略输入所述生存状态模型，获得每个干预策略对应的生存状态时长；将所述用户当前的生理特征、多个待选取的干预策略和每个干预策略对应的生存状态时长输入所述强化学习模型，获得每个干预策略对所述用户的生存状态时长的影响值；将所述用户当前的生理特征、每个干预策略对应的用户的生存状态时长以及每个干预策略对所述用户的生存状态时长的影响值输入所述方案选择模型，获得从所述多个待选取的干预策略中选取的建议用户当前采用的干预策略。

上述方案设计的方法，建议用户当前采用的干预策略能够被方案选择模型直接输出，这样，新的用户数据一旦形成，即时性就能够给出当前的最优干预策略，节约了策略判断选择的时间，尤其是分分秒秒都及其宝贵的重症抢救情况下，更显得尤其重要。

第四方面：本申请提供一种数据处理方法，所述方法包括：获取用户当前的多项生理特征以及多个待选取的干预策略；将所述用户当前的多项生理特征以及多个待选取的干预策略输入预先训练的生存状态模型，获得每个干预策略对应的生存状态时长，其中，所述生存状态时长为当前时间点与所述用户的生存状态改变的时间点相距的时长；将所述用户当前的生理特征、多个待选取的干预策略和每个干预策略对应的生存状态时长输入预先训练的强化学习模型，获得每个干预策略对所述用户的生存状态时长的影响值；将所述用户当前的生理特征、每个干预策略对应的用户的生存状态时长以及每个干预策略对所述用户的生存状态时长的影响值输入预先训练的方案选择模型，获得从所述多个待选取的干预策略中选取的建议用户当前采用的干预策略。

第五方面：本申请提供一种模型生成装置，所述装置包括：获取模块，用于获取多个用户中每个用户的预设时间点的生理特征、与所述预设时间点的生理特征对应的生存状态时长以及所述预设时间点采用的干预策略，其中，所述生存状态时长为所述预设时间点与所述用户的生存状态改变的时间点相距的时长；训练模块，用于将所述预设时间点的生理特征和所述预设时间点采用的干预策略作为输入量，将所述生存状态时长作为输出量，对生存状态模型进行训练；所述获取模块，还用于在所述训练模块对生存状态模型进行训练之后，得到训练完成的所述生存状态模型。

上述方案设计的装置，通过历史用户预设时间点的生理特征和在预设时间点采用的干预策略为输入，将生存状态时长为输出训练得到生存状态模型，能够反映具体患者的个体状态、反映患者个体当前离死亡终点的时间距离以及反映患者个体当前离痊愈出院的时间距离，解决了仅以死亡率来衡量生存状态过于片面的问题，使得对患者当前的生存状态预测地更加全面。

在第五方面的可选实施方式中，所述获取模块，在得到训练完成的生存状态模型之后，还用于获取预设时间点具有相同生理特征的多个用户中每个用户的生理特征、每个用户在预设时间点采用的干预策略、每个用户对应的生存状态时长以及采用的干预策略对每个用户生理特征改变程度的影响值。所述训练模块，还用于将预设时间点相同生理特征的多个用户的生理特征、每个用户在预设时间点采用的干预策略以及每个用户对应的生存状态时长作为输入量，将采用的干预策略对每个用户生理特征改变程度的影响值作为输出量，对强化学习模型进行训练。所述获取模块，在所述训练模块对强化学习模型进行训练之后，得到训练完成的强化学习模型。

在第五方面的可选实施方式中，所述训练模块，还用于将多个用户中每个用户预设时间点的生理特征、预设时间点的生理特征对应的生存状态时长以及在预设时间点采用的干预策略对每个用户生理特征改变程度的影响值作为输入量，将每个用户在预设时间点采用的干预策略作为输出量，对方案选择模型进行训练。所述获取模块，在所述训练模块对方案选择模型进行训练之后，得到训练完成的方案选择模型。

第六方面：本申请提供一种数据处理装置，利用第一方面中训练得出的生存状态模型以及所述强化学习模型进行数据处理，所述装置包括获取模块，用于获取用户当前的多项生理特征以及多个待选取的干预策略；输入模块，用于将所述用户当前的生理特征以及多个待选取的干预策略中的每个干预策略输入所述生存状态模型；所述获取模块，还用于在所述输入模块将所述用户当前的生理特征以及多个待选取的干预策略中的每个干预策略输入所述生存状态模型之后，获得每个干预策略对应的生存状态时长；所述输入模块，还用于将所述用户当前的生理特征、多个待选取的干预策略和每个干预策略对应的生存状态时长输入所述强化学习模型；所述获取模块，还用于在所述输入模块将多个待选取的干预策略和每个干预策略对应的生存状态时长输入所述强化学习模型之后，获得每个干预策略对所述用户的生存状态时长的影响值；确定模块，用于根据所述影响值确定建议采用的干预策略。

上述方案设计的装置，通过将用户的生理特征输入训练得到的生存状态模型和强化学习模型，可获得建议用户此时采用的干预策略，使得采用的干预策略为多个干预策略中对患者最优的策略，并且具有一定的保障。

第七方面：本申请提供一种数据处理装置，所述装置包括获取模块，用于获取用户当前的多项生理特征以及多个待选取的干预策略；输入模块，用于将所述用户当前的生理特征以及多个待选取的干预策略中的每个干预策略输入预先训练的生存状态模型；所述获取模块，还用于在所述输入模块将所述用户当前的生理特征以及多个待选取的干预策略中的每个干预策略输入预先训练的生存状态模型之后，获得每个干预策略对应的生存状态时长，其中，所述生存状态时长为当前时间点与所述用户的生存状态改变的时间点相距的时长；所述输入模块，还用于将所述用户当前的生理特征、多个待选取的干预策略和每个干预策略对应的生存状态时长输入预先训练的强化学习模型；所述获取模块，还用于在所述输入模块将多个待选取的干预策略和每个干预策略对应的生存状态时长输入预先训练的强化学习模型之后，获得每个干预策略对所述用户的生存状态时长的影响值；所述输入模块，还用于将用户当前的生理特征、每个干预策略对应的用户的生存状态时长以及每个干预策略对用户的生存状态时长的影响值输入预先训练的方案选择模型；所述获取模块，还用于获得从多个待选取的干预策略中选取的建议用户当前采用的干预策略。

上述方案设计的装置，建议用户当前采用的干预策略能够被方案选择模型直接输出，这样，新的用户数据一旦形成，即时性就能够给出当前的最优干预策略，节约了策略判断选择的时间，尤其是分分秒秒都及其宝贵的重症抢救情况下，更显得尤其重要。

第八方面：本申请还提供一种电子设备，包括：处理器、与处理器连接的存储器，存储器存储有处理器可执行的机器可读存储介质，当所述计算设备运行时，处理器执行该机器可读存储介质，以执行时执行第一方面、第一方面的任一可选的实现方式、第二方面、第二方面的任一可选的实现方式、第三方面、第三方面的任一可选的实现方式以及第四方面、第四方面的任一可选的实现方式中的所述方法。

第九方面：本申请提供一种非暂态计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行第一方面、第一方面的任一可选的实现方式、第二方面、第二方面的任一可选的实现方式、第三方面、第三方面的任一可选的实现方式以及第四方面、第四方面的任一可选的实现方式中的所述方法。

第十方面：本申请提供一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行第一方面、第一方面的任一可选的实现方式、第二方面、第二方面的任一可选的实现方式、第三方面、第三方面的任一可选的实现方式以及第四方面、第四方面的任一可选的实现方式中的所述方法。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请第一实施例提供的模型生成方法第一流程示意图；

图2为本申请第一实施例提供的模型生成方法第二流程示意图；

图3为本申请第一实施例提供的模型生成方法第三流程示意图；

图4为本申请第二实施例提供的数据处理方法流程示意图；

图5为本申请第三实施例提供的数据处理方法流程示意图；

图6为本申请第四实施例提供的数据处理方法流程示意图；

图7为本申请第五实施例提供的模型生成装置结构示意图；

图8为本申请第六实施例提供的数据处理装置结构示意图；

图9为本申请第七实施例提供的数据处理装置结构示意图；

图10为本申请第八实施例提供的数据处理装置结构示意图；

图11为本申请第九实施例提供的电子设备结构示意图。

具体实施方式

为了便于本领域技术人员理解，下面对本申请实施例中的词语进行解释和说明。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用于执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

第一实施例

如图1所示，本申请提供一种模型生成方法，该方法包括：

步骤S100：获取多个用户中每个用户的预设时间点的生理特征、与预设时间点的生理特征对应的生存状态时长以及预设时间点采用的干预策略，其中，生存状态时长为预设时间点与用户的生存状态改变的时间点相距的时长。

步骤S102：将预设时间点的生理特征和预设时间点采用的干预策略作为输入量，将生存状态时长作为输出量，对生存状态模型进行训练，得到训练完成的生存状态模型。

在S100中每个用户的预设时间点的生理特征表示为每个用户一天之中的任一时间点对应的多项生理特征。生存状态时长为预设时间点与用户的生存状态改变的时间点相距的时长，其中，生存状态改变表示为生存状态变化，例如，假设用户为患者，生存状态改变表示为患者出院或者死亡，生存状态时长表示为患者生理特征对应的时间点离出院的时间距离或者患者离死亡的时间距离；干预策略是指对患者的生理特征干预的手段，包括补液策略：在疾病发展的不同阶段，针对不同类型的疾病，有不同的补液策略选择。

S100为训练数据的来源，下面以用户为患者为例，其具体实现过程如下：

从医院信息系统(Hospital Information System，HIS)和实验室信息系统(Laboratory Information System，LIS)获取所有数据，按患者编号进行汇总归类。形成的数据集可表示为：C＝{S_i},i＝1,2,...,n，依次对应于每患者的数据集；

S_i＝{D_t},t＝t₁,t₂,...,t_k,...，依次对应于每时间点该患者的数据集；

D_t＝{v_l},l＝l₁,l₂,...,l_j,...，依次对应于该患者在该时间点上各特征项的取值，其中，该时间点上的各特征项的取值包括S100中的预设时间点的生理特征以及预设时间点采用的干预策略。

对患者数据进行预处理包括：同一同类数据的量程，单位；以每小时为单位把患者的所有数据进行时间点处理；有多个值的，依据数据的性质进行归并；缺失值的，依据数据的性质确定是否需要采用非监督的聚类技术进行插值。

其中，对数据缺失率不超过85％的数据项采用非监督的聚类技术进行插值的具体实现过程如下：

第一步：令患者i的数据表示为：S_i＝t×v，其中，t＝t₁,t₂,...,t_k,...，对应于采样时间点；v＝v₁,v₂,...,v_l,...，对应于各特征项的取值。

第二步：令特征项的取值可分为已采集值与缺失值两部分，v＝{(v_e,t_e),(v_m,t_m)}，其中，(v_e,t_e)代表特征项已采集部分；(v_m,t_m)代表特征项缺失部分。

第三步：对(v_e,t_e)进行非监督的聚类分析，得到聚类模型为，Model＝KNN(v_e,t_e)；则缺失的特征项值可计算为，v_m＝Model(t_m)。

由于上述患者数据都是患者的历史数据集，所以患者每个时间点距离出院或者死亡的时长都是明确的，但这样分布比较杂乱，假设生存状态时长已天来计量，生存状态时长就表示为预设时间点所在的日期与用户的生存状态改变的日期相距的时长，因此定义s＝{s_i},i＝1,2,...,10，其中，s₁，代表患者可在3天内出院；s₂，代表患者可在3～10天内出院；s₃，代表患者可在10～30天内出院；s₄，代表患者可在30～90天内出院；s₅，代表患者可在90天之后出院；s₆，代表患者将在90天之后死亡；s₇，代表患者将在30～90天内死亡；s₈，代表患者将在10～30天内死亡；s₉，代表患者将在3～10天内死亡；s₁₀，代表患者将在3天内死亡。

在前述的基础上，执行S102开始模型训练阶段，具体如下：

将患者数据集分成两组：C＝{C_train,C_test}，C_train假定为训练组；C_test假定为测试组，其中，训练组和测试组包含了每患者在预设时间点的生理特征，该患者在预设时间点采用的干预策略，以及该患者在预设时间点的生存状态时长。

将每个患者在预设时间点的生理特征以及在预设时间点的干预策略作为输入，将在预设时间点的生存状态时长作为输出，采用深度置信网络(Deep Belief Network，DBN)对训练组的数据进行训练，获得基于深度置信网络训练结果，再将测试组的数据对训练的结果进行验证，最终得到生存状态模型。

在第一方面的可选实施方式中，在S102得到训练完成的生存状态模型之后，如图2所示，该方法还包括：

S104：获取预设时间点具有相同生理特征的多个用户中每个用户的生理特征、每个用户在预设时间点采用的干预策略、每个用户对应的生存状态时长以及采用的干预策略对每个用户生理特征改变程度的影响值。

S106：将预设时间点相同生理特征的多个用户的多项生理特征、每个用户在预设时间点采用的干预策略以及每个用户对应的生存状态时长作为输入量，将采用的干预策略对每个用户生理特征改变程度的影响值作为输出量，对强化学习模型进行训练，得到训练完成的强化学习模型。

在S104中预设时间点具有相同生理特征的多个用户中每个用户的生理特征、每个用户在预设时间点采用的干预策略、每个用户对应的生存状态时长都包含在前述的患者数据集中，在获取每个用户在预设时间点采用的干预策略后，这里以补液策略举例，定义补液策略为：a＝{a_i},i＝1,2,,...,9，其中，a₁，指欠补液值大于2000ml；a₂，指欠补液值介于1000～2000ml之间；a₃，指欠补液值介于500～1000ml之间；a₄，指欠补液值介于200～500ml之间；a₅，指补液值介于欠补液值200ml与过补液值200ml之间；a₆，指过补液值介于200～500ml之间；a₇，指过补液值介于500～1000ml之间；a₈，指过补液值介于1000～2000ml之间；a₉，指过补液值大于2000ml。

采用的干预策略对每个用户生理特征改变程度的影响值可根据如下具体获得：ExMCTS(v_i,v)＝c_n×Q_n(v_i)/N(v_i)+c_e×Q_e(v_i)/N(v_i)+c×(N(v_i)/N(v))，其中，v＝(s×a)，代表所有可能的状态与补液的策略空间；v_i＝(s_k×a_n)，代表某生存状态下的某补液策略选择；N(v_i)，代表选择策略节点v_i时的次数总和；N(v)，代表策略节点v_i的父辈节点的被选择的所有次数总和；c_n，c_e，c，为各项奖惩组成的因子权重；Q_n(v_i)，为(s_i×a_k)对下选择补液策略a_k的奖惩分值，相当于一级MDP，只考虑下一步补液策略时的奖惩值；Q_e(v_i)，为最终的结局带来的在v_i＝(s_i×a_k)策略节点的Back-propagation奖惩值(影响值)。也因此，Q_n(v_i)/N(v_i)代表了当前状态所采用的补液策略的奖惩分值，代表了该补液策略带来的下一阶段是生理特征的改善还是生理特征的恶化或者维持生存状态不变，例如，如果是改善就给一个正数分值，如果是恶化就给一个负数分值，改善或恶化程度越大，分值越大；Q_e(v_i)/N(v_i)代表了最终的结局对于补液策略所带来奖惩分值，在本发明中，更大的结局影响权重说明了本发明对于最终结局的倾向；N(v_i)/N(v)代表了对于使用频次所带来的奖惩的加成。由前述可得，干预策略对每个用户生理特征改变程度的影响值可为正数分值或负数分值，当为正数分值时代表了该干预策略对用户生理特征有好的影响，当为负数分值时代表了该关于策略对用户生理特征有坏的影响，分值的大小代表了影响的程度。

在前述的基础上，将预设时间点相同生理特征的多个用户的多项生理特征、每个用户在预设时间点采用的干预策略以及每个用户对应的生存状态时长作为输入量，将采用的干预策略对每个用户生理特征改变程度的影响值作为输出量，对强化学习模型进行训练，得到训练完成的强化学习模型。其中，可通过蒙特卡洛树搜索对强化学习模型进行训练。

在第一方面的可选实施方式中，在S102得到训练完成的生存状态模型之后，如图3所示，该方法还包括：

S108：将多个用户中每个用户预设时间点的生理特征、预设时间点的生理特征对应的生存状态时长以及在预设时间点采用的干预策略对每个用户生理特征改变程度的影响值作为输入量，将每个用户在预设时间点采用的干预策略作为输出量，对方案选择模型进行训练，得到训练完成的方案选择模型。

S108训练的过程与前述的生存状态模型的训练过程一致，都是采用深度置信网路对其进行训练，只是输入和输出的数据不同，在这里就不再赘述了。

第二实施例

如图4所示，本申请提供一种数据处理方法，应用于服务器，利用第一实施例中训练得到的生存状态模型以及强化学习模型进行数据处理，该方法包括：

步骤S200：获取用户当前的生理特征以及多个待选取的干预策略。

步骤S202：将用户当前的生理特征以及多个待选取的干预策略中的每个干预策略输入生存状态模型，获得每个干预策略对应的生存状态时长。

步骤S204：将用户当前的生理特征、多个待选取的干预策略和每个干预策略对应的生存状态时长输入强化学习模型，获得每个干预策略对用户的生存状态时长的影响值。

步骤S206：根据影响值确定建议采用的干预策略。

在步骤S200中，用户当前的生理特征可通过一些生理特征检测设备、生理特征检测手段来进行检测，然后可根据检测得到的用户当前的生理特征获取，多个待选取的干预策略可以是第一实施例中定义的补液策略a＝{a_i},i＝1,2,,...,9。

在S200描述的基础上，执行步骤S202将用户当前的生理特征以及多个待选取的干预策略中的每个干预策略输入生存状态模型，其中，生存状态模型就是第一实施例中训练的生存状态模型，进而生存状态模型自动输出每个干预策略下该用户的生存状态时长。其中，每个干预策略下该用户的生存状态时长可能是不同的。

在此基础上，继续执行S204将用户当前的生理特征、多个待选取的干预策略和每个干预策略对应的生存状态时长输入强化学习模型，进而强化学习模型自动输出每个干预策略对该用户对应的生存状态时长的影响值。其中，每个干预策略对该用户对应的生存状态时长的影响值也可能是不同的。进而可继续执行S206根据影响值确定建议该用户当前采用的干预策略。

其中，S206根据影响值确定建议采用的干预策略可包括以下方式：第一，响应于用户的操作指令，根据影响值从多个待选取的干预策略中选取建议采用的干预策略，这个方式可以这样理解，在服务器执行S204输出每个干预策略对该用户对应的生存状态时长的影响值之后，医生从服务器中观察到每个干预策略对用户对应的生存状态时长的影响值，然后医生根据影响值判断选取的干预策略，在服务器上操作从多个待选取的干预策略中选取医生判断选取的干预策略。

第二，服务器在得到每个干预策略对用户生存状态时长的影响值之后，由于影响值表示为对患者生理特征有好转的影响为正值，对患者生理特征有恶化的影响为负值，影响程度表示数值的大小。因此可将影响值按照从大到小的顺序进行排序，例如，5个干预策略的影响值分别为1.7,2,-1.1，1.2,-2.2。所以从大到小进行排序为2,1.7,1.2,-1.1，-2.2。将排序最靠前的影响值对应的干预策略确定为建议用户此时采用的干预策略，也就是例子中的影响值为2的干预策略确定为建议用户此时采用的干预策略。

第三实施例

本申请提供一种数据处理方法，应用于服务器，利用第一实施例中训练得到的生存状态模型、强化学习模型以及方案选择模型进行数据处理，如图5所示，该方法包括：

S300：获取用户当前的生理特征以及多个待选取的干预策略。

S302：将用户当前的生理特征以及多个待选取的干预策略中的每个干预策略输入生存状态模型，获得每个干预策略对应的生存状态时长。

S304：将用户当前的生理特征、多个待选取的干预策略和每个干预策略对应的生存状态时长输入强化学习模型，获得每个干预策略对用户的生存状态时长的影响值。

S306：将用户当前的生理特征、每个干预策略对应的用户的生存状态时长以及每个干预策略对用户的生存状态时长的影响值输入方案选择模型，获得从多个待选取的干预策略中选取的建议用户当前采用的干预策略。

上述步骤S300～S306中S300～S304与第二实施例中的实现方式一致，在这里不再赘述，S306中体现的是生存状态模型和强化学习模型的输出作为方案选择模型的输入再结合用户当前的生理特征，进而使得建议用户当前采用的干预策略能够被方案选择模型直接输出，这样，新的用户数据一旦形成，即时性就能够给出当前的最优干预策略，尤其是分分秒秒都及其宝贵的重症抢救情况下，更显得尤其重要。

第四实施例

如图6所示，本申请提供一种数据处理方法，应用于服务器，该方法包括：

S400：获取用户当前的多项生理特征以及多个待选取的干预策略。

S402：将用户当前的多项生理特征以及多个待选取的干预策略输入预先训练的生存状态模型，获得每个干预策略对应的生存状态时长，其中，生存状态时长为当前时间点与用户的生存状态改变的时间点相距的时长；

S404：将用户当前的生理特征、多个待选取的干预策略和每个干预策略对应的生存状态时长输入预先训练的强化学习模型，获得每个干预策略对所用户的生存状态时长的影响值；

S406：将所用户当前的生理特征、每个干预策略对应的用户的生存状态时长以及每个干预策略对用户的生存状态时长的影响值输入预先训练的方案选择模型，获得从多个待选取的干预策略中选取的建议用户当前采用的干预策略。

其中，S400～S406中预先训练的生存状态模型、预先训练的强化学习模型以及预先训练的方案选择模型都表示为第一实施例中训练的生存状态模型、强化学习模型以及方案选择模型，其训练过程与第一实施方式中的训练过程一致，在这里不再赘述。S400～S406中执行的过程也如第三实施例中的执行过程一直，在这里也不再赘述。

第五实施例

图7出示了本申请提供的模型生成装置5的示意性结构框图，应理解，该装置与上述图1至图3方法实施例对应，能够执行第一实施例中的方法涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operatingsystem，OS)中的软件功能模块。具体地，该装置包括：获取模块500，用于获取多个用户中每个用户的预设时间点的生理特征、与预设时间点的生理特征对应的生存状态时长以及预设时间点采用的干预策略，其中，生存状态时长为预设时间点与用户的生存状态改变的时间点相距的时长；训练模块502，用于将预设时间点的生理特征和预设时间点采用的干预策略作为输入量，将生存状态时长作为输出量，对生存状态模型进行训练；获取模块500，还用于在训练模块502对生存状态模型进行训练之后，得到训练完成的生存状态模型。

在第五实施例的可选实施方式中，获取模块500，在得到训练完成的生存状态模型之后，还用于获取预设时间点具有相同生理特征的多个用户中每个用户的生理特征、每个用户在预设时间点采用的干预策略、每个用户对应的生存状态时长以及采用的干预策略对每个用户生理特征改变程度的影响值。训练模块502，还用于将预设时间点相同生理特征的多个用户的生理特征、每个用户在预设时间点采用的干预策略以及每个用户对应的生存状态时长作为输入量，将采用的干预策略对每个用户生理特征改变程度的影响值作为输出量，对强化学习模型进行训练。获取模块500，在训练模块502对强化学习模型进行训练之后，得到训练完成的强化学习模型。

在第五实施例的可选实施方式中，训练模块502，还用于将多个用户中每个用户预设时间点的生理特征、预设时间点的生理特征对应的生存状态时长以及在预设时间点采用的干预策略对每个用户生理特征改变程度的影响值作为输入量，将每个用户在预设时间点采用的干预策略作为输出量，对方案选择模型进行训练。获取模块500，在训练模块502对方案选择模型进行训练之后，得到训练完成的方案选择模型。

第六实施例

图8出示了本申请提供的数据处理装置6的示意性结构框图，应理解，该装置与上述图4方法实施例对应，能够执行第二实施例中的方法涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operatingsystem，OS)中的软件功能模块。具体地，该装置包括：获取模块600，用于获取用户当前的多项生理特征以及多个待选取的干预策略；输入模块602，用于将用户当前的生理特征以及多个待选取的干预策略中的每个干预策略输入生存状态模型；获取模块600，还用于在输入模块602将用户当前的生理特征以及多个待选取的干预策略中的每个干预策略输入生存状态模型之后，获得每个干预策略对应的生存状态时长；输入模块602，还用于将用户当前的生理特征、多个待选取的干预策略和每个干预策略对应的生存状态时长输入强化学习模型；获取模块600，还用于在输入模块602将多个待选取的干预策略和每个干预策略对应的生存状态时长输入强化学习模型之后，获得每个干预策略对用户的生存状态时长的影响值；确定模块604，用于根据影响值确定建议采用的干预策略。

上述方案设计的装置，上述方案设计的装置，通过将用户的生理特征输入训练得到的生存状态模型和强化学习模型，可获得建议用户此时采用的干预策略，使得采用的干预策略为多个干预策略中对患者最优的策略，并且具有一定的保障。

第七实施例

图9出示了本申请提供的数据处理装置7的示意性结构框图，应理解，该装置与上述图5方法实施例对应，能够执行第三实施例中的方法涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operatingsystem，OS)中的软件功能模块。具体地，该装置包括：获取模块700，用于获取用户当前的多项生理特征以及多个待选取的干预策略；输入模块702，用于将用户当前的生理特征以及多个待选取的干预策略中的每个干预策略输入生存状态模型；获取模块700，还用于在输入模块702将用户当前的生理特征以及多个待选取的干预策略中的每个干预策略输入生存状态模型之后，获得每个干预策略对应的生存状态时长；输入模块702，还用于将用户当前的生理特征、多个待选取的干预策略和每个干预策略对应的生存状态时长输入强化学习模型；获取模块700，还用于在输入模块702将多个待选取的干预策略和每个干预策略对应的生存状态时长输入强化学习模型之后，获得每个干预策略对用户的生存状态时长的影响值；输入模块702，还用于将用户当前的生理特征、每个干预策略对应的用户的生存状态时长以及每个干预策略对用户的生存状态时长的影响值输入方案选择模型；获取模块700，还用于获得从多个待选取的干预策略中选取的建议用户当前采用的干预策略。

第八实施例

图10出示了本申请提供的数据处理装置8的示意性结构框图，应理解，该装置与上述图6方法实施例对应，能够执行第四实施例中的方法涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operatingsystem，OS)中的软件功能模块。具体地，该装置包括：获取模块800，用于获取用户当前的多项生理特征以及多个待选取的干预策略；输入模块802，用于将用户当前的生理特征以及多个待选取的干预策略中的每个干预策略输入预先训练的生存状态模型；获取模块800，还用于在输入模块802将用户当前的生理特征以及多个待选取的干预策略中的每个干预策略输入预先训练的生存状态模型之后，获得每个干预策略对应的生存状态时长；输入模块802，还用于将用户当前的生理特征、多个待选取的干预策略和每个干预策略对应的生存状态时长输入预先训练的强化学习模型；获取模块800，还用于在输入模块802将多个待选取的干预策略和每个干预策略对应的生存状态时长输入训练训练的强化学习模型之后，获得每个干预策略对用户的生存状态时长的影响值；输入模块802，还用于将用户当前的生理特征、每个干预策略对应的用户的生存状态时长以及每个干预策略对用户的生存状态时长的影响值输入预先训练的方案选择模型；获取模块800，还用于获得从多个待选取的干预策略中选取的建议用户当前采用的干预策略。

第九实施例

如图11所示，本申请提供一种电子设备，包括：处理器901、与处理器连接的存储器902，存储器902存储有处理器901可执行的存储介质903，当所述计算设备运行时，处理器901执行该存储介质903，以执行时执行第一实施例、第一实施例的任一可选的实现方式、第二实施例、第二实施例的任一可选的实现方式、第三实施例、第三实施例的任一可选的实现方式以及第四实施例、第四实施例的任一可选的实现方式中的方法。

本申请提供一种存储介质903，该存储介质903上存储有计算机程序，该计算机程序被处理器运行时执行第一实施例、第一实施例的任一可选的实现方式、第二实施例、第二实施例的任一可选的实现方式、第三实施例、第三实施例的任一可选的实现方式以及第四实施例、第四实施例的任一可选的实现方式中的方法。

其中，存储介质903可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Red-Only Memory,简称PROM)，只读存储器(Read-Only Memory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请提供一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行第一实施例、第一实施例的任一可选的实现方式、第二实施例、第二实施例的任一可选的实现方式、第三实施例、第三实施例的任一可选的实现方式以及第四实施例、第四实施例的任一可选的实现方式中的所述方法。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种模型生成方法，其特征在于，所述方法包括：

获取多个用户中每个用户的预设时间点的生理特征、与所述预设时间点的生理特征对应的生存状态时长以及所述预设时间点采用的干预策略，其中，所述生存状态时长为所述预设时间点与所述用户的生存状态改变的时间点相距的时长；每个用户的预设时间点的生理特征表示为每个用户一天之中的任一时间点对应的多项生理特征，所述生存状态改变表示为用户出院或者死亡；

将所述预设时间点的生理特征和所述预设时间点采用的干预策略作为输入量，将所述生存状态时长作为输出量，对生存状态模型进行训练，得到训练完成的所述生存状态模型；

在所述得到训练完成的生存状态模型之后，所述方法还包括：

获取所述预设时间点具有相同生理特征的多个用户中每个用户的生理特征、每个用户在所述预设时间点采用的干预策略、每个用户对应的生存状态时长以及所述采用的干预策略对每个用户生理特征改变程度的影响值；

将所述预设时间点相同生理特征的多个用户的生理特征、每个用户在所述预设时间点采用的干预策略以及每个用户对应的生存状态时长作为输入量，将所述采用的干预策略对每个用户生理特征改变程度的影响值作为输出量，对强化学习模型进行训练，得到训练完成的所述强化学习模型。

2.根据权利要求1所述方法，其特征在于，在所述得到训练完成的生存状态模型之后，所述方法还包括：

将多个用户中每个用户所述预设时间点的生理特征、所述预设时间点的生理特征对应的生存状态时长以及在所述预设时间点采用的干预策略对每个用户生理特征改变程度的影响值作为输入量，将每个用户在所述预设时间点采用的干预策略作为输出量，对方案选择模型进行训练，得到训练完成的所述方案选择模型。

3.一种数据处理方法，其特征在于，利用权利要求1所述方法训练得出的生存状态模型以及所述强化学习模型进行数据处理，所述方法包括：

获取用户当前的生理特征以及多个待选取的干预策略；

将所述用户当前的生理特征以及多个待选取的干预策略中的每个干预策略输入所述生存状态模型，获得每个干预策略对应的生存状态时长；

将所述用户当前的生理特征、多个待选取的干预策略和每个干预策略对应的生存状态时长输入所述强化学习模型，获得每个干预策略对所述用户的生存状态时长的影响值；

根据所述影响值确定建议采用的干预策略。

4.根据权利要求3所述方法，其特征在于，所述根据所述影响值确定建议采用的干预策略，包括：

响应于用户的操作指令，根据所述影响值从多个待选取的干预策略中选取建议采用的干预策略。

5.根据权利要求3所述方法，其特征在于，所述根据所述影响值确定建议采用的干预策略，包括：

将所述影响值按照从大到小的顺序进行排序，将排序最靠前的影响值对应的干预策略确定为建议采用的干预策略。

6.一种数据处理方法，其特征在于，利用权利要求2中所述方法训练得出的生存状态模型、强化学习模型以及方案选择模型进行数据处理，所述方法包括：

获取用户当前的生理特征以及多个待选取的干预策略；

将所述用户当前的生理特征、每个干预策略对应的用户的生存状态时长以及每个干预策略对所述用户的生存状态时长的影响值输入所述方案选择模型，获得从所述多个待选取的干预策略中选取的建议用户当前采用的干预策略。

7.一种数据处理方法，其特征在于，所述方法包括：

获取用户当前的多项生理特征以及多个待选取的干预策略；

将所述用户当前的多项生理特征以及多个待选取的干预策略输入预先训练的生存状态模型，获得每个干预策略对应的生存状态时长，其中，所述生存状态时长为当前时间点与所述用户的生存状态改变的时间点相距的时长；每个用户的预设时间点的生理特征表示为每个用户一天之中的任一时间点对应的多项生理特征，所述生存状态改变表示为用户出院或者死亡；

将所述用户当前的生理特征、多个待选取的干预策略和每个干预策略对应的生存状态时长输入预先训练的强化学习模型，获得每个干预策略对所述用户的生存状态时长的影响值；

将所述用户当前的生理特征、每个干预策略对应的用户的生存状态时长以及每个干预策略对所述用户的生存状态时长的影响值输入预先训练的方案选择模型，获得从所述多个待选取的干预策略中选取的建议用户当前采用的干预策略。

8.一种模型生成装置，其特征在于，所述装置包括：

获取模块，用于获取多个用户中每个用户的预设时间点的生理特征、与所述预设时间点的生理特征对应的生存状态时长以及所述预设时间点采用的干预策略，其中，所述生存状态时长为所述预设时间点与所述用户的生存状态改变的时间点相距的时长；每个用户的预设时间点的生理特征表示为每个用户一天之中的任一时间点对应的多项生理特征，所述生存状态改变表示为用户出院或者死亡；

训练模块，用于将所述预设时间点的生理特征和所述预设时间点采用的干预策略作为输入量，将所述生存状态时长作为输出量，对生存状态模型进行训练；

所述获取模块，还用于在所述训练模块对生存状态模型进行训练之后，得到训练完成的所述生存状态模型；

所述获取模块，在得到训练完成的生存状态模型之后，还用于获取预设时间点具有相同生理特征的多个用户中每个用户的生理特征、每个用户在预设时间点采用的干预策略、每个用户对应的生存状态时长以及采用的干预策略对每个用户生理特征改变程度的影响值；

所述训练模块，还用于将预设时间点相同生理特征的多个用户的生理特征、每个用户在预设时间点采用的干预策略以及每个用户对应的生存状态时长作为输入量，将采用的干预策略对每个用户生理特征改变程度的影响值作为输出量，对强化学习模型进行训练；

所述获取模块，在所述训练模块对强化学习模型进行训练之后，得到训练完成的强化学习模型。

9.根据权利要求8所述装置，其特征在于，所述训练模块，还用于将多个用户中每个用户预设时间点的生理特征、预设时间点的生理特征对应的生存状态时长以及在预设时间点采用的干预策略对每个用户生理特征改变程度的影响值作为输入量，将每个用户在预设时间点采用的干预策略作为输出量，对方案选择模型进行训练；

所述获取模块，在所述训练模块对方案选择模型进行训练之后，得到训练完成的方案选择模型。

10.一种数据处理装置，其特征在于，利用权利要求1所述方法训练得出的生存状态模型以及所述强化学习模型进行数据处理，所述装置包括：

获取模块，用于获取用户当前的多项生理特征以及多个待选取的干预策略；

输入模块，用于将所述用户当前的生理特征以及多个待选取的干预策略中的每个干预策略输入所述生存状态模型；

所述获取模块，还用于在所述输入模块将所述用户当前的生理特征以及多个待选取的干预策略中的每个干预策略输入所述生存状态模型之后，获得每个干预策略对应的生存状态时长；

所述输入模块，还用于将多个待选取的干预策略和每个干预策略对应的生存状态时长输入所述强化学习模型；

所述获取模块，还用于在所述输入模块将所述用户当前的生理特征、多个待选取的干预策略和每个干预策略对应的生存状态时长输入所述强化学习模型之后，获得每个干预策略对所述用户的生存状态时长的影响值；

确定模块，用于根据所述影响值确定建议采用的干预策略。

11.根据权利要求10所述装置，其特征在于，所述确定模块根据所述影响值确定建议采用的干预策略，包括：

12.根据权利要求10所述装置，其特征在于，所述确定模块根据所述影响值确定建议采用的干预策略，包括：

13.一种数据处理装置，其特征在于，利用权利要求2中所述方法训练得出的生存状态模型、强化学习模型以及方案选择模型进行数据处理，所述装置包括：

输入模块，用于将用户当前的生理特征以及多个待选取的干预策略中的每个干预策略输入所述生存状态模型；

所述获取模块，还用于在所述输入模块将用户当前的生理特征以及多个待选取的干预策略中的每个干预策略输入所述生存状态模型之后，获得每个干预策略对应的生存状态时长；

所述输入模块，还用于将用户当前的生理特征、多个待选取的干预策略和每个干预策略对应的生存状态时长输入所述强化学习模型；

所述获取模块，还用于在所述输入模块将多个待选取的干预策略和每个干预策略对应的生存状态时长输入所述强化学习模型之后，获得每个干预策略对用户的生存状态时长的影响值；

所述输入模块，还用于将用户当前的生理特征、每个干预策略对应的用户的生存状态时长以及每个干预策略对用户的生存状态时长的影响值输入所述方案选择模型；

所述获取模块，还用于获得从多个待选取的干预策略中选取的建议用户当前采用的干预策略。

14.一种数据处理装置，其特征在于，所述装置包括：

输入模块，用于将所述用户当前的生理特征以及多个待选取的干预策略中的每个干预策略输入预先训练的生存状态模型；

所述获取模块，还用于在所述输入模块将所述用户当前的生理特征以及多个待选取的干预策略中的每个干预策略输入预先训练的生存状态模型之后，获得每个干预策略对应的生存状态时长，其中，所述生存状态时长为当前时间点与所述用户的生存状态改变的时间点相距的时长；

所述输入模块，还用于将所述用户当前的生理特征、多个待选取的干预策略和每个干预策略对应的生存状态时长输入预先训练的强化学习模型；

所述获取模块，还用于在所述输入模块将多个待选取的干预策略和每个干预策略对应的生存状态时长输入预先训练的强化学习模型之后，获得每个干预策略对所述用户的生存状态时长的影响值；

所述输入模块，还用于将用户当前的生理特征、每个干预策略对应的用户的生存状态时长以及每个干预策略对用户的生存状态时长的影响值输入预先训练的方案选择模型；

所述获取模块，还用于获得从多个待选取的干预策略中选取的建议用户当前采用的干预策略；每个用户的预设时间点的生理特征表示为每个用户一天之中的任一时间点对应的多项生理特征，所述生存状态改变表示为用户出院或者死亡。