CN108122613A

CN108122613A - 基于健康预测模型的健康预测方法和装置

Info

Publication number: CN108122613A
Application number: CN201810036412.9A
Authority: CN
Inventors: 不公告发明人
Original assignee: Beijing Yi Yi Intelligent Technology Co Ltd
Current assignee: Beijing Yi Yi Intelligent Technology Co Ltd
Priority date: 2018-01-15
Filing date: 2018-01-15
Publication date: 2018-06-05
Anticipated expiration: 2038-01-15
Also published as: CN108122613B

Abstract

本申请公开了一种健康预测方法和装置，其中方法包括以下步骤：S1对所有病历进行结构化处理，得到特征名称；S2基于所述特征名称构建独热数据，基于所述独热数据，对所有病历的每一个进行独热编码，得到独热编码数据；S3基于所述独热编码数据，将所述独热编码数据对应的独热数据转化为格式数据，所述格式数据包括特征值；S4利用所述格式数据对健康预测模型进行训练，得到所述健康预测模型；以及S5利用S4得到的所述健康预测模型对健康进行预测。本方法应用了二次特征和三次特征；针对二次特征和三次特征的参数学习进行了优化，从而在面对特征稀疏的数据情况时仍能表现很好。

Description

基于健康预测模型的健康预测方法和装置

技术领域

本申请涉及医学信息处理技术，特别是涉及一种基于健康预测模型的健康预测方法和装置。

背景技术

随着人工智能技术在各行业应用的扩展，越来越多的人开始关注其在医学数据上的应用。医院拥有大量的非结构化的电子病历，蕴含了丰富的医疗信息，可以挖掘出宝贵的医疗价值，并应用于不同的医疗场景，健康预测就是其中一个重要的应用场景。

目前被广泛应用的病历形式仍然是文本病历，文本病历存在着丰富的信息，但是由于不同医院及其医生的风格不同，所以文本病历的格式以及描述疾病的方式也不同，使得这些医学数据无法得到广泛应用。

另外，医务人员面对众多的医学数据往往要依靠足够的经验进行判断。由于医务人员本身的知识储备和经验等方面的差异，不同的医务人员对于同样的疾病或者症状的诊断方式和诊断结果不尽相同，这无疑降低了对症状判断的效率和准确率。因此，健康预测模型的建立至关重要。所以，如何从海量的医学数据中抽象和整理出医学经验，从而为医务人员提供快速准确的辅助参考信息显得尤为重要。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种健康预测方法，包括以下步骤：

步骤S1，对所有病历进行结构化处理，得到特征名称；

步骤S2，基于所述特征名称构建独热数据，基于所述独热数据，对所有病历的每一个进行独热编码，得到独热编码数据；

步骤S3，基于所述独热编码数据，将所述独热编码数据对应的独热数据转化为格式数据，所述格式数据包括特征值；

步骤S4，利用所述格式数据对健康预测模型进行训练，得到所述健康预测模型；以及

步骤S5，利用S4得到的所述健康预测模型对健康进行预测。

通过本申请的方法，能够对海量的病历文本进行分析总结，得到统一的模型，进而对健康进行预测，从而给医生提供参考数据。

进一步地，步骤S1包括：

步骤S11，对病历进行分词，得到分词后的文本数据；

步骤S12，对所述分词后的文本数据进行命名实体识别，得到实体数据；

步骤S13，识别所述实体数据中的医学术语，对所述医学术语进行标记，得到标记后的医学术语；以及

步骤S14，对所述得到标记后的医学术语进行结构化处理，得到特征名称。

进一步地，在步骤S2中，所述独热数据的形式是：特征名称_描述：特征名称；诱因：特征名称；转归：特征名称；部位：特征名称。

进一步地，在步骤S3中，所述格式数据的格式为：领域编号：特征编号：特征值；其中，每个特征名称具有一特征编号，属于同一医学术语转化来的特征名称具有相同的所述领域编号。

进一步地，每个特征值对应所述健康预测中的多个隐向量，所述隐向量的个数根据领域编号确定。

进一步地，将所述格式数据代入下面的所述健康预测模型的变形形式，如公式(1)：

其中，

表示第i、j个特征值对应的隐向量的内积；

表示第i、j、k个特征值对应的隐向量的内积；

f_i，f_j，f_k分别为第i、j、k个特征值的领域编号。

进一步地，每个特征值对应多个隐向量，所述隐向量的个数根据领域编号确定。

根据本申请的一个方面，还提供了一种健康预测装置，包括：

结构化处理模块，其配置成对病历进行结构化处理，得到特征名称；

独热编码模块，其配置成基于所述特征名称构建独热数据，基于所述独热数据，对所有病历的每一个进行独热编码，得到独热编码数据；

转化模块，其配置成基于所述独热编码模块得到的所述独热编码数据，将所述独热编码数据对应的独热数据转化为格式数据，所述格式数据包括特征值；

训练模块，其配置成利用所述转化模块得到的所述格式数据对健康预测模型进行训练，得到所述健康预测模型；以及

预测模块，其配置成利用所述训练模块得到的所述健康预测模型对健康进行预测。

进一步地，所述结构化处理模块包括：

分词模块，其配置成对原始的病历文本进行分词，得到分词后的文本数据；

命名实体训练模块，其配置成对所述分词后的文本数据进行命名实体识别，得到实体数据；

标记模块，其配置成识别所述实体数据中的医学术语，对所述医学术语进行标记，得到标记后的医学术语；以及

结构化处理模块，其配置成对所述得到标记后的医学术语进行结构化处理，得到特征名称。

进一步地，在独热编码模块中，所述独热数据的形式是：特征名称_描述：特征名称；诱因：特征名称；转归：特征名称；部位：特征名称。

进一步地，在转化模块中，所述格式数据的格式为：领域编号：特征编号：特征值；其中，每个特征名称具有一特征编号，属于同一医学术语转化来的特征名称具有相同的所述领域编号。

根据本申请的一个方面，还提供了一种计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现上述的健康预测方法。

根据本申请的一个方面，还提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现上述的健康预测方法。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请的健康预测方法的一个实施例的流程图；

图2是根据本申请的健康预测装置的一个实施例的框图。

具体实施方式

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

参考图1，根据本申请的一个方面，提供了一种健康预测方法，该方法包括如下步骤：

步骤S1对所有病历进行结构化处理，得到特征名称；

可选地，步骤S1可以包括：

S11对病历进行分词，得到分词后的文本数据；

具体地，优选地，病历为病历文本。例如：某个病历文本为“患者活动后心前区出现间断性胸闷不缓解”，对该病历文本进行分词，得到分词后的文本数据。例如：分词后的文本数据为“患者活动后心前区出现间断性胸闷不缓解”。

S12对所述分词后的文本数据进行命名实体识别，得到实体数据；

具体地，对分词后的文本数据中的每个词语进行命名实体识别，得到该文本数据中的实体数据。例如：将上述分词后的文本数据进行命名实体识别的结果是“患者(Other)活动后(实体数据)心前区(实体数据)出现(Other)间断性(实体数据)胸闷(实体数据)不缓解(实体数据)”。其中，识别出的实体数据为：胸闷、间断性、活动后、不缓解、心前区，其他数据则被识别为其他类型数据(Other)。

S13识别所述实体数据中的医学术语，对所述医学术语进行标记，得到标记后的医学术语；

例如：识别出的实体数据胸闷、间断性、活动后、不缓解、心前区均为医学术语，对这些医学术语分别进行标记。例如，将“活动后”标记为“诱因”；将“心前区”标记为“部位”；将“间断性”标记为“描述”；将“胸闷”标记为“症状”；将“不缓解”标记为“转归”。

S14对所述得到标记后的医学术语进行结构化处理，得到特征名称。

例如：可以采取表1中的数据结构对S13的医学术语进行结构化处理，并且从结构化处理后的数据中得到特征名称。

表1

属性	术语	描述	诱因	转归	部位
						特征名称	胸闷	间断性	活动后	不缓解	心前区

该方法还可以包括：

步骤S2，基于所述特征名称构建独热数据，基于所述独热数据，对所有病历的每一个进行独热编码，得到独热编码数据。

构建独热数据时，优先挑选健康预测模型选用的术语，并将术语和与之搭配的描述、转归等信息进行组合得到模型要用的特征名称。例如：将以上结构化数据中的医疗术语和与之搭配的标记以及其他适当的标点符号进行组合后得到独热数据。例如，独热数据可以为：“胸闷_描述：间断性|诱因：活动后|转归：不缓解|部位：心前区”。

将所有病历都按照上述步骤进行处理，得到若干独热数据。

例如：将所有的病历进行分析后，得到若干独热数据，该独热数据包括但不限于如下数据：

术语：胸闷；描述：间断性；诱因：活动后；转归：不缓解；部位：心前区；

术语：胸闷；描述：无；诱因：活动后；转归：加重；部位：心前区；

术语：浮肿；描述：轻度；诱因：活动后；转归：不缓解；部位：双下肢；

术语：浮肿；描述：重度；诱因：活动后；转归：不缓解；部位：双下肢。

可选地，独热数据的格式为症状名称与相应的属性，诸如(描述、诱因、转归、部位)组成。例如，独热数据如表2的第1行所示，独热数据可以包括“胸闷_描述：间断性；诱因：活动后；转归：不缓解；部位：心前区”。将所有的病历进行统计，可以得到多个独热数据。

基于独热数据，对所有病历的每一个进行编码，得到独热编码。

独热编码的方式可以是以特征名称是否出现来生成该病历文本对应的独热编码(One-Hot Encoding)的数据格式。优选地，如果出现某一特征名称，则该病历文本对应的该特征名称的独热编码值为1，否则为0。按照这样的规则生成每份病历文本的独热数据。

针对本例中的病历文本进行编码后，其独热编码数据如表2的第2行所示：

表2

该方法还可以包括：

步骤S3：基于所述独热编码数据，将所述独热编码数据对应的独热数据转化为格式数据，所述格式数据包括特征值。

独热数据中包含属性和相应的特征名称，可以针对不同的特征名称和属性，将独热数据转换为格式化的数据，即格式数据。优选地，所述格式数据的格式为：领域(field)编号：特征编号：特征值；其中，每个特征名称具有一特征编号，属于同一医学术语转化来的特征名称具有相同的所述领域编号，特征值是表征特征名称的属性的值。

所谓的领域编号可以被认为是对医学术语的分组，如医学术语“头晕”与医学术语“头痛”都是针对头部的症状，可以认为二者具有同样的领域编号，而医学术语“胸闷”与医学术语“胸痛”都是针对胸部的症状，则可以认为二者具有另一个同样的领域编号。

训练健康预测模型所用数据格式为“领域编号：特征编号：特征值”，且只需转换特征值非0的特征。本例中，该病历对应的独热编码为1 0 00，即，表示该病历对应的独热数据是：胸闷_描述：间断性；诱因：活动后；转归：不缓解；部位：心前区。在该独热数据中，共有4个特征名称，分别是：间断性、活动后、不缓解、心前区。

领域编号的确定方法是：同属于一个术语转化来的特征具有相同的领域编号。如上表2中，前两个特征均来自于术语“胸闷”，则规定其领域编号为0，后两个特征均来自于术语“浮肿”，则规定其领域编号为1。

特征编号的确定方法是：该4个特征名称编码依次为0、1、2、3；

特征值的确定方法是：每个特征编号对应一个特征值。

将本病历对应的独热数据转化为格式数据后，得到表3。从而，将上面的数据转化为健康预测模型可用的格式数据。

表3

步骤S4：将所述格式数据代入下面的所述健康预测模型，对所述健康预测模型进行训练，得到所述健康预测模型。

该健康预测模型可以是基于域的分解机模型(FFM模型)等预测模型，也可以是如公式(2)形式的模型：

其中，n为所述特征值的个数；x_i、x_j、x_k分别为第i、j、k个特征值；w₀、w_i、w_ij、w_ijk分别为所述健康预测模型的偏置项参数、一次项参数、二次项参数和三次项参数；y(x)表示身体的健康指标。

具体地，n为样本的所有特征值的数量，在本申请的健康预测模型中，n即为症状的个数，x_i为第i个特征的特征值。优选地，x_i代表症状i是否出现，出现则x_i为1，不出现则x_i为0。

从公式中可见，二次特征对应的参数共有个。如果病历数据足够多，则可以通过训练，计算出各个健康预测模型的参数。

然而，在数据稀疏性普遍存在的实际应用场景中，二次项参数、三次项参数的训练是非常困难的。其原因是，每个模型参数的训练需要大量的x_i、x_j，x_k都非零的样本；由于样本数据本来就比较稀疏，满足x_i、x_j都非零或者x_i、x_j，x_k都非零的样本会很少。训练样本的不足，会导致参数w_i、w_ij、w_ijk不准确，最终将严重影响模型的准确性。

本申请采用矩阵分解，降低了二次项参数、三次项参数的训练难度和计算时间。

将健康预测模型(2)变形形式用公式(3)表示：

其中，

表示第i、j个特征值对应的隐向量的内积；

表示第i、j、k个特征值对应的隐向量的内积；

f_i、f_j、f_k分别为第i、j、k个特征值的领域编号。

计算内积的方式可以采取传统的数学计算方式，也可以采用机器学习的方式。该机器学习的方式是，在模型训练前，对这些参数进行随机初始化，然后模型训练过程中，通过调整参数并代入计算公式得到预测概率，不断调整参数使预测概率接近真实值，从而得到内积值。

所有的二次项参数w_ij、三次项参数w_ijk均可以组成对称矩阵。例如，二次项参数w_ij可以组成一个对称矩阵W，该对称矩阵就可以分解为W＝V^TV的形式。其中，V的第j列定义为第j个特征值的隐向量。通过这样的分解后，可以得到w_ij＝＜V_i,V_j＞，V_i和V_j分别表示第i、j个特征值对应的隐向量的内积(领域编号未示出)，即每个二次项参数可以由对应的两个特征值的隐向量的内积得到。隐向量的长度为k(这个可以自行定义，其值远小于n)，这样，通过训练得到每个特征的隐向量即可间接得到二次特征的参数，可知，这时模型的参数个数变成了k*n个，远小于个。同理，三次项参数w_ijk也可以采用这种方式进行处理。

另外，上述对参数进行因子化处理使得x_ix_j的参数和x_jx_k的参数不再是相互独立的，因此可以在样本稀疏的情况下相对合理地估计模型的二次项参数。具体来说，x_ix_j和x_jx_k的系数分别为V_iV_j和V_jV_k，它们之间有共同项V_i。也就是说，所有包含x_i的非零组合特征(存在某个j≠i，使得x_ix_j≠0)的样本都可以用来学习隐向量V_i，这是模型能针对稀疏数据表现良好的根本原因。

在本申请的健康预测模型中，每个特征值不只对应一个隐向量，而是利用与该特征值组合的另一个特征值所属的领域编号来决定该特征值针对其所属的领域编号的隐向量来得到相应的二次参数。

例如，每个特征x_i不只对应一个隐向量，而是视与x_i组合的另一个特征的所属的领域来决定用x_i的针对该领域的隐向量来得到相应的二次参数。

例如，两个特征x_i、x_j，对应的参数w_ij由x_i和x_j的隐向量做内积得到。但x_i、x_j分别有多个隐向量，那具体由哪个隐向量来做内积，是由另一个特征所属的领域编号来决定的。例如，x_i的特征所属的领域编号为1，那就用x_i针对领域编号为0的那个隐向量来做内积。同样，x_i特征所属的领域编号的为0，则就用x_j针对领域编号为0的那个隐向量来做内积。

例如，将w_ij的进行分解，分解成两个向量的乘积，如公式(4)所示。向量的维度可以根据需要设定，优选地，设为5。

w_ij＝＜V_i,V_j＞ (4)

其中，V_i和V_j分别表示第i、j个特征值对应的隐向量的内积，即，每个二维特征值对应的参数，通过将两个特征值对应的向量做内积得到。这样不是直接对二次参数进行学习更新，而是通过针对每个特征值对一个向量的学习进行更新。这样减少了参数的个数，且使得模型能够应对稀疏数据的情况。

需要注意的是，每个特征对应多个隐向量V_i。隐向量的个数要视另一参数的设定，即：根据领域的个数设定。

假设有如下数据特征，见表4：

表4

模型所用数据格式为“领域编号：特征编号：特征值”，且只需转换特征值非0的特征。其中，每个特征对应1个特征编号，如上表中，共有4个特征值，则4个特征编码依次为0、1、2、3；同属于一个术语转化来的特征具有相同的领域编号。如上表4中，前两个特征均来自于术语“胸闷”，则规定其领域编号为0，后两个特征均来自于术语“浮肿”，则规定其领域编号为1。所以上面两条数据转化为健康预测模型可用的格式数据，参见表5：

表5

患者	模型的格式数据
		1	0：0：1，1：2：1
2	0：1：1，1：3：1

如上患者1的数据中，出现了两个特征，对应的特征值的特征编号分别为0和2。其二次特征则有x₀x₂，该二次特征对应的参数为w₀₂，那么w₀₂＝＜V₀,V₂＞，但这里的V₀与V₂要视x₀与x₂所属的领域编号而定。因为x₀与x₂的领域编号分别为0、1，则计算w₀₂时，V₀要选用其针对V₂所在领域编号的向量，标记为V_0,1，同样，V₂要选用其针对V₀所在领域编号的向量，标记为V_2,0，则实际上，w₀₂是V_0,1与V_2,0的内积，如公式(5)：

w₀₂＝＜V_0,1,V_2,0＞ (5)

通过以上可见，二次项特征共有种组合方式，也就相应有个二次项参数需要模型更新。但通过转化为求向量内积的方式后，需要计算的参数个数大大减少，且每个特征对应的隐向量可以在任何与该特征组合后值非0的二次特征中进行更新，即V₀是x₀对应的隐向量，如果x₀x₁，x₀x₂都非0，则V₀均可进行更新。这样就解决了数据稀疏参数学习困难的问题。

三次项参数w_ijk共有个，将其分解为3个特征对应的向量的内积后，优选地，向量的维度可以设为5，其对应的参数个数为n*5。

本申请应用了二次特征和三次特征；针对二次特征和三次特征的参数学习进行了优化，从而在面对特征稀疏的数据情况时仍能表现很好，利用本申请的方法，还可应用更高次的特征进行计算，从而对健康结果进行预测。

由于医疗数据中症状繁多，且每个患者出现的症状不一，造成训练数据的稀疏；另外，在进行疾病预测时，不仅要考虑单个症状对诊断结果的影响，也要考虑两个症状或者三个症状同时出现时对诊断结果的影响，这样加入二次特征和三次特征后参数模型训练的计算量加大；采用矩阵分解后该健康预测模型对于特征稀疏、二次特征和三次特征的参数学习都带来了显著的效果，提高了计算速度和模型的准确性。本申请的健康预测模型考虑了非线性因素，因此会挖掘出症状与疾病更深层的关系，进而使得模型能够更好的拟合。采用矩阵分解减少了模型参数的数量，最终将问题转化为针对每个特征求一个隐向量，且每个特征的隐向量可以在多个特征维度上进行优化更新，避免了特征稀疏情况下优化困难的问题。

除了采用上述模型以外，还可以采用如下模型：

(1)逻辑回归模型：

该模型只应用了一次特征，经过线性加权后，将其映射到0-1区间，表示预测的概率。

(2)决策树模型：

决策树是一种树形结构，其中每个内部节点表示一个特征上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果。对于二分类问题而言，树上越靠上的结点，对应着分类越有区分性的特征。如果数据比较稀疏，则该模型的处理方法效果不是很好。

可选地，该方法还可以包括：

步骤S5：利用S4得到的所述健康预测模型对健康进行预测。

通过上面得到的健康预测模型，能够对新的病历进行分析，进而对健康进行预测。

对新的病历进行分析的步骤S5可以包括：

S51对新的病历进行结构化处理，得到特征名称；

S52基于所述特征名称和独热数据，对所述病历进行独热编码，得到独热编码数据；

S53将所述独热编码数据对应的所述独热数据转化为格式数据，所述格式数据包括特征值；以及

S54将所述格式数据代入下面的所述健康预测模型，如公式(6)，得到身体的健康指标，从而对健康进行预测，

其中，n为所述特征值的个数；x_i、x_j，x_k分别为第i、j、k个特征值；w₀、w_i、w_ij、w_ijk分别为所述健康预测模型的偏置项参数、一次项参数、二次项参数和三次项参数；y(x)表示身体的健康指标。

参考图2，根据本发明的另一个方面，还提供了一种健康预测装置，包括：

转化模块，其配置成基于所述独热编码模块得到的所述独热编码数据，将所述独热编码数据对应的独热数据转化为格式数据，所述格式数据包括特征值；以及

训练模块，其配置成利用所述转化模块得到的所述格式数据对健康预测模型进行训练，得到所述健康预测模型，健康预测模型如公式(7)所示：

优选地，所述结构化处理模块包括：

标记模块，其配置成识别所述实体数据中的医学术语，对所述医学术语进行标记，得到标记后的医学术语；

优选地，所述格式数据的格式为：“领域编号：特征编号：特征值”。

其中，每个特征名称具有一特征编号，属于同一医学术语转化来的特征名称具有相同的所述领域编号。

优选地，所述训练模块中的健康预测模型的变形形式如公式(8)所示：

其中，

表示第i、j个特征值对应的隐向量的内积；

表示第i、j、k个特征值对应的隐向量的内积；

f_i、f_j、f_k分别为第i、j、k个特征值的领域编号。

优选地，预测模块包括：

结构化处理模块，其配置成对新的病历进行结构化处理，得到特征名称；

独热编码模块，其配置成基于所述特征名称和独热数据，对所述病历进行独热编码，得到独热编码数据；

转化模块，其配置成将所述独热编码数据对应的所述独热数据转化为格式数据，所述格式数据包括特征值；以及

计算模块，其配置成将所述格式数据代入公式(6)的健康预测模型，得到身体的健康指标，从而对健康进行预测。

应当理解的是，本装置中各个模块的实现方式可以与本申请的方法中各个步骤的实现方式相同或相似。

根据本申请的另一个方面，提供了一种计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述的健康预测方法。

根据本申请的另一个方面，提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如上所述的健康预测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种健康预测方法，包括以下步骤：

步骤S1，对所有病历进行结构化处理，得到特征名称；

步骤S5，利用S4得到的所述健康预测模型对健康进行预测。

2.根据权利要求1所述的健康预测方法，其特征在于，步骤S1包括：

步骤S11，对病历进行分词，得到分词后的文本数据；

3.根据权利要求1所述的健康预测方法，其特征在于，在步骤S2中，所述独热数据的形式是：特征名称_描述：特征名称；诱因：特征名称；转归：特征名称；部位：特征名称。

4.根据权利要求1至3的任一项所述的健康预测方法，其特征在于，在步骤S3中，

所述格式数据的格式为：领域编号：特征编号：特征值；

5.根据权利要求4所述的健康预测方法，其特征在于，每个特征值对应所述健康预测中的多个隐向量，所述隐向量的个数根据领域编号确定。

6.一种健康预测装置，包括：

7.根据权利要求6所述的健康预测装置，其特征在于，所述结构化处理模块包括：

8.根据权利要求6或7所述的健康预测装置，其特征在于，所述格式数据的格式为：领域编号：特征编号：特征值；

9.一种计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的健康预测方法。

10.一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如权利要求1至5中任一项所述的健康预测方法。