CN109378066A

CN109378066A - 一种基于特征向量实现疾病预测的控制方法及控制装置

Info

Publication number: CN109378066A
Application number: CN201811559334.7A
Authority: CN
Inventors: 顾春宏; 徐盛; 罗震
Original assignee: Yijian (shanghai) Information Technology Co Ltd
Current assignee: BASEBIT (SHANGHAI) INFORMATION TECHNOLOGY Co.,Ltd.
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2019-02-22

Abstract

本发明提供了一种基于特征向量实现疾病预测的控制方法及控制装置，包括如下步骤：a.基于Embedding模型，将一个或多个原始向量化表示转换为稠密向量化表示；b.基于诊断模型将所述稠密向量化表示作为输入，确定所述稠密向量化表示在诊断模型中每个疾病的相似度；c.基于所述稠密向量化表示在诊断模型中每个疾病的相似度，确定与所述稠密向量化表示匹配度最高的疾病类型，其通过整合用户的一个或多个病例信息，使用了表示病人全景病症的超长矢量作为输入，保留了关联性假设，通过引入深度的神经网络模型，来学习超长矢量中的单特征和深度的交互特征，确定与用户病例信息相匹配的每个疾病的概率，本发明操作简单，使用方便，具有极高的商业价值。

Description

一种基于特征向量实现疾病预测的控制方法及控制装置

技术领域

本发明属于医学临床辅助诊断、导诊、病例质量控制领域，特别涉及一种基于特征向量实现疾病预测的控制方法及控制装置。

背景技术

近年来，临床工作诊疗中的失误事件虽鲜有报道，但任何形式的医疗诊断即使在采用最先进的仪器辅助情况下都无法完全避免误诊，因而临床诊断研究工作的目标之一就是探索误诊发生的规律及防范措施，降低误诊概率，提高确诊率，从而推动医学领域的发展。目前，国内由于医疗资源的局限，使得医疗就诊环境中，主治医生没有办法在问诊时精确全面细致的去理解每个患者症状和体征情况，因此开发一套循证医学辅助诊断系统用以提高医生诊疗水平，改善患者医疗意识，优化医患双方院前服务是具有极大价值的。而目前市场上的一些医疗诊断、导诊、病例质量控制等系统是基于对电子病历的分析为基础，提取病人的主诉、现病史、检查、家庭史等数据信息矢量化，基于以上矢量进行疾病预测，而其中的预测方式主要分为两种，即编写人工预测规则和使用常规的机器学习模型，例如朴素叶斯和逻辑回归，而以上技术中都存在或多或少的缺点，比如，从病人主诉、现病史、检查、家庭史中提取的症状等矢量化信息，多达上万维，并且由于矢量长度的限制，现有方式都采取了不同的取舍方式，不能很好的利用这些信息做准确的判断。

首先，从现有技术的人工规则上来说，需要手动指定信息矢量到疾病的关联规则，而且还提取每个疾病的主要影响因素，但是这些影响因素的权重都依赖于制定人的主观判断，判断结果可能并不准确，不能很好的体现病人的实际情况，病人的症状等信息维度加大，人工规则无法考虑到每一个维度，只能够重点选择部分维度，没有全面性，此外，疾病有上千种，在做疾病概率的排序时，人工规则过于片面化，无法考虑到全局性，不仅如此，人工规则的整理规则效率也极低。其次，从现有的机器学习模型上来说，主要存在以下问题，第一点，常规模型都有受限的应用条件假设，和受限的学习能力，应用无法达到足够的准确性；举例来说，朴素贝叶斯假设输入特征之间是没有相关性，症状，检查等之间假设没有相关性是不符合实际情况的，所以模型的结果也是损失精度的；第二点，逻辑回归等广义线性模型，保留了症状的之间关联假设，但受限于模型的学习能力，特征间的交互性需要模型的使用者人工指定，在上万维的特征空间上，发现有意义的交互性，需要大量人工，实际能难实现；第三点，模型学习效率低。

而目前，市场上并没有一种能够有效解决上述问题的具体办法，尤其涉及一种基于特征向量实现疾病预测的控制方法及控制装置。

发明内容

针对现有技术存在的技术缺陷，本发明的目的是提供一种基于特征向量实现疾病预测的控制方法及控制装置，根据本发明的一个方面，提供了一种基于特征向量实现疾病预测的控制方法，通过整合用户的一个或多个病例信息，确定与用户病例信息相匹配的每个疾病的概率，包括如下步骤：

a.基于Embedding模型，将一个或多个原始向量化表示转换为稠密向量化表示；

b.基于诊断模型将所述稠密向量化表示作为输入，确定所述稠密向量化表示在诊断模型中每个疾病的相似度；

c.基于所述稠密向量化表示在诊断模型中每个疾病的相似度，确定与所述稠密向量化表示匹配度最高的疾病类型。

优选地，在所述步骤a之前，还包括步骤i：确定用户的一个或多个病例信息的一个或多个原始向量化表示。

优选地，所述步骤i包括如下步骤：

i：对用户病例信息中的非结构化数据信息进行向量化处理，并确定一个或多个第一向量化表示，其中，所述非结构化数据信息包括用户主诉、病史信息、影像检查信息；

ii：对用户病例信息中的结构化数据信息进行向量化处理，并确定一个或多个第二向量化表示，其中，所述结构化数据信息至少包括设备检验数据；

iii：将所述第一向量化表示以及所述第二向量化表示作为原始向量化表示。

优选地，所述步骤b包括：将所述稠密向量化表示输入到多层残差网络结构中，确定一个或多个所述稠密向量化表示所对应的一个或多个疾病相似度；

优选地，在所述步骤b中，所述诊断模型通过如下步骤获取：

A.对一个或多个病例的集合进行数据清洗以及向量化处理，确定标准化的向量化数据集，其中，其中，

是各个症状等分矢量；

X^o是所有分矢量的连接矢量(concatenate)。

B.基于标准化的向量化数据集、Embedding以及残差网络预定义训练模型；

C.基于损失函数优化所述训练模型。

优选地，在所述步骤B中，所述Embedding基于如下公式运算：

其中：

W_J，b_j是Embedding操作权重和偏置参数；

是输入的特征值；

是第j个特征的Embedding结果(即分矢量)。

优选地，在所述步骤B中，所述残差网络基于如下公式运算：

X^O＝F(X^I，{W₀，W₁}，{b₀，b₁})+X^I，其中，

X^I是输入向量；

F(X^I，{W_o，W₁}，{b_o，b₁})表示对X^I做两层的神经网络计算；

W_o，b_o和W₁，b₁分别是两层神经网络的参数；

运算结果(X^o)是神经网络的输出，同时加上X^I。

优选地，在所述步骤C中，所述损失函数通过如下公式计算：

其中，

p_i表示第i个样本的正类计算概率(0～1)；

y_i表示第i个样本的实际结果(0|1)；

N表示样本的个数。

优选地，所述步骤c通过如下两种方式实现：

-将所述稠密向量化表示在诊断模型中每个疾病的相似度输入到Softmax映射函数进行疾病概率归一化处理，其中，每个疾病概率相加为1；

-将所述稠密向量化表示在诊断模型中每个疾病的相似度输入到sigmod中，分别得到每个疾病的概率。

根据本发明的另一个方面，提供了一种基于特征向量实现疾病预测的控制装置，其通过整合用户的一个或多个病例信息，确定与用户病例信息相匹配的每个疾病的概率，包括：

第一处理装置：基于Embedding模型，将一个或多个原始向量化表示转换为稠密向量化表示；

第一确定装置：基于诊断模型将所述稠密向量化表示作为输入，确定所述稠密向量化表示在诊断模型中每个疾病的相似度；

第二确定装置：基于所述稠密向量化表示在诊断模型中每个疾病的相似度，确定与所述稠密向量化表示匹配度最高的疾病类型。

优选地，在所述第一处理装置之前，还包括第三确定装置：确定用户的一个或多个病例信息的一个或多个原始向量化表示。

优选地，所述第三确定装置包括如下步骤：

第四确定装置：对用户病例信息中的非结构化数据信息进行向量化处理，并确定一个或多个第一向量化表示，其中，所述非结构化数据信息包括用户主诉、病史信息、影像检查信息；

第五确定装置：对用户病例信息中的结构化数据信息进行向量化处理，并确定一个或多个第二向量化表示，其中，所述结构化数据信息至少包括设备检验数据；

第二处理装置：将所述第一向量化表示以及所述第二向量化表示作为原始向量化表示。

优选地，所述第一确定装置包括：将所述稠密向量化表示输入到多层残差网络结构中，确定一个或多个所述稠密向量化表示所对应的一个或多个疾病相似度；

优选地，在所述第一确定装置中，所述诊断模型通过如下步骤获取：

第一获取装置：对一个或多个病例的集合进行数据清洗以及向量化处理，确定标准化的向量化数据集，其中，其中，

是各个症状等分矢量；

X^o是所有分矢量的连接矢量(concatenate)。

第三处理装置：基于标准化的向量化数据集、Embedding以及残差网络预定义训练模型；

第四处理装置：基于损失函数优化所述训练模型。

本发明提供了一种基于特征向量实现疾病预测的控制方法及控制装置，其通过整合用户的一个或多个病例信息，使用了表示病人全景病症的超长矢量作为输入，保留了关联性假设，通过引入深度的神经网络模型，来学习超长矢量中的单特征和深度的交互特征，确定与用户病例信息相匹配的每个疾病的概率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出了本发明的具体实施方式的，一种基于特征向量实现疾病预测的控制方法的具体流程示意图；

图2示出了本发明的第一实施例的，确定用户的一个或多个病例信息的一个或多个原始向量化表示的具体流程示意图；

图3示出了本发明的第二实施例的，对用户病例信息中的非结构化数据信息进行向量化处理，并将其作为原始向量化表示的具体流程示意图；

图4示出了本发明的第三实施例的，将所述稠密向量化表示输入到多层残差网络结构中，确定疾病相似度的具体流程示意图；以及

图5示出了本发明的另一具体实施方式的，一种基于特征向量实现疾病预测的控制装置的模块连接示意图。

具体实施方式

为了更好的使本发明的技术方案清晰的表示出来，下面结合附图对本发明作进一步说明。

图1示出了本发明的具体实施方式的，一种基于特征向量实现疾病预测的控制方法的具体流程示意图，具体地，包括如下步骤：

首先，进入步骤S101，基于Embedding模型，将一个或多个原始向量化表示转换为稠密向量化表示，将词进行向量化表示，实体的抽象成了数学描述，就可以进行建模，应用到很多任务中，例如比较词语词之间的相似性，可以直接通过向量之间的余弦距离度量来确定，词语向量化表示需要基于文本数据等获取文本数据中的特征，对文本数据中的每个字符进行拆解，将文本数据转换为深度神经网络能够理解的数值形式，本领域技术人员理解，将文本数据转换成计算机能识别的数据，解析出每个词和它所对应的词向量，进行向量化表示后，利用Embedding模型，将所述一个或多个向量矩阵加载到Embedding层中，所述一个或多个特征向量经过Embedding模型,将原始的稀疏向量，转换成一个稠密的向量表示，其目的是为了降低特征维数，保留有区分性的隐含症状。具体地，在进行稠密向量划表示后，可以用计算向量之间相似度的方法(如余弦相似度)，来计算语义的相似度。具体地，所述一个或多个原始的稀疏向量，转换成一个或多个稠密的向量表示，这个过程中，不仅仅考虑到原始向量的特征，而是对隐含空间的特征进行了分析。

进一步地，Embedding是将自然语言表示的单词转换为计算机能够理解的向量或矩阵形式的技术，它也是目前自然语言处理领域中一种将文本中的单词映射成低维数值向量的关键技术，经过Embedding训练出来的词向量既可以作为完全的单词特征输入到某些特定任务的有监督学习算法中,也可以作为依赖于不同任务所特定提取特征的有益扩充。

进一步地，所述原始向量的文本数据包括但不限于症状、检查结果以及其他资料，例如，还包括病史、在获得以上数据后，形成一个基于病人主诉，现病史，影像检查和实验室检验等医疗信息中提取的标准化矢量集合，并对其进行结构化操作。

进一步地，所述文本数据转换成原始向量，本领域技术人员理解，所述文本数据中包含了病人的全部症状信息，因此转换后的原始向量包含了病人的全部症状。

然后，进入步骤S102，基于诊断模型将所述稠密向量化表示作为输入，确定所述稠密向量化表示在诊断模型中每个疾病的相似度，本领域技术人员理解，将所述原始向量转换成稠密向量是将一些稀疏的向量转换为全局中有效隐含症状的向量表示，并将转换后的一个或多个稠密向量输入到预先构建好的诊断模型当中，对其进行模型训练，得到每个疾病对应的发生概率。

进一步地，将所述原始向量转换成稠密向量，本领域技术人员理解，在对所述病人的文本数据进行转换成向量后，所述原始向量是包含了病人的全部症状，而对其进行稠密向量化表示后，能够得到全部症状中的隐含症状。

最后，进入步骤S103，基于所述稠密向量化表示在诊断模型中每个疾病的相似度，确定与所述稠密向量化表示匹配度最高的疾病类型，在将原始向量表示成稠密向量后，输入到诊断模型中，得到每个疾病对应的发生概率，并对比所述稠密向量与诊断模型中每个疾病的相似度，最终确定与所述向量相似度最高的疾病。

进一步地，确定所述稠密向量化表示在诊断模型中每个疾病的相似度，本领域技术人员理解，所述稠密向量保留有区分性的隐含症状，基于当前病例在有区分性隐含症状中的表示，选择关联度最高的疾病。

图2示出了本发明的第一实施例的，确定用户的一个或多个病例信息的一个或多个原始向量化表示的具体流程示意图，具体地，包括如下步骤：

首先，进入步骤S201，确定用户的一个或多个病例信息的一个或多个原始向量化表示，本领域技术人员理解，在对所述一个或多个原始向量转换成稠密向量之前，需要先确定用户的所述一个或多个病例信息，具体地，所述用户病例信息包括但不限于病人症状、检查结果以及其他资料等，在确定好用户的病例信息后，基于用户所述的一个或多个病例信息进行向量化处理，将文本数据转换成数值向量，所述原始向量包含了病人的全部症状，简单来说，就是将文本数据转换为深度神经网络能够理解的数值形式，以便进行向量空间中的向量运算，从而计算出向量空间上的相似度。例如，在一个优选地实施例中，从病人的住院病史中确定了病人的家族遗传疾病，并将其作为病例信息中的一部分。

然后，进入步骤S202，基于Embedding模型，将一个或多个原始向量化表示转换为稠密向量化表示，本领域技术人员理解，此步骤可以参考图1中的步骤S101，在此不予赘述。

紧接着，进入步骤S203，基于诊断模型将所述稠密向量化表示作为输入，确定所述稠密向量化表示在诊断模型中每个疾病的相似度，本领域技术人员理解，此步骤可以参考图1中的步骤S102，在此不予赘述。

最后，进入步骤S204，基于所述稠密向量化表示在诊断模型中每个疾病的相似度，确定与所述稠密向量化表示匹配度最高的疾病类型，本领域技术人员理解，此步骤可以参考图1中的步骤S103，在此不予赘述。

图3示出了本发明的第二实施例的，对用户病例信息中的非结构化数据信息进行向量化处理，并将其作为原始向量化表示的具体流程示意图，具体地，包括如下步骤：

首先，进入步骤S1031，对用户病例信息中的非结构化数据信息进行向量化处理，并确定一个或多个第一向量化表示，其中，所述非结构化数据信息包括用户主诉、病史信息、影像检查信息，所有病例中信息主要分为两种类型数据，即非结构化数据和结构化数据，所述非结构化数据信息是指非向量方式的数据信息，所述非机构化数据信息包括但不限于用户主诉、病史信息、影像检查信息等病例文字信息，所述非结构化数据需要进行结构化操作，将文字信息转换成向量方式。

进一步地，本领域技术人员理解，将确定的用户一个或多个病例信息中的非结构数据信息进行结构化操作，将文字转换成可进行计算的向量方式，并将原始文本数据进行向量化表示，从而确定用户的一个或多个第一向量化表示。

在一个优选地实施例中，所述用户的病例信息中包含一段文字叙述，所有信息都表示为向量方式，例如咳嗽症状进行向量化表示为[1,0,0],[0,1,0],[0,0,1]三种表示，分别为有，无，未知。

在一个特殊的实施例中，量化的结果直接用一维数字表示，例如体温[37.5]。

然后，进入步骤S1032，对用户病例信息中的结构化数据信息进行向量化处理，并确定一个或多个第二向量化表示，其中，所述结构化数据信息至少包括设备检验数据，本领域技术人员理解，所有病例中信息主要分为两种类型数据，即非结构化数据和结构化数据，所述结构化数据为直接表示为向量的信息，如已有的结构化数据，所述结构化数据信息包括但不限于设备检验数据，例如历史检查记录及用药等，从检验设备得到的数据就已经是结构化状态，可以直接表示为向量。

进一步地，本领域技术人员理解，将已经转换成向量的一个或多个结构化数据直接进行向量化处理，转换成稠密向量，并将转换后的一个或多个稠密向量直接作为第二向量化表示，最终确定一个或多个第二向量化表示。

最后，进入步骤S1033，将所述第一向量化表示以及所述第二向量化表示作为原始向量化表示，本领域技术人员理解，将从非结构化数据中转换而成的一个或多个第一向量化表示和从结构化数据中转换而成的一个或多个第二向量化表示直接进行转换，转换成原始向量化表示，得到一个或多个原始向量化表示，从而形成矢量集合，其中，将所述第一向量化表示以及所述第二向量化的向量结构进行连接，从而表示成一个超长的向量，能够涵盖当前病例的相关信息。

进一步地，所述诊断模型的输入为用户的单个病例中，基于病人主诉，现病史，影像检查和实验室检验等医疗信息中提取的标准化矢量集合，而输出为预定义疾病范围中，每个疾病的发生概率，也将所有疾病表示一个向量，优选地，通过学习一个输入到输出的映射模型，使得预测结果和目标结果之间的误差较小。

在一个优选地实施例中，用户病例信息中非机构化的病例为：“男子30岁，剧烈腹痛，血常规检验结果为血清淀粉酶偏高...”，将其进行向量化表示为(性别：男＝1)、(年龄＝30)、(腹痛＝1&程度重＝1)、(血常规：血清淀粉酶偏高＝1)...(...)，计算所述用户病例与每个疾病的相似度。

图4示出了本发明的第三实施例的，将所述稠密向量化表示输入到多层残差网络结构中，确定疾病相似度的具体流程示意图，具体地，包括如下步骤：

首先，所述步骤b包括：将所述稠密向量化表示输入到多层残差网络结构中，确定一个或多个所述稠密向量化表示所对应的一个或多个疾病相似度，本领域技术人员理解，将所述原始向量转换成稠密向量是将一些稀疏的向量转换为全局中有效隐含症状的向量表示，并将转换后的一个或多个稠密向量输入到预先构建好的诊断模型当中，对其进行模型训练，得到每个疾病对应的发生概率。

进入步骤S301，在对模型进行训练前，需要对一个或多个病例的集合进行数据清洗以及向量化处理，确定标准化的向量化数据集，其中，其中，是各个症状等分矢量X^o是所有分矢量的连接矢量(concatenate)，其中，在对模型进行训练前，需要先对获取的一个或多个病例信息进行数据清洗和向量化处理，首先对其进行数据筛选和清洗，去除重复数据、异常数据以及无用数据、无效数据等，精确地筛选出最需要的数据，从而得到关键数据，其次将所述一个或多个文本数据转换成向量，从而得到标准的输入和输出向量化数据库。

进一步地，所述数据清洗和结构化的过程中，使用其中，是各个症状等分矢量，而X^o是所有分矢量的连接矢量(concatenate)，使用上述公式对数据进行清洗转换，执行数据转换和清洗步骤，最终得到标准的输入输出向量化数据集。

然后，进入步骤S302，基于标准化的向量化数据集、Embedding以及残差网络预定义训练模型，本领域技术人员理解，将特征向量带入Embedding，所述特征向量经过Embedding模型后，将原始的稀疏向量，转换成一个稠密的向量表示，将所述原始向量转换成稠密向量是将一些稀疏的向量转换为全局中有效隐含症状的向量表示，并将转换后的一个或多个稠密向量输入到预先构建好的诊断模型当中，对其进行模型训练，得到每个疾病对应的发生概率。

进一步地，在所述步骤B中，所述Embedding基于如下公式运算：其中：W_J，b_j是Embedding操作权重和偏置参数，是输入的特征值，是第j个特征的Embedding结果(即分矢量)，本领域技术人员理解，在将所述一个或多个特征向量带入到Embedding中，利用公式，所述公式中W_J，b_j是Embedding操作权重和偏置参数，是输入的特征值，是第j个特征的Embedding结果(即分矢量)，使用上述公式对B步骤进行词嵌入。

进一步地，在所述步骤B中，所述残差网络基于如下公式运算：

X^O＝F(X^I，{W₀，W₁}，{b₀，b₁})+X^I，其中，X^I是输入向量，本发明只能够为输入用户的病例信息，F(*)表示对X^I做两层的神经网络计算，W_o，b_o和W₁，b₁分别是两层神经网络的参数，最后的结果(X^o)是神经网络的输出，同时加上X^I，本领域技术人员理解，在将Embedding结果输入到多层残差网络结构，得到隐含空间到隐含空间的映射，其中涉及到了公式X^O＝F(X^I，{W₀，W₁}，{b₀，b₁})+X^I，其中X¹为输入向量，F(X^I，{W_o，W₁}，{b_o，b₁})为X_I做两层的神经网络计算，W_o，b_o和W₁，b₁分别是两层神经网络的参数，最后的结果(X^o)是神经网络的输出，同时加上X^I，所述残差函数会计算隐含空间特征之间的深层交互性对于疾病分类的影响，所述公式用于将Embedding结果输入到多层残差网络结构，例如多个隐含特征同时出现时，哪些疾病的概率较大等等影响。

最后，进入步骤S303，基于损失函数优化所述训练模型，本领域技术人员理解，基于深度神经网络的方式，将输入的向量代入到预先定义的神经网络模型中，通过标准的反向传播算法，训练等到模型的参数结果集合。训练的过程就是使得上述的损失函数结果最小(最大似然)，其中上述损失函数为其中，p_i表示第i个样本的正类计算概率(0～1)，y_i表示第i个样本的实际结果(0|1)，N表示样本的个数，上述公式用于优化训练模型。

进一步地，在训练时，对所述训练模型进行了优化，具体地，所述训练模型具有一些缺点，例如数据集的不同疾病数据极度不平衡问题，针对此类问题，本发明中加入了考虑类权重的loss计算，具体地，不同疾病的每个病例，在计算误差时权重不一样，普通病权重小写，大病权重大些；此外，加入类平衡的训练数据采样计算(每个批次的训练数据都从全集中采样，最终普通病会做下采样，大病会做上采样)。

进一步地，所述步骤c通过如下两种方式实现：将所述稠密向量化表示在诊断模型中每个疾病的相似度输入到Softmax映射函数进行疾病概率归一化处理，其中，每个疾病概率相加为1，本领域技术人员理解，将所述残差网络结构的结果输入到softmax模块中，得到最后一层隐含空间到疾病空间的转换映射，得到当前病例的疾病概率向量，所述Softmax映射函数对所有疾病进行归一化。在实际应用中，由于同一个病例可能诊断为多个疾病，是一个多标签的分类结果。

进一步地，将所述稠密向量化表示在诊断模型中每个疾病的相似度输入到sigmod中，分别得到每个疾病的概率，本领域技术人员理解，将所述残差网络结构的结果输入到sigmod模块中，分别计算每个疾病的概率，不做全局归一化处理。

进一步地，所述稠密向量化表示在诊断模型中计算疾病概率时可按照场景选择使用，网络结构保持不变。

在一个优选地实施例中，在读取用户的病例信息后，将其转换为特征向量，并经过Embedding模型，将原始稀疏的向量转换成多个稠密向量表示，在向量拥有全部症状的前提下保留有区分性的隐含症状，并将Embedding结果输入到残差网络结构中，得到隐含空间到隐含空间的映射，由此发现，所述用户的病例相似于多种疾病，并使用sigmod模块对其进行计算，分别所计算每个疾病的概率，最终提取目标结果。

图5示出了本发明的另一具体实施方式的，一种基于特征向量实现疾病预测的控制装置的模块连接示意图，本领域技术人员理解，本发明提供了一种基于特征向量实现疾病预测的控制装置,其通过整合用户的一个或多个病例信息，确定与用户病例信息相匹配的每个疾病的概率，包括：第一处理装置：基于Embedding模型，将一个或多个原始向量化表示转换为稠密向量化表示,将文本数据转换成计算机能识别的数据，解析出每个词和它所对应的词向量，进行向量化表示后，利用Embedding模型，将所述一个或多个向量矩阵加载到Embedding层中，所述一个或多个特征向量经过Embedding模型,将原始的稀疏向量，转换成一个稠密的向量表示，其目的是为了降低特征维数。具体地，在进行稠密向量划表示后，可以用计算向量之间相似度的方法(如余弦相似度)，来计算语义的相似度。具体地，所述一个或多个原始的稀疏向量，转换成一个或多个稠密的向量表示，这个过程中，不仅仅考虑到原始向量的特征，而是对隐含空间的特征进行了分析，所述第一处理装置与所述第一确定装置及第三确定装置进行连接。

进一步地，第一确定装置：基于诊断模型将所述稠密向量化表示作为输入，确定所述稠密向量化表示在诊断模型中每个疾病的相似度，将所述原始向量转换成稠密向量是将一些稀疏的向量转换为全局中有效隐含症状的向量表示，并将转换后的一个或多个稠密向量输入到预先构建好的诊断模型当中，对其进行模型训练，得到每个疾病对应的发生概率，所述第一确定装置包括第一获取装置、第三处理装置和第四处理装置，并与第一处理装置及第二确定装置连接。

进一步地，第二确定装置：基于所述稠密向量化表示在诊断模型中每个疾病的相似度，确定与所述稠密向量化表示匹配度最高的疾病类型，在将原始向量表示成稠密向量后，输入到诊断模型中，并对比所述稠密向量与诊断模型中每个疾病的相似度，最终确定与所述向量相似度最高的疾病，所述第二确定装置与第一确定装置连接。

进一步地，在所述第一处理装置之前，还包括第三确定装置：确定用户的一个或多个病例信息的一个或多个原始向量化表示，在对所述一个或多个原始向量转换成稠密向量之前，需要先确定用户的所述一个或多个病例信息，具体地，所述用户病例信息包括但不限于病人症状、检查结果以及其他资料等，在确定好用户的病例信息后，基于用户所述的一个或多个病例信息进行向量化处理，将文本数据转换成数值向量，简单来说，就是将文本数据转换为深度神经网络能够理解的数值形式，以便进行向量空间中的向量运算，从而计算出向量空间上的相似度，所述第三确定装置包括第四确定装置、第五确定装置及第二处理装置，并连接第一处理装置。

进一步地，所述第三确定装置包括：第四确定装置：对用户病例信息中的非结构化数据信息进行向量化处理，并确定一个或多个第一向量化表示，其中，所述非结构化数据信息包括用户主诉、病史信息、影像检查信息，将确定的用户一个或多个病例信息中的非结构数据信息进行结构化操作，将文字转换成可进行计算的向量方式，并将向量进行向量化表示，从而确定用户的一个或多个第一向量化表示,所述第四确定装置连接第五确定装置。

进一步地，第五确定装置：对用户病例信息中的结构化数据信息进行向量化处理，并确定一个或多个第二向量化表示，其中，所述结构化数据信息至少包括设备检验数据，将已经转换成向量的一个或多个结构化数据直接进行向量化处理，转换成稠密向量，并将转换后的一个或多个稠密向量直接作为第二向量化表示，最终确定一个或多个第二向量化表示，所述第五确定装置与所述第四确定装置及第二处理装置连接。

进一步地，第二处理装置：将所述第一向量化表示以及所述第二向量化表示作为原始向量化表示，将从非结构化数据中转换而成的一个或多个第一向量化表示和从结构化数据中转换而成的一个或多个第二向量化表示直接进行转换，转换成原始向量化表示，得到一个或多个原始向量化表示，从而形成矢量集合，其中，将所述第一向量化表示以及所述第二向量化的向量结构进行连接，从而表示成一个超长的向量，能够涵盖当前病例的相关信息，所述第二处理装置连接第五确定装置。

进一步地，所述第一确定装置包括：将所述稠密向量化表示输入到多层残差网络结构中，确定一个或多个所述稠密向量化表示所对应的一个或多个疾病相似度。

进一步地，在所述第一确定装置中，所述诊断模型通过如下装置获取：第一获取装置：对一个或多个病例的集合进行数据清洗以及向量化处理，确定标准化的向量化数据集，其中，其中，是各个症状等分矢量；X^o是所有分矢量的连接矢量(concatenate)，在对模型进行训练前，需要先对获取的一个或多个病例信息进行数据清洗和向量化处理，首先对其进行数据筛选和清洗，去除重复数据、异常数据以及无用数据、无效数据等，精确地筛选出最需要的数据，从而得到关键数据，其次将所述一个或多个文本数据转换成向量，从而得到标准的输入和输出向量化数据库，所述第一获取装置与所述第三处理装置、第四处理装置连接。

进一步地，第三处理装置：基于标准化的向量化数据集、Embedding以及残差网络预定义训练模型，将特征向量带入Embedding，所述特征向量经过Embedding模型后，将原始的稀疏向量，转换成一个稠密的向量表示，并将Embedding的结果输入到多层残差网络结构(ResNet)，得到隐含空间到隐含空间的映射，所述第三处理装置与所述第一获取装置、第四处理装置连接。

进一步地，第四处理装置：基于损失函数优化所述训练模型，基于深度神经网络的方式，将输入输出代入到预先定义的神经网络模型中，通过标准的反向传播算法，训练等到模型的参数结果集合。训练的过程就是使得上述的损失函数结果最小(最大似然)，其中上述损失函数为其中，p_i表示第i个样本的正类计算概率(0～1)，y_i表示第i个样本的实际结果(0|1)，N表示样本的个数，所述第四处理装置与所述第三处理装置连接。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于特征向量实现疾病预测的控制方法，其通过整合用户的一个或多个病例信息，确定与用户病例信息相匹配的每个疾病的概率，其特征在于，包括如下步骤：

2.根据权利要求1所述的控制方法，其特征在于，在所述步骤a之前，还包括步骤i：确定用户的一个或多个病例信息的一个或多个原始向量化表示。

3.根据权利要求2所述的控制方法，其特征在于，所述步骤i包括如下步骤：

4.根据权利要求1所述的控制方法，其特征在于，所述步骤b包括：将所述稠密向量化表示输入到多层残差网络结构中，确定一个或多个所述稠密向量化表示所对应的一个或多个疾病相似度；

5.根据权利要求4所述的控制方法，其特征在于，在所述步骤b中，所述诊断模型通过如下步骤获取：

是各个症状等分矢量；

X^o是所有分矢量的连接矢量；

C.基于损失函数优化所述训练模型。

6.根据权利要求1所述的控制方法，其特征在于，在所述步骤B中，所述Embedding基于如下公式运算：

其中：

W_J，b_j是Embedding操作权重和偏置参数；

是输入的特征值；

是第j个特征的Embedding结果。

7.根据权利要求6所述的控制方法，其特征在于，在所述步骤B中，所述残差网络基于如下公式运算：

X^O＝F(X^I，{W₀，W₁}，{b₀，b₁})+X^I，其中，

X^I是输入向量；

W_o，b_o和W₁，b₁分别是两层神经网络的参数；

运算结果(X^o)是神经网络的输出，同时加上X^I。

8.根据权利要求6所述的控制方法，其特征在于，在所述步骤C中，所述损失函数通过如下公式计算：

其中，

p_i表示第i个样本的正类计算概率(0～1)；

y_i表示第i个样本的实际结果(0|1)；

N表示样本的个数。

9.根据权利要求6所述的控制方法，其特征在于，所述步骤c通过如下两种方式实现：

10.一种基于特征向量实现疾病预测的控制装置，其通过整合用户的一个或多个病例信息，确定与用户病例信息相匹配的每个疾病的概率，其特征在于，包括：

11.根据权利要求10所述的控制装置，其特征在于，在所述第一处理装置之前，还包括第三确定装置：确定用户的一个或多个病例信息的一个或多个原始向量化表示。

12.根据权利要求11所述的控制装置，其特征在于，所述第三确定装置包括：

13.根据权利要求12所述的控制装置，其特征在于，所述第一确定装置包括：将所述稠密向量化表示输入到多层残差网络结构中，确定一个或多个所述稠密向量化表示所对应的一个或多个疾病相似度；

14.根据权利要求13所述的控制装置，其特征在于，在所述第一确定装置中，所述诊断模型通过如下装置获取：

是各个症状等分矢量；

X^o是所有分矢量的连接矢量；

第四处理装置：基于损失函数优化所述训练模型。