本申请要求在2018年3月30日提交中华人民共和国知识产权局、申请号为201810276504.4、发明名称为“一种哮喘概率的确定方法及装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
发明内容
本发明实施例提供一种哮喘概率的确定方法及装置,用以基于全面获得的诊断信息实现哮喘诊断,提高哮喘诊断的准确性。
本发明实施例提供的一种哮喘概率的确定方法,包括:
从就诊信息中提取患者的多个预设特征的特征值;
对所述多个特征值进行预处理,确定出所述患者的特征向量;
所述特征向量通过第一神经网络模型的处理,确定出所述特征向量对应的置信度;所述第一神经网络模型为通过对哮喘患者训练集学习生成的;
根据所述特征向量对应的置信度,确定出所述患者的哮喘概率。
基于从患者就诊信息中提取的预设特征,使用对哮喘患者训练集学习生成的第一神经网络模型进行处理,可以快速得到患者的哮喘概率,提高了哮喘诊断的效率和准确性,降低了医生诊断的难度。
可选的,所述对所述多个特征值进行预处理,确定出所述患者的特征向量,包括:
将所述多个特征值进行归一化处理,确定出所述患者的特征向量。
对预设特征的特征值进行归一化处理,可以实现特征值的统一规范化,便于形成特征向量。
可选的,所述第一神经网络模型由下述步骤确定:
对所述哮喘患者训练集中各历史就诊信息进行预处理,提出各历史就诊信息对应的特征向量;
将所述各历史就诊信息对应的特征向量输入到预设的神经网络模型进行学习,得到各历史就诊信息对应的置信度;
根据所述各历史就诊信息对应的置信度和所述各历史就诊信息对应的哮喘概率,进行反向训练,生成所述第一神经网络模型。
使用预设的神经网络模型对历史就诊新进行学习训练,可以得到第一神经网络模型,以提高确定哮喘概率的效率。
可选的,所述根据所述各历史就诊信息对应的置信度和所述各历史就诊信息对应的哮喘概率,进行反向训练,生成所述第一神经网络模型,包括:
根据所述各历史就诊信息对应的置信度与所述各历史就诊信息对应的哮喘概率的差值,使用反向传播的方法进行多次训练,每次训练的学习率按预设比例进行衰减,直到所述各历史就诊信息对应的置信度与所述各历史就诊信息对应的哮喘概率的差值达到预设值为止,生成所述第一神经网络模型。
通过置信度与历史就诊信息对应的哮喘概率的对比,可以准确的调整第一神经网络模型的参数,提高生成的第一神经网络模型的准确度。
可选的,所述生成所述第一神经网络模型之后,还包括:
对所述各历史就诊信息对应的置信度进行排序,统计所述置信度的各分数段对应的哮喘概率,生成所述置信度的各分数段与哮喘概率的对应关系;
所述根据所述特征向量对应的置信度,确定出所述患者的哮喘概率,包括:
根据所述特征向量对应的置信度,查找所述置信度的各分数段与哮喘概率的对应关系,确定出所述患者的哮喘概率。
通过置信度的各分数段与哮喘概率的对应关系,可以将第一神经网络模型输出的置信度转换为患者的哮喘概率,提高了数据的使用效果。
可选的,所述预设特征包括下述特征任意组合:
性别、年龄、体重、身高、首次喘息年龄、喘息频率、是否有哮鸣音、诱因、是否有鼻炎史、是否有皮炎/湿疹史、哮喘家族史、鼻炎家族史。
相应的,本发明实施例还提供一种哮喘概率的确定装置,包括:
提取单元,用于从就诊信息中提取患者的多个预设特征的特征值;
预处理单元,用于对所述多个特征值进行预处理,确定出所述患者的特征向量;
确定单元,用于所述特征向量通过第一神经网络模型的处理,确定出所述特征向量对应的置信度;所述第一神经网络模型为通过对哮喘患者训练集学习生成的;以及根据所述特征向量对应的置信度,确定出所述患者的哮喘概率。
可选的,所述预处理单元具体用于:
将所述多个特征值进行归一化处理,确定出所述患者的特征向量。
可选的,所述确定单元具体用于:
对所述哮喘患者训练集中各历史就诊信息进行预处理,提出各历史就诊信息对应的特征向量;
将所述各历史就诊信息对应的特征向量输入到预设的神经网络模型进行学习,得到各历史就诊信息对应的置信度;
根据所述各历史就诊信息对应的置信度和所述各历史就诊信息对应的哮喘概率,进行反向训练,生成所述第一神经网络模型。
可选的,所述确定单元具体用于:
根据所述各历史就诊信息对应的置信度与所述各历史就诊信息对应的哮喘概率的差值,使用反向传播的方法进行多次训练,每次训练的学习率按预设比例进行衰减,直到所述各历史就诊信息对应的置信度与所述各历史就诊信息对应的哮喘概率的差值达到预设值为止,生成所述第一神经网络模型。
可选的,所述确定单元还用于:
所述生成所述第一神经网络模型之后,对所述各历史就诊信息对应的置信度进行排序,统计所述置信度的各分数段对应的哮喘概率,生成所述置信度的各分数段与哮喘概率的对应关系;
所述根据所述特征向量对应的置信度,确定出所述患者的哮喘概率,包括:
根据所述特征向量对应的置信度,查找所述置信度的各分数段与哮喘概率的对应关系,确定出所述患者的哮喘概率。
可选的,所述预设特征包括下述特征任意组合:
性别、年龄、体重、身高、首次喘息年龄、喘息频率、是否有哮鸣音、诱因、是否有鼻炎史、是否有皮炎/湿疹史、哮喘家族史、鼻炎家族史。
相应的,本发明实施例还提供一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述哮喘概率的确定方法。
相应的,本发明实施例还提供一种计算机可读非易失性存储介质,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行上述哮喘概率的确定方法。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明实施例提供的哮喘概率的确定方法所适用的系统架构。参考图1所示,该系统架构可以为服务器100,包括处理器110、通信接口120和存储器130。
其中,通信接口120用于医生适用的终端设备进行通信,收发该终端设备传输的信息,实现通信。
处理器110是服务器100的控制中心,利用各种接口和线路连接整个服务器100的各个部分,通过运行或执行存储在存储器130内的软件程序/或模块,以及调用存储在存储器130内的数据,执行服务器100的各种功能和处理数据。可选地,处理器110可以包括一个或多个处理单元。
存储器130可用于存储软件程序以及模块,处理器110通过运行存储在存储器130的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器130可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据业务处理所创建的数据等。此外,存储器130可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
需要说明的是,上述图1所示的结构仅是一种示例,本发明实施例对此不做限定。
基于上述描述,图2示例性的示出了本发明实施例提供的一种哮喘概率的确定流程,该流程可以由哮喘概率的确定装置执行。
结合图和图2所示,该流程具体包括:
步骤201,从就诊信息中提取患者的多个预设特征的特征值。
该就诊信息可以是患者的病历本记录的,也就是医生询问病人后录入系统的信息,其可以是历史的,也是可以是医生现场询问后输入的,本发明实施例对此不做限制。处理器110可以控制通信接口120获取患者的就诊信息。
该预设特征包括以下特征任意组合:性别、年龄、体重、身高、首次喘息年龄、喘息频率、是否有哮鸣音、诱因、是否有鼻炎史、是否有皮炎/湿疹史、哮喘家族史、鼻炎家族史。上述处理器110可以从就诊信息中提取出这些预设特征,并得到对应的特征值。例如,性别:男;年龄:10;是否有哮鸣音:是等特征信息。
步骤202,对所述多个特征值进行预处理,确定出所述患者的特征向量。
处理器110在提取出多个预设特征对应的特征值之后,需要对这些特征值进行预处理,以实现数据统一规范化,从而可以确定出患者的特征向量,也可以说是就诊信息对应的特征向量。具体实现时,可以将多个特征值进行归一化处理,来得到患者的特征向量。该特征向量的维度与预设特征的数量有关,一般是有多少预设特征,就可以确定出多少维的特征向量。
例如,对于性别项,男为1,女为-1。对于是否有哮鸣音/诱因/鼻炎史/皮炎史/湿疹史/哮喘家族史/鼻炎家族史几项,有为1,没有设为-1。对于体重,年龄,身高,首次喘息年龄,喘息频率。可以按照训练样本集中对应项的平均值η和标准差σ,将[η-3σ,η+3σ]的值线性归一化到[-1,1]间。小于η-3σ的项计作-1,大于η-3σ的项计作1。如果就诊信息有缺少的项,可以记为0。通过上述方法就可以将预设特征的特征值归一化处理,实现了数据的统一,并减小了数据计算量。
步骤203,所述特征向量通过第一神经网络模型的处理,确定出所述特征向量对应的置信度。
该第一神经网络模型为通过对哮喘患者训练集学习生成的,具体可以为:首先处理器110需要对获得的哮喘患者训练集中的各历史就诊信息进行预处理,提出各历史就诊信息对应的特征向量。该哮喘患者训练集是从多家医院获取的,数据源比较大,这样通过神经网络的学习比较全面。具体的预处理方式可以参照步骤202中描述的预处理方式,不再赘述。
然后处理器110将该各历史就诊信息对应的特征向量输入到预设的神经网络模型进行学习,得到各历史就诊信息对应的置信度。具体的,首先将各历史就诊信息对应的特征向量传入一有两层隐藏层的神经网络,其中隐藏层的神经元数可以依据经验进行设置,比如可以为512。在第二个隐藏层计算完成后,跟随一个一层的dropout(丢弃)层,dropout层在训练过程中50%的概率随机将一些传入的值归零。通过前述层的计算,最后通过目标函数得到计算结果,该结果为表示是是哮喘的置信度p1和不是哮喘的置信度p0,当前p1>p0时,输出是哮喘,反之输出不是哮喘,并输出结论的置信度,其中可以根据置信度=|(p1-p0)×2|×100%来得到最终的各历史就诊信息对应的置信度。该目标函数可以为softmax。
最后处理器110根据各历史就诊信息对应的置信度和各历史就诊信息对应的哮喘概率,进行反向训练,生成所述第一神经网络模型。具体可以为:根据各历史就诊信息对应的置信度与各历史就诊信息对应的哮喘概率的差值,使用反向传播的方法进行多次训练,每次训练的学习率按预设比例进行衰减,直到各历史就诊信息对应的置信度与各历史就诊信息对应的哮喘概率的差值达到预设值为止,生成所述第一神经网络模型。该预设比例以及预设值可以依据经验进行设置。各历史就诊信息对应的哮喘概率是通过多名医生独立对各历史就诊信息进行诊断,并将诊断结论认为是哮喘的人数除以参与诊断的总人数,作为此历史就诊信息对应的哮喘概率,例如,将各历史就诊信息与其对应的哮喘概率进行比较,将差值作为loss,然后根据这个差值,使用反向传播的方法进行训练,训练的优化方式为随机梯度下降(Stochastic gradient descent,SGD)算法。学习率初始设为0.1,每隔一个epoch学习率衰减15%。共训练10个epoch。训练10次之后就生成一个准确度很高的第一神经网络模型。
在得到第一神经网络模型之后,处理器110使用该第一神经网络模型对特征向量进行处理,由于第一神经网络模型是已经学习好的,这样可以快速的得输入的特征向量对应的置信度。
此外,在生成上述第一神经网络模型之后,还需要对各历史就诊信息对应的置信度进行排序,统计出置信度的各分数段对应的哮喘概率,生成置信度的各分数段与哮喘概率的对应关系。该对应关系用于确定患者的哮喘概率。
可选的,上述第一神经网络模型和置信度各分数段与哮喘概率的对应关系,可以存储在存储器130中。
步骤204,根据所述特征向量对应的置信度,确定出所述患者的哮喘概率。
处理器110可以依据特征向量对应的置信度,可以查找存储器130存储的置信度的各分数段与哮喘概率的对应关系,从而确定出患者的哮喘概率。
现有诊断标准基本是打分制,或者特征查表……使用的病症少,计算不精确,判断准确度较低。通过大批就诊信息样本的交叉验证,32111量表AUC只有0.687,逐步回归变量法只有0.703,基于德尔菲法的《6岁下儿童哮喘诊断指标体系》指南上,AUC只有0.781,这是现有报告中性能最好的方案了。
而本发明实施例所提供的方案在大量就诊信息样本的交叉验证下,可以达到AUC0.846的性能。同时现有方案完全依赖人为操作,受医生主观因素影响较大。本方案可自动完成,速度快,效率高。
上述实施例表明,通过从就诊信息中提取患者的多个预设特征的特征值;对多个特征值进行预处理,确定出患者的特征向量,特征向量通过第一神经网络模型的处理,确定出特征向量对应的置信度,其中,第一神经网络模型为通过对哮喘患者训练集学习生成的,根据特征向量对应的置信度,确定出所述患者的哮喘概率。基于从患者就诊信息中提取的预设特征,使用对哮喘患者训练集学习生成的第一神经网络模型进行处理,可以快速得到患者的哮喘概率,提高了哮喘诊断的效率和准确性,降低了医生诊断的难度。
基于相同的技术构思,图3示例性的示出了本发明实施例提供的一种哮喘概率的确定装置30的结构,该装置30可以执行哮喘概率的确定流程,包括:
提取单元301,用于从就诊信息中提取患者的多个预设特征的特征值;
预处理单元302,用于对所述多个特征值进行预处理,确定出所述患者的特征向量;
确定单元303,用于所述特征向量通过第一神经网络模型的处理,确定出所述特征向量对应的置信度;所述第一神经网络模型为通过对哮喘患者训练集学习生成的;以及根据所述特征向量对应的置信度,确定出所述患者的哮喘概率。
可选的,所述预处理单元302具体用于:
将所述多个特征值进行归一化处理,确定出所述患者的特征向量。
可选的,所述确定单元303具体用于:
对所述哮喘患者训练集中各历史就诊信息进行预处理,提出各历史就诊信息对应的特征向量;
将所述各历史就诊信息对应的特征向量输入到预设的神经网络模型进行学习,得到各历史就诊信息对应的置信度;
根据所述各历史就诊信息对应的置信度和所述各历史就诊信息对应的哮喘概率,进行反向训练,生成所述第一神经网络模型。
可选的,所述确定单元303具体用于:
根据所述各历史就诊信息对应的置信度与所述各历史就诊信息对应的哮喘概率的差值,使用反向传播的方法进行多次训练,每次训练的学习率按预设比例进行衰减,直到所述各历史就诊信息对应的置信度与所述各历史就诊信息对应的哮喘概率的差值达到预设值为止,生成所述第一神经网络模型。
可选的,所述确定单元303还用于:
所述生成所述第一神经网络模型之后,对所述各历史就诊信息对应的置信度进行排序,统计所述置信度的各分数段对应的哮喘概率,生成所述置信度的各分数段与哮喘概率的对应关系;
根据所述特征向量对应的置信度,查找所述置信度的各分数段与哮喘概率的对应关系,确定出所述患者的哮喘概率。
可选的,所述预设特征包括下述特征任意组合:
性别、年龄、体重、身高、首次喘息年龄、喘息频率、是否有哮鸣音、诱因、是否有鼻炎史、是否有皮炎/湿疹史、哮喘家族史、鼻炎家族史。
基于相同的技术构思,本发明实施例还提供了一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述哮喘概率的确定方法。
基于相同的技术构思,本发明实施例还提供了一种计算机可读非易失性存储介质,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行上述哮喘概率的确定方法。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。