诊断预测方法、相关设备及可读存储介质
技术领域
本申请涉及计算机技术领域,更具体的说,是涉及一种诊断预测方法、相关设备及可读存储介质。
背景技术
基于疾病诊断预测技术得到的候选疾病对医生的诊断来说,起着辅助性作用。目前,多基于病历内容(比如,症状描述、历史就诊记录等)进行疾病诊断预测,将与病历内容匹配的疾病作为候选疾病。但是,许多病历(比如,临床病历、门诊病历)的内容描述不够细致,很可能会出现多个候选疾病,多个候选疾病均与病历内容匹配,且匹配度仅有细微差别,因此,不能为医生带来很好的辅助诊断效果。
因此,如何提供一种优化的诊断预测方法,成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于上述问题,本申请提出了一种诊断预测方法、相关设备及可读存储介质。具体方案如下:
一种诊断预测方法,包括:
获取待进行诊断预测的病历;
获取所述病历对应的初始诊断预测结果;所述初始诊断预测结果中包括多个疾病;
对所述多个疾病进行分组,得到所述病历对应的最终诊断预测结果;所述最终诊断预测结果中包括至少一个分组,每个分组中包括所述多个疾病中相似的至少一个疾病。
可选地,所述对所述多个疾病进行分组,得到所述病历对应的最终诊断预测结果,包括:
基于预置疾病组,对所述多个疾病进行分组,得到至少一个初始分组,每个初始分组中包括所述多个疾病中相似的一组疾病;
针对每个初始分组,对所述初始分组中包括的疾病进行筛选,得到所述初始分组对应的最终分组,各个最终分组组成所述最终诊断预测结果。
可选地,所述预置疾病组是采用如下方式确定的:
获取预置病历集合;
针对所述预置病历集合中的每个疾病,确定所述疾病的症状分布向量,所述症状分布向量用于表示所述疾病对应症状的分布情况;
根据所述预置病历集合中各个疾病的症状分布向量,对所述预置病历集合中的各个疾病进行聚类,得到预置疾病组。
可选地,所述针对所述预置病历集合中的每个疾病,确定所述疾病的症状分布向量,包括:
获取所述预置病历集合中出现的各个症状词;
针对所述各个症状词中的每个症状词,确定所述疾病与所述症状词的共现频次;
基于所述疾病与所述各个症状词的共现频次,确定所述疾病的症状分布向量。
可选地,所述根据所述预置病历集合中各个疾病的症状分布向量,对所述预置病历集合中的各个疾病进行聚类,得到预置疾病组,包括:
将所述预置病历集合中各个疾病进行两两组合,得到多个疾病对;
针对每个疾病对,根据所述疾病对中每个疾病对应的症状分布向量,计算所述疾病对的相似度;
根据所述预置病历集合中各个疾病对的相似度,对所述预置病历集合中的各个疾病进行聚类,得到预置疾病组。
可选地,所述根据所述预置病历集合中各个疾病对的相似度,对所述预置病历集合中的各个疾病进行聚类,得到预置疾病组,包括:
根据所述预置病历集合中各个疾病对的相似度,对所述预置病历集合中的各个疾病进行聚类,得到多组疾病组;
针对每组疾病组,确定用于表示该组疾病组的分组合理程度的分值;
确定用于表示该组疾病组的分组合理程度的分值最高的一组疾病组,为所述预置疾病组。
可选地,所述针对每组疾病组,确定用于表示该组疾病组的分组合理程度的分值,包括:
确定该组疾病组对应的第一类疾病的数量、该组疾病组对应的第二类疾病的数量以及用于指示该组疾病组分组纯度的分值;所述第一类疾病为疾病严重程度或疾病分期角度不合理的疾病,所述第二类疾病为疾病上下位角度不合理的疾病;
根据该组疾病组对应的第一类疾病的数量、该组疾病组对应的第二类疾病的数量以及所述用于指示该组疾病组分组纯度的分值,确定用于表示该组疾病组的分组合理程度的分值。
可选地,所述针对每个初始分组,对所述初始分组中包括的疾病进行筛选,得到所述初始分组对应的最终分组,包括:
针对所述初始分组中每个疾病,确定用于表示所述疾病的特性的分值;并根据所述病历对应的初始诊断预测结果,以及,用于表示所述疾病的特性的分值,确定所述疾病的最终预测得分;
基于各个用于表示疾病的特性的分值,以及,各个疾病的最终预测得分,对所述初始分组中包括的疾病进行筛选,得到所述初始分组对应的最终分组。
可选地,所述基于各个用于表示疾病的特性的分值,以及,各个疾病的最终预测得分,对所述初始分组中包括的疾病进行筛选,得到所述初始分组对应的最终分组,包括:
将所述初始分组中的用于表示疾病的特性的分值最高,和/或,疾病的最终预测得分最高的疾病保留,得到所述初始分组对应的最终分组。
可选地,所述确定用于表示所述疾病的特性的分值,包括:
确定用于表示所述疾病罕见水平的分值、用于表示所述疾病可介入程度的分值、用于表示所述疾病病情发展速率的分值以及用于表示所述疾病损害身体的性质的分值中的至少一种。
可选地,确定用于表示所述疾病罕见水平的分值,包括:
基于预置病历集合,判断所述疾病是否为疑似罕见疾病,得到第一判断结果;
确定所述疾病的确诊医院等级;
基于所述第一判断结果,以及所述疾病的确诊医院等级,确定用于表示所述疾病罕见水平的分值。
可选地,确定用于表示所述疾病可介入程度的分值,包括:
获取预置病历集合中对应所述疾病的第一病历子集;
从所述第一病历子集中确定包含介入治疗记录的第二病历子集;
从所述第二病历子集中确定介入治疗后好转的第三病历子集;
基于所述第一病历子集、所述第二病历子集以及所述第三病历子集,确定用于表示所述疾病可介入程度的分值。
可选地,确定用于表示所述疾病病情发展速率的分值,包括:
确定所述疾病可能演化成的目标疾病;
针对每个目标疾病,从预置病历集合中确定所述疾病演化成所述目标疾病的案例;
基于所述疾病演化成各个目标疾病的案例,确定用于表示所述疾病病情发展速率的分值。
可选地,确定用于表示所述疾病损害身体的性质的分值,包括:
判断所述疾病是器质性疾病还是功能性疾病,得到第二判定结果;
基于所述第二判断结果,确定用于表示所述疾病损害身体的性质的分值。
一种诊断预测装置,包括:
病历获取单元,用于获取待进行诊断预测的病历;
初始诊断预测结果获取单元,用于获取所述病历对应的初始诊断预测结果;所述初始诊断预测结果中包括多个疾病;
最终诊断预测结果确定单元,用于对所述多个疾病进行分组,得到所述病历对应的最终诊断预测结果;所述最终诊断预测结果中包括至少一个分组,每个分组中包括所述多个疾病中相似的至少一个疾病。
可选地,所述最终诊断预测结果确定单元,包括:
分组单元,用于基于预置疾病组,对所述多个疾病进行分组,得到至少一个初始分组,每个初始分组中包括所述多个疾病中相似的一组疾病;
筛选单元,用于针对每个初始分组,对所述初始分组中包括的疾病进行筛选,得到所述初始分组对应的最终分组,各个最终分组组成所述最终诊断预测结果。
可选地,所述装置还包括:
预置疾病组确定单元;
所述预置疾病组确定单元包括:
预置病历集合获取单元,用于获取预置病历集合;
症状分布向量确定单元,用于针对所述预置病历集合中的每个疾病,确定所述疾病的症状分布向量,所述症状分布向量用于表示所述疾病对应症状的分布情况;
聚类单元,用于根据所述预置病历集合中各个疾病的症状分布向量,对所述预置病历集合中的各个疾病进行聚类,得到预置疾病组。
可选地,所述症状分布向量确定单元,包括:
症状词获取单元,用于获取所述预置病历集合中出现的各个症状词;
共现频次确定单元,用于针对所述各个症状词中的每个症状词,确定所述疾病与所述症状词的共现频次;
症状分布向量确定子单元,用于基于所述疾病与所述各个症状词的共现频次,确定所述疾病的症状分布向量。
可选地,所述聚类单元,包括:
疾病对确定单元,用于将所述预置病历集合中各个疾病进行两两组合,得到多个疾病对;
疾病对相似度确定单元,用于针对每个疾病对,根据所述疾病对中每个疾病对应的症状分布向量,计算所述疾病对的相似度;
聚类子单元,用于根据所述预置病历集合中各个疾病对的相似度,对所述预置病历集合中的各个疾病进行聚类,得到预置疾病组。
可选地,所述聚类子单元,包括:
多组疾病组确定单元:用于根据所述预置病历集合中各个疾病对的相似度,对所述预置病历集合中的各个疾病进行聚类,得到多组疾病组;
分值确定单元,用于针对每组疾病组,确定用于表示该组疾病组的分组合理程度的分值;
预置疾病组确定单元,用于确定用于表示该组疾病组的分组合理程度的分值最高的一组疾病组,为所述预置疾病组。
可选地,所述分值确定单元,具体用于:
确定该组疾病组对应的第一类疾病的数量、该组疾病组对应的第二类疾病的数量以及用于指示该组疾病组分组纯度的分值;所述第一类疾病为疾病严重程度或疾病分期角度不合理的疾病,所述第二类疾病为疾病上下位角度不合理的疾病;根据该组疾病组对应的第一类疾病的数量、该组疾病组对应的第二类疾病的数量以及所述用于指示该组疾病组分组纯度的分值,确定用于表示该组疾病组的分组合理程度的分值。
可选地,所述筛选单元,包括:
参数确定单元:用于针对所述初始分组中每个疾病,确定用于表示所述疾病的特性的分值;并根据所述病历对应的初始诊断预测结果,以及,用于表示所述疾病的特性的分值,确定所述疾病的最终预测得分;
筛选子单元,用于基于各个用于表示疾病的特性的分值,以及,各个疾病的最终预测得分,对所述初始分组中包括的疾病进行筛选,得到所述初始分组对应的最终分组。
可选地,所述筛选子单元,具体用于:
将所述初始分组中的用于表示疾病的特性的分值最高,和/或,疾病的最终预测得分最高的疾病保留,得到所述初始分组对应的最终分组。
可选地,所述参数确定单元具体包括:
第一分值确定单元、第二分值确定单元、第三分值确定单元以及第四分值确定单元中的至少一种;
所述第一分值确定单元,用于确定用于表示所述疾病罕见水平的分值;
所述第二分值确定单元,用于确定用于表示所述疾病可介入程度的分值;
所述第三分值确定单元,用于确定用于表示所述疾病病情发展速率的分值;
所述第四分值确定单元,用于确定用于表示所述疾病损害身体的性质的分值。
可选地,第一分值确定单元,具体用于:
基于预置病历集合,判断所述疾病是否为疑似罕见疾病,得到第一判断结果;
确定所述疾病的确诊医院等级;
基于所述第一判断结果,以及所述疾病的确诊医院等级,确定用于表示所述疾病罕见水平的分值。
可选地,第二分值确定单元,具体用于:
获取预置病历集合中对应所述疾病的第一病历子集;
从所述第一病历子集中确定包含介入治疗记录的第二病历子集;
从所述第二病历子集中确定介入治疗后好转的第三病历子集;
基于所述第一病历子集、所述第二病历子集以及所述第三病历子集,确定用于表示所述疾病可介入程度的分值。
可选地,第三分值确定单元,具体用于:
确定所述疾病可能演化成的目标疾病;
针对每个目标疾病,从预置病历集合中确定所述疾病演化成所述目标疾病的案例;
基于所述疾病演化成各个目标疾病的案例,确定用于表示所述疾病病情发展速率的分值。
可选地,第四分值确定单元,具体用于:
判断所述疾病是器质性疾病还是功能性疾病,得到第二判定结果;
基于所述第二判断结果,确定用于表示所述疾病损害身体的性质的分值。
一种诊断预测设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的诊断预测方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的诊断预测方法的各个步骤。
借由上述技术方案,本申请公开了一种诊断预测方法、相关设备及可读存储介质,基于上述技术方案,对待进行诊断预测的病历,先获取该病历对应的初始诊断预测结果,进一步对初始诊断预测结果中的多个疾病进行分组,得到该病历对应的最终诊断结果。由于最终诊断结果中包括至少一个分组,每个分组中包括上述多个疾病中的相似至少一个疾病,其相对于初始诊断预测结果来说,分组呈现,使医生对诊断预测结果能够一目了然,因此,最终诊断预测结果相对于初始诊断预测结果,提升了对医生的辅助诊断效果。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例公开的诊断预测方法的流程示意图;
图2为本申请实施例公开的一种诊断预测装置结构示意图;
图3为本申请实施例公开的一种诊断预测设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
接下来,通过下述实施例对本申请提供的诊断预测方法进行介绍。
参照图1,图1为本申请实施例公开的诊断预测方法的流程示意图,该方法可以包括:
步骤S101:获取待进行诊断预测的病历。
在本申请中,待进行诊断预测的病历可以为任意临床病历,比如,门诊病历、住院病历等。
步骤S102:获取所述病历对应的初始诊断预测结果;所述初始诊断预测结果中包括多个疾病。
在本申请中,作为一种可实施方式,在获取待进行诊断预测的病历之后,可基于所述待进行诊断预测的病历的内容,确定所述病历对应的初始诊断预测结果。作为另一种可实施方式,可以预先基于所述待进行诊断预测的病历的内容,确定所述病历对应的初始诊断预测结果,并进行存储。在获取待进行诊断预测的病历之后,获取已存储的所述病历对应的初始诊断预测结果。
需要说明的是,本申请的方案针对的是初始诊断预测结果中包括多个疾病的情况,对于初始诊断预测结果中包括一个疾病的情况,在本申请中,将直接将初始诊断预测结果作为最终诊断预测结果。
步骤S103:对所述多个疾病进行分组,得到所述病历对应的最终诊断预测结果;所述最终诊断预测结果中包括至少一个分组,每个分组中包括所述多个疾病中相似的至少一个疾病。
为便于理解,假设待进行诊断预测的病历的初始诊断预测结果为:
{急性胃炎,急性肝炎,胃溃疡,慢性胃炎,十二指肠溃疡}。
最终诊断预测结果可以包括三个分组,分别如下:
{急性胃炎,慢性胃炎};
{胃溃疡,十二指肠溃疡};
{急性肝炎}。
需要说明的是,对多个疾病进行分组,得到所述病历对应的最终诊断预测结果的具体实现方式,将通过后面的实施例详细说明。
本实施例公开了一种诊断预测方法,基于上述方法,对待进行诊断预测的病历,先获取该病历对应的初始诊断预测结果,进一步对初始诊断预测结果中的多个疾病进行分组,得到该病历对应的最终诊断结果。由于最终诊断结果中包括至少一个分组,每个分组中包括上述多个疾病中的相似至少一个疾病,其相对于初始诊断预测结果来说,分组呈现,使医生对诊断预测结果能够一目了然,因此,最终诊断预测结果相对于初始诊断预测结果,提升了对医生的辅助诊断效果。
在本申请的另一个实施例中,对上述步骤S103对所述多个疾病进行分组,得到所述病历对应的最终诊断预测结果的具体实现方式进行了说明。该方式可以包括:
步骤S201:基于预置疾病组,对所述多个疾病进行分组,得到至少一个初始分组,每个初始分组中包括所述多个疾病中相似的一组疾病。
预置疾病组中包括多个疾病组,每个疾病组中包括预置病历集合涉及的所有疾病中相似的一组疾病,这里说的相似指的是临床表现高度相似、需要仔细甄别。预置疾病组的确定方式,将通过后面的实施例详细说明。
在本申请中,基于预置疾病组,对所述多个疾病进行分组,得到至少一个初始分组的具体实现方式可以为:针对所述多个疾病中的每个疾病,确定所述疾病的匹配疾病组,所述匹配疾病组为预置疾病组中的一个疾病组,将所述多个疾病中,匹配疾病组相同的疾病划分为同一分组,得到至少一个初始分组。
步骤S202:针对每个初始分组,根据所述初始分组中每个疾病的特性,对所述初始分组中包括的疾病进行筛选,得到所述初始分组对应的最终分组,各个最终分组组成所述最终诊断预测结果。
在本申请中,针对每个初始分组,对所述初始分组中包括的疾病进行筛选,得到所述初始分组对应的最终分组的具体实现方式可以包括:
步骤S2021:针对每个初始分组,对该初始分组中每个疾病,确定用于表示所述疾病特性的分值,并根据所述病历对应的初始诊断预测结果,以及,用于表示所述疾病的特性的分值,确定所述疾病的最终预测得分。
需要说明的是,用于表示该疾病的特性的分值可以包括用于表示该疾病罕见水平的分值、用于表示该疾病可介入程度的分值、用于表示该疾病病情发展速率的分值以及用于表示该疾病损害身体的性质的分值中的至少一种。关于确定用于表示该疾病罕见水平的分值、用于表示该疾病可介入程度的分值、用于表示该疾病病情发展速率的分值以及用于表示该疾病损害身体的性质的分值的具体实现方式,将通过后面的实施例详细说明。
针对每个初始分组,对该初始分组中每个疾病,可以根据所述病历对应的初始诊断预测结果,确定该疾病的初始预测得分;再根据用于表示该疾病的特性的分值,以及,该疾病的初始预测得分,确定该疾病的最终预测得分。
为便于理解,假设针对初始分组m中疾病di,该疾病的初始预测得分为s
i,用于表示该疾病的特性的分值包括用于表示该疾病罕见水平的分值S
罕见水平(d
i)、用于表示该疾病可介入程度的分值s
可介入程度(d
i)、用于表示该疾病病情发展速率的分值
以及用于表示该疾病损害身体的性质的分值
则初始分组m中疾病di的最终预测得分Score(m,d
i)可以通过如下公式计算得到:
步骤S2022:基于各个用于表示疾病特性的分值,以及,各个疾病的最终预测得分,对该初始分组中包括的疾病进行筛选,得到所述初始分组对应的最终分组。
具体的,可以将该初始分组中的用于表示疾病的特性的分值最高,和/或,疾病的最终预测得分最高的疾病保留,得到所述初始分组对应的最终分组。
其中,该初始分组中的用于表示疾病的特性的分值最高可以为用于表示疾病的病罕见水平的分值最高、用于表示疾病可介入程度的分值最高、用于表示疾病病情发展速率的分值最高,和/或,用于表示疾病损害身体的性质的分值最高。需要说明的是,用于表示疾病的病罕见水平的分值最高、用于表示疾病可介入程度的分值最高、用于表示疾病病情发展速率的分值最高以及用于表示疾病损害身体的性质的分值最高的疾病可能为同一疾病也可能为不同疾病。
在本申请的另一个实施例中,对确定预置疾病组的具体实现方法进行了说明。该方法可以包括:
步骤S301:获取预置病历集合。
需要说明的是,预置病历集合可以为多个已确定疾病诊断结果的病历的集合。
步骤S302:针对所述预置病历集合中的每个疾病,确定所述疾病的症状分布向量。
需要说明的是,所述症状分布向量用于表示所述疾病对应症状的分布情况。
作为一种可实施方式,所述针对所述预置病历集合中的每个疾病,确定所述疾病的症状分布向量的过程,可以包括:
步骤S3021:获取所述预置病历集合中出现的各个症状词。
需要说明的是,所述预置病历集合中出现的各个症状词指的是所述预置病历集合中出现的所有症状词。
步骤S3022:针对所述各个症状词中的每个症状词,确定所述疾病与所述症状词的共现频次。
需要说明的是,如果预置病历集合中,某病历包含所述症状词,且,诊断名为所述疾病,则所述症状词与所述疾病共现。在本申请中,所述疾病与所述症状词的共现频次可以为所述预置病历集合中,包含所述症状词且诊断名为所述疾病的病历的数量。
步骤S3023:基于所述疾病与所述各个症状词的共现频次,确定所述疾病的症状分布向量。
在本申请中,可以将所述疾病与所述各个症状词的共现频次组成的向量进行归一化,得到所述疾病的症状分布向量。
为便于理解,本申请给出如下示例说明确定疾病d的症状分布向量的过程:
假设预置病历集合中出现的各个症状词为{symp1,symp2,...,sympN};用于表示疾病d与每个症状词sympi的共现频次的向量为:{cooccurd,1,cooccrd,2,...,cooccurd,N};对上述用于表示疾病d与每个症状词sympi的共现频次的向量进行归一化,即可得到疾病d的症状分布向量{ratiod,1,ratiod,2,...,ratiod,N}。
步骤S303:根据所述预置病历集合中各个疾病的症状分布向量,对所述预置病历集合中的各个疾病进行聚类,得到预置疾病组。
在本申请中,可以根据预置病历集合中各个疾病的症状分布向量,计算预置病历集合中各个疾病间的相似度,根据预置病历集合中各个疾病间的相似度对预置病历集合中各个疾病进行聚类,得到预置疾病组。具体的,可以将所述预置病历集合中各个疾病进行两两组合,得到多个疾病对;针对每个疾病对,根据所述疾病对中每个疾病对应的症状分布向量,计算所述疾病对的相似度;根据所述预置病历集合中各个疾病对的相似度,对所述预置病历集合中的各个疾病进行聚类,得到预置疾病组。
需要说明的是,在本申请中,疾病对的相似度可以基于疾病对中两个疾病的症状分布向量得到,比如,可以计算疾病对中两个疾病的症状分布向量的点乘,得到疾病对中两个疾病的症状分布向量的差异,基于疾病对中两个疾病的症状分布向量的差异得到疾病对的相似度。
为便于理解,假设疾病对包括疾病α、疾病β,疾病α的症状分布向量为
疾病β的症状分布向量为
则疾病对的相似度为
需要说明的是,在确定预置病历集合中各个疾病对的距离之后,可以采用常用聚类算法(如,K均值聚类、DBSCAN密度聚类等)对预置病历集合中的各个疾病进行聚类,得到预置疾病组。
作为一种可实施方式,可以采用常用聚类算法对预置病历集合中的各个疾病进行一次聚类,得到预置疾病组。
但是,只进行一次聚类得到的预置疾病组未必是最优的预置疾病组。因此,作为另一种可实施方式,所述根据所述预置病历集合中各个疾病对的距离,对所述预置病历集合中的各个疾病进行聚类,得到预置疾病组的具体实现方式,可以包括:
步骤S3031:根据所述预置病历集合中各个疾病对的距离,对所述预置病历集合中的各个疾病进行聚类,得到多组疾病组。
需要说明的是,常用聚类算法通常都有灵活调整的参数,例如,K均值聚类中簇的个数、DBSCAN密度聚类中距离与相邻元素个数。因此,本申请中可以多次调整常用聚类算法的参数,根据所述预置病历集合中各个疾病对的距离,对预置病历集合中的各个疾病进行多次聚类,得到多组疾病组。
步骤S3032:针对每组疾病组,确定用于表示所述疾病组的分组合理程度的分值。
在本申请中,确定一组疾病组的分组合理程度的分值的方式可以具体为:确定该组疾病组对应的第一类疾病的数量、该组疾病组对应的第二类疾病的数量以及用于指示该组疾病组分组纯度的分值;所述第一类疾病为疾病严重程度或疾病分期角度不合理的疾病,所述第二类疾病为疾病上下位角度不合理的疾病;根据该组疾病组对应的第一类疾病的数量、该组疾病组对应的第二类疾病的数量以及所述用于指示该组疾病组分组纯度的分值,确定用于表示该组疾病组的分组合理程度的分值。
需要说明的是,如果针对该组疾病组中某个疾病,存在与该疾病相同但疾病严重程度较轻微或疾病分期角度较早期的疾病,以及,与该疾病相同但疾病严重程度较严重或疾病分期角度较晚期的疾病,并且,与该疾病相同但疾病严重程度较轻微或疾病分期角度较早期的疾病,以及,与该疾病相同但疾病严重程度较严重或疾病分期角度较晚期的疾病在该组疾病组的同一个组中,而该疾病在该组疾病组的另一个组中,则该疾病为该组疾病组对应的第一类疾病。
为便于理解,如果该组疾病组中包括“肺癌I期”“肺癌II期”“肺癌IV期”,其中,“肺癌I期”与“肺癌IV期”位于该组疾病组的同一组,“肺癌II期”位于该组疾病组的另一组,则“肺癌II期”为该组疾病组对应的第一类疾病。
需要说明的是,如果针对该组疾病组中某个疾病,存在该疾病的上位的疾病,以及,该疾病的下位的疾病,并且,该疾病的上位的疾病,以及,该疾病的下位的疾病在该组疾病组的同一个组中,而该疾病在该组疾病组的另一个组中,则该疾病为该组疾病组对应的第二类疾病。
为便于理解,如果该组疾病组中包括“胃病”“胃炎”“急性胃炎”,其中,“胃病”与“急性胃炎”位于该组疾病组的同一组,“胃炎”位于该组疾病组的另一组,则“胃炎”为该组疾病组对应的第二类疾病。
需要说明的是,医学上常按照一个疾病是否损害到相应器官,而将疾病分为“器质性疾病”、“功能性疾病”。在本申请中,针对该组疾病组中的一组,确定该组中包括的“器质性疾病”的个数、“功能性疾病”的个数,并根据各组中包括的“器质性疾病”的个数、“功能性疾病”的个数确定用于指示该组疾病组分组纯度的分值。
需要说明的是,对于每个组,若其中“器质性疾病”较多,应当以“器质性疾病”占比来衡量该组的纯度,否则应当以“功能性疾病”占比来衡量该组的纯度。为便于理解,给出如下计算用于指示一疾病组的分组纯度的分值的公式:
其中,i为疾病组中包括的各组。
对于一个疾病,如果该疾病中含有某器官名,且预置病历集合中,疾病诊断结果为该疾病的病历有超过预设阈值比例的病历,描述了该器官的功能受损,则确定该疾病为“器质性疾病”,否则,确定该疾病为“功能性疾病”。在本申请中,可以基于自然语言处理技术对该组疾病组中每组疾病中每个疾病进行判断,确定其为“器质性疾病”还是“功能性疾病”。
作为一种可实施方式,本申请中还给出根据该组疾病组对应的第一类疾病的数量、该组疾病组对应的第二类疾病的数量以及所述用于指示该组疾病组分组纯度的分值,确定用于表示该组疾病组的分组合理程度的分值的具体实现方式,具体为对该组疾病组对应的第一类疾病的数量、该组疾病组对应的第二类疾病的数量以及所述用于指示该组疾病组分组纯度的分值加权求和,该和的负数即为用于表示该组疾病组的分组合理程度的分值。
为便于理解,给出如下计算用于表示一组疾病组的分组合理程度的分值的公式:
performance=-(α×num第一类疾病+β×num第二类疾病+γ×score疾病组分组纯度)
其中,performance为用于表示该组疾病组的分组合理程度的分值;
num第一类疾病为该组疾病组对应的第一类疾病的数量,d为其权重;
num第二类疾病为该组疾病组对应的第二类疾病的数量,β为其权重;
score疾病组分组纯度为用于指示该组疾病组分组纯度的分值,γ为其权重。
步骤S3033:确定用于表示该组疾病组的分组合理程度的分值最高的疾病组,为所述预置疾病组。
基于上述步骤S3032可以计算出用于表示每组疾病组的分组合理程度的分值,其中,用于表示每组疾病分组的分组合理程度的分值最高的疾病组,为最优疾病组,该最优疾病组即为预置疾病组。
在本申请的另一个实施例中,对确定用于表示疾病罕见水平的分值的具体实现方法进行了说明。该方法可以包括:
步骤S401:基于预置病历集合,判断所述疾病是否为疑似罕见疾病,得到第一判断结果。
在医学上,如果某疾病,其对应病历数占其所属科室总病历数的比例小于预设阈值,则该疾病为疑似罕见疾病。如果病历的疾病诊断结果为某疾病,则该疾病与该病历对应。
因此,在本申请中,针对一个疾病,可以确定在预置病历集合中,与该疾病对应的病历数,以及,该疾病所属科室的总病历数,再根据在预置病历集合中,与该疾病对应的病历数,以及,该疾病所属科室的总病历数,判断在预置病历集合中,与该疾病对应的病历数,与,该疾病所属科室的总病历数的比例是否小于预设阈值,如果小于,则所述疾病为疑似罕见疾病,如果不小于,则所述疾病不为疑似罕见疾病。
步骤S402:确定所述疾病的确诊医院等级。
考虑到疑似罕见疾病的病历数,以及占其所属科室总病例数的比例往往很小,因此,在本申请中,还可以从该疾病的确诊医院等级,来衡量该疾病的罕见水平。在本申请中,可以根据所述疾病对应的病历,确定所述疾病的确诊医院等级。
需要说明的是,从现实角度考虑,患者可能在高等级医院被确诊疑似罕见疾病后,出于交通、经济负担等多重因素考虑,在较低等级医院持续治疗。此时该疾病名也出现在较低等级医院给出的病历上,但这并不能反映该低等级医院有能力确诊该疾病。因此,本申请中,所述疾病对应的病历中,可能出现多个病历对应同一患者,这种情况下,可以根据多个病历中最早诊断出该疾病的病历确定该疾病的确诊医院等级。
步骤S403:基于所述第一判断结果,以及所述疾病的确诊医院等级,确定用于表示所述疾病罕见水平的分值。
为便于理解,本申请给出如下确定用于表示疾病d罕见水平的分值S罕见水平(d)的计算公式:
其中θ、μ、ρ是正数,数值可依一定业务经验来设置。
在本申请的另一个实施例中,对确定用于表示疾病可介入程度的分值的具体实现方法进行了说明。该方法可以包括:
步骤S501:获取预置病历集合中对应所述疾病的第一病历子集。
需要说明的是,如果病历的疾病诊断结果为某疾病,则该疾病与该病历对应。
步骤S502:从所述第一病历子集中确定包含介入治疗记录的第二病历子集。
在本申请中,针对第一病历子集中的每个病历,确定该病历中是否包含介入治疗记录,第一病历子集中包含介入治疗记录的病历组成第二病历子集。
步骤S503:从所述第二病历子集中确定介入治疗后好转的第三病历子集。
在本申请中,针对第二病历子集中的每个病历,根据该病历的介入治疗记录确定介入治疗结果,第二病历子集中,介入治疗结果为好转的病历组成第三病历子集。具体的可以比较两个相邻病历介入治疗记录中的临床表现,确定介入治疗结果。
步骤S504:基于所述第一病历子集、所述第二病历子集以及所述第三病历子集,确定用于表示所述疾病可介入程度的分值。
在本申请中,可根据所述第一病历子集和所述第二病历子集计算该疾病的介入治疗比例,根据所述第三病历子集与所述第二病历子集计算该疾病的介入治疗好转比例,再对该疾病的介入治疗比例以及该疾病的介入治疗好转比例进行加权求和,计算用于表示该疾病可介入程度的分值。
为便于理解,本申请给出如下确定用于表示疾病d可介入程度的分值S可介入程度(d)的公式:
s可介入程度(d)=∈×ratio介入治疗(d)+g×ratio介λ治疗后好转(d)
其中,ratio介入治疗(d)为疾病d的介入治疗比例,∈为其权重;
ratio介入治疗后好转(d)为疾病d的介入治疗好转比例θ为其权重。
在本申请的另一个实施例中,对确定用于表示疾病病情发展速率的分值的具体实现方法进行了说明。该方法可以包括:
步骤S601:确定所述疾病可能演化成的目标疾病。
在本申请中,对于两个疾病α、β,如果预置的病历集合中,如果在同一患者按时间排序的病历序列中,存在某两个病历,在前的诊断为疾病α,在后的诊断为疾病β,二者间隔小于预设日期,则这两个病历构成疾病α因治疗不力等原因而演化成疾病β的案例。如果预置的病历集合中,疾病α因治疗不力等原因而演化成疾病β的案例数量超过预设阈值,且疾病α和疾病β的症状分布向量距离小于预设阈值,则说明疾病α可能演化成疾病β。
在本申请中,可以基于上述方式,确定疾病可能演化成的目标疾病。
步骤S602:针对每个目标疾病,从预置病历集合中确定所述疾病演化成所述目标疾病的案例。
步骤S603:基于所述疾病演化成各个目标疾病的案例,确定用于表示所述疾病病情发展速率的分值。
在本申请中,针对所述疾病演化成各个目标疾病的每个案例,计算该案例对应的两个病历的日期之差,再根据各个案例对应的两个病历的日期之差的和,以及所述疾病演化成各个目标疾病的案例之和,计算用于表示所述疾病病情发展速率的分值。
为便于理解,假设疾病d可能演化成的目标疾病有{d1,d2,...,dn},则用于表示疾病d病情发展速率的分值S病情发展速率(d)的计算公式如下:
其中,datediff(c,d,di)是指,案例c里前后两份病历的日期之差。
在本申请的另一个实施例中,对确定用于表示疾病损害身体的性质的分值的具体实现方法进行了说明。该方法可以包括:
步骤S701:判断所述疾病是器质性疾病还是功能性疾病,得到第二判定结果。
步骤S702:基于所述第二判断结果,确定用于表示所述疾病损害身体的性质的分值。
为便于理解,在本申请中,用于表示疾病d损害身体的性质的分值S损害身体的体质(d)可以基于如下方式计算:
其中,τ可依业务经验设定。
下面对本申请实施例公开的诊断预测装置进行描述,下文描述的诊断预测装置与上文描述的诊断预测方法可相互对应参照。
参照图2,图2为本申请实施例公开的一种诊断预测装置结构示意图。如图2所示,该诊断预测装置可以包括:
病历获取单元11,用于获取待进行诊断预测的病历;
初始诊断预测结果获取单元12,用于获取所述病历对应的初始诊断预测结果;所述初始诊断预测结果中包括多个疾病;
最终诊断预测结果确定单元13,用于对所述多个疾病进行分组,得到所述病历对应的最终诊断预测结果;所述最终诊断预测结果中包括至少一个分组,每个分组中包括所述多个疾病中相似的至少一个疾病。
可选地,所述最终诊断预测结果确定单元,包括:
分组单元,用于基于预置疾病组,对所述多个疾病进行分组,得到至少一个初始分组,每个初始分组中包括所述多个疾病中相似的一组疾病;
筛选单元,用于针对每个初始分组,对所述初始分组中包括的疾病进行筛选,得到所述初始分组对应的最终分组,各个最终分组组成所述最终诊断预测结果。
可选地,所述装置还包括:
预置疾病组确定单元;
所述预置疾病组确定单元包括:
预置病历集合获取单元,用于获取预置病历集合;
症状分布向量确定单元,用于针对所述预置病历集合中的每个疾病,确定所述疾病的症状分布向量,所述症状分布向量用于表示所述疾病对应症状的分布情况;
聚类单元,用于根据所述预置病历集合中各个疾病的症状分布向量,对所述预置病历集合中的各个疾病进行聚类,得到预置疾病组。
可选地,所述症状分布向量确定单元,包括:
症状词获取单元,用于获取所述预置病历集合中出现的各个症状词;
共现频次确定单元,用于针对所述各个症状词中的每个症状词,确定所述疾病与所述症状词的共现频次;
症状分布向量确定子单元,用于基于所述疾病与所述各个症状词的共现频次,确定所述疾病的症状分布向量。
可选地,所述聚类单元,包括:
疾病对确定单元,用于将所述预置病历集合中各个疾病进行两两组合,得到多个疾病对;
疾病对相似度确定单元,用于针对每个疾病对,根据所述疾病对中每个疾病对应的症状分布向量,计算所述疾病对的相似度;
聚类子单元,用于根据所述预置病历集合中各个疾病对的相似度,对所述预置病历集合中的各个疾病进行聚类,得到预置疾病组。
可选地,所述聚类子单元,包括:
多组疾病组确定单元:用于根据所述预置病历集合中各个疾病对的相似度,对所述预置病历集合中的各个疾病进行聚类,得到多组疾病组;
分值确定单元,用于针对每组疾病组,确定用于表示该组疾病组的分组合理程度的分值;
预置疾病组确定单元,用于确定用于表示该组疾病组的分组合理程度的分值最高的一组疾病组,为所述预置疾病组。
可选地,所述分值确定单元,具体用于:
确定该组疾病组对应的第一类疾病的数量、该组疾病组对应的第二类疾病的数量以及用于指示该组疾病组分组纯度的分值;所述第一类疾病为疾病严重程度或疾病分期角度不合理的疾病,所述第二类疾病为疾病上下位角度不合理的疾病;根据该组疾病组对应的第一类疾病的数量、该组疾病组对应的第二类疾病的数量以及所述用于指示该组疾病组分组纯度的分值,确定用于表示该组疾病组的分组合理程度的分值。
可选地,所述筛选单元,包括:
参数确定单元:用于针对所述初始分组中每个疾病,确定用于表示所述疾病的特性的分值;并根据所述病历对应的初始诊断预测结果,以及,用于表示所述疾病的特性的分值,确定所述疾病的最终预测得分;
筛选子单元,用于基于各个用于表示疾病的特性的分值,以及,各个疾病的最终预测得分,对所述初始分组中包括的疾病进行筛选,得到所述初始分组对应的最终分组。
可选地,所述筛选子单元,具体用于:
将所述初始分组中的用于表示疾病的特性的分值最高,和/或,疾病的最终预测得分最高的疾病保留,得到所述初始分组对应的最终分组。
可选地,所述参数确定单元具体包括:
第一分值确定单元、第二分值确定单元、第三分值确定单元以及第四分值确定单元中的至少一种;
所述第一分值确定单元,用于确定用于表示所述疾病罕见水平的分值;
所述第二分值确定单元,用于确定用于表示所述疾病可介入程度的分值;
所述第三分值确定单元,用于确定用于表示所述疾病病情发展速率的分值;
所述第四分值确定单元,用于确定用于表示所述疾病损害身体的性质的分值。
可选地,第一分值确定单元,具体用于:
基于预置病历集合,判断所述疾病是否为疑似罕见疾病,得到第一判断结果;
确定所述疾病的确诊医院等级;
基于所述第一判断结果,以及所述疾病的确诊医院等级,确定用于表示所述疾病罕见水平的分值。
可选地,第二分值确定单元,具体用于:
获取预置病历集合中对应所述疾病的第一病历子集;
从所述第一病历子集中确定包含介入治疗记录的第二病历子集;
从所述第二病历子集中确定介入治疗后好转的第三病历子集;
基于所述第一病历子集、所述第二病历子集以及所述第三病历子集,确定用于表示所述疾病可介入程度的分值。
可选地,第三分值确定单元,具体用于:
确定所述疾病可能演化成的目标疾病;
针对每个目标疾病,从预置病历集合中确定所述疾病演化成所述目标疾病的案例;
基于所述疾病演化成各个目标疾病的案例,确定用于表示所述疾病病情发展速率的分值。
可选地,第四分值确定单元,具体用于:
判断所述疾病是器质性疾病还是功能性疾病,得到第二判定结果;
基于所述第二判断结果,确定用于表示所述疾病损害身体的性质的分值。
参照图3,图3为本申请实施例提供的诊断预测设备的硬件结构框图,参照图3,诊断预测设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取待进行诊断预测的病历;
获取所述病历对应的初始诊断预测结果;所述初始诊断预测结果中包括多个疾病;
对所述多个疾病进行分组,得到所述病历对应的最终诊断预测结果;所述最终诊断预测结果中包括至少一个分组,每个分组中包括所述多个疾病中相似的至少一个疾病。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取待进行诊断预测的病历;
获取所述病历对应的初始诊断预测结果;所述初始诊断预测结果中包括多个疾病;
对所述多个疾病进行分组,得到所述病历对应的最终诊断预测结果;所述最终诊断预测结果中包括至少一个分组,每个分组中包括所述多个疾病中相似的至少一个疾病。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。