时间区间段的划分方法、相关设备及可读存储介质
技术领域
本申请涉及计算机技术领域,更具体的说,是涉及一种时间区间段的划分方法、相关设备及可读存储介质。
背景技术
临床上,患者描述的每一种症状,持续的时间长短不同,就可能预示着患者患有不同的疾病。因此,病历中症状的描述包括时间属性值,该时间属性值用于指示该症状对应的症状持续时间长短。
目前,对病历中症状及其时间属性值的应用很广泛,比如,利用病历中症状及其时间属性值进行疾病辅助诊断,利用不同病历中同一症状及其时间属性值进行病历相似度计算等。但是,单独考虑症状的时间属性值并不能充分体现症状的差异。从医学层面考虑,症状的持续时间长短处于时间区间段的不同,与该症状预示疾病的不同息息相关,比如,“咳嗽1天”与“咳嗽7天”、“咳嗽14天”与“咳嗽20天”,显然前两者很可能是不同疾病、而后两者至少从“咳嗽”这一症状上看没有特别重大的差别。
因此,如何确定症状的时间区间段,成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于上述问题,本申请提出了一种时间区间段的划分方法、相关设备及可读存储介质。具体方案如下:
一种时间区间段的划分方法,包括:
获取待划分时间区间段的症状;
获取参考病历集合,所述参考病历集合是预置病历集合中包含所述症状的参考病历的集合;
基于所述参考病历集合中,每个参考病历中记录的所述症状的时间属性值,确定所述症状划分的时间区间段。
可选地,所述获取参考病历集合,包括:
根据所述预置病历集合,确定所述症状对应的目标疾病;
根据所述预置病历集合中对应所述目标疾病的病历,确定所述症状对应的时间区间段划分层;
确定所述预置病历集合中,属于所述症状对应的时间区间段划分层的病历,为所述参考病历集合中的参考病历。
可选地,所述根据所述预置病历集合,确定所述症状对应的目标疾病,包括:
确定所述预置病历集合中,包含所述症状的病历;
针对每个包含所述症状的病历,根据该病历的诊断名中的基础疾病名,确定该病历对应的疾病;
确定对应病历数量最多的疾病,为所述症状对应的目标疾病。
可选地,所述根据所述预置病历集合中对应所述目标疾病的病历,确定所述症状对应的时间区间段划分层,包括:
针对所述目标疾病预置的每个层级,根据所述预置病历集合中对应所述目标疾病的病历,确定该层级对应的病历数量,以及,该层级对应的诊断名数量;
根据所述目标疾病的各个层级对应的病历数量,以及,各个层级对应的诊断名数量,确定所述层级对应病历的信息丰富程度得分;
确定对应病历的信息丰富程度得分最高的层级,为所述症状对应的时间区间段划分层。
可选地,所述基于所述参考病历集合中,每个参考病历中记录的所述症状的时间属性值,确定所述症状划分的时间区间段,包括:
根据所述参考病历集合中记录的所述症状的时间属性值,确定所述症状的时间区间段划分属性值;
基于所述症状的时间区间段划分属性值,确定所述症状划分的时间区间段。
可选地,所述基于所述症状的时间区间段划分属性值,确定所述症状划分的时间区间段,包括:
基于所述症状的时间区间段划分属性值,确定所述症状的至少一个时间区间段划分序列,所述症状的每个时间区间段划分序列包括所述症状的时间区间段划分属性值中的至少一个值;
针对每个时间区间段划分序列,计算所述时间区间段划分序列对应的得分;
基于所述得分最高的时间区间段划分序列,确定所述症状划分的时间区间段。
可选地,所述针对每个时间区间段划分序列,计算所述时间区间段划分序列对应的得分,包括:
计算用于表示所述时间区间段划分序列的有序程度的得分;
计算用于表示所述时间区间段划分序列的兼容程度的得分;
计算用于表示所述时间区间段划分序列的简洁程度的得分;
根据用于表示所述时间区间段划分序列的有序程度的得分、用于表示所述时间区间段划分序列的兼容程度的得分,以及,用于表示所述时间区间段划分序列的简洁程度的得分,计算所述时间区间段划分序列对应的得分。
可选地,所述计算用于表示所述时间区间段划分序列的有序程度的得分,包括:
获取所述参考病历集合的病历数量,所述参考病历集合中,对应所述时间区间段划分序列划分的各时间区间段的病历的数量,以及,所述参考病历集合中,对应所述时间区间段划分序列划分的各时间区间段的病历的疾病分布特征;
根据所述参考病历集合的病历数量,所述参考病历集合中,对应所述时间区间段划分序列划分的各时间区间段的病历的数量,以及,所述参考病历集合中,对应所述时间区间段划分序列划分的各时间区间段的病历的疾病分布特征,计算用于表示所述时间区间段划分序列的有序程度的得分。
可选地,所述计算用于表示所述时间区间段划分序列的兼容程度的得分,包括:
获取目标症状划分的时间区间段,所述目标症状为与所述症状相关的症状;
根据所述时间区间段划分序列划分的各时间区间段,与所述目标症状划分的时间区间段的包含关系,计算所述时间区间段划分序列与所述目标症状划分的时间区间段的兼容程度的得分,作为用于表示所述时间区间段划分序列的兼容程度的得分。
可选地,所述计算用于表示所述时间区间段划分序列的简洁程度的得分,包括:
获取所述时间区间段划分序列划分的时间区间段的数量;
根据所述时间区间段划分序列划分的时间区间段的数量,计算用于表示所述时间区间段划分序列的简洁程度的得分。
可选地,在确定所述症状划分的时间区间段之后,所述方法还包括:
根据所述症状划分的时间区间段,计算包含所述症状的两个病历的相似度。
可选地,所述根据所述症状划分的时间区间段,计算包含所述症状的两个病历的相似度,包括:
根据所述症状划分的时间区间段,确定每个病历中与所述症状对应的时间属性值所属的时间区间段;
计算两个时间区间段的差异;
根据所述参考病历集合,获取每个病历中与所述症状对应的时间属性值所属的时间区间段的诊断名分布向量;
计算两个诊断名分布向量的差异;
根据所述两个时间区间段的差异,以及,所述两个诊断名分布向量的差异,计算所述症状在包含所述症状的两个病历中的差异;
根据所述症状在包含所述症状的两个病历中的差异,计算所述两个病历的相似度。
一种时间区间段的划分装置,包括:
症状获取单元,用于获取待划分时间区间段的症状;
参考病历集合获取单元,用于获取参考病历集合,所述参考病历集合是预置病历集合中包含所述症状的参考病历的集合;
确定单元,用于基于所述参考病历集合中,每个参考病历中记录的所述症状的时间属性值,确定所述症状划分的时间区间段。
可选地,所述参考病历集合获取单元,包括:
目标疾病确定单元,用于根据所述预置病历集合,确定所述症状对应的目标疾病;
时间区间段划分层确定单元,用于根据所述预置病历集合中对应所述目标疾病的病历,确定所述症状对应的时间区间段划分层;
参考病历确定单元,用于确定所述预置病历集合中,属于所述症状对应的时间区间段划分层的病历,为所述参考病历集合中的参考病历。
可选地,所述目标疾病确定单元,包括:
病历确定单元,用于确定所述预置病历集合中,包含所述症状的病历;
疾病确定单元,用于针对每个包含所述症状的病历,根据该病历的诊断名中的基础疾病名,确定该病历对应的疾病;
目标疾病确定子单元,用于确定对应病历数量最多的疾病,为所述症状对应的目标疾病。
可选地,所述时间区间段划分层确定单元,包括:
层级参数确定单元,用于针对所述目标疾病预置的每个层级,根据所述预置病历集合中对应所述目标疾病的病历,确定该层级对应的病历数量,以及,该层级对应的诊断名数量;
信息丰富程度得分确定单元,用于根据所述目标疾病的各个层级对应的病历数量,以及,各个层级对应的诊断名数量,确定所述层级对应病历的信息丰富程度得分;
时间区间段划分层确定子单元,用于确定对应病历的信息丰富程度得分最高的层级,为所述症状对应的时间区间段划分层。
可选地,所述确定单元,包括:
时间区间段划分属性值确定单元,用于根据所述参考病历集合中记录的所述症状的时间属性值,确定所述症状的时间区间段划分属性值;
时间区间段确定单元,用于基于所述症状的时间区间段划分属性值,确定所述症状划分的时间区间段。
可选地,所述时间区间段确定单元,包括:
时间区间段划分序列确定单元,用于基于所述症状的时间区间段划分属性值,确定所述症状的至少一个时间区间段划分序列,所述症状的每个时间区间段划分序列包括所述症状的时间区间段划分属性值中的至少一个值;
计算单元,用于针对每个时间区间段划分序列,计算所述时间区间段划分序列对应的得分;
时间区间段确定子单元,用于基于所述得分最高的时间区间段划分序列,确定所述症状划分的时间区间段。
可选地,所述计算单元,包括:
第一计算单元,用于计算用于表示所述时间区间段划分序列的有序程度的得分;
第二计算单元,用于计算用于表示所述时间区间段划分序列的兼容程度的得分;
第三计算单元,用于计算用于表示所述时间区间段划分序列的简洁程度的得分;
第四计算单元,用于根据用于表示所述时间区间段划分序列的有序程度的得分、用于表示所述时间区间段划分序列的兼容程度的得分,以及,用于表示所述时间区间段划分序列的简洁程度的得分,计算所述时间区间段划分序列对应的得分。
可选地,所述第一计算单元,具体用于:
获取所述参考病历集合的病历数量,所述参考病历集合中,对应所述时间区间段划分序列划分的各时间区间段的病历的数量,以及,所述参考病历集合中,对应所述时间区间段划分序列划分的各时间区间段的病历的疾病分布特征;
根据所述参考病历集合的病历数量,所述参考病历集合中,对应所述时间区间段划分序列划分的各时间区间段的病历的数量,以及,所述参考病历集合中,对应所述时间区间段划分序列划分的各时间区间段的病历的疾病分布特征,计算用于表示所述时间区间段划分序列的有序程度的得分。
可选地,所述第二计算单元,具体用于:
获取目标症状划分的时间区间段,所述目标症状为与所述症状相关的症状;
根据所述时间区间段划分序列划分的各时间区间段,与所述目标症状划分的时间区间段的包含关系,计算所述时间区间段划分序列与所述目标症状划分的时间区间段的兼容程度的得分,作为用于表示所述时间区间段划分序列的兼容程度的得分。
可选地,所述第三计算单元,具体用于:
获取所述时间区间段划分序列划分的时间区间段的数量;
根据所述时间区间段划分序列划分的时间区间段的数量,计算用于表示所述时间区间段划分序列的简洁程度的得分。
可选地,所述装置还包括:
病历相似度计算单元,用于在确定所述症状划分的时间区间段之后,根据所述症状划分的时间区间段,计算包含所述症状的两个病历的相似度。
可选地,所述病历相似度计算单元,具体用于:
根据所述症状划分的时间区间段,确定每个病历中与所述症状对应的时间属性值所属的时间区间段;
计算两个时间区间段的差异;
根据所述参考病历集合,获取每个病历中与所述症状对应的时间属性值所属的时间区间段的诊断名分布向量;
计算两个诊断名分布向量的差异;
根据所述两个时间区间段的差异,以及,所述两个诊断名分布向量的差异,计算所述症状在包含所述症状的两个病历中的差异;
根据所述症状在包含所述症状的两个病历中的差异,计算所述两个病历的相似度。
一种时间区间段的划分设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的时间区间段的划分方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如上所述的时间区间段的划分方法的各个步骤。
借由上述技术方案,本申请公开了一种时间区间段的划分方法、相关设备及可读存储介质,对于待划分时间区间段的症状,可以获取包含该症状的参考病历集合,并基于参考病历集合中各参考病历中记录的该症状的时间属性值,确定该症状划分的时间区间段。基于上述方案,在利用病历中症状进行疾病辅助诊断,利用不同病历中同一症状进行病历相似度计算等场景中,即可利用该症状划分的时间区间段。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例公开的时间区间段的划分方法的流程示意图;
图2为本申请实施例公开的一种时间区间段的划分装置结构示意图;
图3为本申请实施例公开的一种时间区间段的划分设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
接下来,通过下述实施例对本申请提供的时间区间段的划分方法进行介绍。
参照图1,图1为本申请实施例公开的时间区间段的划分方法的流程示意图,该方法可以包括:
步骤S101:获取待划分时间区间段的症状。
在本申请中,待划分时间区间段的症状可以为用于描述疾病的任一症状。比如,咳嗽、发热、胸闷、头晕等。
步骤S102:获取参考病历集合,所述参考病历集合是预置病历集合中包含所述症状的参考病历的集合。
在本申请中,所述参考病历集合,为预置病历集合中包含所述症状的全部病历或部分病历,如果所述参考病历集合为预置病历集合中包含所述症状的全部病历,则所述预置病历集合中包含所述症状的全部病历均为包含所述症状的参考病历,如果所述参考病历集合为预置病历集合中包含所述症状的部分病历,则包含所述症状的这部分病历为包含所述症状的参考病历,包含所述症状的其他病历为包含所述症状的非参考病历。
需要说明的是,获取参考病历集合的具体实现方式,将通过后面的实施例详细说明。
步骤S103:基于所述参考病历集合中,每个参考病历中记录的所述症状的时间属性值,确定所述症状划分的时间区间段。
在本申请中,参考病历中记录的所述症状的时间属性值是用于描述所述症状的持续时间的值,比如“2天”、“6小时”等,对于一些用于描述所述症状的发作周期的值,比如“间歇性”、“每隔半小时”等,不属于所述症状的时间属性值。不同参考病历中记录的所述症状的持续时间可能是采用不同的时间单位,为了计算方便,本申请中症状的时间属性值是基于预设时间单位描述所述症状的持续时间的值,比如“2天”、“0.5天”等。
需要说明的是,基于所述参考病历集合中,每个参考病历中记录的所述症状的时间属性值,确定所述症状划分的时间区间段的具体实现方式,将通过后面的实施例详细说明。
本实施例公开了一种时间区间段的划分方法,对于待划分时间区间段的症状,可以获取包含该症状的参考病历集合,并基于参考病历集合中各参考病历中记录的该症状的时间属性值,确定该症状划分的时间区间段。基于上述方法,在利用病历中症状进行疾病辅助诊断,利用不同病历中同一症状进行病历相似度计算等场景中,即可利用该症状划分的时间区间段。
在本申请的另一个实施例中,对上述步骤S102获取参考病历集合的具体实现方式进行了说明。该方式可以包括:
步骤S201:根据所述预置病历集合,确定所述症状对应的目标疾病。
在本申请中,所述症状对应的目标疾病所述预置病历集合中对应所述症状的疾病中,对应病历个数最多的疾病。
作为一种可实施方式,根据预置病历集合,确定所述症状对应的目标疾病的具体实现方式可以包括:
步骤S2011:确定所述预置病历集合中,包含所述症状的病历。
在本申请中,所述预置病历集合中,包含所述症状的病历指的是所述预置病历集合中,病历内容中出现所述症状的病历。
步骤S2012:针对每个包含所述症状的病历,根据该病历的诊断名中的基础疾病名,确定该病历对应的疾病。
医学上,病历的诊断名一般是由基础疾病名和补充描述构成,本申请中,病历对应的疾病即为该病历的诊断名中的基础疾病名。为便于理解,假如病历的诊断名为“慢性咽炎”,其中,“咽炎”是基础疾病名,则根据该病历的诊断名,确定该病历对应的疾病即为“咽炎”。
需要说明的是,对于每个包含所述症状的病历的诊断名,可以基于预先定义的基础疾病名,采用字符串匹配或常用的自然语言处理算法,抽取其中的基础疾病名,对此,本申请不再详细说明。
步骤S2013:确定对应病历数量最多的疾病,为所述症状对应的目标疾病。
需要说明的是,经过步骤S2012,可以确定所述预置病历集合中,包含所述症状的病历对应的全部疾病,以及每个疾病对应的病历。在本申请中,可以确定对应病历数量最多的疾病,为所述症状对应的目标疾病。
为便于理解,假设待划分时间区间段的症状为“咳痰”,在预置病历集合中,包含症状“咳痰”的病历有3207个,其中,605个病历的诊断名为“上呼吸道感染”、1829个病历的诊断名为“急性上呼吸道感染”、303个病历的诊断名为“支气管炎”、470个病历的基础疾病名为“慢性支气管炎”。诊断名“上呼吸道感染”和“急性上呼吸道感染”的基础疾病名为“呼吸道感染”,诊断名“支气管炎”和“慢性支气管炎”的基础疾病名为“支气管炎”,则包含症状“咳痰”的病历对应的全部疾病有“呼吸道感染”和“支气管炎”,其中,有605+1829=2434个病历对应疾病“呼吸道感染”,有303+470=773个病历对应疾病“支气管炎”,则确定症状“咳痰”对应的目标疾病为“呼吸道感染”。
步骤S202:根据所述预置病历集合中对应所述目标疾病的病历,确定所述症状对应的时间区间段划分层。
在本申请中,可以为每个疾病预置多个层级,不同层级用于表示对该疾病的不同程度的补充描述。
医学上,在病历的诊断名上,多基于疾病部位(如“前”、“后”、“左”、“右”、“上”、“下”等及其可行的组合“右上”、“左上”等,)、疾病急慢性(如“急性”、“慢性”等)、疾病发作频率(如“间歇性”、“持续性”、“急性发作”等)、疾病严重程度(如“轻度”、“中度”、“重度”等)等方面对基础疾病进行补充描述。在本申请中,诊断名中用于补充描述基础疾病的词可以称为诊断名的修饰词。为疾病预置层级时,可以确定不同层级对应不同的修饰词个数。
作为一种示例,本申请中可以为每个疾病预置5个层级,其中,层级0对应的修饰词个数为0,层级1对应的修饰词个数为1,层级2对应的修饰词个数为2,层级3对应的修饰词个数为3,层级4对应的修饰词个数为4。
需要说明的是,所述症状对应的时间区间段划分层是所述目标疾病预置的多个层级中,对应病历信息最丰富的层级。
作为一种可实施方式,所述根据所述预置病历集合中对应所述目标疾病的病历,确定所述症状对应的时间区间段划分层的具体实现方式可以包括:
步骤S2021:针对所述目标疾病预置的每个层级,根据所述预置病历集合中对应所述目标疾病的病历,确定该层级对应的病历数量,以及,该层级对应的诊断名数量。
在本申请中,可以针对所述预置病历集合中对应所述目标疾病的每个病历,根据该病历的诊断名的修饰词,确定该病历对应所述目标疾病的哪个层级。再根据各个病历与所述目标疾病的层级的对应关系,确定所述目标疾病预置的每个层级对应的病历数量,以及,该层级对应的诊断名数量。
需要说明的是,对于每个包含所述症状的病历的诊断名,可以基于预先定义的修饰词,采用字符串匹配或常用的自然语言处理算法,抽取其中的修饰词,对此,本申请不再详细说明。
作为一种可实施方式,可以根据病历的诊断名的修饰词的个数,确定该病历对应所述目标疾病的哪个层级。比如,假设为目标疾病预置5个层级,如果病历的诊断名的修饰词有0个,则该病历对应所述目标疾病的层级0,如果病历的诊断名的修饰词有1个,则该病历对应所述目标疾病的层级1,如果病历的诊断名的修饰词有2个,则该病历对应所述目标疾病的层级2,如果病历的诊断名的修饰词有3个,则该病历对应所述目标疾病的层级3,如果病历的诊断名的修饰词有4个,则该病历对应所述目标疾病的层级4。
步骤S2022:针对所述目标疾病的每个层级,根据所述目标疾病的各个层级对应的病历数量,以及,各个层级对应的诊断名数量,确定所述层级对应病历的信息丰富程度得分。
在本申请中,针对所述目标疾病的每个层级,可以根据所述目标疾病的各个层级对应的病历数量,确定所述层级对应病历的病历丰富程度得分,并根据所述各个层级对应的诊断名数量,确定所述层级对应病历的诊断名丰富程度得分,最后,根据所述层级对应病历的病历丰富程度得分和所述层级对应病历的诊断名丰富程度得分,确定所述层级对应病历的信息丰富程度得分。
为便于理解,本申请给出如下示例:
其中:
i为层级标号,其取值范围可以为预置多个层级中,对应修饰词个数不为0的层级的标号;
RichRate病历(i)是层级i对应病历的病历丰富程度得分、MedicalNum(i)是层级i对应的病历数量、max(MedicalNum)是指各个层级中对应的病历数量最多的那一层级的病历数量。
RichRate诊断名(i)是层级i对应病历的诊断名丰富程度得分、DiagnoseNum(i)是层级i对应的诊断名数量、max(DiagnoseNum)是指各个层级中对应的诊断名数量最多的那一层级的诊断名数量。
RichRate信息(i)是层级i对应病历的信息丰富程度得分。
步骤S2023:确定对应病历的信息丰富程度得分最高的层级,为所述症状对应的时间区间段划分层。
为便于理解,假设为目标疾病预置4个层级,层级2对应病历的信息丰富程度得分最高,则所述症状对应的时间区间段划分层为所述目标疾病的层级2。
步骤S203:确定所述预置病历集合中,属于所述症状对应的时间区间段划分层的病历,为所述参考病历集合中的参考病历。
为便于理解,假设所述症状对应的时间区间段划分层为所述目标疾病的层级2,则确定所述目标疾病的层级2对应的病历,为所述参考病历集合中的参考病历。
在本申请的另一个实施例中,对上述步骤S103基于所述参考病历集合中,每个参考病历中记录的所述症状的时间属性值,确定所述症状划分的时间区间段的具体实现方式进行了说明。该方式可以包括:
步骤S301:根据所述参考病历集合中记录的所述症状的时间属性值,确定所述症状的时间区间段划分属性值。
在本申请中,所述参考病历集合中记录的所述症状的时间属性值即为所述参考病历集合中,各个参考病历中记录的不重复的所述症状的时间属性值。
作为一种实施方式,本申请中可以将所述参考病历集合中记录的所述症状的时间属性值中按属性值的大小排序(升序,或,降序),得到排序后的时间属性值序列,针对排序后的时间属性值序列,计算序列中任意相邻两个时间属性值的均值,各个均值即为所述症状的时间区间段划分属性值。
为便于理解,假设所述参考病历集合中记录的所述症状的时间属性值包括1天、5天、9天、6天、3天,则排序后的时间属性值序列为{1天,3天,5天,6天,9天},所述症状的时间区间段划分属性值为2天、4天、5.5天、7.5天。
步骤S302:基于所述症状的时间区间段划分属性值,确定所述症状划分的时间区间段。
在本申请中,可以先基于所述症状的时间区间段划分属性值,确定所述症状的时间区间段划分序列,该序列中包括所述症状的时间区间段划分属性值中的至少一个值,基于该序列中包括的各个值即可确定所述症状划分的时间区间段。
需要说明的是,基于所述症状的时间区间段划分属性值,确定所述症状划分的时间区间段的具体实现方式,将通过后面的实施例详细说明。
在本申请的另一个实施例中,对上述步骤S302基于所述症状的时间区间段划分属性值,确定所述症状划分的时间区间段的具体实现方式进行了说明。
该方式可以包括如下步骤:
步骤S401:基于所述症状的时间区间段划分属性值,确定所述症状的至少一个时间区间段划分序列。
在本申请中,所述症状的每个时间区间段划分序列包括所述症状的时间区间段划分属性值中的至少一个值。
需要说明的是,在本申请中,可以将所述症状的时间区间段划分属性值的所有可能的组合情况进行组合,得到所述症状的至少一个时间区间段划分序列,也可以依据业务知识确定所述症状的时间区间段划分属性值的部分组合情况进行组合,得到所述症状的至少一个时间区间段划分序列。
为便于理解,假设所述症状的时间区间段划分属性值为2天、4天、5.5天、7.5天,基于所述症状的时间区间段划分属性值,确定所述症状的至少一个时间区间段划分序列为{2天}、{4天}、{5.5天}、{7.5天}、{2天,4天}、{2天,5.5天}、{2天,7.5天}、{4天,5.5天}、{4天,7.5天}、{5.5天,7.5天}、{2天,4天,5.5天}、{2天,5.5天,7.5天}、{4天,5.5天,7.5天}、{2天,4天,5.5天,7.5天}中的至少一个。
步骤S402:针对每个时间区间段划分序列,计算所述时间区间段划分序列对应的得分。
在本申请中,所述时间区间段划分序列对应的得分,用于指示所述时间区间段划分序列的合理程度。在本申请中,可以基于多角度的得分总和计算所述时间区间段划分序列对应的得分,具体将通过后面的实施例详细说明。
步骤S403:基于所述得分最高的时间区间段划分序列,确定所述症状划分的时间区间段。
时间区间段划分序列对应的得分越高,说明该时间区间段划分序列越合理,因此,在本申请中,基于所述得分最高的时间区间段划分序列,确定所述症状划分的时间区间段。
为便于理解,假设得分最高的时间区间段划分序列为{2天,5.5天},则所述症状划分的时间区间段为:小于2天,2天至5.5天,大于5.5天。
在本申请的另一个实施例中,对上述步骤S402针对每个时间区间段划分序列,计算所述时间区间段划分序列对应的得分的具体实现方式进行了说明,该方式可以包括以下步骤:
S501:计算用于表示所述时间区间段划分序列的有序程度的得分。
作为一种可实施方式,所述计算用于表示所述时间区间段划分序列的有序程度的得分的具体实现方式可以为:获取所述参考病历集合的病历数量,所述参考病历集合中,对应所述时间区间段划分序列划分的各时间区间段的病历的数量,以及,所述参考病历集合中,对应所述时间区间段划分序列划分的各时间区间段的病历的疾病分布特征;根据所述参考病历集合的病历数量,所述参考病历集合中,对应所述时间区间段划分序列划分的各时间区间段的病历的数量,以及,所述参考病历集合中,对应所述时间区间段划分序列划分的各时间区间段的病历的疾病分布特征,计算用于表示所述时间区间段划分序列的有序程度的得分。
其中,对应所述时间区间段划分序列划分的各时间区间段的病历的疾病分布特征,可以基于对应所述时间区间段划分序列划分的各时间区间段的病历中各诊断名对应的病历的数量,以及所述对应所述时间区间段划分序列划分的各时间区间段的病历的数量确定。
为便于理解,本申请给出如下计算用于表示所述时间区间段划分序列的有序程度的得分的示例:
其中,Score1(symp,s)用于表示症状symp的时间区间段划分序列s的有序程度的得分,i表示时间区间段划分序列s划分的每个时间区间,N(s)表示所述参考病历集合的病历数量,N(i)表示对应所述时间区间段划分序列划分的时间区间段i的病历的数量,entropy(symp,s,i)表示对应所述时间区间段划分序列划分的时间区间段i的病历疾病分布特征,N(i,d)表示对应所述时间区间段划分序列划分的时间区间段i的病历中诊断名d对应的病历的数量。
S502:计算用于表示所述时间区间段划分序列的兼容程度的得分。
在本申请中,两个时间区间段划分序列兼容指的是两个时间区间段划分序列完全相同或存在包含关系。例如,{3.5,7.2}与{3.5,7.5,10.5}就存在包含关系,二者兼容。两个症状相关指的是在医学上有高度关联,通常是源于相同发病机理,同时出现在一份病历中,因此,在本申请中,可以通过症状在病历中的共现程度确定症状之间是否关联,也可以基于预设的相关症状,确定某个症状的相关症状。
作为一种可实施方式,所述计算用于表示所述时间区间段划分序列的兼容程度的得分的具体实现方式可以为:获取目标症状划分的时间区间段,所述目标症状为与所述症状相关的症状;根据所述时间区间段划分序列划分的各时间区间段,与所述目标症状划分的时间区间段的包含关系,计算所述时间区间段划分序列与所述目标症状划分的时间区间段的兼容程度的得分,作为用于表示所述时间区间段划分序列的兼容程度的得分。
为便于理解,本申请给出如下计算用于表示所述时间区间段划分序列的兼容程度的得分的示例:
其中,Score2(symp,s)用于表示症状symp的时间区间段划分序列s的兼容程度的得分,t为目标症状。
S503:计算用于表示所述时间区间段划分序列的简洁程度的得分。
在本申请中,时间区间段划分序列划分的时间区间段的数量越少,越简洁。作为一种可实施方式,所述计算用于表示所述时间区间段划分序列的简洁程度的得分的具体实现方式可以为:获取所述时间区间段划分序列划分的时间区间段的数量;根据所述时间区间段划分序列划分的时间区间段的数量,计算用于表示所述时间区间段划分序列的简洁程度的得分。
为便于理解,本申请给出如下计算用于表示所述时间区间段划分序列的简洁程度的得分的示例:
Score3(s)=-Σi1
其中,Score3(s)用于表示时间区间段划分序列s的间接程度的得分,i表示时间区间段划分序列s划分的每个时间区间。
举例说明如下:假如s是{3.5,7.5},则用于表示s的简洁程度的得分是-3,假如s是
则用于表示s的简洁程度的得分是-13。
S504:根据用于表示所述时间区间段划分序列的有序程度的得分、用于表示所述时间区间段划分序列的兼容程度的得分,以及,用于表示所述时间区间段划分序列的简洁程度的得分,计算所述时间区间段划分序列对应的得分。
在本申请中,可以为用于表示所述时间区间段划分序列的有序程度的得分、用于表示所述时间区间段划分序列的兼容程度的得分,以及,用于表示所述时间区间段划分序列的简洁程度的得分分别赋予相应的权重,再计算上述得分的加权和,即可得到所述时间区间段划分序列对应的得分。
为便于理解,本申请给出如下计算所述时间区间段划分序列对应的得分的示例:
Score(symp,s)=α×Score1(symp,s)+β×Score2(symp,s)+γ×Score3(s)
其中,Score(symp,s)表示时间区间段划分序列s对应的得分;
Score1(symp,s)用于表示症状symp的时间区间段划分序列s的有序程度的得分,α为其权重;
Score2(symp,s)用于表示症状symp的时间区间段划分序列s的兼容程度的得分,β为其权重;
Score3(s)用于表示时间区间段划分序列s的间接程度的得分,γ为其权重。
需要说明的是,α、β、γ的具体取值可以依据具体业务场景进行设置,本申请不进行任何限定。
对于症状划分的时间区间段的应用场景有多个,比如,可以根据症状划分的时间区间段,计算包含所述症状的两个病历的相似度,再比如,可以根据症状划分的时间区间段,进行疾病辅助诊断等等。本申请中将通过以下实施例对根据所述症状划分的时间区间段,计算包含所述症状的两个病历的相似度的具体实现方式进行详细介绍,该方式可以包括如下步骤:
步骤S601:根据所述症状划分的时间区间段,计算所述症状在包含所述症状的两个病历中的差异。
在本申请中,所述根据所述症状划分的时间区间段,计算所述症状在包含所述症状的两个病历中的差异的具体实现方式可以包括以下步骤:
步骤S6011:根据所述症状划分的时间区间段,确定每个病历中与所述症状对应的时间属性值所属的时间区间段。
为便于理解,假设所述症状划分的时间区间段为:小于2天,2天至5.5天,大于5.5天,症状对应的时间属性值为3天,则症状对应的时间属性值所属的时间区间段为:2天至5.5天。
步骤S6012:计算两个时间区间段的差异。
在本申请中,可以每个时间区间段是所述症状划分的第几个时间区间段,基于此,计算两个时间区间段的差异。
为便于理解,假设病历1中与所述症状对应的时间属性值所属的时间区间段是所述症状划分的第2个时间段;病历2中与所述症状对应的时间属性值所属的时间区间段是所述症状划分的第4个时间段,则两个时间区间段的差异为2。
步骤S6013:根据所述参考病历集合,获取每个病历中与所述症状对应的时间属性值所属的时间区间段的诊断名分布向量。
在本申请中,针对每个病历中与所述症状对应的时间属性值所属的时间区间段,可以获取所述参考病历集合中,对应该时间区间段的病历中各诊断名对应的病历数量,基于对应该时间区间段的病历中各诊断名对应的病历数量,确定相应的诊断名分布向量。
为便于理解,假设所述参考病历集合中,对应时间区间段1的病历中83份病历的诊断名为“急性肺炎”、12份为“慢性肺炎”、5份为“轻度肺炎”,则时间区间段1的诊断名分布向量可以为(0.83,0.12,0.05)。
步骤S6014:计算两个诊断名分布向量的差异。
在本申请中,可以对两个诊断名分布向量进行点乘,计算得到两个诊断名分布向量的差异。
步骤S6015:根据所述两个时间区间段的差异,以及,所述两个诊断名分布向量的差异,计算所述症状在包含所述症状的两个病历中的差异。
在本申请中,可以将所述两个时间区间段的差异,以及,所述两个诊断名分布向量的差异的和,作为所述症状在包含所述症状的两个病历中的差异。
步骤S602:根据所述症状在包含所述症状的两个病历中的差异,计算所述两个病历的相似度。
在本申请中,根据所述症状在包含所述症状的两个病历中的差异,计算所述两个病历的相似度,具体可以包括,先根据所述症状在包含所述症状的两个病历中的差异,以及所述包含所述症状的两个病历中包含的其他相同症状的差异,计算两个病历在症状层级的相似度,再计算两个病历在病历层级的相似度,最后基于两个病历在症状层级的相似度,以及,两个病历在病历层级的相似度,计算两个病历的相似度。
其中,两个病历在症状层级的相似度,可以是两个病历中包含的全部相同症状的差异之和。两个病历在病历层级的相似度可以基于两个病历包含的全部症状词,以及,两个病历包含的相同症状词,计算而得。可以计算两个病历在症状层级的相似度,以及,两个病历在病历层级的相似度之和,作为两个病历的相似度。
下面对本申请实施例公开的时间区间段的划分装置进行描述,下文描述的时间区间段的划分装置与上文描述的时间区间段的划分方法可相互对应参照。
参照图2,图2为本申请实施例公开的一种时间区间段的划分装置结构示意图。如图2所示,该时间区间段的划分装置可以包括:
症状获取单元11,用于获取待划分时间区间段的症状;
参考病历集合获取单元12,用于获取参考病历集合,所述参考病历集合是预置病历集合中包含所述症状的参考病历的集合;
确定单元13,用于基于所述参考病历集合中,每个参考病历中记录的所述症状的时间属性值,确定所述症状划分的时间区间段。
可选地,所述参考病历集合获取单元,包括:
目标疾病确定单元,用于根据所述预置病历集合,确定所述症状对应的目标疾病;
时间区间段划分层确定单元,用于根据所述预置病历集合中对应所述目标疾病的病历,确定所述症状对应的时间区间段划分层;
参考病历确定单元,用于确定所述预置病历集合中,属于所述症状对应的时间区间段划分层的病历,为所述参考病历集合中的参考病历。
可选地,所述目标疾病确定单元,包括:
病历确定单元,用于确定所述预置病历集合中,包含所述症状的病历;
疾病确定单元,用于针对每个包含所述症状的病历,根据该病历的诊断名中的基础疾病名,确定该病历对应的疾病;
目标疾病确定子单元,用于确定对应病历数量最多的疾病,为所述症状对应的目标疾病。
可选地,所述时间区间段划分层确定单元,包括:
层级参数确定单元,用于针对所述目标疾病预置的每个层级,根据所述预置病历集合中对应所述目标疾病的病历,确定该层级对应的病历数量,以及,该层级对应的诊断名数量;
信息丰富程度得分确定单元,用于根据所述目标疾病的各个层级对应的病历数量,以及,各个层级对应的诊断名数量,确定所述层级对应病历的信息丰富程度得分;
时间区间段划分层确定子单元,用于确定对应病历的信息丰富程度得分最高的层级,为所述症状对应的时间区间段划分层。
可选地,所述确定单元,包括:
时间区间段划分属性值确定单元,用于根据所述参考病历集合中记录的所述症状的时间属性值,确定所述症状的时间区间段划分属性值;
时间区间段确定单元,用于基于所述症状的时间区间段划分属性值,确定所述症状划分的时间区间段。
可选地,所述时间区间段确定单元,包括:
时间区间段划分序列确定单元,用于基于所述症状的时间区间段划分属性值,确定所述症状的至少一个时间区间段划分序列,所述症状的每个时间区间段划分序列包括所述症状的时间区间段划分属性值中的至少一个值;
计算单元,用于针对每个时间区间段划分序列,计算所述时间区间段划分序列对应的得分;
时间区间段确定子单元,用于基于所述得分最高的时间区间段划分序列,确定所述症状划分的时间区间段。
可选地,所述计算单元,包括:
第一计算单元,用于计算用于表示所述时间区间段划分序列的有序程度的得分;
第二计算单元,用于计算用于表示所述时间区间段划分序列的兼容程度的得分;
第三计算单元,用于计算用于表示所述时间区间段划分序列的简洁程度的得分;
第四计算单元,用于根据用于表示所述时间区间段划分序列的有序程度的得分、用于表示所述时间区间段划分序列的兼容程度的得分,以及,用于表示所述时间区间段划分序列的简洁程度的得分,计算所述时间区间段划分序列对应的得分。
可选地,所述第一计算单元,具体用于:
获取所述参考病历集合的病历数量,所述参考病历集合中,对应所述时间区间段划分序列划分的各时间区间段的病历的数量,以及,所述参考病历集合中,对应所述时间区间段划分序列划分的各时间区间段的病历的疾病分布特征;
根据所述参考病历集合的病历数量,所述参考病历集合中,对应所述时间区间段划分序列划分的各时间区间段的病历的数量,以及,所述参考病历集合中,对应所述时间区间段划分序列划分的各时间区间段的病历的疾病分布特征,计算用于表示所述时间区间段划分序列的有序程度的得分。
可选地,所述第二计算单元,具体用于:
获取目标症状划分的时间区间段,所述目标症状为与所述症状相关的症状;
根据所述时间区间段划分序列划分的各时间区间段,与所述目标症状划分的时间区间段的包含关系,计算所述时间区间段划分序列与所述目标症状划分的时间区间段的兼容程度的得分,作为用于表示所述时间区间段划分序列的兼容程度的得分。
可选地,所述第三计算单元,具体用于:
获取所述时间区间段划分序列划分的时间区间段的数量;
根据所述时间区间段划分序列划分的时间区间段的数量,计算用于表示所述时间区间段划分序列的简洁程度的得分。
可选地,所述装置还包括:
病历相似度计算单元,用于在确定所述症状划分的时间区间段之后,根据所述症状划分的时间区间段,计算包含所述症状的两个病历的相似度。
可选地,所述病历相似度计算单元,具体用于:
根据所述症状划分的时间区间段,确定每个病历中与所述症状对应的时间属性值所属的时间区间段;
计算两个时间区间段的差异;
根据所述参考病历集合,获取每个病历中与所述症状对应的时间属性值所属的时间区间段的诊断名分布向量;
计算两个诊断名分布向量的差异;
根据所述两个时间区间段的差异,以及,所述两个诊断名分布向量的差异,计算所述症状在包含所述症状的两个病历中的差异;
根据所述症状在包含所述症状的两个病历中的差异,计算所述两个病历的相似度。
参照图3,图3为本申请实施例提供的时间区间段的划分设备的硬件结构框图,参照图3,时间区间段的划分设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取待划分时间区间段的症状;
获取参考病历集合,所述参考病历集合是预置病历集合中包含所述症状的参考病历的集合;
基于所述参考病历集合中,每个参考病历中记录的所述症状的时间属性值,确定所述症状划分的时间区间段。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取待划分时间区间段的症状;
获取参考病历集合,所述参考病历集合是预置病历集合中包含所述症状的参考病历的集合;
基于所述参考病历集合中,每个参考病历中记录的所述症状的时间属性值,确定所述症状划分的时间区间段。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。