CN117493642A - 相似电子病历检索方法、装置、终端及存储介质 - Google Patents

相似电子病历检索方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN117493642A
CN117493642A CN202311604788.2A CN202311604788A CN117493642A CN 117493642 A CN117493642 A CN 117493642A CN 202311604788 A CN202311604788 A CN 202311604788A CN 117493642 A CN117493642 A CN 117493642A
Authority
CN
China
Prior art keywords
electronic medical
medical record
symptom
features
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311604788.2A
Other languages
English (en)
Other versions
CN117493642B (zh
Inventor
赵风浩
任锋
罗永强
李江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xikang Software Co ltd
Original Assignee
Xikang Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xikang Software Co ltd filed Critical Xikang Software Co ltd
Priority to CN202311604788.2A priority Critical patent/CN117493642B/zh
Publication of CN117493642A publication Critical patent/CN117493642A/zh
Application granted granted Critical
Publication of CN117493642B publication Critical patent/CN117493642B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明适用于医疗数据处理技术领域,提供了一种相似电子病历检索方法、装置、终端及存储介质。该方法包括:提取电子病历数据库中每份电子病历的结构化特征、语义特征和影像检查结果特征;根据结构化特征和影像检查结果特征对相应的语义特征进行修正,获得每份电子病历的修正语义特征;根据每份电子病历的修正语义特征生成每份电子病历对应的症状信息索引,根据每份电子病历的结构化特征生成每份电子病历对应的患者信息索引;根据症状信息索引和患者信息索引构建电子病历索引数据库;基于电子病历索引数据库获得目标电子病历的相似电子病历检索结果。本发明能够全面利用电子病历中的信息,获得更加准确的相似电子病历检索结果。

Description

相似电子病历检索方法、装置、终端及存储介质
技术领域
本发明涉及医疗数据处理技术领域,尤其涉及一种相似电子病历检索方法、装置、终端及存储介质。
背景技术
电子病历是医生诊疗后的第一手资料,不仅包括纸质病历的所有内容,而且还包括如血、尿等常规生化检验报告数据以及如CT、磁共振、超声等影像报告数据,可以对病人的病情、治疗过程等信息进行了详细而完整的记录。随着电子病历的日益广泛应用,积累产生了大量的电子病历数据,而检索获得相似电子病历可以有效地利用积累的电子病历数据服务医疗机构、科研机构和患者,辅助医生进行医学研究,帮助医疗人员更好地在临床上进行决策。
目前,通常基于电子病历中的结构化信息提取关键字,利用关键字进行检索。或者基于自然语言处理方法对电子病历进行语义检索。然而由于电子病历中数据的多样性与全面性,导致无论是基于关键字的检索还是语义检索均存在利用信息不全的问题,进而导致检索结果难以达到预期效果。
发明内容
本发明实施例提供了一种相似电子病历检索方法、装置、终端及存储介质,以解决目前的检索方法难以达到预期效果的问题。
第一方面,本发明实施例提供了一种相似电子病历检索方法,包括:
提取电子病历数据库中每份电子病历的结构化特征、语义特征和影像检查结果特征;
根据每份电子病历的所述结构化特征和所述影像检查结果特征对相应电子病历的所述语义特征进行修正,获得每份电子病历的修正语义特征;
根据每份电子病历的所述修正语义特征生成每份电子病历对应的症状信息索引,并根据每份电子病历的所述结构化特征生成每份电子病历对应的患者信息索引;
根据所述症状信息索引和所述患者信息索引构建电子病历索引数据库;
基于所述电子病历索引数据库对目标电子病历进行检索,获得所述目标电子病历的相似电子病历检索结果。
在一种可能的实现方式中,提取电子病历数据库中每份电子病历的语义特征,包括:
基于预设分句模型对电子病历数据库中每份电子病历的文本内容进行分句,获得每份电子病历对应的句子集和句子集中每个句子的分句置信度;
按照句子集中每个句子的分句置信度和每个句子中出现的主要症状的数量,确定电子病历的主要症状数量特征、主要症状置信度、主要症状-伴随症状特征和伴随症状置信度,作为每份电子病历的语义特征。
在一种可能的实现方式中,所述按照句子集中每个句子的分句置信度和每个句子中出现的主要症状的数量,确定电子病历的主要症状数量特征、主要症状置信度、主要症状-伴随症状特征和伴随症状置信度,包括:
按照句子集中每个句子的分句置信度和每个句子中出现的主要症状的数量,确定电子病历的主要症状数量特征、初始主要症状置信度、主要症状-伴随症状特征和初始伴随症状置信度;
将句子集中每个句子输入预设类别识别模型中,获得每个句子所属的电子病历内容类别;
根据每个句子所属的电子病历内容类别对相应的所述初始主要症状置信度和相应的所述初始伴随症状置信度进行更新,得到相应的主要症状置信度和相应的伴随症状置信度。
在一种可能的实现方式中,所述根据每份电子病历的所述结构化特征和所述影像检查结果特征对相应电子病历的所述语义特征进行修正,获得每份电子病历的修正语义特征,包括:
根据所述主要症状置信度和所述伴随症状置信度判断所述主要症状-伴随症状特征中是否存在疑似症状;
当所述主要症状-伴随症状特征中存在疑似症状时,根据所述结构化特征和所述影像检查结果特征对所述疑似症状进行校验;
根据校验结果对所述疑似症状进行修正,并根据修正结果更新所述主要症状数量特征和所述主要症状-伴随症状特征,作为每份电子病历的修正语义特征。
在一种可能的实现方式中,根据所述结构化特征和所述影像检查结果特征对所述疑似症状进行校验,包括:
根据所述结构化特征中与所述疑似症状相关的帮助检查结果,以及所述影像检查结果特征中与所述疑似症状相关的影像报告结果对所述疑似症状进行校验。
在一种可能的实现方式中,所述根据每份电子病历的所述结构化特征生成每份电子病历对应的患者信息索引,包括:
根据每份电子病历的所述结构化特征,获得每份电子病历对应的患者的年龄、职业和住址;
将每份电子病历对应的患者的年龄、职业和住址作为每份电子病历对应的患者信息索引。
在一种可能的实现方式中,所述基于所述电子病历索引数据库对目标电子病历进行检索,获得所述目标电子病历的相似电子病历检索结果,包括:
提取所述目标电子病历对应的目标结构化特征、目标语义特征和目标影像检查结果特征;
根据所述目标结构化特征和所述目标影像检查结果特征对所述目标语义特征进行修正,获得所述目标电子病历的目标修正语义特征;
根据所述目标修正语义特征获得所述目标电子病历对应的目标症状信息,并根据所述目标结构化特征获得所述目标电子病历对应的目标患者信息;
计算所述目标症状信息与所述电子病历索引数据库中每条症状信息索引的特征距离,根据所述特征距离确定目标症状信息索引;
计算所述目标症状信息索引下的每条患者信息索引与所述目标患者信息的相似度,并将相似度最高的前N个患者信息索引对应的电子病历确定为所述目标电子病历的相似电子病历检索结果,其中,N为正整数。
第二方面,本发明实施例提供了一种相似电子病历检索装置,包括:
提取模块,用于提取电子病历数据库中每份电子病历的结构化特征、语义特征和影像检查结果特征;
第一处理模块,用于根据每份电子病历的所述结构化特征和所述影像检查结果特征对相应电子病历的所述语义特征进行修正,获得每份电子病历的修正语义特征;
第二处理模块,用于根据每份电子病历的所述修正语义特征生成每份电子病历对应的症状信息索引,并根据每份电子病历的所述结构化特征生成每份电子病历对应的患者信息索引;
第三处理模块,用于根据所述症状信息索引和所述患者信息索引构建电子病历索引数据库;
检索模块,用于基于所述电子病历索引数据库对目标电子病历进行检索,获得所述目标电子病历的相似电子病历检索结果。
第三方面,本发明实施例提供了一种终端,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,执行如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。
本发明实施例提供一种相似电子病历检索方法、装置、终端及存储介质,通过先提取电子病历数据库中每份电子病历的结构化特征、语义特征和影像检查结果特征,然后根据每份电子病历的结构化特征和影像检查结果特征对相应电子病历的语义特征进行修正,获得每份电子病历的修正语义特征,然后根据每份电子病历的修正语义特征生成每份电子病历对应的症状信息索引,并根据每份电子病历的结构化特征生成每份电子病历对应的患者信息索引,进而根据症状信息索引和患者信息索引构建电子病历索引数据库。从而可以全面利用电子病历中的结构化数据、半结构化数据和非结构化数据构建电子病历索引数据库,并且可以利用电子病历中的结构化数据和半结构化数据对基于非结构化数据提取的语义特征进行修正,使电子病历的语义特征更加准确,进而使电子病历索引数据库中的症状信息索引更加准确,以在后续基于电子病历索引数据库对目标电子病历进行检索时,能够获得更加准确的相似电子病历检索结果,满足医疗人员的检索需求,更好地辅助医疗人员进行医学研究或临床决策。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的相似电子病历检索方法的实现流程图;
图2是本发明实施例提供的相似电子病历检索装置的结构示意图;
图3是本发明实施例提供的终端的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图通过具体实施例来进行说明。
参见图1,其示出了本发明实施例提供的相似电子病历检索方法的实现流程图,详述如下:
在步骤101中,提取电子病历数据库中每份电子病历的结构化特征、语义特征和影像检查结果特征。
其中,电子病历是医务人员在医疗活动过程中形成的文字、符号、图表、影像、切片等的总和,既包括如血、尿等常规生化检验报告单的结构化数据,又包括如CT、磁共振、超声等影像报告的半结构化数据(若有),还包括如病历首页的主诉、病史等纯文本语言的非结构化数据。
对于结构化数据,可以直接按照设定规则提取相应的结构化特征。对于包括如CT、磁共振、超声等影像报告的半结构化数据,可以基于图像识别方法等识别半结构化数据对应的影像检查结果特征。对于非结构化数据,可以基于自然语言处理方法识别非结构化的电子病历文本内容的语义特征。以便于后续全面利用电子病历中的信息进行相似电子病历检索。
在步骤102中,根据每份电子病历的结构化特征和影像检查结果特征对相应电子病历的语义特征进行修正,获得每份电子病历的修正语义特征。
本实施例中,考虑到电子病历的文本内容中可能具有一词多义或某句话的边界难以确定的情形,从而使提取的语义特征可能存在歧义或错误,进而影响后续相似电子病历检索。因此,利用电子病历中更为准确的结构化特征和影像检查结果特征对电子病历的语义特征进行修正,以在后续利用修正的语义特征进行相似电子病历检索。
在步骤103中,根据每份电子病历的修正语义特征生成每份电子病历对应的症状信息索引,并根据每份电子病历的结构化特征生成每份电子病历对应的患者信息索引。
在步骤104中,根据症状信息索引和患者信息索引构建电子病历索引数据库。
在步骤105中,基于电子病历索引数据库对目标电子病历进行检索,获得目标电子病历的相似电子病历检索结果。
本实施例中,为了充分利用电子病历中的信息进行相似电子病历检索,根据每份电子病历的修正语义特征生成每份电子病历对应的症状信息索引,并根据每份电子病历的结构化特征生成每份电子病历对应的患者信息索引,从而根据症状信息索引和患者信息索引构建二级索引结构的电子病历索引数据库。然后基于二级结构的电子病历索引数据库,可以对待检索的目标电子病历中的症状信息和患者信息均进行匹配,获得与目标电子病历相似度更高、更符合预期的相似电子病历。
本发明实施例通过先提取电子病历数据库中每份电子病历的结构化特征、语义特征和影像检查结果特征,然后根据每份电子病历的结构化特征和影像检查结果特征对相应电子病历的语义特征进行修正,获得每份电子病历的修正语义特征,然后根据每份电子病历的修正语义特征生成每份电子病历对应的症状信息索引,并根据每份电子病历的结构化特征生成每份电子病历对应的患者信息索引,进而根据症状信息索引和患者信息索引构建电子病历索引数据库。从而可以全面利用电子病历中的结构化数据、半结构化数据和非结构化数据构建电子病历索引数据库,并且可以利用电子病历中的结构化数据和半结构化数据对基于非结构化数据提取的语义特征进行修正,使电子病历的语义特征更加准确,进而使电子病历索引数据库中的症状信息索引更加准确,以在后续基于电子病历索引数据库对目标电子病历进行检索时,能够获得更加准确的相似电子病历检索结果,满足医疗人员的检索需求,更好地辅助医疗人员进行医学研究或临床决策。
可选的,提取电子病历数据库中每份电子病历的语义特征,可以包括:
基于预设分句模型对电子病历数据库中每份电子病历的文本内容进行分句,获得每份电子病历对应的句子集和句子集中每个句子的分句置信度。
按照句子集中每个句子的分句置信度和每个句子中出现的主要症状的数量,确定电子病历的主要症状数量特征、主要症状置信度、主要症状-伴随症状特征和伴随症状置信度,作为每份电子病历的语义特征。
本实施例中,考虑一般的自然语言处理方法均是直接对电子病历的文本内容进行分词、词性标注等操作,可能会使分词、词性标注的结果有误。而且电子病历中出现不同症状的数量不同,对应电子病历的相似程度也不同。
因此,先利用标注好的电子病历文本,训练预设分句模型,从而利用预设分句模型,对电子病历中的文本内容进行准确的边界划分。并且,考虑到实际应用时,电子病历的文本内容中还可能出现训练时没有标注过的句式类型,因此,在基于预设分句模型对电子病历的文本内容进行分句后,除了获得电子病历对应的句子集,还获得句子集中每个句子的分句置信度,假如某个句子对应的分句置信度高,则表明该句子的边界范围准确,后续基于该句子提取的主要症状或伴随症状也就更准确,也即主要症状和伴随症状对应的主要症状置信度和伴随症状置信度也就更高。假如某个句子对应的分句置信度较低,则表明该句子的边界范围不够准确,则可能导致后续提取的主要症状或伴随症状不准确,因此相应的主要症状置信度或伴随症状置信度也就不高,也即需要对相应的主要症状或伴随症状进行校验,以提高主要症状或伴随症状的准确度。
在获得每份电子病历对应的句子集和句子集中每个句子的分句置信度之后,可以再针对句子集中的每个句子进行分词及词性标注,从而从句子集中的每个句子中提取该份电子病历对应的主要症状特征和伴随症状特征。可以根据每个句子的分句置信度,确定从该句子中提取的各个主要症状的主要症状置信度,以及从该句子中提取的各个伴随症状的伴随症状置信度。在提取出电子病历中的所有主要症状特征和伴随症状特征之后,可以获取各个句子中出现的主要症状的数量,从而获得电子病历的主要症状数量特征。同时,可以将各个主要症状特征与相应的伴随症状特征进行匹配,获得主要症状-伴随症状特征。
示例性的,假如某电子病历的文本内容为“患者:男,缘于1天前进食后出现恶心、呕吐,呕吐物为胃内容物,伴腹胀,呕吐后腹胀缓解,无呕血、便血。无腹痛,无反酸、烧心,无发热。当时未行任何处理,今日来我院。急诊检查后以:消化道穿孔,肠梗阻,心律失常收入我科”。则基于预设分句模型分句后获得的句子集可以为:患者:男/缘于1天前进食后出现恶心、呕吐/呕吐物为胃内容物/伴腹胀/呕吐后腹胀缓解/无呕血、便血/无腹痛/无反酸、烧心/无发热/当时未行任何处理,今日来我院/急诊检查后以:消化道穿孔,肠梗阻,心律失常收入我科。则确定的主要症状特征可以为恶心、呕吐,伴随症状特征可以为腹胀,则主要症状数量特征可以为2个,主要症状-伴随症状特征可以为恶心-腹胀,呕吐-腹胀,从而可以将主要症状数量特征2个,恶心-腹胀,呕吐-腹胀以及恶心症状置信度、呕吐症状置信度和腹胀症状置信度作为该电子病历的语义特征。
可选的,为了提高分句准确度,在基于预设分句模型对电子病历数据库中每份电子病历的文本内容进行分句之前,还可以执行以下任意一个或多个步骤:
去除每份电子病历的文本内容中的干扰元素。
将每份电子病历的文本内容中的字符串转换为预定格式。
可选的,按照句子集中每个句子的分句置信度和每个句子中出现的主要症状的数量,确定电子病历的主要症状数量特征、主要症状置信度、主要症状-伴随症状特征和伴随症状置信度,可以包括:
按照句子集中每个句子的分句置信度和每个句子中出现的主要症状的数量,确定电子病历的主要症状数量特征、初始主要症状置信度、主要症状-伴随症状特征和初始伴随症状置信度。
将句子集中每个句子输入预设类别识别模型中,获得每个句子所属的电子病历内容类别。
根据每个句子所属的电子病历内容类别对相应的初始主要症状置信度和相应的初始伴随症状置信度进行更新,得到相应的主要症状置信度和相应的伴随症状置信度。
本实施例中,为了使获得的主要症状置信度和伴随症状置信度更符合实际,考虑病历中通常包括主诉、现病史、既往史、个人史、家族史、过敏史等内容类别。假如某个句子属于主诉、现病史的内容类别,则从该句子中提取的主要症状特征或伴随症状特征的置信度较高。若某个句子属于既往史或家族史等其他内容类别,则从该句子中提取的症状特征应该不属于该电子病历对应的主要症状特征或伴随症状特征。也即从某些电子病历内容类别中提取的症状特征的置信度可以视为0,从另一些电子病历内容类别中提取的症状特征的置信度可以为1、0.9、0.8等较高的置信度。
因此,可以先对电子病历的文本内容中每个句子所属的电子病历内容类别进行标注,以构成训练集。然后利用训练集训练得到预设类别识别模型,从而基于预设类别识别模型识别每份电子病历对应的句子集中每个句子所属的电子病历内容类别。然后根据每个句子所属的电子病历内容类别对相应的主要症状的初始主要症状置信度或伴随症状的初始伴随症状置信度进行更新,从而得到每个句子的主要症状的主要症状置信度或伴随症状的伴随症状置信度。
可选的,根据每份电子病历的结构化特征和影像检查结果特征对相应电子病历的语义特征进行修正,获得每份电子病历的修正语义特征,可以包括:
根据主要症状置信度和伴随症状置信度判断主要症状-伴随症状特征中是否存在疑似症状。
当主要症状-伴随症状特征中存在疑似症状时,根据结构化特征和影像检查结果特征对疑似症状进行校验。
根据校验结果对疑似症状进行修正,并根据修正结果更新主要症状数量特征和主要症状-伴随症状特征,作为每份电子病历的修正语义特征。
本实施例中,仍以病历“患者:男,缘于1天前进食后出现恶心、呕吐,呕吐物为胃内容物,伴腹胀,呕吐后腹胀缓解,无呕血、便血。无腹痛,无反酸、烧心,无发热。当时未行任何处理,今日来我院。急诊检查后以:消化道穿孔,肠梗阻,心律失常收入我科”为例。假如预设分句模型不能对其中的否定句式进行合适的断句,例如分句时将“无呕血、便血”分为:无呕血/便血,则可能会将“便血”作为该电子病历的主要症状特征。如不进行处理直接用于后续相似电子病历检索,则可能会导致检索结果出现误差,难以达到预期效果。
因此,本实施例中,在预设分句模型不能对某些句式进行合适的断句时,令该句的分句置信度较低,从而使基于该句提取的主要症状的主要症状置信度或伴随症状的伴随症状置信度较低,从而在根据主要症状置信度和伴随症状置信度进行判断时,可以将该句对应的症状确定为疑似症状。例如,在主要症状置信度或伴随症状置信度小于某个设定阈值时,确定相应的主要症状或伴随症状为疑似症状,也即确定主要症状-伴随症状特征中相应的主要症状为疑似症状,或者确定主要症状-伴随症状特征中相应的伴随症状为疑似症状。
其中,主要症状置信度或伴随症状置信度对应的设定阈值可以相同也可以不同,具体可以根据实际情况设定,本实施例对此不做限定。
其中,在确定疑似症状之后,考虑电子病历中还包括如血、尿等常规生化检验报告单的结构化数据,以及如CT、磁共振、超声等影像报告的半结构化数据。而这些结构化数据和半结构化数据通常是针对患者的主诉或症状进行的检验化验或者放射性检查。因此,可以根据这些结构化数据和半结构化数据对相应的疑似症状进行校验,若这些结构化数据和半结构化数据均表明存在疑似症状1,则该疑似症状1存在。若这些结构化数据和半结构化数据均表明不存在疑似症状2,则疑似症状2可能是由于分句时分句不准确引入的症状特征,则应删除疑似症状2。
本实施例中,通过根据结构化数据和半结构化数据对应的结构化特征和影像检查结果特征对疑似症状进行校验,并根据校验结果对疑似症状进行修正,根据修正结果更新主要症状数量特征和主要症状-伴随症状特征,作为每份电子病历的修正语义特征,可以使每份电子病历的修正语义特征更准确,更有利于后续检索时获得符合预期的检索结果。
可选的,根据结构化特征和影像检查结果特征对疑似症状进行校验,可以包括:
根据结构化特征中与疑似症状相关的帮助检查结果,以及影像检查结果特征中与疑似症状相关的影像报告结果对疑似症状进行校验。
本实施例中,考虑主要是结构化数据和半结构化数据中针对患者的主诉或症状进行的检验化验或者放射性检查可以对疑似症状进行校验,因此,从结构化特征中提取与疑似症状相关的帮助检查结果,并从影像检查结果特征中提取与疑似症状相关的影像报告结果,判断帮助检查结果、影像报告结果与疑似症状是否一致,以根据帮助检查结果和影像报告结果对疑似症状进行校验。
若帮助检查结果、影像报告结果与疑似症状均一致,则保留疑似特征。若帮助检查结果或影像报告结果中至少有一个与疑似症状不一致,则删除疑似症状。
可选的,根据每份电子病历的结构化特征生成每份电子病历对应的患者信息索引,可以包括:
根据每份电子病历的结构化特征,获得每份电子病历对应的患者的年龄、职业和住址;将每份电子病历对应的患者的年龄、职业和住址作为每份电子病历对应的患者信息索引。
本实施例中,考虑不同年龄阶段的患者、从事不同职业的患者以及位于不同地域的患者,可能由于其所处的特殊环境导致其患某种疾病时表现出不同的伴随症状,而病历首页通常包括患者性别、出生年月日、民族、婚姻状况、职业、工作单位或住址、药物过敏史等项目,因此,根据每份电子病历的结构化特征,获得每份电子病历对应的患者的年龄、职业和住址,将每份电子病历对应的患者的年龄、职业和住址作为每份电子病历对应的患者信息索引,以在后续检索时,获得年龄、职业和住址类似的患者的电子病历作为相似电子病历。
可选的,为了进一步提高后续相似电子病历检索的准确性,还可以获得每份电子病历对应的患者的民族、婚姻状况作为每份电子病历对应的患者信息索引。
可选的,基于电子病历索引数据库对目标电子病历进行检索,获得目标电子病历的相似电子病历检索结果,可以包括:
提取目标电子病历对应的目标结构化特征、目标语义特征和目标影像检查结果特征。
根据目标结构化特征和目标影像检查结果特征对目标语义特征进行修正,获得目标电子病历的目标修正语义特征。
根据目标修正语义特征获得目标电子病历对应的目标症状信息,并根据目标结构化特征获得目标电子病历对应的目标患者信息。
计算目标症状信息与电子病历索引数据库中每条症状信息索引的特征距离,根据特征距离确定目标症状信息索引。
计算目标症状信息索引下的每条患者信息索引与目标患者信息的相似度,并将相似度最高的前N个患者信息索引对应的电子病历确定为目标电子病历的相似电子病历检索结果,其中,N为正整数。
本实施例中,在基于电子病历索引数据库对目标电子病历进行检索时,可以采用获得症状信息索引和患者信息索引的方法,获得待检索的目标电子病历的目标修正语义特征和目标患者信息,以及目标主要症状数量特征、目标主要症状-伴随症状特征和目标患者信息,然后先计算目标主要症状数量特征与电子病历索引数据库中每条症状信息索引中的主要症状数量特征的差异度,以及目标主要症状-伴随症状特征与电子病历索引数据库中每条症状信息索引中的主要症状-伴随症状特征的特征距离,从而筛选出主要症状数量特征和主要症状-伴随症状特征均相似的症状信息索引作为目标症状信息索引。
然后再计算目标症状信息索引下的每条患者信息索引与目标患者信息的相似度,并将相似度最高的前N个患者信息索引对应的电子病历确定为目标电子病历的相似电子病历检索结果。
可选的,为了使后续展示的相似电子病历检索结果更有针对性,还可以从每份电子病历的文本内容中提取该份电子病历对应的诊断结果作为电子病历的诊断索引。在筛选目标症状信息索引时,假如某些电子病历的主要症状数量特征和主要症状-伴随症状特征均相似,则筛选诊断索引不同的电子病历对应的症状信息索引作为目标症状信息索引,以匹配出与目标电子病历主要症状数量特征和主要症状-伴随症状特征相似,但诊断结果不同的电子病历。
可选的,考虑医疗数据具有时效性,随着时间推移,时间较长的电子病历的可参考价值逐渐降低,还可以将电子病历的记录时间作为一个维度,输出记录时间与当前时间相近的电子病历作为相似电子病历检索结果。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
以下为本发明的装置实施例,对于其中未详尽描述的细节,可以参考上述对应的方法实施例。
图2示出了本发明实施例提供的相似电子病历检索装置的结构示意图,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
如图2所示,相似电子病历检索装置包括:提取模块21、第一处理模块22、第二处理模块23、第三处理模块24和检索模块25。
提取模块21,用于提取电子病历数据库中每份电子病历的结构化特征、语义特征和影像检查结果特征;
第一处理模块22,用于根据每份电子病历的所述结构化特征和所述影像检查结果特征对相应电子病历的所述语义特征进行修正,获得每份电子病历的修正语义特征;
第二处理模块23,用于根据每份电子病历的所述修正语义特征生成每份电子病历对应的症状信息索引,并根据每份电子病历的所述结构化特征生成每份电子病历对应的患者信息索引;
第三处理模块24,用于根据所述症状信息索引和所述患者信息索引构建电子病历索引数据库;
检索模块25,用于基于所述电子病历索引数据库对目标电子病历进行检索,获得所述目标电子病历的相似电子病历检索结果。
本发明实施例通过先提取电子病历数据库中每份电子病历的结构化特征、语义特征和影像检查结果特征,然后根据每份电子病历的结构化特征和影像检查结果特征对相应电子病历的语义特征进行修正,获得每份电子病历的修正语义特征,然后根据每份电子病历的修正语义特征生成每份电子病历对应的症状信息索引,并根据每份电子病历的结构化特征生成每份电子病历对应的患者信息索引,进而根据症状信息索引和患者信息索引构建电子病历索引数据库。从而可以全面利用电子病历中的结构化数据、半结构化数据和非结构化数据构建电子病历索引数据库,并且可以利用电子病历中的结构化数据和半结构化数据对基于非结构化数据提取的语义特征进行修正,使电子病历的语义特征更加准确,进而使电子病历索引数据库中的症状信息索引更加准确,以在后续基于电子病历索引数据库对目标电子病历进行检索时,能够获得更加准确的相似电子病历检索结果,满足医疗人员的检索需求,更好地辅助医疗人员进行医学研究或临床决策。
在一种可能的实现方式中,提取模块21,可以用于基于预设分句模型对电子病历数据库中每份电子病历的文本内容进行分句,获得每份电子病历对应的句子集和句子集中每个句子的分句置信度;
按照句子集中每个句子的分句置信度和每个句子中出现的主要症状的数量,确定电子病历的主要症状数量特征、主要症状置信度、主要症状-伴随症状特征和伴随症状置信度,作为每份电子病历的语义特征。
在一种可能的实现方式中,提取模块21,可以用于按照句子集中每个句子的分句置信度和每个句子中出现的主要症状的数量,确定电子病历的主要症状数量特征、初始主要症状置信度、主要症状-伴随症状特征和初始伴随症状置信度;
将句子集中每个句子输入预设类别识别模型中,获得每个句子所属的电子病历内容类别;
根据每个句子所属的电子病历内容类别对相应的所述初始主要症状置信度和相应的所述初始伴随症状置信度进行更新,得到相应的主要症状置信度和相应的伴随症状置信度。
在一种可能的实现方式中,第一处理模块22,可以用于根据所述主要症状置信度和所述伴随症状置信度判断所述主要症状-伴随症状特征中是否存在疑似症状;
当所述主要症状-伴随症状特征中存在疑似症状时,根据所述结构化特征和所述影像检查结果特征对所述疑似症状进行校验;
根据校验结果对所述疑似症状进行修正,并根据修正结果更新所述主要症状数量特征和所述主要症状-伴随症状特征,作为每份电子病历的修正语义特征。
在一种可能的实现方式中,第一处理模块22,可以用于根据所述结构化特征中与所述疑似症状相关的帮助检查结果,以及所述影像检查结果特征中与所述疑似症状相关的影像报告结果对所述疑似症状进行校验。
在一种可能的实现方式中,第二处理模块23,可以用于根据每份电子病历的所述结构化特征,获得每份电子病历对应的患者的年龄、职业和住址;
将每份电子病历对应的患者的年龄、职业和住址作为每份电子病历对应的患者信息索引。
在一种可能的实现方式中,检索模块25,可以用于提取所述目标电子病历对应的目标结构化特征、目标语义特征和目标影像检查结果特征;
根据所述目标结构化特征和所述目标影像检查结果特征对所述目标语义特征进行修正,获得所述目标电子病历的目标修正语义特征;
根据所述目标修正语义特征获得所述目标电子病历对应的目标症状信息,并根据所述目标结构化特征获得所述目标电子病历对应的目标患者信息;
计算所述目标症状信息与所述电子病历索引数据库中每条症状信息索引的特征距离,根据所述特征距离确定目标症状信息索引;
计算所述目标症状信息索引下的每条患者信息索引与所述目标患者信息的相似度,并将相似度最高的前N个患者信息索引对应的电子病历确定为所述目标电子病历的相似电子病历检索结果,其中,N为正整数。
图3是本发明实施例提供的终端的示意图。如图3所示,该实施例的终端3包括:处理器30、存储器31以及存储在存储器31中并可在处理器30上运行的计算机程序32。处理器30执行计算机程序32时实现上述各个相似电子病历检索方法实施例中的步骤,例如图1所示的步骤101至步骤105。或者,处理器30执行计算机程序32时实现上述各装置实施例中各模块/单元的功能,例如图2所示各个模块的功能。
示例性的,计算机程序32可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器31中,并由处理器30执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序32在终端3中的执行过程。例如,计算机程序32可以被分割成图2所示的各个模块。
终端3可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端3可包括,但不仅限于,处理器30、存储器31。本领域技术人员可以理解,图3仅仅是终端3的示例,并不构成对终端3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如终端还可以包括输入输出设备、网络接入设备、总线等。
所称处理器30可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器31可以是终端3的内部存储单元,例如终端3的硬盘或内存。存储器31也可以是终端3的外部存储设备,例如终端3上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器31还可以既包括终端3的内部存储单元也包括外部存储设备。存储器31用于存储计算机程序以及终端所需的其他程序和数据。存储器31还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个相似电子病历检索方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电载波信号、电信信号以及软件分发介质等。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种相似电子病历检索方法,其特征在于,包括:
提取电子病历数据库中每份电子病历的结构化特征、语义特征和影像检查结果特征;
根据每份电子病历的所述结构化特征和所述影像检查结果特征对相应电子病历的所述语义特征进行修正,获得每份电子病历的修正语义特征;
根据每份电子病历的所述修正语义特征生成每份电子病历对应的症状信息索引,并根据每份电子病历的所述结构化特征生成每份电子病历对应的患者信息索引;
根据所述症状信息索引和所述患者信息索引构建电子病历索引数据库;
基于所述电子病历索引数据库对目标电子病历进行检索,获得所述目标电子病历的相似电子病历检索结果。
2.根据权利要求1所述的相似电子病历检索方法,其特征在于,提取电子病历数据库中每份电子病历的语义特征,包括:
基于预设分句模型对电子病历数据库中每份电子病历的文本内容进行分句,获得每份电子病历对应的句子集和句子集中每个句子的分句置信度;
按照句子集中每个句子的分句置信度和每个句子中出现的主要症状的数量,确定电子病历的主要症状数量特征、主要症状置信度、主要症状-伴随症状特征和伴随症状置信度,作为每份电子病历的语义特征。
3.根据权利要求2所述的相似电子病历检索方法,其特征在于,所述按照句子集中每个句子的分句置信度和每个句子中出现的主要症状的数量,确定电子病历的主要症状数量特征、主要症状置信度、主要症状-伴随症状特征和伴随症状置信度,包括:
按照句子集中每个句子的分句置信度和每个句子中出现的主要症状的数量,确定电子病历的主要症状数量特征、初始主要症状置信度、主要症状-伴随症状特征和初始伴随症状置信度;
将句子集中每个句子输入预设类别识别模型中,获得每个句子所属的电子病历内容类别;
根据每个句子所属的电子病历内容类别对相应的所述初始主要症状置信度和相应的所述初始伴随症状置信度进行更新,得到相应的主要症状置信度和相应的伴随症状置信度。
4.根据权利要求2所述的相似电子病历检索方法,其特征在于,所述根据每份电子病历的所述结构化特征和所述影像检查结果特征对相应电子病历的所述语义特征进行修正,获得每份电子病历的修正语义特征,包括:
根据所述主要症状置信度和所述伴随症状置信度判断所述主要症状-伴随症状特征中是否存在疑似症状;
当所述主要症状-伴随症状特征中存在疑似症状时,根据所述结构化特征和所述影像检查结果特征对所述疑似症状进行校验;
根据校验结果对所述疑似症状进行修正,并根据修正结果更新所述主要症状数量特征和所述主要症状-伴随症状特征,作为每份电子病历的修正语义特征。
5.根据权利要求4所述的相似电子病历检索方法,其特征在于,根据所述结构化特征和所述影像检查结果特征对所述疑似症状进行校验,包括:
根据所述结构化特征中与所述疑似症状相关的帮助检查结果,以及所述影像检查结果特征中与所述疑似症状相关的影像报告结果对所述疑似症状进行校验。
6.根据权利要求1-5任一项所述的相似电子病历检索方法,其特征在于,所述根据每份电子病历的所述结构化特征生成每份电子病历对应的患者信息索引,包括:
根据每份电子病历的所述结构化特征,获得每份电子病历对应的患者的年龄、职业和住址;
将每份电子病历对应的患者的年龄、职业和住址作为每份电子病历对应的患者信息索引。
7.根据权利要求1-5任一项所述的相似电子病历检索方法,其特征在于,所述基于所述电子病历索引数据库对目标电子病历进行检索,获得所述目标电子病历的相似电子病历检索结果,包括:
提取所述目标电子病历对应的目标结构化特征、目标语义特征和目标影像检查结果特征;
根据所述目标结构化特征和所述目标影像检查结果特征对所述目标语义特征进行修正,获得所述目标电子病历的目标修正语义特征;
根据所述目标修正语义特征获得所述目标电子病历对应的目标症状信息,并根据所述目标结构化特征获得所述目标电子病历对应的目标患者信息;
计算所述目标症状信息与所述电子病历索引数据库中每条症状信息索引的特征距离,根据所述特征距离确定目标症状信息索引;
计算所述目标症状信息索引下的每条患者信息索引与所述目标患者信息的相似度,并将相似度最高的前N个患者信息索引对应的电子病历确定为所述目标电子病历的相似电子病历检索结果,其中,N为正整数。
8.一种相似电子病历检索装置,其特征在于,包括:
提取模块,用于提取电子病历数据库中每份电子病历的结构化特征、语义特征和影像检查结果特征;
第一处理模块,用于根据每份电子病历的所述结构化特征和所述影像检查结果特征对相应电子病历的所述语义特征进行修正,获得每份电子病历的修正语义特征;
第二处理模块,用于根据每份电子病历的所述修正语义特征生成每份电子病历对应的症状信息索引,并根据每份电子病历的所述结构化特征生成每份电子病历对应的患者信息索引;
第三处理模块,用于根据所述症状信息索引和所述患者信息索引构建电子病历索引数据库;
检索模块,用于基于所述电子病历索引数据库对目标电子病历进行检索,获得所述目标电子病历的相似电子病历检索结果。
9.一种终端,其特征在于,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,执行如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上的权利要求1至7中任一项所述方法的步骤。
CN202311604788.2A 2023-11-28 2023-11-28 相似电子病历检索方法、装置、终端及存储介质 Active CN117493642B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311604788.2A CN117493642B (zh) 2023-11-28 2023-11-28 相似电子病历检索方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311604788.2A CN117493642B (zh) 2023-11-28 2023-11-28 相似电子病历检索方法、装置、终端及存储介质

Publications (2)

Publication Number Publication Date
CN117493642A true CN117493642A (zh) 2024-02-02
CN117493642B CN117493642B (zh) 2024-06-07

Family

ID=89680025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311604788.2A Active CN117493642B (zh) 2023-11-28 2023-11-28 相似电子病历检索方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN117493642B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341264A (zh) * 2017-07-19 2017-11-10 东北大学 一种支持自定义实体的电子病历检索系统及方法
CN111627512A (zh) * 2020-05-29 2020-09-04 北京大恒普信医疗技术有限公司 一种相似病历的推荐方法、装置,电子设备及存储介质
WO2022041723A1 (zh) * 2020-08-31 2022-03-03 康键信息技术(深圳)有限公司 基于问诊对话的电子病历生成方法、装置、计算机设备及介质
CN114420233A (zh) * 2022-01-18 2022-04-29 北京工业大学 一种中文电子病历后结构化信息的抽取方法
CN114912887A (zh) * 2022-04-20 2022-08-16 深圳市医未医疗科技有限公司 一种基于电子病历的临床数据录入方法及录入装置
CN115995281A (zh) * 2022-11-18 2023-04-21 广州知汇云科技有限公司 一种基于数据治理的专病数据库的数据检索方法及装置
CN116564478A (zh) * 2023-05-11 2023-08-08 平安科技(深圳)有限公司 中医辅助诊断方法、系统、设备及存储介质
CN117116407A (zh) * 2023-10-23 2023-11-24 之江实验室 基于电子病历的患者画像生成方法、装置及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341264A (zh) * 2017-07-19 2017-11-10 东北大学 一种支持自定义实体的电子病历检索系统及方法
CN111627512A (zh) * 2020-05-29 2020-09-04 北京大恒普信医疗技术有限公司 一种相似病历的推荐方法、装置,电子设备及存储介质
WO2022041723A1 (zh) * 2020-08-31 2022-03-03 康键信息技术(深圳)有限公司 基于问诊对话的电子病历生成方法、装置、计算机设备及介质
CN114420233A (zh) * 2022-01-18 2022-04-29 北京工业大学 一种中文电子病历后结构化信息的抽取方法
CN114912887A (zh) * 2022-04-20 2022-08-16 深圳市医未医疗科技有限公司 一种基于电子病历的临床数据录入方法及录入装置
CN115995281A (zh) * 2022-11-18 2023-04-21 广州知汇云科技有限公司 一种基于数据治理的专病数据库的数据检索方法及装置
CN116564478A (zh) * 2023-05-11 2023-08-08 平安科技(深圳)有限公司 中医辅助诊断方法、系统、设备及存储介质
CN117116407A (zh) * 2023-10-23 2023-11-24 之江实验室 基于电子病历的患者画像生成方法、装置及存储介质

Also Published As

Publication number Publication date
CN117493642B (zh) 2024-06-07

Similar Documents

Publication Publication Date Title
US20220044812A1 (en) Automated generation of structured patient data record
US20180293354A1 (en) Clinical content analytics engine
CN112541066B (zh) 基于文本结构化的医技报告检测方法及相关设备
US20100306218A1 (en) Systems and methods for interfacing with healthcare organization coding system
US20160098456A1 (en) Implicit Durations Calculation and Similarity Comparison in Question Answering Systems
CN111627512A (zh) 一种相似病历的推荐方法、装置,电子设备及存储介质
EP4170670A1 (en) Medical data processing method and system
CN114912887B (zh) 一种基于电子病历的临床数据录入方法及录入装置
CN111104481B (zh) 一种识别匹配字段的方法、装置及设备
CN111177309A (zh) 病历数据的处理方法及装置
CN113111660A (zh) 数据处理方法、装置、设备和存储介质
CN117493642B (zh) 相似电子病历检索方法、装置、终端及存储介质
CN115631823A (zh) 相似病例推荐方法及系统
CN113221541A (zh) 一种数据提取方法及装置
US20220005566A1 (en) Medical scan labeling system with ontology-based autocomplete and methods for use therewith
Kovačević et al. De-identification of clinical free text using natural language processing: A systematic review of current approaches
Tran et al. Scaling out and evaluation of obsecan, an automated section annotator for semi-structured clinical documents, on a large VA clinical corpus
US10586616B2 (en) Systems and methods for generating subsets of electronic healthcare-related documents
CN116992839B (zh) 病案首页自动生成方法、装置及设备
US20240177818A1 (en) Methods and systems for summarizing densely annotated medical reports
CN113435194B (zh) 词汇切分方法、装置、终端设备及存储介质
CN117438079B (zh) 循证知识抽提及辅助临床决策的方法及介质
Berg Fine-tuning and evaluating a Swedish language model for automatic discharge summary gener-ation from Swedish clinical notes
CN114049929A (zh) 医学检查报告解读方法、装置和电子设备
CN116821347A (zh) 一种文本数据的归类方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant