CN111326226A - 电子病历的解析处理及显示方法、装置、设备及存储介质 - Google Patents

电子病历的解析处理及显示方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111326226A
CN111326226A CN202010093081.XA CN202010093081A CN111326226A CN 111326226 A CN111326226 A CN 111326226A CN 202010093081 A CN202010093081 A CN 202010093081A CN 111326226 A CN111326226 A CN 111326226A
Authority
CN
China
Prior art keywords
medical record
electronic medical
patient
content information
semantic unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010093081.XA
Other languages
English (en)
Other versions
CN111326226B (zh
Inventor
孙钟前
李�杰
胡海峰
邵纪春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010093081.XA priority Critical patent/CN111326226B/zh
Publication of CN111326226A publication Critical patent/CN111326226A/zh
Application granted granted Critical
Publication of CN111326226B publication Critical patent/CN111326226B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请公开了一种电子病历的解析处理及显示方法、装置、设备及存储介质,属于人工智能和医学治疗技术领域。所述方法包括:获取待解析电子病历的内容信息;识别内容信息中的基础元素;根据核心词和修饰词,生成最小语义单元;根据最小语义单元,生成待解析电子病历对应的结构化电子病历。本申请实施例提供的技术方案可以将原始的非结构化电子病历转换为结构化电子病历,且该结构化电子病历与原始的非结构化电子病历在内容上是等价的,便于研究人员后续通过计算机设备,基于该结构化电子病历进行深入的研究处理,有利于提升电子病历的普及度。并且,根据基础元素生成的最小语义单元可以完整地复现医学信息,提升结构化电子病历的精确度和可信度。

Description

电子病历的解析处理及显示方法、装置、设备及存储介质
技术领域
本申请实施例涉及人工智能和医学治疗技术领域,特别涉及一种电子病历的解析处理及显示方法、装置、设备及存储介质。
背景技术
随着人工智能越来越多地与医学治疗相结合,衍生出了电子病历(Electronicmedical record,EMR)等产物。
电子病历是一种记录、保存、管理和还原患者疾病、治疗及健康指标变化的重要载体,蕴含着大量临床实践经验及医学知识。充分理解、挖掘和引用电子病历中的信息,对促进医疗水平的提升、医疗科学的发展、民众健康管理的升级、社会医疗资源的优化等具有重要意义,同时具有重大的商业机会和商业价值,如临床辅助决策。相关技术中,电子病历中除了少量的检查检验报告等是自动生成的,绝大部分的内容还是由医生书写记录,例如,患者主诉、现病史、既往史、家族史、孕产史、喂养史、入院记录、出院小结等等,所以电子病历主要由非结构化文本构成。
由于现阶段计算机设备对非结构化文本的识别和处理能力有限,严重阻碍了电子病历的广泛应用。
发明内容
本申请实施例提供了一种电子病历的解析处理及显示方法、装置、设备及存储介质,可用于在保证电子病历内容完整复现的情况下,生成结构化电子病历。所述技术方案如下:
一方面,本申请实施例提供了一种电子病历的解析处理方法,所述方法包括:
获取待解析电子病历的内容信息;
识别所述内容信息中的基础元素,所述基础元素包括核心词和修饰词;
根据所述核心词和所述修饰词,生成最小语义单元,所述最小语义单元是指所述内容信息中表达医学信息的最小单元;
根据所述最小语义单元,生成所述待解析电子病历对应的结构化电子病历,所述结构化电子病历是指具有预设组成结构的电子病历。
另一方面,本申请实施例提供了一种电子病历的显示方法,所述方法包括:
显示用户界面;
接收在所述用户界面中输入的查看指令,所述查看指令用于请求查看目标患者的电子病历;
获取所述目标患者的待解析电子病历的内容信息;
根据所述内容信息,生成所述待解析电子病历对应的结构化电子病历,所述结构化电子病历是基于核心词和修饰词所组成的最小语义单元生成的、具有预设组成结构的电子病历;
在所述用户界面中显示所述结构化电子病历。
再一方面,本申请实施例提供了一种电子病历的解析处理装置,所述装置包括:
内容信息获取模块,用于获取待解析电子病历的内容信息;
基础元素识别模块,用于识别所述内容信息中的基础元素,所述基础元素包括核心词和修饰词;
最小语义单元生成模块,用于根据所述核心词和所述修饰词,生成最小语义单元,所述最小语义单元是指所述内容信息中表达医学信息的最小单元;
电子病历生成模块,用于根据所述最小语义单元,生成所述待解析电子病历对应的结构化电子病历,所述结构化电子病历是指具有预设组成结构的电子病历。
又一方面,本申请实施例提供了一种电子病历的显示装置,所述装置包括:
用户界面显示模块,用于显示用户界面;
查看指令接收模块,用于接收在所述用户界面中输入的查看指令,所述查看指令用于请求查看目标患者的电子病历;
内容信息获取模块,用于获取所述目标患者的待解析电子病历的内容信息;
电子病历生成模块,用于根据所述内容信息,生成所述待解析电子病历对应的结构化电子病历,所述结构化电子病历是基于核心词和修饰词所组成的最小语义单元生成的、具有预设组成结构的电子病历;
电子病历显示模块,用于在所述用户界面中显示所述结构化电子病历。
还一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述电子病历的解析处理方法,或者上述电子病历的显示方法。
还一方面,本申请实施例提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述电子病历的解析处理方法,或者上述电子病历的显示方法。
还一方面,本申请实施例提供了一种计算机程序产品,当所述计算机程序产品在计算机设备上运行时,使得计算机设备执行上述电子病历的解析处理方法,或者上述电子病历的显示方法。
本申请实施例提供的技术方案,通过获取待解析电子病历的内容信息,并识别内容信息中基础元素,然后根据基础元素,生成最小语义单元,再根据最小语义单元,生成待解析电子病历对应的结构化电子病历,从而可以将原始的非结构化电子病历,通过解析等处理,生成计算机设备可以识别和处理的结构化电子病历,且该结构化电子病历与原始的非结构化电子病历在内容上是等价的,便于研究人员后续通过计算机设备,基于该结构化电子病历进行深入的研究处理,有利于促进电子病历的广泛应用,提升电子病历的普及度。
并且,由于在医学信息精确完整的表达过程中,常常会添加很多的修饰成分,本申请实施例提供的技术方案中,计算机设备根据内容信息识别出的基础元素包括核心词和修饰词,即计算机设备不仅可以识别出内容信息中表达医学信息的核心字词,也可以识别出内容信息中表达医学信息的修饰字词,从而相比于只根据核心词生成的最小语义单元,本申请实施例中,根据核心词和修饰词组成的基础元素生成的最小语义单元,可以更加完整地复现医学信息,提升结构化电子病历的精确度和可信度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的实施环境的示意图;
图2是本申请一个实施例提供的电子病历的解析处理方法的流程图;
图3是本申请一个实施例提供的基础元素的识别方法的流程图;
图4是本申请一个实施例提供的最小语义单元的生成过程的示意图;
图5是本申请一个实施例提供的结构化电子病历的生成方法的流程图;
图6是本申请一个实施例提供的电子病历的显示方法的流程图;
图7是本申请一个实施例提供的电子病历的解析处理及显示方法的流程图;
图8是本申请一个实施例提供的电子病历的解析处理装置的框图;
图9是本申请另一个实施例提供的电子病历的解析处理装置的框图;
图10是本申请一个实施例提供的电子病历的显示装置的框图;
图11是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的技术方案涉及人工智能的自然语言处理技术领域和医学治疗技术领域,具体通过如下实施例进行说明。
请参考图1,其示出了本申请一个实施例提供的电子病历的解析处理及显示方法的实施环境的示意图,该实施环境可以包括:用于记录的计算机设备10、用于存储的计算机设备20和用于处理的计算机设备30。
计算机设备是指具备数据记录、存储以及处理功能的设备,例如,具有数据存储能力的服务器,或者是具有数据记录和处理等能力的计算机设备,如PC(Personal Computer,个人计算机),或者手机、平板电脑、多媒体播放设备、可穿戴设备等终端,还可以是其他计算机设备。可选地,当计算机设备为服务器时,该计算机设备可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。
用于记录的计算机设备10是指用于记录患者就诊情况的计算机设备,例如,医生在对某一患者做出诊断后,可以在用于记录的计算机设备10上记录该患者的诊断结果,以形成诊断记录;或者,某一患者在就诊时使用与用于记录的计算机设备10连接的检查仪器上进行了某项检查,检查结束后,用于记录的计算机设备10会记录患者的检查结果,以形成诊断记录。可选地,一个患者的一次就诊情况可以对应一条就诊记录,也可以对应多条就诊记录,本申请实施例对此不作限定。
用于存储的计算机设备20是指用于存储患者就诊记录的计算机设备,可选地,考虑到计算机设备的存储能力和处理开销,可以采用单独的计算机设备来存储患者的就诊记录,即用于记录的计算机设备10与用于存储的计算机设备20可以实现为不同的计算机设备。本申请实施例中,用于记录的计算机设备10在形成患者的就诊记录后,可以将就诊记录发送给用于存储的计算机设备20,由用于存储的计算机设备20对就诊记录进行存储。
用于处理的计算机设备30是指用于处理患者待解析电子病历的计算机设备,可选地,某一患者的待解析电子病历可以由该患者的至少一条就诊记录组成。可选地,考虑到计算机设备的存储能力和处理开销,也可以采用单独的计算机设备来处理患者的待解析电子病历,即用于处理的计算机设备30,与用于记录的计算机设备10和用于存储的计算机设备20,可以实现为不同的计算机设备。可选地,用于处理的计算机设备30可以将非结构化电子病历,转换为结构化电子病历,以供研究人员基于该结构化电子病历,进行后续的辅助诊断、智能审方、医院科研、患者招募、医院管理、医保审核、健康管理等处理,例如,某一患者的主治医师可以通过用于处理的计算机设备30查看该患者的结构化电子病历,具体实现过程如下:用于处理的计算机设备30接收到该主治医师的查看指令后,根据该查看指令从用于存储的计算机设备20中,调取该患者的历史就诊记录,即该患者的待解析电子病历,然后对该待解析电子病历进行解析等处理,形成该患者的结构化电子病历,并且将该结构化电子病历推送至用户界面中显示,以提供给该患者的主治医生查看。
本申请实施例中,用于记录的计算机设备10与用于存储的计算机设备20之间、以及用于存储的计算机设备20与用于处理的计算机设备30之间,可以通过网络进行互相通信。该网络可以是有线网络,也可以是无线网络。示例性地,用于记录的计算机设备10记录下患者的就诊情况后,将就诊记录通过网络发送给用于存储的计算机设备20,由用于存储的计算机设备20对患者的就诊记录进行存储和管理等,然后用于处理的计算机设备30可以根据查看指令,通过网络从用于存储的计算机设备20中获取某一患者的待解析电子病历,即该患者的至少一条就诊记录,并对该待解析电子病历进行处理,以形成该患者的结构化电子病历。
需要说明的一点是,上述实施例提供的实施环境仅是一种可能的示例,本领域技术人员在了解了本申请实施例的技术方案后,将很容易想到其它的表现形式,例如,将用于记录的计算机设备、用于存储的计算机设备和用于处理的计算机设备实现为同一台计算机设备,但均应属于本申请的保护范围之内。
请参考图2,其示出了本申请一个实施例提供的电子病历的解析处理方法的流程图。该方法可应用于上文所述的计算机设备中,如应用于上文所述实施环境中用于处理的计算机设备中。该方法可以包括如下几个步骤(210~240):
步骤210,获取待解析电子病历的内容信息。
待解析电子病历是指患者历史就诊时所形成的电子病历,该电子病历可以包括直接输入至计算机设备的病历,也可以包括纸质病历的扫描件等,本申请实施例对电子病历的具体表现形式不作限定。待解析电子病历的内容信息是指患者历史就诊时的就诊记录,本申请实施例中,患者在就诊时可以形成相应的就诊记录,该就诊记录可以包括患者就诊时医生的诊断结果,也可以包括患者就诊时进行的一系列检查的检查报告,本申请实施例对就诊记录的具体表现形式不作限定,患者历史就诊时的就诊记录可以形成待解析电子病历的内容信息。
本申请实施例对内容信息的具体生成方式不作限定,可选地,该内容信息可以是医生进行诊断时由医生在计算机设备中手动填写的;该内容信息也可以是患者进行检查时由检查仪器在计算机设备中自动生成的。
本申请实施例对内容信息中包括的就诊记录的具体数量不作限定,可选地,该内容信息中可以包括患者历史就诊过程中所生成的全部就诊记录;该内容信息中也可以包括患者历史就诊过程中所生成的符合预设条件的就诊记录,即计算机设备在获取待解析电子病历的内容信息时,可以设置一定的条件,以对内容信息进行筛选,得到满足条件的内容信息,可选地,该条件可以包括以下至少一种类型:时间条件、年龄条件、地域条件、疾病条件、症状条件、体征条件、性别条件等,本申请实施例对条件类型的种类不作限定,应用中可以结合实际的需求决定具体的条件类型。例如,计算机设备在获取内容信息时,可以设置时间条件:2015年1月至2019年12月,则获取到的内容信息包括患者在2015年1月至2019年12月期间就诊时所生成的全部就诊记录。又例如,计算机设备在获取内容信息时,可以设置疾病条件:直肠癌,则获取到的内容信息包括患者由于直肠癌这一原因进行就诊时所生成的全部就诊记录。通过在获取内容信息时设置一定的条件,可以结合实际需求有针对性地获取内容信息的同时,避免计算机设备获取到不需要的冗余信息,降低计算机设备的处理开销。
步骤220,识别内容信息中的基础元素。
基础元素是指内容信息中可以表达清晰明确含义的最小字词,如“阵发性”、“犬吠样”、“急性”、“慢性”、“时有”、“双侧”、“淋巴结”、“贫血”、“阿莫西林胶囊”、“抽血”、“化疗”、“白细胞计数”和“血常规”等。可选地,由于在医学信息精确完整的表达过程中,常常会添加很多的修饰成分,为了完整地复现医学信息,提升结构化电子病历的精确度和可信度,基础元素可以包括核心词和修饰词,核心词是指内容信息中表达医学信息的核心字词,如“咳嗽”、“发烧”、“直肠癌”和“脑膜炎”等;修饰词是指内容信息中表达医学信息的修饰字词,如“3天”、“阵发性”、“犬吠样”、“持续”、“晚期”和“慢性”等。
本申请实施例对基础元素的识别过程中所使用的具体方法不作限定,可选地,基础元素的识别可以使用NLP(Neuro-Linguistic Programming,神经语言程序学)领域中的序列标注方法,如NER(Name Entity Recognition,命名体识别)方案,NER是指识别内容信息中具有特定意义的实体,如识别内容信息中的药品、检查、疾病、器官、身体部位和成因等,从知识图谱的角度来讲,NER就是从非结构化的内容信息中获取图谱中的实体以及实体性质,可选地,NER可以基于规则与词典进行,也可以基于统计机器学习进行,还可以面向开放域进行。可选地,本申请实施例中,用作基础元素识别的序列标注方法可以基于LSTM-CRF模型进行,也可以基于Lattice LSTM-CRF模型进行,还可以基于Bert-NER模型进行。有关基础元素的具体识别步骤,请参见下文图3可选实施例,此处不多赘述。
步骤230,根据核心词和修饰词,生成最小语义单元。
最小语义单元是指内容信息中表达医学信息的最小单元,该最小语义单元可以精确完整地表达医学信息,如可以表达患者所患疾病的具体情况、具体的症状、具体的体征、具体的治疗手段、具体的用药方式、具体的检查等。本申请实施例中,计算机设备获取到基础元素之后,可以根据基础元素中包括的核心词和修饰词,生成最小语义单元。例如,假设基础元素中包括核心词“咳嗽”和修饰词“阵发性”,则计算机设备根据核心词和修饰词,所生成的最小语义单元可以是“阵发性咳嗽”。有关最小语义单元的具体生成步骤,请参见下文可选实施例,此处不多赘述。
本申请实施例对最小语义单元的具体表现形式不作限定,可选地,最小语义单元可以集合的方式表示,用于表示最小语义单元的集合中可以包括多个元素,每个元素对应一个核心词或者一个修饰词,如最小语义单元可以表示为“{咳嗽、阵发性}”;最小语义单元也可以文本的方式表示,用于表示最小语义单元的文本可以是核心词和修饰词的组合,如最小语义单元可以表示为“阵发性咳嗽”或者“阵发性+咳嗽”。
步骤240,根据最小语义单元,生成待解析电子病历对应的结构化电子病历。
结构化电子病历是指具有预设组成结构的电子病历,即结构化电子病历是具有结构化内容信息的电子病历,该结构化内容信息可以通过将预设组成结构来体现,该预设组成结构是指能够被计算机设备识别并处理的结构,可选地,预设组成结构可以是需要结构化电子病历的开发人员根据实际的需求预先设置的,也可以是计算机设备采用可以处理的电子病历作为训练样本,通过机器学习或者深度学习等方式学习得到的,本申请实施例对此不作限定。可选地,为了便于研究人员或者患者本人等对结构化电子病历的查看与分析,结构化电子病历可以图形、表格等可视化的形式显示,本申请实施例对结构化电子病历的具体显示方式不作限定。
计算机设备通过待解析电子病历的内容信息,进行解析等处理生成最小语义单元后,可以根据该最小语义单元,生成待解析电子病历对应的结构化电子病历。可选地,为了提供多种方式生成结构化电子病历,提升结构化电子病历生成方式的灵活性,计算机设备可以利用该最小语义单元直接生成结构化电子病历,也可以利用该最小语义单元进行更进一步地处理,然后基于进一步处理后得到的信息生成结构化电子病历,本申请实施例对此不作限定。例如,计算机设备可以对最小语义单元进行分类,然后利用分类处理后的最小语义单元生成结构化电子病历;又例如,计算机设备可以最小语义单元进行筛选,然后利用筛选处理后的最小语义单元生成结构化电子病历。
综上所述,本申请实施例提供的技术方案,通过获取待解析电子病历的内容信息,并识别内容信息中基础元素,然后根据基础元素,生成最小语义单元,再根据最小语义单元,生成待解析电子病历对应的结构化电子病历,从而可以将原始的非结构化电子病历,通过解析等处理,生成计算机设备可以识别和处理的结构化电子病历,且该结构化电子病历与原始的非结构化电子病历在内容上是等价的,便于研究人员后续通过计算机设备,基于该结构化电子病历进行深入的研究处理,有利于促进电子病历的广泛应用,提升电子病历的普及度。
并且,由于在医学信息精确完整的表达过程中,常常会添加很多的修饰成分,本申请实施例提供的技术方案中,计算机设备根据内容信息识别出的基础元素包括核心词和修饰词,即计算机设备不仅可以识别出内容信息中表达医学信息的核心字词,也可以识别出内容信息中表达医学信息的修饰字词,从而相比于只根据核心词生成的最小语义单元,本申请实施例中,根据核心词和修饰词组成的基础元素生成的最小语义单元,可以更加完整地复现医学信息,提升结构化电子病历的精确度和可信度。
另外,本申请实施例提供的技术方案中,计算机设备在获取待解析电子病历的内容信息时,可以设置一定的条件,以对内容信息进行筛选,得到满足条件的内容信息。通过对内容信息的筛选,一方面可以结合实际需求有针对性地获取内容信息,另一方面,可以避免获取到不需要的冗余信息,避免计算机设备处理大量的数据,降低计算机设备的处理开销。
另外,本申请实施例提供的技术方案中,计算机设备既可以基于最小语义单元直接生成结构化电子病历,也可以对最小语义单元进行进一步地处理,并基于进一步处理后得到的最小语义单元生成结构化电子病历,提供了多种根据最小语义单元生成结构化电子病历的方式,提升了结构化电子病历生成方式的灵活性。
在一种可能的实施方式中,如图3所示,上述步骤220包括如下几个步骤(222~228):
步骤222,获取内容信息中包含的字词。
计算机设备获取到待解析电子病历的内容信息后,首先获取该内容信息中的字词,在这个过程中,计算机设备可以得到每个字词语义表示,即每个字词在语义空间中的位置。
步骤224,查找预配置表格,获取字词的向量表示。
获取到内容信息中包含的字词后,计算机设备可以通过一定的工具对字词进行字向量学习,即可以将字词的语义表示转换为字词的向量表示,获取到每个字词在向量空间中的位置,本申请实施例中,若字词在语义空间中的位置相近,即字词的含义相近,那么字词在向量空间中的位置也将相近。可选地,计算机设备可以使用word2vec工具进行字向量学习。在字向量学习过程中,计算机设备可以查找预配置的表格,以获取字词的向量表示,其中,预配置的表格用于指示字词的语义表示与向量表示之间的映射,且其可以是通过神经网络模型训练的方式生成的。
例如,如图4所示,假设内容信息410为“成人复发性和难治性白血病”,则字词412为内容信息410中的每个字,如“成”、“人”等,计算机设备获取到字词412之后,使用word2vec工具,并查找预配置的表格,可以得到字词412的向量表示420。
步骤226,对字词的向量表示进行上下文编码,得到字词的特征向量。
字词的特征向量用于指示字词在内容信息中的上下文语境,其可以通过对字词的向量进行上下文编码的方式得到。本申请实施例中,计算机设备可以采用神经网络模型对字词的向量进行上下文编码,且本申请实施例对具体的神经网络模型不作限定,可选地,计算机设备可以采用CNN(卷积神经网络)模型或者RNN(递归神经网络)模型对字词的向量进行上下文编码,为了能够高度并行地工作、提升计算机设备的处理速度,且得到更加准确的特征向量,也可以采用Transformer模型对字词的向量进行上下文编码。
例如,如图4所示,假设计算机设备采用Transformer模型430进行上下文编码,该Transformer模型430通过使用层叠的multi-head attention(多头注意力)机制,可以捕捉到字词更加丰富的语义,以更加准确地学习字词的上下文,得到更精确的特征向量。
步骤228,通过预测模型对字词的特征向量进行含义预测,得到基础元素。
在得到字词的特征向量后,计算机设备可以通过预测模型对字词的特征向量进行含义预测,得到基础元素。可选地,计算机设备可以通过CRF(conditional random fields,条件随机场模型)进行含义预测,其中,CRF是一种判别式概率模型,可以用于标注或者分析自然语言文字。例如,如图4所示,计算机设备通过CRF对特征向量进行含义预测后,可以得到4个基础元素,分别为“成人”、“复发性”、“难治性”和“白血病”。
综上所述,本申请实施例提供的技术方案,通过获取内容信息中包含的字词,并查找预配置的表格,获取字词的向量表示,再对字词的向量进行上下文编码,得到字词的特征向量,然后通过预测模型对字词的特征向量进行含义预测,得到基础元素,提供了一种基础元素的具体识别方式。并且,本申请实施例中,采用Transformer模型对字词的向量进行上下文编码,可以在满足高度并行工作、提升计算机设备处理速度的同时,得到更精确的特征向量。
在另一种可能的实施方式中,上述步骤230包括:按照预定义规则对核心词和修饰词进行组合,生成复合语义单元。
其中,最小语义单元包括复合语义单元,复合语义单元是指内容信息中组合表达医学信息的最小单元。由于医学信息表达的灵活性,某一医学信息并不一定以连续文本的方式出现在内容信息中,通常,指示疾病、症状、体征等的医学信息都是自由地分布在内容信息中,例如,“盐缺失引起的中暑衰竭”这一内容信息中,表达医学信息的“盐缺失”和“中暑衰竭”并没有以连续文本的方式出现。可选地,复合语义单元包括以下至少一种:疾病类复合语义单元、症状类复合语义单元、体征类复合语义单元;其中,疾病类复合语义单元用于指示患者所患疾病的情况,症状类复合语义单元用于指示患者出现的异常情况,体征类复合语义单元用于指示患者的生命体征。
可选地,最小语义单元还包括原子语义单元,原子语义单元用于指示内容信息中可以直接表达医学信息的最小单元。通常,指示药品、检查、检验、治疗的医学信息都是以连续文本的形式出现在内容信息中,如“阿莫西林胶囊”、“血常规检查”和“胃镜”,计算机设备识别出内容信息中指示此类医学信息的基础元素后,可以直接将基础元素确定为原子语义单元,即最小语义单元。
对于最小语义单元中的复合语义单元,本申请实施例在识别出内容信息中的基础元素之后,可以按照预定义规则对核心词和修饰词进行组合,从而将内容信息中分散的基础元素组合以生成复合语义单元,表达完整的医学信息。其中,预定义规则可以是研究人员预先定义的,也可以是通过不断学习得到的,本申请实施例对此不作限定。
可选地,在预定义规则是通过不断学习得到的情况下,预定义规则的学习过程包括如下几个步骤:
(1)获取基础元素集合。
基础元素集合中包括至少一个基础元素,可选地,基础元素集合可以是研究人员预先设定的基础元素范围,也可以是计算机设备从语料库中导入的电子病历中可能出现的基础元素,且基础元素可以包括核心词和修饰词。
(2)确定基础元素的性质。
基础元素的性质用于指示基础元素所表达的含义的类型,可选地,基础元素的性质可以成分的形式表示,该成分是指组成复合语义单元的成分。本申请实施例中,为了精确地表达医学信息,对于不同类型的复合语义单元,确定了不同的成分,即确定了不同的基础元素的性质范围。例如,下述表一示出了复合语义单元为疾病时,确定的基础元素的性质。
表一
Figure BDA0002384368510000131
Figure BDA0002384368510000141
需要说明的一点是,上述表一仅示例性示出了复合语义单元为疾病时,基础元素可能的性质,本领域技术人员在了解了本申请实施例的技术方案后,将很容易想到其它的方案,如复合语义单元为疾病时,基础元素另外可能的性质,或者符合语义单元为症状、体征等时,基础元素可能的性质,但均应属于本申请的保护范围内。
(3)根据性质,确定基础元素之间的组合方式。
基础元素的性质确定之后,计算机设备可以进一步根据该性质,确定基础元素之间的组合方式,该组合方式可以是计算机设备,从基础元素之间的所有组合方式中,筛选出的满足表达习惯等的组合方式。例如,假设疾病的基础元素包括人群、性质、异常,那么满足表达习惯的组合方式可以是“人群+性质+异常”,如图4所示,计算机设备确定了基础元素的性质440之后,即可根据该性质,确定基础元素之间的所有组合方式450,然后计算机设备可以从所有组合方式450中挑选出满足表达习惯的组合方式作为基础元素之间的组合方式,进一步地,计算机设备可以根据该组合方式生成最小语义单元460,分别为“成人复发性白血病”和“成人难治性白血病”。
(4)将基础元素之间的组合方式确定为预定义规则。
确定了基础元素之间的组合方式之后,计算机设备可以将得到的组合方式,确定为预定义规则,以完成预定义规则的学习过程。
综上所述,本申请实施例提供的技术方案,通过预定义规则对核心词和修饰词进行组合,生成复合语义单元,且该复合语义单元是最小语义单元的一种表现形式,提供了一种最小语义单元的具体生成方式。并且,本申请实施例中,由于医学信息并不一定以连续文本的方式出现在内容信息中,通过首先识别基础元素,然后将基础元素组合成复合语义单元,可以精确地复述医学信息。另外,本申请实施例提供的技术方案中,首先获取基础元素集合,然后确定基础元素的性质,再根据性质,确定基础元素之间的组合方式,并将该组合方式确定为预定义规则,提供了一种预定义规则的具体学习过程。
在又一种可能的实施方式中,如图5所示,上述步骤240包括如下几个步骤(242~246):
步骤242,将内容信息划分为n个时段。
由于患者的每一次就诊均对应有就诊时间,且患者的就诊过程中形成的就诊记录通常不是在同一个时刻,因此计算机设备可以将原始病历中的内容信息划分为n个时段,n为正整数。通过这种方式,一方面可以吻合患者实际的就诊情况,另一方面,可以对内容信息进行分时段处理,避免一次对所有的内容信息进行处理,降低计算机设备的处理开销。
可选地,上述步骤242包括:识别内容信息中的时间标记;根据时间标记,将内容信息划分为n个时段。内容信息中包括患者的至少一次就诊记录,每一次就诊记录都对应有一个时间标记,计算机设备可以识别该内容信息中的时间标记,然后根据时间标记将内容信息划分为n个时段。本申请实施例对时段的具体划分标准不作限定,可选地,计算机设备可以根据时间标记之间的差值来划分时段,例如,计算机设备将时间标记相差在48小时之内的内容信息划分在同一个时段;计算机设备也可以根据时间标记的数量来划分时段,例如,计算机设备可以将每5个时间标记对应的内容信息划分为一个时段。
步骤244,对于n个时段中的第i个时段,将第i个时段对应的内容信息中的最小语义单元进行组合,生成第i个时段对应的患者语义单元,其中,i为小于等于n的正整数。
患者语义单元用于指示内容信息对应的患者的健康状态或者治疗事件,即患者语义单元包括两方面的内容,一方面是患者的健康状态,该健康状态可以由一组疾病、症状、身体指标等组成,描述患者的健康情况及身体指标等;另一方面是患者发生的治疗事件,该治疗事件由一组用药、手术、检查等治疗方法组成,描述为了治疗患者的健康问题而采用的治疗措施。计算机设备将内容信息划分为n个时段后,对于n个时段中的每个时段,可以将该时段下的最小语义单元进行组合,以生成该时段对应的患者语义单元。
可选地,上述步骤244包括:确定第i个时段对应的内容信息中的最小语义单元的种类,种类包括健康状态和治疗事件;按照种类,将最小语义单元添加至对应的种类集合中,种类集合包括健康状态对应的种类集合和治疗事件对应的种类集合;对种类集合中的最小语义单元进行组合,得到种类集合对应的患者语义单元。由于患者语义单元包括两方面的内容,在生成患者语义单元的时候,计算机设备可以考虑将最小语义单元按照一定的规则分类,然后将各个类别下的最小语义单元分别组合,生成不同方面的患者语义单元,例如,计算机设备可以先确定最小语义单元的种类属于健康状态还是治疗事件,然后将种类为健康状态的最小语义单元添加至健康状态对应的种类集合中,将种类为治疗事件的最小语义单元添加至治疗事件对应的种类集合中,再将各个种类集合中的最小语义单元进行组合,得到该种类集合对应的患者语义单元。通过这种方式,计算机设备可以按照不同诊断的特点区别形成患者语义单元,一方面便于计算机设备的处理,另一方面使得患者语义单元的内容一目了然,条理清晰。
步骤246,根据n个时段分别对应的患者语义单元,生成结构化电子病历。
在确定了各个时段对应的患者语义单元后,计算机设备可以根据该患者语义单元,生成结构化电子病历。可选地,上述步骤246包括:按照n个时段的时间顺序,对n个时段分别对应的患者语义单元进行串联处理,得到结构化电子病历。计算机设备可以根据各个时段指示的时间顺序,串联各个时段的患者语义单元,以生成结构化电子病历。可选地,计算机设备可以按照n个时段的时间顺序,对n个时段分别对应的患者语义单元进行排序,得到排序后的患者语义单元;按照预定义的组合方式,将排序后的患者语义单元进行整合处理,得到结构化病历。计算机设备在对患者语义单元按照时间顺序排序后,可以按照排序结果将患者语义单元串联起来,从而得到结构化病历,该结构化病历可以指示患者的健康状态或者治疗事件等随时间变化的情况。例如,假设有3个时段,分别为2019年1月3日至1月5日、2019年1月6日至1月8日、2019年1月9日至2019年1月11日,计算机设备可以按照这3个时段指示的时间顺序,将患者语义单元按照:2019年1月3日至1月5日的患者语义单元、2019年1月6日至1月8日的患者语义单元、2019年1月9日至2019年1月11日的患者语义单元串联起来,从而生成结构化电子病历。
在还一种可能的实施方式中,上述步骤240包括:对最小语义单元进行组合,生成患者语义单元,患者语义单元用于指示内容信息对应的患者的健康状态或者治疗事件;按照疾病类型,将患者语义单元划分为k个类别,k为正整数;对于k个类别中的第m个类别,根据第m个类别中的患者语义单元,生成第m个类别对应的结构化电子病历,m为小于等于k的正整数。在医学研究的过程中,有时会涉及对某一类型的疾病或者治疗手段的研究,基于此,本申请实施例提供了一种可以生成某一类型的疾病或者治疗手段的结构化电子病历的方式,通过生成的结构化电子病历,医学研究人员可以对某一类型的疾病进行分析,提取该类型疾病的共同特征等,以促进医学研究的进步。
在实施过程中,计算机设备生成最小语义单元后,可以将最小语义单元组合为患者语义单元,有关患者语义单元的具体生成步骤请参见上述步骤244,此处不再赘述。然后计算机设备可以将患者语义单元划分为k个类别,可选地,计算机设备可以按照预设策略将患者语义单元划分为k个类别,该预设策略可以是预先规定的患者语义单元的可能类别,也可以是在划分类别的过程中,按照患者语义单元所指示的信息随机确定的可能类别,本申请实施例对此不作限定。完成患者语义单元的类别划分之后,对于每一个类别,可以根据该类别的患者语义单元,生成结构化电子病历。可选地,对于某一具体的类别,计算机设备可以提取该类别下患者语义单元的时间标签,然后按照时间标签,将患者语义单元串联起来得到结构化电子病历;可选地,对于某一具体的类别,计算机设备还可以先确定该类别下患者语义单元对应的患者信息,然后按照患者信息,该属于同一患者的患者语义单元进行组合,再根据组合之后的患者语义单元,生成结构化电子病历,本申请实施例对根据患者语义单元生成结构化电子病历的具体实施方式不作限定。
需要说明的一点是,本领域技术人员在了解了本申请的技术方案后,将很容易想到其它的实施方式,例如,通过最小语义单元生成患者语义单元之后,直接根据需求的类别,从大量的患者语义单元中提取与所需类别相关的患者语义单元,然后根据提取出的患者语义单元组成结构化电子病历,这些均应属于本申请的保护范围之内。
综上所述,本申请提供的技术方案,将内容信息划分为多个时段,然后组合各个时段中的最小语义单元,以生成各个时段对应的患者语义单元,再根据各个时段对应的患者语义单元生成结构化电子病历,从而提供了一种结构化电子病历的具体生成方式。并且,本申请实施例提供的技术方案,首先确定患者语义单元的种类,然后按照种类,将最小语义单元添加至对应的种类集合中,再对种类集合中的最小语义单元进行组合,得到种类集合对应的患者语义单元,从而可以按照不同诊断的特点区别形成患者语义单元,一方面便于计算机设备的处理,另一方面使得患者语义单元的内容一目了然,条理清晰。另外,本申请实施例提供的技术方案,按照多个时段指示的时间顺序,将各个时段对应的患者语义单元进行串联,得到结构化电子病历,从而可以通过生成的结构化电子病历,提炼复现患者完整的健康问题和治疗方案的演变过程。
另外,本申请实施例还提供了一种可以生成某一类型的疾病或者治疗手段的结构化电子病历的方式,通过计算机设备对生成的最小语义单元进行组合,生成患者语义单元,然后将患者语义单元划分为多个类别,对于每个类别,计算机设备可以根据该类别下的患者语义单元,生成结构化电子病历,通过生成的结构化电子病历,医学研究人员可以直观便捷地对某一类型的疾病进行分析,提取该类型疾病的共同特征等,提升医学分析的效率,促进医学研究的进步。
请参考图6,其示出了本申请一个实施例提供的电子病历的显示方法的流程图。该方法可应用于上文所述的计算机设备中,如应用于上文所述实施环境中用于处理的计算机设备中。该方法可以包括如下几个步骤(610~650):
步骤610,显示用户界面。
用户界面是计算机设备中显示的可供研究人员操作的界面,可选地,用户界面中包括一些操作控件,如按钮、滑块、图标等,以供用户进行操作。
步骤620,接收在用户界面中输入的查看指令。
查看指令用于请求查看目标患者的电子病历。可选地,研究人员可以在用户界面中输入目标患者的姓名,或者在用户界面提供的选择栏中选中目标患者,计算机设备即可接收到用户界面中输入的查看指令。当然,在一些其它实施例中,研究人员除了通过触控操作的方式来产生查看指令之外,还可以通过语音、手势等方式来产生查看指令,本申请实施例对此不作限定。
步骤630,获取目标患者的待解析电子病历的内容信息。
计算机设备可以根据查看指令,获取目标患者的待解析电子病历的内容信息。有关计算机设备获取待解析电子病历的内容信息的具体过程,可以参见上述实施环境实施例,此处不再赘述。
步骤640,根据内容信息,生成待解析电子病历对应的结构化电子病历。
结构化电子病历是基于核心词和修饰词所组成的最小语义单元生成的、具有预设组成结构的电子病历。有关结构化电子病历的其它介绍说明,以及根据内容信息生成结构化电子病历的具体过程,可以参见上文图2至图5实施例及其它可选实施例,此处不再赘述。
步骤650,在用户界面中显示结构化电子病历。
计算机设备生成结构化电子病历之后,可以将该结构化电子病历在用户界面中显示,以供研究人员查看。
综上所述,本申请实施例提供的技术方案,通过显示用户界面,并接收该用户界面中输入的查看指令,然后根据查看指令获取患者的待解析电子病历,再根据待解析电子病历的内容信息,生成结构化电子病历,并在用户界面中显示结构化电子病历,提供了一种电子病历的显示方式,将结构化电子病历以可视化的方式显示在用户界面中,便于研究人员基于该结构化电子病历进行深入地分析处理。
请参考图7,其示出了本申请一个实施例提供的电子病历的解析处理及查看方法的流程图。该方法可应用于上文所述的计算机设备中,如应用于上文所述实施环境中用于处理的计算机设备中。该方法可以包括如下几个步骤(710~750):
步骤710,接收在用户界面中输入的查看指令;用户界面是计算机设备中显示的可供研究人员操作的界面,查看指令用于请求查看目标患者的电子病历,本申请实施例中,研究人员可以在用户界面中输入目标患者的姓名,或者在用户界面提供的选择栏中选中目标患者,计算机设备即可接收到用户界面中输入的查看指令;
步骤720,根据查看指令,获取目标患者的待解析电子病历的内容信息;计算机设备可以根据查看指令,获取目标患者的待解析电子病历的内容信息,其中,待解析电子病历是指患者历史就诊时所形成的电子病历,待解析电子病历的内容信息是指患者历史就诊时的就诊记录;
步骤730,识别内容信息中的基础元素;基础元素是指内容信息中可以表达清晰明确含义的最小字词,可选地,基础元素可以包括核心词和修饰词,核心词是指内容信息中表达医学信息的核心字词,修饰词是指内容信息中表达医学信息的修饰字词;
步骤740,根据核心词和修饰词,生成最小语义单元;最小语义单元是指内容信息中表达医学信息的最小单元,可选地,最小语义单元包括原子语义单元和复合语义单元,原子语义单元用于指示内容信息中可以直接表达医学信息的最小单元,复合语义单元是指内容信息中组合表达医学信息的最小单元,本申请实施例中,计算机设备获取到基础元素之后,可以根据基础元素中包括的核心词和修饰词,生成最小语义单元;
步骤750,将内容信息划分为多个时段;计算机设备可以将原始病历中的内容信息划分为多个时段,可选地,计算机设备可以通过识别内容信息中的时间标记,然后根据时间标记,将内容信息划分为多个时段;
步骤760,将各个时段下的最小语义单元进行组合,生成各个时段下的患者语义单元;患者语义单元用于指示内容信息对应的患者的健康状态或者治疗事件,即患者语义单元包括两方面的内容,一方面是患者的健康状态,该健康状态可以由一组疾病、症状、身体指标等组成;另一方面是患者发生的治疗事件,该治疗事件由一组用药、手术、检查等治疗方法组成;计算机设备将内容信息划分为多个时段后,对于多个时段中的每个时段,可以将该时段下的最小语义单元进行组合,以生成该时段对应的患者语义单元;
步骤770,根据各个时段对应的患者语义单元,生成结构化电子病历;在确定了各个时段对应的患者语义单元后,计算机设备可以根据该患者语义单元,生成结构化电子病历,可选的,计算机设备可以按照各个时段指示的时间顺序,将各个时段对应的患者语义单元进行串联处理,以生成结构化电子病历;
步骤780,在用户界面中显示结构化电子病历;计算机设备生成结构化电子病历之后,可以将该结构化电子病历在用户界面中显示,以供研究人员查看。
请参考图8,其示出了本申请一个实施例提供的电子病历的解析处理装置的框图。该装置具有实现上述电子病历的解析处理方法示例的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置在计算机设备中。该装置800可以包括:内容信息获取模块810、基础元素识别模块820、最小语义单元生成模块830和电子病历生成模块840。
内容信息获取模块810,用于获取待解析电子病历的内容信息。
基础元素识别模块820,用于识别所述内容信息中的基础元素,所述基础元素包括核心词和修饰词。
语义单元生成模块830,用于根据所述核心词和所述修饰词,生成最小语义单元,所述最小语义单元是指所述内容信息中表达医学信息的最小单元。
电子病历生成模块840,用于根据所述最小语义单元,生成所述待解析电子病历对应的结构化电子病历,所述结构化电子病历是指具有预设组成结构的电子病历。
可选地,如图9所示,所述电子病历生成模块840包括:时段划分子模块842,用于将所述内容信息划分为n个时段,所述n为正整数;语义单元生成子模块844,用于对于所述n个时段中的第i个时段,将所述第i个时段对应的内容信息中的最小语义单元进行组合,生成所述第i个时段对应的患者语义单元,所述患者语义单元用于指示所述内容信息对应的患者的健康状态或者治疗事件,所述i为小于等于所述n的正整数;电子病历生成子模块846,用于根据所述n个时段分别对应的患者语义单元,生成所述结构化电子病历。
可选地,如图9所示,所述语义单元生成子模块844还用于:确定所述第i个时段对应的内容信息中的所述最小语义单元的种类,所述种类包括健康状态和治疗事件;按照所述种类,将所述最小语义单元添加至对应的种类集合中,所述种类集合包括所述健康状态对应的种类集合和所述治疗事件对应的种类集合;对所述种类集合中的最小语义单元进行组合,得到所述种类集合对应的患者语义单元。
可选地,如图9所示,所述电子病历生成子模块846还用于:按照所述n个时段的时间顺序,对所述n个时段分别对应的患者语义单元进行排序,得到排序后的患者语义单元;按照预定义的组合方式,将所述排序后的患者语义单元进行整合处理,得到所述结构化电子病历。
可选地,如图9所示,所述时段划分子模块842还用于:识别所述内容信息中的时间标记;根据所述时间标记,将所述内容信息划分为所述n个时段。
可选地,所述电子病历生成模块840用于:对所述最小语义单元进行组合,生成患者语义单元,所述患者语义单元用于指示所述内容信息对应的患者的健康状态或者治疗事件;按照疾病类型,将所述患者语义单元划分为k个类别,所述k为正整数;对于所述k个类别中的第m个类别,根据所述第m个类别中的患者语义单元,生成所述第m个类别对应的结构化电子病历,所述m为小于等于所述k的正整数。
可选地,所述语义单元生成模块830还用于:按照预定义规则对所述核心词和所述修饰词进行组合,生成复合语义单元;其中,所述最小语义单元包括所述复合语义单元,所述复合语义单元是指所述内容信息中组合表达医学信息的最小单元。
可选地,所述复合语义单元包括以下至少一种:疾病类复合语义单元、症状类复合语义单元、体征类复合语义单元;其中,所述疾病类复合语义单元用于指示患者所患疾病的情况,所述症状类复合语义单元用于指示患者出现的异常情况,所述体征类复合语义单元用于指示患者的生命体征。
可选地,如图9所示,所述装置还包括:集合获取模块802,用于获取基础元素集合,所述基础元素集合中包括至少一个所述基础元素;性质确定模块804,用于确定所述基础元素的性质,所述性质用于指示所述基础元素所表达的含义的类型;方式确定模块806,用于根据所述性质,确定所述基础元素之间的组合方式;规则确定模块808,用于将所述基础元素之间的组合方式确定为所述预定义规则。
可选地,所述基础元素识别模块820还用于:获取所述内容信息中包含的字词;查找预配置表格,获取所述字词的向量表示;对所述字词的向量表示进行上下文编码,得到所述字词的特征向量,所述字词的特征向量用于指示所述字词在所述内容信息中的上下文语境;通过预测模型对所述字词的特征向量进行含义预测,得到所述基础元素。
综上所述,本申请实施例提供的技术方案,通过获取待解析电子病历的内容信息,并识别内容信息中基础元素,然后根据基础元素,生成最小语义单元,再根据最小语义单元,生成待解析电子病历对应的结构化电子病历,从而可以将原始的非结构化电子病历,通过解析等处理,生成计算机设备可以识别和处理的结构化电子病历,且该结构化电子病历与原始的非结构化电子病历在内容上是等价的,便于研究人员后续通过计算机设备,基于该结构化电子病历进行深入的研究处理,有利于促进电子病历的广泛应用,提升电子病历的普及度。
并且,由于在医学信息精确完整的表达过程中,常常会添加很多的修饰成分,本申请实施例提供的技术方案中,计算机设备根据内容信息识别出的基础元素包括核心词和修饰词,即计算机设备不仅可以识别出内容信息中表达医学信息的核心字词,也可以识别出内容信息中表达医学信息的修饰字词,从而相比于只根据核心词生成的最小语义单元,本申请实施例中,根据核心词和修饰词组成的基础元素生成的最小语义单元,可以更加完整地复现医学信息,提升结构化电子病历的精确度和可信度。
请参考图10,其示出了本申请一个实施例提供的电子病历的显示装置的框图。该装置具有实现上述电子病历的显示方法示例的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置在计算机设备中。该装置1000可以包括:用户界面显示模块1010、查看指令接收模块1020、内容信息获取模块1030、电子病历生成模块1040和电子病历显示模块1050。
用户界面显示模块1010,用于显示用户界面。
查看指令接收模块1020,用于接收在所述用户界面中输入的查看指令,所述查看指令用于请求查看目标患者的电子病历。
内容信息获取模块1030,用于获取所述目标患者的待解析电子病历的内容信息。
电子病历生成模块1040,用于根据所述内容信息,生成所述待解析电子病历对应的结构化电子病历,所述结构化电子病历是基于核心词和修饰词所组成的最小语义单元生成的、具有预设组成结构的电子病历。
电子病历显示模块1050,用于在所述用户界面中显示所述结构化电子病历。
综上所述,本申请实施例提供的技术方案,通过显示用户界面,并接收该用户界面中输入的查看指令,然后根据查看指令获取患者的待解析电子病历,再根据待解析电子病历的内容信息,生成结构化电子病历,并在用户界面中显示结构化电子病历,提供了一种电子病历的显示方式,将结构化电子病历以可视化的方式显示在用户界面中,便于研究人员基于该结构化电子病历进行深入地分析处理。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图11,其示出了本申请实施例提供的计算机设备的结构框图,该计算机设备可用于实现上述电子病历的解析处理方法示例,或者上述电子病历的显示方法示例的功能。具体来讲:
该计算机设备1100包括处理单元(如CPU(Central Processing Unit,中央处理器)、GPU(Graphics Processing Unit,图形处理器)和FPGA(Field Programmable GateArray,现场可编程逻辑门阵列)等)1101、包括RAM(Random-Access Memory,随机存储器)1102和ROM(Read-Only Memory,只读存储器)1103的系统存储器1104,以及连接系统存储器1104和中央处理单元1101的系统总线1105。该计算机设备1100还包括帮助计算计算机设备内的各个器件之间传输信息的I/O系统(Input Output System,基本输入/输出系统)1106,和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。
该基本输入/输出系统1106包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中,该显示器1108和输入设备1109都通过连接到系统总线1105的输入输出控制器1110连接到中央处理单元1101。该基本输入/输出系统1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。
该大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。该大容量存储设备1107及其相关联的计算机可读介质为计算机设备1100提供非易失性存储。也就是说,该大容量存储设备1107可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,电可擦写可编程只读存储器)、闪存或其他固态存储其技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知该计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。
根据本申请实施例,该计算机设备1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1100可以通过连接在该系统总线1105上的网络接口单元1111连接到网络1112,或者说,也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。
该存储器还包括至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述电子病历的解析处理方法,或者上述电子病历的显示方法。
在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述电子病历的解析处理方法,或者上述电子病历的显示方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。
在示例性实施例中,还提供一种计算机程序产品,当所述计算机程序产品在计算机设备上运行时,使得计算机设备执行上述电子病历的解析处理方法,或者上述电子病历的显示方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种电子病历的解析处理方法,其特征在于,所述方法包括:
获取待解析电子病历的内容信息;
识别所述内容信息中的基础元素,所述基础元素包括核心词和修饰词;
根据所述核心词和所述修饰词,生成最小语义单元,所述最小语义单元是指所述内容信息中表达医学信息的最小单元;
根据所述最小语义单元,生成所述待解析电子病历对应的结构化电子病历,所述结构化电子病历是指具有预设组成结构的电子病历。
2.根据权利要求1所述的方法,其特征在于,所述根据所述最小语义单元,生成所述待解析电子病历对应的结构化电子病历,包括:
将所述内容信息划分为n个时段,所述n为正整数;
对于所述n个时段中的第i个时段,将所述第i个时段对应的内容信息中的最小语义单元进行组合,生成所述第i个时段对应的患者语义单元,所述患者语义单元用于指示所述内容信息对应的患者的健康状态或者治疗事件,所述i为小于等于所述n的正整数;
根据所述n个时段分别对应的患者语义单元,生成所述结构化电子病历。
3.根据权利要求2所述的方法,其特征在于,所述将所述第i个时段对应的内容信息中的最小语义单元组合,生成所述第i个时段对应的患者语义单元,包括:
确定所述第i个时段对应的内容信息中的所述最小语义单元的种类,所述种类包括健康状态和治疗事件;
按照所述种类,将所述最小语义单元添加至对应的种类集合中,所述种类集合包括所述健康状态对应的种类集合和所述治疗事件对应的种类集合;
对所述种类集合中的最小语义单元进行组合,得到所述种类集合对应的患者语义单元。
4.根据权利要求2所述的方法,其特征在于,所述根据所述n个时段分别对应的患者语义单元,生成所述结构化电子病历,包括:
按照所述n个时段的时间顺序,对所述n个时段分别对应的患者语义单元进行排序,得到排序后的患者语义单元;
按照预定义的组合方式,将所述排序后的患者语义单元进行整合处理,得到所述结构化电子病历。
5.根据权利要求1所述的方法,其特征在于,所述根据所述最小语义单元,生成所述待解析电子病历对应的结构化电子病历,包括:
对所述最小语义单元进行组合,生成患者语义单元,所述患者语义单元用于指示所述内容信息对应的患者的健康状态或者治疗事件;
按照疾病类型,将所述患者语义单元划分为k个类别,所述k为正整数;
对于所述k个类别中的第m个类别,根据所述第m个类别中的患者语义单元,生成所述第m个类别对应的结构化电子病历,所述m为小于等于所述k的正整数。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述核心词和所述修饰词,生成最小语义单元,包括:
按照预定义规则对所述核心词和所述修饰词进行组合,生成复合语义单元;
其中,所述最小语义单元包括所述复合语义单元,所述复合语义单元是指所述内容信息中组合表达医学信息的最小单元。
7.根据权利要求6所述的方法,其特征在于,所述复合语义单元包括以下至少一种:疾病类复合语义单元、症状类复合语义单元、体征类复合语义单元;
其中,所述疾病类复合语义单元用于指示患者所患疾病的情况,所述症状类复合语义单元用于指示患者出现的异常情况,所述体征类复合语义单元用于指示患者的生命体征。
8.根据权利要求6所述的方法,其特征在于,所述预定义规则的学习过程如下:
获取基础元素集合,所述基础元素集合中包括至少一个所述基础元素;
确定所述基础元素的性质,所述性质用于指示所述基础元素所表达的含义的类型;
根据所述性质,确定所述基础元素之间的组合方式;
将所述基础元素之间的组合方式确定为所述预定义规则。
9.根据权利要求1至5任一项所述的方法,其特征在于,所述识别所述内容信息中的基础元素,包括:
获取所述内容信息中包含的字词;
查找预配置表格,获取所述字词的向量表示;
对所述字词的向量表示进行上下文编码,得到所述字词的特征向量,所述字词的特征向量用于指示所述字词在所述内容信息中的上下文语境;
通过预测模型对所述字词的特征向量进行含义预测,得到所述基础元素。
10.一种电子病历的显示方法,其特征在于,所述方法包括:
显示用户界面;
接收在所述用户界面中输入的查看指令,所述查看指令用于请求查看目标患者的电子病历;
获取所述目标患者的待解析电子病历的内容信息;
根据所述内容信息,生成所述待解析电子病历对应的结构化电子病历,所述结构化电子病历是基于核心词和修饰词所组成的最小语义单元生成的、具有预设组成结构的电子病历;
在所述用户界面中显示所述结构化电子病历。
11.一种电子病历的解析处理装置,其特征在于,所述装置包括:
内容信息获取模块,用于获取待解析电子病历的内容信息;
基础元素识别模块,用于识别所述内容信息中的基础元素,所述基础元素包括核心词和修饰词;
语义单元生成模块,用于根据所述核心词和所述修饰词,生成最小语义单元,所述最小语义单元是指所述内容信息中表达医学信息的最小单元;
电子病历生成模块,用于根据所述最小语义单元,生成所述待解析电子病历对应的结构化电子病历,所述结构化电子病历是指具有预设组成结构的电子病历。
12.根据权利要求11所述的装置,其特征在于,所述电子病历生成模块,包括:
时段划分子模块,用于将所述内容信息划分为n个时段,所述n为正整数;
语义单元生成子模块,用于对于所述n个时段中的第i个时段,将所述第i个时段对应的内容信息中的最小语义单元组合,生成所述第i个时段对应的患者语义单元,所述患者语义单元用于指示所述内容信息对应的患者的健康状态或者治疗事件,所述i为小于等于所述n的正整数;
电子病历生成子模块,用于根据所述n个时段分别对应的患者语义单元,生成所述结构化电子病历。
13.一种电子病历的显示装置,其特征在于,所述装置包括:
用户界面显示模块,用于显示用户界面;
查看指令接收模块,用于接收在所述用户界面中输入的查看指令,所述查看指令用于请求查看目标患者的电子病历;
内容信息获取模块,用于获取所述目标患者的待解析电子病历的内容信息;
电子病历生成模块,用于根据所述内容信息,生成所述待解析电子病历对应的结构化电子病历,所述结构化电子病历是基于核心词和修饰词所组成的最小语义单元生成的、具有预设组成结构的电子病历;
电子病历显示模块,用于在所述用户界面中显示所述结构化电子病历。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一项所述的电子病历的解析处理方法,或者实现如权利要求10所述的电子病历的显示方法。
15.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一项所述的电子病历的解析处理方法,或者实现如权利要求10所述的电子病历的显示方法。
CN202010093081.XA 2020-02-14 2020-02-14 电子病历的解析处理及显示方法、装置、设备及存储介质 Active CN111326226B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010093081.XA CN111326226B (zh) 2020-02-14 2020-02-14 电子病历的解析处理及显示方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010093081.XA CN111326226B (zh) 2020-02-14 2020-02-14 电子病历的解析处理及显示方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111326226A true CN111326226A (zh) 2020-06-23
CN111326226B CN111326226B (zh) 2023-03-03

Family

ID=71167130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010093081.XA Active CN111326226B (zh) 2020-02-14 2020-02-14 电子病历的解析处理及显示方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111326226B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785386A (zh) * 2020-06-30 2020-10-16 安徽科大讯飞医疗信息技术有限公司 时间区间段的划分方法、相关设备及可读存储介质
CN111798948A (zh) * 2020-07-01 2020-10-20 微医云(杭州)控股有限公司 病历信息处理方法、装置、设备和存储介质
CN112069783A (zh) * 2020-09-10 2020-12-11 卫宁健康科技集团股份有限公司 一种病历输入法及其输入系统
CN112151183A (zh) * 2020-09-23 2020-12-29 上海海事大学 一种基于Lattice LSTM模型的中文电子病历的实体识别方法
CN112507722A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 电子病历内涵质控方法和装置
CN114334049A (zh) * 2020-12-31 2022-04-12 中电云脑(天津)科技有限公司 一种电子病历结构化处理方法和装置及设备
CN115064255A (zh) * 2022-06-27 2022-09-16 上海梅斯医药科技有限公司 一种就医费用预测方法、系统、设备及存储介质
CN115424735A (zh) * 2022-11-07 2022-12-02 四川互慧软件有限公司 一种电子病历数据交叉互引用方法、系统、设备及介质
CN116612848A (zh) * 2023-07-19 2023-08-18 首都医科大学附属北京安贞医院 一种电子病历的生成方法、装置、设备及存储介质
TWI818203B (zh) * 2020-10-23 2023-10-11 國立臺灣大學醫學院附設醫院 基於病患病情的分類模型建立方法
CN114334049B (zh) * 2020-12-31 2024-06-07 中电云脑(天津)科技有限公司 一种电子病历结构化处理方法和装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180068074A1 (en) * 2016-09-05 2018-03-08 Boe Technology Group Co., Ltd. Method, apparatus and system of generating electronic medical record information
CN109902112A (zh) * 2019-01-24 2019-06-18 西安交通大学 一种基于时间轴的电子病历可视化方法及可视化系统
CN110019711A (zh) * 2017-11-27 2019-07-16 吴谨准 一种对医学文本数据结构化处理的控制方法及装置
CN110069779A (zh) * 2019-04-18 2019-07-30 腾讯科技(深圳)有限公司 医疗文本的症状实体识别方法及相关装置
CN110277149A (zh) * 2019-06-28 2019-09-24 北京百度网讯科技有限公司 电子病历的处理方法、装置及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180068074A1 (en) * 2016-09-05 2018-03-08 Boe Technology Group Co., Ltd. Method, apparatus and system of generating electronic medical record information
CN110019711A (zh) * 2017-11-27 2019-07-16 吴谨准 一种对医学文本数据结构化处理的控制方法及装置
CN109902112A (zh) * 2019-01-24 2019-06-18 西安交通大学 一种基于时间轴的电子病历可视化方法及可视化系统
CN110069779A (zh) * 2019-04-18 2019-07-30 腾讯科技(深圳)有限公司 医疗文本的症状实体识别方法及相关装置
CN110277149A (zh) * 2019-06-28 2019-09-24 北京百度网讯科技有限公司 电子病历的处理方法、装置及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
周小甲 等: "中文病历文本中时间信息自动标注" *
梅文华 等: "结构化电子病历的应用" *
钟芳: "面向电子病历的事件抽取研究" *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785386A (zh) * 2020-06-30 2020-10-16 安徽科大讯飞医疗信息技术有限公司 时间区间段的划分方法、相关设备及可读存储介质
CN111785386B (zh) * 2020-06-30 2024-04-05 讯飞医疗科技股份有限公司 时间区间段的划分方法、相关设备及可读存储介质
CN111798948B (zh) * 2020-07-01 2024-02-27 微医云(杭州)控股有限公司 病历信息处理方法、装置、设备和存储介质
CN111798948A (zh) * 2020-07-01 2020-10-20 微医云(杭州)控股有限公司 病历信息处理方法、装置、设备和存储介质
CN112069783A (zh) * 2020-09-10 2020-12-11 卫宁健康科技集团股份有限公司 一种病历输入法及其输入系统
CN112151183A (zh) * 2020-09-23 2020-12-29 上海海事大学 一种基于Lattice LSTM模型的中文电子病历的实体识别方法
TWI818203B (zh) * 2020-10-23 2023-10-11 國立臺灣大學醫學院附設醫院 基於病患病情的分類模型建立方法
CN112507722A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 电子病历内涵质控方法和装置
CN112507722B (zh) * 2020-11-30 2023-08-01 北京百度网讯科技有限公司 电子病历内涵质控方法和装置
CN114334049A (zh) * 2020-12-31 2022-04-12 中电云脑(天津)科技有限公司 一种电子病历结构化处理方法和装置及设备
CN114334049B (zh) * 2020-12-31 2024-06-07 中电云脑(天津)科技有限公司 一种电子病历结构化处理方法和装置及设备
CN115064255A (zh) * 2022-06-27 2022-09-16 上海梅斯医药科技有限公司 一种就医费用预测方法、系统、设备及存储介质
CN115424735B (zh) * 2022-11-07 2023-01-31 四川互慧软件有限公司 一种电子病历数据交叉互引用方法、系统、设备及介质
CN115424735A (zh) * 2022-11-07 2022-12-02 四川互慧软件有限公司 一种电子病历数据交叉互引用方法、系统、设备及介质
CN116612848B (zh) * 2023-07-19 2023-11-10 首都医科大学附属北京安贞医院 一种电子病历的生成方法、装置、设备及存储介质
CN116612848A (zh) * 2023-07-19 2023-08-18 首都医科大学附属北京安贞医院 一种电子病历的生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111326226B (zh) 2023-03-03

Similar Documents

Publication Publication Date Title
CN111326226B (zh) 电子病历的解析处理及显示方法、装置、设备及存储介质
Beaulieu-Jones et al. Machine learning for patient risk stratification: standing on, or looking over, the shoulders of clinicians?
Thabtah Machine learning in autistic spectrum disorder behavioral research: A review and ways forward
Westra et al. Big data science: A literature review of nursing research exemplars
US11295867B2 (en) Generating and applying subject event timelines
WO2020243732A1 (en) Systems and methods of clinical trial evaluation
CN113015977A (zh) 使用自然语言处理的对疾病和病症的基于深度学习的诊断和转诊
Trivedi et al. NLPReViz: an interactive tool for natural language processing on clinical text
Lee et al. An app developed for detecting nurse burnouts using the convolutional neural networks in microsoft excel: population-based questionnaire study
JP2020529058A (ja) 人間参加型対話式モデル訓練
US20190287660A1 (en) Generating and applying subject event timelines
Lammers et al. A surgeon’s guide to machine learning
Payrovnaziri et al. Enhancing prediction models for one-year mortality in patients with acute myocardial infarction and post myocardial infarction syndrome
Mirzaei et al. Healthcare data integration using machine learning: A case study evaluation with health information-seeking behavior databases
Alibasa et al. Predicting Mood from Digital Footprints Using Frequent Sequential Context Patterns Features
Lal et al. NLP chatbot for Discharge Summaries
US20230072155A1 (en) Method and system for incorporating patient information
Neamtu et al. The impact of Big Data on making evidence-based decisions
Tseng et al. dxpr: an R package for generating analysis-ready data from electronic health records—diagnoses and procedures
Suominen et al. Supporting communication and decision making in finnish intensive care with language technology
Samadi et al. A hybrid modeling framework for generalizable and interpretable predictions of ICU mortality across multiple hospitals
Kasthurirathne et al. Analytics
Musy et al. Big data in healthcare: new methods of analysis
US20240062885A1 (en) Systems and methods for generating an interactive patient dashboard
Zia et al. An Analysis of Big Data Approaches in Healthcare Sector

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40023672

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant