CN117059281A - 一种电子病历数值推理的方法、装置、设备及介质 - Google Patents

一种电子病历数值推理的方法、装置、设备及介质 Download PDF

Info

Publication number
CN117059281A
CN117059281A CN202310931963.2A CN202310931963A CN117059281A CN 117059281 A CN117059281 A CN 117059281A CN 202310931963 A CN202310931963 A CN 202310931963A CN 117059281 A CN117059281 A CN 117059281A
Authority
CN
China
Prior art keywords
text data
target text
electronic medical
medical record
reasoning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310931963.2A
Other languages
English (en)
Inventor
张兆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202310931963.2A priority Critical patent/CN117059281A/zh
Publication of CN117059281A publication Critical patent/CN117059281A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及数字医疗领域,尤其涉及一种电子病历数值推理的方法、装置、设备及介质,通过获取电子病历的初始文本数据,利用可插拔的预训练语言模型对初始文本数据进行处理,得到目标文本数据,基于预设的指示,对其进行结构化处理,以抽取实体关系,进而确定上下文特征,基于深度学习对上下文特征进行位置标记处理,得到目标文本数据的位置坐标,以此进行数值推理。本申请利用可插拔的预训练语言模型,在复杂且标注困难的医疗场景下,极大降低了模型引入成本,更好的提取电子病历文本数据,基于预设的指示和深度学习,充分发掘了电子病历数据的位置坐标,进行数值推理,以得到准确的推理结果,提高了对电子病历进行信息抽取和数值推理的准确性。

Description

一种电子病历数值推理的方法、装置、设备及介质
技术领域
本发明涉及人工智能领域及数字医疗领域,尤其涉及一种电子病历数值推理的方法、装置、设备及介质。
背景技术
随着医院信息化建设的不断完善,医院的各个业务系统都会产生大量的电子病历数据。这些数据是病人在医院就诊及治疗过程中所产生的重要记录,包含病历文本、医学图表、医学影像等多种类型数据。其中,非结构化形式的电子病历文本数据是最主要的部分,如主诉、诊断结果、入院/出院记录和治疗过程等,这些数据蕴含大量有价值的医疗知识及健康信息。从大量不规则的文本中,抽取出数值信息,并进行一定的推理计算。
然而针对医疗场景的数值推理,传统的做法是实体抽取+关系抽取+数值逻辑计算。但是由于医学文本的来源图片大多拍摄不工整,使得识别后的文本数据位置坐标错位,实体抽取错乱,以此直接导致后续的关系抽取失败,数值计算错误。并且在不同的医学场景下,由于电子病历文本数据复杂性,不能精准确定其位置坐标,需要人工编写不同的数值推理逻辑,非常耗时耗力。
发明内容
基于此,有必要针对上述技术问题,提供一种电子病历数值推理的方法、装置、设备及介质,以解决现有技术无法精准确定电子病历文本数据位置坐标,进而影响信息提取和数值推理的问题。
本申请实施例的第一方面提供了一种电子病历数值推理的方法,所述电子病历数值推理的方法包括:
获取电子病历的初始文本数据,利用可插拔的预训练语言模型对初始文本数据进行处理,得到目标文本数据;
基于预设的指示,对所述目标文本数据进行结构化处理,以抽取实体关系;
根据所述实体关系,确定所述目标文本数据对应的上下文特征;
基于深度学习对所述目标文本数据对应的上下文特征进行位置标记处理,得到所述目标文本数据的位置坐标;
根据所述目标文本数据的位置坐标,对所述目标文本数据进行确定性数值推理。
本申请实施例的第二方面提供了一种电子病历数值推理的装置,所述电子病历数值推理的装置包括:
获取模块,用于获取电子病历的初始文本数据,利用可插拔的预训练语言模型对初始文本数据进行处理,得到目标文本数据;
抽取模块,用于基于预设的指示,对所述目标文本数据进行结构化处理,以抽取实体关系;
确定模块,用于根据所述实体关系,确定所述目标文本数据对应的上下文特征;
得到模块,用于基于深度学习对所述目标文本数据对应的上下文特征进行位置标记处理,得到所述目标文本数据的位置坐标;
推理模块,用于根据所述目标文本数据的位置坐标,对所述目标文本数据进行确定性数值推理。
第三方面,本发明实施例提供了一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的电子病历数值推理的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的电子病历数值推理的方法。
综上所述,本发明提供了一种电子病历数值推理的方法、装置、设备及存储介质,通过获取电子病历的初始文本数据,利用可插拔的预训练语言模型对初始文本数据进行处理,得到目标文本数据,基于预设的指示,对目标文本数据进行结构化处理,以抽取实体关系,然后根据实体关系,确定目标文本数据对应的上下文特征,基于深度学习对目标文本数据对应的上下文特征进行位置标记处理,得到目标文本数据的位置坐标,根据目标文本数据的位置坐标,对目标文本数据进行确定性数值推理。本申请利用可插拔的预训练语言模型,在复杂且标注困难的医疗场景下,极大降低了模型引入成本,同时可插拔的模块也使得模型的能更好更方便提取电子病历的目标文本数据,基于预设的指示和深度学习,充分发掘了电子病历的目标文本数据的位置坐标,以此对目标文本数据进行确定性数值推理,得到准确的推理结果。解决现有技术无法精准确定电子病历文本数据位置坐标,进而影响信息提取和数值推理的问题,提高了对电子病历进行信息抽取和数值推理的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种电子病历数值推理的方法的一应用环境示意图;
图2是本发明一实施例提供的一种电子病历数值推理的方法的流程示意图;
图3是本发明一实施例提供的一种电子病历数值推理的装置的结构示意图;
图4是本发明一实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本发明说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本发明说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本发明说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
应理解,以下实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
为了说明本发明的技术方案,下面通过具体实施例来进行说明。
本发明一实施例提供的一种电子病历数值推理的方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等计算机设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现,通过服务器可以上传下载医疗数据,如个人健康档案、处方、检查报告等。
需要说明的是,本申请实施例提供的一种电子病历数值推理的方法,应用于数字医疗领域,利用医疗平台输出各种医疗文本对应的电子病历数据,比如,电子病历具体指的是:使用电子设备(计算机、健康卡等)保存、管理、传输和重现的数字化的医疗记录,用以取代手写纸张病例的所有信息。电子病历包括项目名称、疾病案首页、术后病程、检查结果、医嘱、手术记录、入院记录等等各种不同类型的文书,不同类型的文书所包括的章节类型也有所不同(例如入院记录中包括主诉、现病史、家族史等章节),可通过医疗平台获取报告,医疗平台将文字检查报告转化成为目标文本数据进行输出给用户。
在一种可能的实现方式中,医疗文本可以是医疗电子记录(ElectronicHealthcare Record),电子化的个人健康记录,包括病历、心电图、医学影像等一系列具备保存备查价值的电子化记录。
在一种可能的实现方式中,可应用于智能诊疗、远程会诊中,利用输合成的目标语音进行智能诊疗和远程会诊,还可以是互联网医院的智能客服处理中。
信息查询成为很多场景中用户快速获取所需信息的渠道。例如在医疗领域中,可以基于人工智能模型从海量的电子病历中查询用户所需的病历信息,通过语音输出医疗文本的方式,有助于为用户提供病历参考。
需要说明的是,上述涉及医疗的应用场景在此仅为示例性说明,具体均不做限定。
参见图2,是本发明一实施例提供的电子病历数值推理的方法的流程示意图,上述电子病历数值推理的方法可以应用于图1中的服务端,上述服务端连接相应的客户端,如图2所示,该电子病历数值推理的方法可以包括以下步骤。
S201:获取电子病历的初始文本数据,利用可插拔的预训练语言模型对初始文本数据进行处理,得到目标文本数据。
在步骤S201中,本申请实施例中获取电子病历的初始文本数据可以从电子病历数据库服务器上获取;或,对的纸质病历进行电子扫描以获取,例如,电子病历的初始文本数据可以通过电子病历应用服务器从电子病历数据库服务器上获取病人的打印记录数据、诊疗或护理文书数据。通常医院会对就诊的病人建立病历数据库,以记录病人的现病史、既往史、个人史、过敏史、婚姻史、家庭式等信息,或者还包括就诊记录、入院记录等。通过医院系统,能使各科室医生查询到该病人的病历,并可由任何一会诊医生获取到病人的电子病历文档。或者,除了医院自检的病历数据库外,还对应为每个就诊患者提供一纸质病历本,在某些缺少病历数据库或缺少电子病历数据的情况下,还可通过对纸质病历中需要续打的分页进行扫描,以获取到本申请所述的电子病历文档,然后再利用可插拔的预训练语言模型对初始文本数据进行处理,进而得到电子病历的目标文本数据。
本公开实施例的初始文本数据是指在实际应用场景中,将初始文本数据输入到可插拔的预训练语言模型进行处理,得到目标文本数据。在将预训练语言模型部署到实际产品中之前,需要获取一定量的电子病历的初始文本数据,从而生成初始文本数据集,利用初始文本数据集加入到预训练语言模型进行处理,进而得到要处理的目标文本数据。
可选地,利用可插拔的预训练语言模型对初始文本数据进行处理,得到目标文本数据,包括:
预先建立可插拔的预训练语言模型;
基于所述预训练语言模型的可插拔旁路,获取由模型的训练样本的初始文本数据所组成的矩阵;
对所述初始文本数据所组成的矩阵进行降维与升维,得到所述降维与升维的矩阵;
从所述预训练语言模型和所述降维与升维的矩阵中,提取数据并作为目标文本数据。
在本实施例中,由于目前应用预训练语言模型到领域内的方式,是通过finetune领域内的数据,使模型更好地适配领域内的任务。但随着预训练语言模型的参数越来越大,传统的finetune方式会修改预训练模型所有的参数,参考训练的参数量非常之高。拿gpt3来说,其参数使1750亿,一般公司用传统的finetune方式去训练模型,基本不可能。因此我们采用一种新的finetune方式,固定原有的模型参数不动,然后加一个旁路模块来适配领域内的任务,即预先建立可插拔的预训练语言模型,获取由模型的训练样本的初始文本数据所组成的矩阵,以向量的形式存在,以此对初始文本数据所组成的向量矩阵进行降维与升维,得到降维与升维的矩阵,通过筛选出用于训练的数据,使得这些数据相对于降维后和升维后的数据,具有可解释性,能够更好地用于模型的训练过程,最终从预训练语言模型和降维与升维的矩阵中,提取数据作为目标文本数据。
需要说明的是,预训练语言模型可以是gpt3、chatglm、bert等模型,本申请对此不做任何限定。
可选地,对初始文本数据所组成的矩阵进行降维与升维,得到降维与升维的矩阵,包括:
利用随机高斯分布对所述初始文本数据所组成的矩阵进行初始化处理,得到降维矩阵;
利用0矩阵对所述初始文本数据所组成的矩阵进行初始化处理,得到升维矩阵;
将所述降维矩阵与所述升维矩阵进行融合,得到降维与升维的矩阵。
在本实施例中,在预训练语言模型之外加一个旁路,对初始文本数据进行升维降维处理,即利用随机高斯分布对初始文本数据所组成的矩阵进行初始化降维处理,得到降维矩阵,利用0矩阵对初始文本数据所组成的矩阵进行初始化升维处理,得到升维矩阵,将降维矩阵与升维矩阵的数据进行融合,以此得到降维与升维的矩阵。由于我们使用了降维升维的操作,同时固定了预训练语言模型的输出参数,使我们引入的参数量非常少,例如,假设预训练语言模型的输出参数的尺寸是512*768=393216,如果降维到4,那么引入的参数量是512*4+4*768=5120,参数量非常少,以此使得训练的成本极大降低。
可选地,从预训练语言模型和降维与升维的矩阵中,提取数据并作为目标文本数据,包括:
将从预训练语言模型和可插拔旁路中的降维与升维的矩阵输出的数据进行叠加,提取叠加后的文本数据;
将所述叠加后的文本数据作为目标文本数据。
在本实施例中,由于在预训练语言模型之外添加了一个旁路,旁路的输出数据会影响模型最终的效果,所以将可插拔旁路中的降维与升维的矩阵输出的数据和从预训练语言模型输出的数据进行叠加,然后去达到适配下游任务的目的。例如,原本在抽取血常规和抽取b超这2个场景时表现不佳,可以按本申请的方法,分别训练2个旁路模块,在不同的场景下通过插拔不同的旁路模块来适配场景任务,以此优化模型效果。
示例性的,通过如下公式输出目标文本数据:
h=W0x+ΔW0x=W0x+BAx
其中,h表示输出目标文本数据,W0x表示基于预训练语言模型输出原有的参数数据,ΔW0x表示基于可插拔旁路输出的参数数据,A表示降维,B表示升维,通过这2个操作,使得我们引入的参数量就非常少,将预训练语言模型应用到领域内的成本就非常低。
例如,对于不同的病人,其应用的部位、治疗的目标不同,因此其各个进度中的电子病历数值推理的方式也不相同。因此,在本发明的技术方案中,可以根据当前的医疗器械、以及康复治疗的数据当前进度,通过插拔不同的旁路模块来适配场景任务,优化模型效果,以此确定目标电子病历数值推理的方式。
本申请实施例中,为了克服现有技术中电子病历数值推理的准确度较低的问题,本发明实施例通过在预训练语言模型之外添加一个可插拔旁路,由于是一个旁路,并没有修改原始的模型结构,因此它是一种可插拔的方式,在医疗领域内面对不同的场景,可以快速训练不同的旁路模块,引入不同场景下的知识,并在推理的时候简单加载替换不同的旁路模块即可实现不同的模型效果,提高了数值推理的准确性。
S202:基于预设的指示,对所述目标文本数据进行结构化处理,以抽取实体关系。
在步骤S202中,本申请中基于Prompt给予预设的指示,采取端到端抽取,对目标文本数据进行结构化处理,以抽取实体关系,这样可以避免了实体抽取+关系抽取+数值逻辑计算这类pipeline方式出现实体抽取错误,传递到后续的任务,影响关系抽取任务的错误传递问题。其中,该目标文本数据是指后续用于进行确定性推理分析的数据,依据应用场景的不同,该目标文本数据可以是不同的数据。例如,该应用场景包括推理分析用户的病历,该目标文本数据可以是用户身体健康有关信息的有关数据,在获取到目标文本数据,由于所获取的目标文本数据是一种非结构化数据。而非结构化数据是数据结构不规则或不完整,没有预定义的数据模型。因此,为了后续进行数值推理,在本申请实施例中,基于预设的指示,需要对获取的目标文本数据进行结构化处理,以直接抽取目标数据中的实体,以及实体与实体之间的实体关系,保证了实体关系抽取的正确性。其中,需要说明的是,在抽取目标数据中的实体以及实体关系时,可采用成熟的实体处理算法进行抽取,即端到端抽取。
可见,在本申请中,研究的对象包括实体和实体关系,其中,实体指的而是一种具体的概念,例如,以应用场景为电子病历为例,那么从电子病历的目标文本数据中抽取的实体,可以包括疾病、疾病症状、疾病描述、项目名称、检查结果,参考值等。对应的实体关系,可以包括疾病与疾病症状关系、检查结果与参考值关系等等。需要说明的是,在应用于其他领域时,对应的实体与实体关系则是其他情况,这里不一一展开说明。
例如,在prompt中给出明确的任务定义以及病历文本,输入为“新生儿呼吸衰竭、继发性肺动脉高压、新生儿低钾血症”,在病历文本中可见,需要模型能识别出肺动脉压=40mmHg,并判断出大于30mmHg,进而结构化处理,才能得出正确的结果,即输出为“有无肺动脉高压、有肺动脉高压”,对输出为“有无肺动脉高压、有肺动脉高压”就是高亮文本,以抽取实体关系。
本申请实施例中,为了识别电子病历中的内容,不用于一般自然文本的内容,电子病历的内容表述形式非常简单,其包含的文本特征非常匮乏,但电子病历中的内容是包含了非常丰富的布局特征。人工从其中去识别“红细胞”的检查结果都是非常困难的,但如果是让人去看图片,通过观察图片中布局信息,就可以得到答案,因此,基于Prompt给予预设的指示,采取端到端抽取,对目标文本数据进行结构化处理,以抽取实体关系,确定电子病历的内容的布局信息,以便后期对电子病历的数值进行准确推理。
S203:根据所述实体关系,确定所述目标文本数据对应的上下文特征。
在步骤S203中,在确定目标文本数据的实体关系后,就能得到电子病历的目标文本数据的布局信息,以此确定目标文本数据对应的上下文特征。
可选地,确定目标文本数据对应的上下文特征,包括:
判断实体关系是否存在先验事实;
根据先验事实的判定结果,确定所述目标文本数据的类型;
根据所述目标文本数据的类型,对所述目标文本数据进行特征提取,得到所述目标文本数据对应的上下文特征。
在本实施例中,在从目标数据中提取出实体关系之后,会判断该实体关系是否有先验事实。需要说明的是,所谓先验事实,指的是该实体关系是否已经得到过验证或者有权威来源。即在判断实体关系是否存在先验事实之后,可以看出判定结果为实体关系存在先验事实,或者实体关系不存在先验事实,然后根据先验事实的判定结果,确定目标文本数据的类型,其中,目标文本数据的类型可以不同电子病历,例如“血压过高”、“白细胞过低”等,然后根据所目标文本数据的类型,对目标文本数据进行特征提取,例如“血压”、“白细胞”等,这样就可以得到目标文本数据对应的上下文特征。可以理解的是,在传统的方案中,并无此处理方式,如背景技术描述,首先,传统的方案中,没有判定实体关系的先验事实的判定过程,其次,其无论实体关系是怎么样的,都是单一的进行推理,这种处理方式,没有考虑到目标文本数据的类型,也没有考虑到实体关系的特性,会极大的降低推理结果的精确性或泛化性,两者无法有效的兼顾,导致推理方法的适用性或者适用范围较窄。而本申请中,会根据先验事实的判定结果,去确定目标文本数据的类型,进而确定目标文本数据对应的上下文特征,这样可以极大的提高推理结果的精确性或泛化性,使得推理过程适用性更广。
在一些实施例中,确定文本数据对应的上下文特征,可以采用如下方式实现:对目标文本数据进行特征提取处理,得到目标文本数据对应的上下文特征。作为将每个目标文本数据转换为对应的嵌入向量的示例,可以给目标文本数据集中的每一个数据赋予一个数值,然后将每个数据表示为独热(One-Hot)向量的形式,得到嵌入向量;或者基于奇异值分解(SVD,singular value decomposition)降维的表示方法得到嵌入向量,其具体方法如下:遍历音目标文本数据集,统计每个数据出现的次数,并用矩阵X来表示目标文本数据集中每个数据出现的次数,对矩阵X进行奇异值分解,得到每个数据对应的嵌入向量。还可以通过词频-逆文档频率(TF-IDF,term frequency–inverse document frequency)模型、word2vec模型等得到数据所对应的嵌入向量。显然,也可以直接构造神经网络模型,对神经网络模型进行从文本数据的嵌入向量的端到端训练,从而实现根据文本的上下文特征。
本实施例中,通过判定实体关系是否存在先验事实,进而根据先验事实的判定结果,确定目标文本数据的类型,最终确定目标文本数据对应的上下文特征,不仅提高了方案的可实施性,还为后续提高对电子病历进行信息抽取和数值推理的准确性打好基础。
S204:基于深度学习对所述目标文本数据对应的上下文特征进行位置标记处理,得到所述目标文本数据的位置坐标。
在步骤S204中,由于单纯的prompt可能不能很好激发模型的能力,因此需要引入in-context learning来指导模型更深入理解任务,获取更好的效果。因此,通过引入In-context learning思想,进而对目标文本数据对应的上下文特征进行深度学习,以对目标文本数据对应的上下文特征进行位置标记处理,得到目标文本数据的位置坐标。
可选地,得到目标文本数据的位置坐标,包括:
基于深度学习对所述目标文本数据对应的上下文特征的进行增强处理,得到所述目标文本数据的病变位置区域;
对所述目标文本数据的病变位置区域进行过滤处理,并将过滤处理后的病变位置区域进行位置标记处理,以得到所述目标文本数据的位置坐标。
本实施例中,由于在实际应用中,电子病历中经常会出现错别字,错别字将影响后续的信息抽取,为了解决由于错别字引起的信息抽取错漏,以此,本实施例基于深度学习对目标文本数据对应的上下文特征的进行增强处理,进而得到目标文本数据的病变位置区域,并对目标文本数据的病变位置区域进行过滤处理,得到过滤错别字的目标文本数据,将过滤处理后的病变位置区域进行位置标记处理,以得到目标文本数据的位置坐标。也可以直接采用了错别字词典纠错方式,使用中文文本纠错工具pycorrector,并添加了医疗领域常见的错别字和修正字词典,实现对各个目标文本数据的错别字检测和修正,在对修正后的病变位置区域进行位置标记处理,以得到目标文本数据的位置坐标,本申请对此不做任何限定。考虑到医疗领域对抽取结果的准确性的要求比较高,因此错别字校验过程中,必须要保证错别字过滤或者修正的准确率。
例如,本实施例引入In-context learning思想,给模型增加有用的例子,进行增强处理,得到目标文本数据的病变位置区域,根据病变位置区域,进行位置标记处理,以得到所述目标文本数据的位置坐标,在这里给模型举了一个“肺动脉高压”的文字描述的例子“继发性肺动脉高压”,模型就加强了对这个任务的理解,以此确定位置坐标,后面就能正确地进行数值推理。
本实施例中,在基于Prompt给予预设的指示下,引入in-context learning的方法,充分发掘了大模型的能力,解决传统方式无法处理的位置坐标问题,并且这种端到端的方式简化了抽取的流程,避免了由于中间过程出错导致后续结果异常的情况。
S205:根据所述目标文本数据的位置坐标,对所述目标文本数据进行确定性数值推理。
在S205步骤中,通过获取目标文本数据的检查结果以及预设的参考值,然后根据目标文本数据的位置坐标、检查结果以及预设的参考值,对所述目标文本数据进行确定性数值推理。
本实施例中,基于目标文本数据的位置坐标、检查结果判断目标文本数据以及预设的参考值的时间是否在预设的时限内,还可以检测电子病历中的各类指标数据的数值是否在预设范围内等等,基于上述结果来对电子病历进行处理,其中,处理方式可以为生成该电子病历的质量结果信息,还可以为基于上述检测结果来为该电子病历的质量进行打分等。例如:抽取血常规中血红蛋白的值,并判断血红蛋白的值是不是在正常的数值范围内,是信息抽取的关键步骤,这一任务称为电子病历数值推理,不仅仅是自然语言处理相关任务,如信息检索、信息抽取以及问答系统等的重要基础工作,同时对电子病历的应用如合并症分析、不良药物事件检测及药物相互作用分析等起到巨大的推动作用。
综上所述,本发明提供了一种电子病历数值推理的方法、装置、设备及存储介质,通过获取电子病历的初始文本数据,利用可插拔的预训练语言模型对初始文本数据进行处理,得到目标文本数据,基于预设的指示,对目标文本数据进行结构化处理,以抽取实体关系,然后根据实体关系,确定目标文本数据对应的上下文特征,基于深度学习对目标文本数据对应的上下文特征进行位置标记处理,得到目标文本数据的位置坐标,根据目标文本数据的位置坐标,对目标文本数据进行确定性数值推理。本申请利用可插拔的预训练语言模型,在复杂且标注困难的医疗场景下,极大降低了模型引入成本,同时可插拔的模块也使得模型的能更好更方便提取电子病历的目标文本数据,基于预设的指示和深度学习,充分发掘了电子病历的目标文本数据的位置坐标,以此对目标文本数据进行确定性数值推理,得到准确的推理结果。解决现有技术无法精准确定电子病历文本数据位置坐标,进而影响信息提取和数值推理的问题,提高了对电子病历进行信息抽取和数值推理的准确性。
请参阅图3,图3是本发明实施例提供的电子病历数值推理的装置的结构示意图。本实施例中该终端包括的各单元用于执行图2对应的实施例中的各步骤。具体请参阅图2以及图2所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图3,电子病历数值推理的装置30包括:获取模块31,抽取模块32,确定模块33,得到模块34、推理模块35。
获取模块31,用于获取电子病历的初始文本数据,利用可插拔的预训练语言模型对初始文本数据进行处理,得到目标文本数据;
抽取模块32,用于基于预设的指示,对所述目标文本数据进行结构化处理,以抽取实体关系;
确定模块33,用于根据所述实体关系,确定所述目标文本数据对应的上下文特征;
得到模块34,用于基于深度学习对所述目标文本数据对应的上下文特征进行位置标记处理,得到所述目标文本数据的位置坐标;
推理模块35,用于根据所述目标文本数据的位置坐标,对所述目标文本数据进行确定性数值推理。
可选地,上述获取模块31具体用于:
预先建立可插拔的预训练语言模型;
基于所述预训练语言模型的可插拔旁路,获取由模型的训练样本的初始文本数据所组成的矩阵;
对所述初始文本数据所组成的矩阵进行降维与升维,得到所述降维与升维的矩阵;
从所述预训练语言模型和所述降维与升维的矩阵中,提取数据并作为目标文本数据。
可选地,上述获取模块31还用于:
利用随机高斯分布对所述初始文本数据所组成的矩阵进行初始化处理,得到降维矩阵;
利用0矩阵对所述初始文本数据所组成的矩阵进行初始化处理,得到升维矩阵;
将所述降维矩阵与所述升维矩阵进行融合,得到降维与升维的矩阵。
可选地,上述获取模块31还用于:
将从所述预训练语言模型和所述可插拔旁路中的降维与升维的矩阵输出的数据进行叠加,提取叠加后的文本数据;
将所述叠加后的文本数据作为目标文本数据。
可选地,上述确定模块33具体用于:
判断所述实体关系是否存在先验事实;
根据所述先验事实的判定结果,确定所述目标文本数据的类型;
根据所述目标文本数据的类型,对所述目标文本数据进行特征提取,得到所述目标文本数据对应的上下文特征。
可选地,上述得到模块34具体用于:
基于深度学习对所述目标文本数据对应的上下文特征的进行增强处理,得到所述目标文本数据的病变位置区域;
对所述目标文本数据的病变位置区域进行过滤处理,并将过滤处理后的病变位置区域进行位置标记处理,以得到所述目标文本数据的位置坐标。
可选地,上述推理模块35具体用于:
根据所述目标文本数据的位置坐标、检查结果以及预设的参考值,对所述目标文本数据进行确定性数值推理。
需要说明的是,上述单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
图4是本发明实施例提供的一种计算机设备的结构示意图。如图4所示,该实施例的该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行计算机程序时实现上述任意各个电子病历数值推理的方法实施例中的步骤。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取电子病历的初始文本数据,利用可插拔的预训练语言模型对初始文本数据进行处理,得到目标文本数据;
基于预设的指示,对所述目标文本数据进行结构化处理,以抽取实体关系;
根据所述实体关系,确定所述目标文本数据对应的上下文特征;
基于深度学习对所述目标文本数据对应的上下文特征进行位置标记处理,得到所述目标文本数据的位置坐标;
根据所述目标文本数据的位置坐标,对所述目标文本数据进行确定性数值推理。
该计算机设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图4仅仅是计算机设备的举例,并不构成对计算机设备的限定,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括网络接口、显示屏和输入装置等。
在一实施例中,提供了一种计算机可读存储介质,当计算机可读存储介质中的指令由计算机设备中的处理器执行时,使得计算机设备能够执行如本发明公开的电子病历数值推理的方法的任一实施例的各个步骤,在此不重复赘述。所述计算机可读存储介质可以是非易失性,也可以是易失性。
所称处理器可以是CPU,该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器包括可读存储介质、内存储器等,其中,内存储器可以是计算机设备的内存,内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘,在另一些实施例中也可以是计算机设备的外部存储设备,例如,计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种电子病历数值推理的方法,其特征在于,包括:
获取电子病历的初始文本数据,利用可插拔的预训练语言模型对初始文本数据进行处理,得到目标文本数据;
基于预设的指示,对所述目标文本数据进行结构化处理,以抽取实体关系;
根据所述实体关系,确定所述目标文本数据对应的上下文特征;
基于深度学习对所述目标文本数据对应的上下文特征进行位置标记处理,得到所述目标文本数据的位置坐标;
根据所述目标文本数据的位置坐标,对所述目标文本数据进行确定性数值推理。
2.如权利要求1所述的电子病历数值推理的方法,其特征在于,所述利用可插拔的预训练语言模型对初始文本数据进行处理,得到目标文本数据,包括:
预先建立可插拔的预训练语言模型;
基于所述预训练语言模型的可插拔旁路,获取由模型的训练样本的初始文本数据所组成的矩阵;
对所述初始文本数据所组成的矩阵进行降维与升维,得到所述降维与升维的矩阵;
从所述预训练语言模型和所述降维与升维的矩阵中,提取数据并作为目标文本数据。
3.如权利要求2所述的电子病历数值推理的方法,其特征在于,所述对所述初始文本数据所组成的矩阵进行降维与升维,得到所述降维与升维的矩阵,包括:
利用随机高斯分布对所述初始文本数据所组成的矩阵进行初始化处理,得到降维矩阵;
利用0矩阵对所述初始文本数据所组成的矩阵进行初始化处理,得到升维矩阵;
将所述降维矩阵与所述升维矩阵进行融合,得到降维与升维的矩阵。
4.如权利要求2所述的电子病历数值推理的方法,其特征在于,所述从所述预训练语言模型和所述降维与升维的矩阵中,提取数据并作为目标文本数据,包括:
将从所述预训练语言模型和所述可插拔旁路中的降维与升维的矩阵输出的数据进行叠加,提取叠加后的文本数据;
将所述叠加后的文本数据作为目标文本数据。
5.如权利要求1所述的电子病历数值推理的方法,其特征在于,所述根据所述实体关系,确定所述目标文本数据对应的上下文特征,包括:
判断所述实体关系是否存在先验事实;
根据所述先验事实的判定结果,确定所述目标文本数据的类型;
根据所述目标文本数据的类型,对所述目标文本数据进行特征提取,得到所述目标文本数据对应的上下文特征。
6.如权利要求1所述的电子病历数值推理的方法,其特征在于,所述基于深度学习对所述目标文本数据对应的上下文特征进行位置标记处理,得到所述目标文本数据的位置坐标,包括:
基于深度学习对所述目标文本数据对应的上下文特征的进行增强处理,得到所述目标文本数据的病变位置区域;
对所述目标文本数据的病变位置区域进行过滤处理,并将过滤处理后的病变位置区域进行位置标记处理,以得到所述目标文本数据的位置坐标。
7.如权利要求1所述的电子病历数值推理的方法,其特征在于,所述根据所述目标文本数据的位置坐标,对所述目标文本数据进行确定性数值推理,包括:
根据所述目标文本数据的位置坐标、检查结果以及预设的参考值,对所述目标文本数据进行确定性数值推理。
8.一种电子病历数值推理的装置,其特征在于,包括:
获取模块,用于获取电子病历的初始文本数据,利用可插拔的预训练语言模型对初始文本数据进行处理,得到目标文本数据;
抽取模块,用于基于预设的指示,对所述目标文本数据进行结构化处理,以抽取实体关系;
确定模块,用于根据所述实体关系,确定所述目标文本数据对应的上下文特征;
得到模块,用于基于深度学习对所述目标文本数据对应的上下文特征进行位置标记处理,得到所述目标文本数据的位置坐标;
推理模块,用于根据所述目标文本数据的位置坐标,对所述目标文本数据进行确定性数值推理。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的电子病历数值推理的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的电子病历数值推理的方法。
CN202310931963.2A 2023-07-26 2023-07-26 一种电子病历数值推理的方法、装置、设备及介质 Pending CN117059281A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310931963.2A CN117059281A (zh) 2023-07-26 2023-07-26 一种电子病历数值推理的方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310931963.2A CN117059281A (zh) 2023-07-26 2023-07-26 一种电子病历数值推理的方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN117059281A true CN117059281A (zh) 2023-11-14

Family

ID=88659922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310931963.2A Pending CN117059281A (zh) 2023-07-26 2023-07-26 一种电子病历数值推理的方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN117059281A (zh)

Similar Documents

Publication Publication Date Title
US10496748B2 (en) Method and apparatus for outputting information
EP3879475A1 (en) Method of classifying medical documents
CN110827941B (zh) 电子病历信息校正方法及系统
CN111611775B (zh) 一种实体识别模型生成方法、实体识别方法及装置、设备
US20160110502A1 (en) Human and Machine Assisted Data Curation for Producing High Quality Data Sets from Medical Records
CN112509661B (zh) 用于识别体检报告的方法、计算设备和介质
CN112016274B (zh) 医学文本结构化方法、装置、计算机设备及存储介质
CN109299467B (zh) 医学文本识别方法及装置、语句识别模型训练方法及装置
JP2022541588A (ja) 非構造化データを分析するためのディープラーニングアーキテクチャ
CN116721778B (zh) 一种医学术语标准化方法、系统、设备及介质
CN111950262A (zh) 数据处理方法、装置、计算机设备和存储介质
US8805095B2 (en) Analysing character strings
CN114913942A (zh) 患者招募项目智能匹配方法及装置
CN111597789A (zh) 一种电子病历文本的评估方法及设备
CN117351504A (zh) 一种电子病历表格抽取的方法、装置、设备及介质
US11714964B2 (en) Text processing method and apparatus
CN115374788B (zh) 农业病虫害文本命名实体的方法及装置
CN117059281A (zh) 一种电子病历数值推理的方法、装置、设备及介质
CN114242233A (zh) 一种诊断信息的生成方法、系统、电子设备及存储介质
US10706223B2 (en) Notification of recommendation information based on acquired emotion information of writer
Topac et al. Patient empowerment by increasing information accessibility in a telecare system
CN117350291A (zh) 一种电子病历命名实体识别方法、装置、设备及存储介质
US20220383874A1 (en) Documentation system based on dynamic semantic templates
US20220215155A1 (en) Data linking with visual information
CN117350292A (zh) 一种电子病历命名实体抽取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination