CN116719840A - 一种基于病历后结构化处理的医疗信息推送方法 - Google Patents
一种基于病历后结构化处理的医疗信息推送方法 Download PDFInfo
- Publication number
- CN116719840A CN116719840A CN202310473971.7A CN202310473971A CN116719840A CN 116719840 A CN116719840 A CN 116719840A CN 202310473971 A CN202310473971 A CN 202310473971A CN 116719840 A CN116719840 A CN 116719840A
- Authority
- CN
- China
- Prior art keywords
- medical
- information
- text
- post
- medical record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012545 processing Methods 0.000 title claims abstract description 27
- 238000006243 chemical reaction Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 56
- 238000004422 calculation algorithm Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 14
- 101150060512 SPATA6 gene Proteins 0.000 claims description 11
- 229940079593 drug Drugs 0.000 claims description 10
- 239000003814 drug Substances 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000012552 review Methods 0.000 claims description 6
- 230000037213 diet Effects 0.000 claims description 5
- 235000005911 diet Nutrition 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000003745 diagnosis Methods 0.000 abstract description 11
- 238000011282 treatment Methods 0.000 abstract description 8
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 8
- 208000024891 symptom Diseases 0.000 description 8
- 201000010099 disease Diseases 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000002483 medication Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 208000022531 anorexia Diseases 0.000 description 2
- 206010061428 decreased appetite Diseases 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 125000001475 halogen functional group Chemical group 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 208000002173 dizziness Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2452—Query translation
- G06F16/24522—Translation of natural language queries to structured queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/40—ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H80/00—ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Artificial Intelligence (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供的一种基于病历后结构化处理的医疗信息推送方法,包括:接收患者病历的图像文件,并对所述图像信息进行OCR文本识别,得到患者病历的文本信息。对所述文本信息执行基于NLP的结构化转换,并基于预设规则提取关键信息,生成结构化病历数据。利用所述结构化病历数据查询预定义数据库,确定相匹配的待推送信息,并向患者推送所述待推送信息。本发明改进了诊疗操作提供了数据支持,有助于提高医疗服务质量及患者安全管理。
Description
技术领域
本发明涉及医疗数据集成领域,具体涉及一种基于病历后结构化处理的医疗信息推送方法。
背景技术
随着医疗信息化建设的普及,特别是人工智能技术的飞速发展,对于数据价值的挖掘和智能化应用的开发越来越重要。而在医院信息化系统中,通常需要基于患者历史诊疗信息获取贯穿整个诊疗活动的临床数据,从而对患者进行随访。患者在就诊中,疾病相关的数据来源包括医院信息系统中记录的患者临床表现、检验检查报告、影像学资料、医师诊断结果,以及在就诊中和患者直接沟通所获得的信息。传统的随访基于医护手动建立的空白表单,从患者的面对面咨询或者从就诊记录的调阅中获得上述各种类型的信息,并填写表单中的空格,这种方法需要耗费大量查阅和登记的人工时间,无法快速从大量临床数据中提取有用信息,进而有针对性地为患者提供后续服务,不利于医疗发展的推动。
发明内容
为了解决现有技术中所存在的问题,本发明提供一种基于病历后结构化处理的医疗信息推送方法,包括:
S1、接收患者病历的图像文件,并对所述图像信息进行OCR文本识别,得到患者病历的文本信息。
S2、对所述文本信息执行基于NLP的结构化转换,并基于预设规则提取关键信息,生成结构化病历数据。
S3、利用所述结构化病历数据查询预定义数据库,确定相匹配的待推送信息,并向患者推送所述待推送信息。
优选地,所述步骤S1进一步包括:
在OCR文本识别过程中,输出被识别的每个文本序列在所述患者病历的图像文件中的位置;
基于所述位置,在已检测到实体词汇的所输出的文本序列的子集上显示高亮标记。
优选地,所述步骤S2进一步包括:
预先选择后结构化算法模型,并获取大规模电子病历数据集,利用大规模数据集对后结构化算法模型进行预训练;
将预训练后的模型结构化结果与专业语料标注结果进行对比,根据对比结果来更新模型;
重复执行上述训练和更新过程,直到模型收敛;
将来自当前病历的非结构化文本数据输入上述训练后的后结构化算法模型,得到结构化文本数据。
优选地,所述后结构化算法模型采用基于注意力机制的算法框架;首先接收编码端将非结构化形式的源文本序列编码形成的隐藏向量序列,然后在解码端通过注意力机制抽取编码后的隐藏向量序列信息,以自回归方式生成结构化文本序列。
优选地,所述后结构化算法模型包括通用子模型和学科子模型;所述通用子模型基于来自通用医学文档的训练文本序列来训练,并且所述学科子模型基于来自各个学科领域的训练文本序列来训练。
优选地,所述步骤S3进一步包括:
将所述结构化文本信息与随访模板库进行自动匹配,得到相匹配的待推送信息;
将所述待推送信息分发到患者,并自动监控管理和数据预警;
所述待推送信息包括患者的患教知识、饮食指导、用药指导、复诊提醒。
优选地,所述步骤S3进一步包括:
解析结构化病历文本信息的字符串所包括的多个实体词汇;
将所述实体词汇转换成词元,并基于与所述实体词汇相关联的上下文来将所述多个词元标记为令牌;
使用与医疗命名实体的类型相关联的预定义令牌来替换实体词汇的令牌;将替换后的令牌转换成哈希序列,所述哈希序列是基于所述上下文形成的向量;
将所述哈希序列中的每个哈希值嵌入该向量中,基于该向量与预定义电子病历数据集中的已分类病历信息中向量的相似度将所述病历信息进行分类。
优选地,通过以下步骤实现向量的相似度计算:
将高维特征向量映射为低维向量,并根据低维向量产生一个r维特征值;
将每个特征项在r维向量空间进行加权处理,将r维向量中每一维的权重值按照预设规则映射为布尔值,并将多位布尔值进行连结,得到病历文本向量的r位摘要值;
基于所述摘要值进行相似度计算。
基于同一发明构思,本发明还提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上所述方法的步骤。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上所述方法的步骤。
与现有技术相比,本发明的有益效果为:
本发明提供的一种基于病历后结构化处理的医疗信息推送方法,包括将患者的病历图像信息通过OCR文字智能识别引擎、NLP自然语言智能处理引擎等技术手段,依据权威优质的医疗知识,输出实现结构化病历数据,根据病历进行患者的随访管理。本发明的方案通过对病历信息的结构化数据处理,可自动生成待推送信息,实现诊后患者的注意事项告知,包括饮食和用药指导,复诊提醒等,显著节省了工作人员时间,为医生改进诊疗操作提供了数据支持,有助于提高医疗服务质量及患者安全管理水平。通过本发明还间接提升了电子病历录入的质量,以实现更高的电子病历评级标准,为未来人工智能辅助诊断系统奠定基础。
附图说明
图1为根据本发明的基于病历后结构化处理的医疗信息推送方法的流程图。
图2示出了根据本发明的基于病历后结构化处理的医疗信息推送方法的详细数据流图。
图3示出了根据本发明的患者用户上传病历图像信息的界面示意图。
图4和图5示出了根据本发明的随访信息平台对病历图像信息进行识别的界面示意图。
图6至图8示出了根据本发明的随访信息平台根据结构化后的患者病历档案自动生成随访计划的界面示意图。
具体实施方式
本发明针对现有技术存在的上述问题,提供了一种基于病历后结构化处理的医疗信息推送方法,利用云存储平台及医患移动端数据采集及随访终端。当患者的病历生成后,可以由用户的客户端将患者的病历扫描或拍照成图像信息之后,通过应用程序进行格式化处理。客户端用户可以随时随地对患者的过往病历,化验单和其他检查结果进行查阅和了解。然后根据规范将随访内容进行规范化处理,准确地推送给患者,并采集患者病情数据信息。借助该系统,可自动完成诊后患者注意事项告知,饮食和用药指导,复诊提醒等。
实施例1:
如图1所示,本发明提供一种基于病历后结构化处理的医疗信息推送方法包括:
S1、接收患者病历的图像文件,并对所述图像信息进行OCR文本识别,得到患者病历的文本信息。
S2、对所述文本信息执行基于NLP的结构化转换,并基于预设规则提取关键信息,生成结构化病历数据。
S3、利用所述结构化病历数据查询预定义数据库,确定相匹配的待推送信息,并向患者推送所述待推送信息。
图2示出了根据本发明的基于病历后结构化处理的医疗信息推送方法的详细数据流图。
其中,在步骤S1中,患者用户可以上传既往病历资料。如图3所示,用户客户端进入到患者档案页面,点击拍照自动识别按钮,选择需要识别的病历图片,点击确定将文件上传到后台。
参见图4和图5,OCR识别模块接收到前台用户上传的病历图片,通过OCR智能识别引擎,将图片中的文字数据识别到内存中进行后续处理。在进一步优选的实施例中,所述OCR识别的至少一个参数通过自然语言处理模型的历史参数来确定。并且通过所述OCR识别操作,输出每个文本序列在所述病历图像文件中的位置。基于所述位置,在已检测到实体词汇的所输出的文本序列的子集上显示高亮标记。然后检测对标记中的用户选择,当检测到用户选择时,在所选择的标记上显示检测到的实体词汇。举例而言,实体词汇是可以从病历中抽取出的疾病、症状、诊断和治疗等实体的术语,并获取实体之间的关系,包括:疾病和治疗的关系、症状与治疗的关系、疾病和诊断的关系、症状和诊断的关系、疾病和症状的关系、疾病之间的关系以及症状之前的关系。
如果原始病历图片是带有手写字体的病历图像,则在可选的实施例中,对这种病历图像进行重新绘制。具体地,可以利用深度神经网络对手写病历的扫描图像进行OCR识别,以获取所述扫描图像中的文本所包括的语句中的多个医疗术语。如果OCR识别成功,则获取所识别出的术语以及该术语的图像坐标,将所接收的所识别的术语和及其图像坐标顺序地存储在元数据文件中。然后,绘制引擎可以从所述元数据文件中选择所识别出的术语,将所述术语分配给预定义医疗命名实体,并将所分配的医疗命名实体与所识别出的术语及其图像坐标组合成序列。此时,可以从所述元数据文件中自动选择与预定义医疗命名实体相关的序列,并在所存储的图像坐标中搜索所识别的术语的对应的图像区域,使得能够在图像中高亮绘制所识别的术语相对应的图像区域。
其中,在步骤S2中,图片识别完成之后,将散乱的非结构化数据输入到自然语言处理模块中,按照预定义的规则进行格式化处理,解析得到有效的病历信息,并存入到数据库中。基于规则的提取方法具有提取过程简单的特点,其提取结构依赖规则的生成和学习。首先通过规则模板构建语言规则,然后构建词典文件,输入正则表达式来生成规则。基于所述规则的实体提取结果进行回归测试。通过基于基于特定规则的结构化处理过程进行实体识别和提取,可以快速、准确地提取各种诊断、症状、医嘱、检验、检查、手术等信息,提高了病历的利用水平。例如,如果描述“头晕3日,伴厌食”病症的主诉语句,按照词语的类别,将它划分为“头部”(名词)、“晕”(动词、行为短语)、“3”(数词)和“日”(单位名词),“伴厌食”(动词、行为短语)5个部分。“头部”是语句描述“身体部位”的元素,“晕”是描述“症状”的元素,“3”是“数值”元素,“日”是“时间单位”元素。在这些元素已经预先定义的前提下,可以在相应的元素分类中找到这些元素。以此按顺序组成一个结构化模板:“[身体部位][常见症状][数字][时间][伴随症状]”,然后再将该结构化模板添加到病历模板中,在使用该病历模板时选择和填写相应的项,从而构成结构化的病历。
在具体的实施例中,本发明预先选择后结构化算法模型,并获取大规模电子病历数据集,利用大规模数据集对后结构化算法模型进行预训练,将预训练后的模型结构化结果与专业语料标注结果进行对比,根据对比结果来更新模型,重复执行上述训练和更新过程,直到模型收敛。然后,将来自当前病历的非结构化文本数据输入上述训练后的后结构化算法模型,得到结构化文本数据。
例如,所述后结构化算法模型可以采用基于注意力机制的算法框架。首先接收编码端将非结构化形式的源文本序列编码形成的隐藏向量序列,然后在解码端通过注意力机制抽取编码后的隐藏向量序列信息,以自回归方式生成结构化文本序列。其中,通过所述后结构化算法模型检测来自所述源文本序列的实体,每个实体包括标签和值。使用所述基于注意力机制的算法框架从所述非结构化形式的源文本序列中提取所述实体的值。将所述实体和对应的值映射到预定义术语的映射表,将实体的值转换为对应的预定义术语,然后生成包括从输入文本序列检测到的实体和对应术语的结构化病历文本信息。
所述后结构化算法模型包括图结构,所述图结构包含节点和边;其中每个节点对应于一个文本序列;其中两个节点之间的边指示由所述两个节点表示的两个文本序列之间的顺序关系;在检测所述实体时,包括将所述输入文本序列的每个文本序列与所述图结构中表示的文本序列进行匹配。然后基于利用实体名称标记的训练文本序列来更新所述图结构。其中所述后结构化算法模型包括通用子模型和学科子模型;所述通用子模型是基于来自通用医学文档的训练文本序列来训练的;而学科子模型是基于来自各个学科领域的训练文本序列来训练的。针对所述患者的电子病历的文本序列,检测所包含的实体并分析电子病历的文档结构,以识别其中的嵌套结构。基于所述嵌套结构内的相对位置,使用所检测到的实体和所述嵌套结构来生成知识图谱。具体包括针对所述嵌套结构的级别,表示所述级别中的主实体并找到所述主实体的主概念类型,基于子实体的词性和语句关系,标识与主概念类型的潜在关系。利用所述词性和概念类型元数据将主实体连接到子实体。
在将预训练后的模型结构化结果与专业语料标注结果进行对比,并根据对比结果来更新模型时,首先确定通过后结构化算法模型从所述输入文本序列中识别实体的准确度。当准确度达到预定义阈值时,确定模型收敛,否则,更新所述图结构,并调整训练文本序列来继续训练该后结构化算法模型。
为进一步使得电子病历进行精确结构化,本发明的实施例可以对病历文本的实体进行分类,利用已有数据库找到最优的一组实体元素的结构化序列,再检索实体组合。通过对短语的字符串值进行拆分来建立实体元素数据库的索引表,将短语作为一个分段,即n个短语记为sg1,sg2,…,sgn,表示有n个分段。将每一个分段对应的实体元素作为一个状态。由于一个短语可能对应多个实体元素,因此第i分段sgi有ni个状态,记为Si,1,Si,2,…,Si,ni。其中Si,k表示第i分段的第k个状态,Si,k状态所包含的内容是该状态的实体元素标识,记为xi,k。
计算指数V1 k,n(sk,Pk,n),其中sk表示前k个状态组成的分段集合;Pk,n表示由起始分段的状态S1,k开始到第k分段终止状态的子过程的策略函数,表达式为:
V1 k,n(sk,Pk,n)=V1 k-1,n(sk,Pk,n)+1
最优值函数是在Sk给定时,指数V1 k,n(sk,Pk,n)对Pk,n的最优值min(V1 k,n(sk,Pk,n));
对于病历结构化首先需要找到与前后短语相同的实体元素,作为最优实体元素,其次找到该文本中的短语最少的最优分段集合,即最优结构化短语序列。计算终止分段的一组最优策略为P1,n(S1)={u1(s1),u2(s2),…,un(sn)}。从而输出最优组合解。uk表示第k分段处于状态Sk时的决策变量。
将病历文本的第一个短语作为初始分段,依次寻找分割点,分成由多个分段组成的部分,每个部分包含多个短语分段,对每一部分,根据输入的分段sg1,sg2,…,sgn,初始化分段边界为sgi.loc>sgi-1.loc+sgi-1.len;判断如果sg.loc超出分段边界,则将当前分段到sg之间的该部分分段加入临时分段集合,判断V1 k,n(sk,Pk,n)是否达到最小值的状态,以及是否满足sgi-1.Atr≠sgi-1.Atr,若均满足,则将得到的临时分段集合结果加入最优分段集合s。最终将每部分分段得到的最优分段集合结果合并得到最终的分段集合结果,即病历结构化的最优文本组合。其中,loc、len、atr分别表示短语在病历文本的位置、长度和词性。
其中,在步骤S3中,经过自然语言处理模块的处理得到结构化的病历文本信息之后,如图6-图8所示,本发明的实施例根据结构化后的患者就诊记录和病历档案,帮助患者自动加入随访计划,实现随访模板库的自动匹配,得到相匹配的患者患教知识,从而将患教知识精准地分发到患者,同时辅助医生进行线上医患沟通,建立微信、短信、电话等多种方式对患者进行后续的随访,并自动监控管理情况和数据预警。
在一个具体的实施例中,还可以解析结构化的病历文本信息的字符串所包括的多个实体词汇。将所述实体词汇转换成词元,并基于与实体词汇相关联的上下文来将所述多个词元标记为令牌。然后,使用与医疗命名实体的类型相关联的预定义令牌来替换实体词汇的令牌。将替换后的令牌转换成哈希序列,所述哈希序列是基于所述上下文形成的向量。将哈希序列中的每个哈希值嵌入该向量中。然后处理所述向量,以基于该向量与大规模电子病历数据集中的已分类病历信息中向量的相似度将所述病历信息进行分类,并输出所述病历信息的分类。
对于向量相似度的计算,将高维特征向量映射为低维向量,并根据低维向量产生一个r维特征值,将每个特征项在r维向量空间进行加权处理,将r维向量中每一维的权重值按照预设规则映射为布尔值,并将多位布尔值进行连结,得到病历文本向量的r位摘要值。基于该摘要值进行相似度计算。具体为:
预先初始化r维的向量τ和r位的布尔值pes,对病历文本集合DH中的语句bi,使用RSA摘要算法得到r位的摘要值。
使用bolj(si)表示bi第j位对应的布尔值,则定义归一化函数η(bolj(bi)):
定义τj表示向量τ的第j维,计算:
τj=τj+ω(bi)×η(bolj(bi))
其中,j取1到r,ω(bi)表示语句bi的权重值。
判断集合DH中是否存在未处理的语句,若存在则对下一个语句bi+1进行迭代计算;否则,若所有语句均被处理完成,则计算布尔值序列pes中的第j位数值pesj,若τj>0,则pesj=1;若τj≤0,则pesj=0,j∈[1,r]。
将得到的布尔值序列pes作为当前语句的特征值,然后对于当前结构化的病历文本A和已分类病历文本B,分别将每个语句的布尔值组合形成语句布尔值集合ΦA和ΦB,用和/>分别表示各集合中的元素数量,/>表示两个集合中关联语句的数量,病历文本A和B的相似度为:
其中关联语句的判断准则为,如果两个语句a,b各自的布尔值pesa与pesb的异或运算结果高于预定义阈值η,则判断为两个语句为关联语句。
在进一步的方面中,为了提取结构化的病历文本信息中的关键词汇信息,本发明对结构化的病历文本信息中包含的每个待查询词汇,生成以词汇出现频率为要素的候选查询词向量,将生成的候选查询词向量存储到预先建立的向量缓存列表中;基于存储于向量缓存列表的候选查询词向量,计算每个候选查询词作为关键查询词的概率,即关键查询词初始概率,将所述计算出的初始概率存储到向量缓存列表中。
然后,获取测试病历文本,为测试病历文本中包含的每个词汇生成以词汇出现频率为要素的测试词向量,并将所生成的测试词向量存储在向量缓存列表中。接下来将向量缓存列表中存储的候选查询词向量和测试词向量的值输入到表示遵循二项分布的测试词生成概率模型,以计算测试词生成概率,将所述计算出的测试词生成概率存储在所述向量缓存列表中。根据在向量缓存列表中存储的关键查询词初始概率和测试词生成概率,计算测试病历文本中包含的每个候选查询词被选择为关键查询词的概率,并将概率最大的查询词提取为关键查询词。
其中,所述已分类病历信息基于以下信息标准来分类和标注,例如包括:质量、严重性、持续时间、背景、体征和症状等。最后,利用所述病历信息的分类结果来查询匹配随访信息数据库,并且基于该分类来触发推送动作。例如,可以基于所述患者的关键病历信息,然后从随访信息数据库中确定药物和护理方案列表,使用来自所述患者的电子病历来考虑所述患者的禁忌特征、所选择的药物和护理方案的相互作用,药物与患者已经使用的药物的相互作用,并且排除患者禁忌的药物。
本发明的上述方法,通过对病历信息的结构化数据处理,可自动生成待推送信息,实现诊后患者的注意事项告知,包括饮食和用药指导,复诊提醒等,显著节省了工作人员时间,为医生改进诊疗操作提供了数据支持,有助于提高医疗服务质量及患者安全管理水平。通过本发明,还能够间接地提升电子病历录入的质量,以实现更高的电子病历评级标准,为未来人工智能辅助诊断系统奠定基础。
实施例2:
为了实现上述方法,本发明还提供一种基于病历后结构化处理的医疗信息推送系统,包括:
OCR识别模块201,用于接收患者病历的图像文件,并对所述图像信息进行OCR文本识别,得到患者病历的文本信息;
自然语言处理模块202,用于对所述文本信息执行基于NLP的结构化转换,并基于预设规则提取关键信息,生成结构化病历数据;
智能推送模块203,用于利用所述结构化病历数据查询预定义数据库,确定相匹配的待推送信息,并向患者推送所述待推送信息。
本实施例中的各功能模块所实现的功能同实施例1,这里不再赘述。
实施例3:
本发明还提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上所述方法的步骤。
实施例4:
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上所述方法的步骤。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其它实施例,都属于本发明保护的范围。
本领域内的技术人员应当理解,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在多个其中包含计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。
Claims (10)
1.一种基于病历后结构化处理的医疗信息推送方法,其特征在于,包括:
S1、接收患者病历的图像文件,并对所述图像信息进行OCR文本识别,得到患者病历的文本信息;
S2、对所述文本信息执行基于NLP的结构化转换,并基于预设规则提取关键信息,生成结构化病历数据;
S3、利用所述结构化病历数据查询预定义数据库,确定相匹配的待推送信息,并向患者推送所述待推送信息。
2.根据权利要求1所述的基于病历后结构化处理的医疗信息推送方法,其特征在于,所述步骤S1进一步包括:
在OCR文本识别过程中,输出被识别的每个文本序列在所述患者病历的图像文件中的位置;
基于所述位置,在已检测到实体词汇的所输出的文本序列的子集上显示高亮标记。
3.根据权利要求1所述的基于病历后结构化处理的医疗信息推送方法,其特征在于,所述步骤S2进一步包括:
预先选择后结构化算法模型,并获取大规模电子病历数据集,利用大规模数据集对后结构化算法模型进行预训练;
将预训练后的模型结构化结果与专业语料标注结果进行对比,根据对比结果来更新模型;
重复执行上述训练和更新过程,直到模型收敛;
将来自当前病历的非结构化文本数据输入上述训练后的后结构化算法模型,得到结构化文本数据。
4.根据权利要求3所述的基于病历后结构化处理的医疗信息推送方法,其特征在于,所述后结构化算法模型采用基于注意力机制的算法框架;首先接收编码端将非结构化形式的源文本序列编码形成的隐藏向量序列,然后在解码端通过注意力机制抽取编码后的隐藏向量序列信息,以自回归方式生成结构化文本序列。
5.根据权利要求3所述的基于病历后结构化处理的医疗信息推送方法,其特征在于,所述后结构化算法模型包括通用子模型和学科子模型;所述通用子模型基于来自通用医学文档的训练文本序列来训练,并且所述学科子模型基于来自各个学科领域的训练文本序列来训练。
6.根据权利要求1所述的基于病历后结构化处理的医疗信息推送方法,其特征在于,所述步骤S3进一步包括:
将所述结构化文本信息与随访模板库进行自动匹配,得到相匹配的待推送信息;
将所述待推送信息分发到患者,并自动监控管理和数据预警;
所述待推送信息包括患者的患教知识、饮食指导、用药指导、复诊提醒。
7.根据权利要求6所述的基于病历后结构化处理的医疗信息推送方法,其特征在于,所述步骤S3进一步包括:
解析结构化病历文本信息的字符串所包括的多个实体词汇;
将所述实体词汇转换成词元,并基于与所述实体词汇相关联的上下文来将所述多个词元标记为令牌;
使用与医疗命名实体的类型相关联的预定义令牌来替换实体词汇的令牌;将替换后的令牌转换成哈希序列,所述哈希序列是基于所述上下文形成的向量;
将所述哈希序列中的每个哈希值嵌入该向量中,基于该向量与预定义电子病历数据集中的已分类病历信息中向量的相似度将所述病历信息进行分类。
8.根据权利要求7所述的基于病历后结构化处理的医疗信息推送方法,其特征在于,通过以下步骤实现向量的相似度计算:
将高维特征向量映射为低维向量,并根据低维向量产生一个r维特征值;
将每个特征项在r维向量空间进行加权处理,将r维向量中每一维的权重值按照预设规则映射为布尔值,并将多位布尔值进行连结,得到病历文本向量的r位摘要值;
基于所述摘要值进行相似度计算。
9.一种终端设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310473971.7A CN116719840A (zh) | 2023-04-27 | 2023-04-27 | 一种基于病历后结构化处理的医疗信息推送方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310473971.7A CN116719840A (zh) | 2023-04-27 | 2023-04-27 | 一种基于病历后结构化处理的医疗信息推送方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116719840A true CN116719840A (zh) | 2023-09-08 |
Family
ID=87866767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310473971.7A Pending CN116719840A (zh) | 2023-04-27 | 2023-04-27 | 一种基于病历后结构化处理的医疗信息推送方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116719840A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117095782A (zh) * | 2023-10-20 | 2023-11-21 | 上海森亿医疗科技有限公司 | 医学文本快速录入方法、系统、终端及编辑器 |
-
2023
- 2023-04-27 CN CN202310473971.7A patent/CN116719840A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117095782A (zh) * | 2023-10-20 | 2023-11-21 | 上海森亿医疗科技有限公司 | 医学文本快速录入方法、系统、终端及编辑器 |
CN117095782B (zh) * | 2023-10-20 | 2024-02-06 | 上海森亿医疗科技有限公司 | 医学文本快速录入方法、系统、终端及编辑器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10929420B2 (en) | Structured report data from a medical text report | |
CN106682397B (zh) | 一种基于知识的电子病历质控方法 | |
CN111274806B (zh) | 分词和词性识别方法、装置及电子病历的分析方法、装置 | |
CN106919793B (zh) | 一种医疗大数据的数据标准化处理方法及装置 | |
WO2021139424A1 (zh) | 文本内涵质量的评估方法、装置、设备及存储介质 | |
WO2021068321A1 (zh) | 基于人机交互的信息推送方法、装置和计算机设备 | |
CN112002411A (zh) | 一种基于电子病历的心脑血管病知识图谱问答方法 | |
CN111709233B (zh) | 基于多注意力卷积神经网络的智能导诊方法及系统 | |
CN112001177A (zh) | 融合深度学习与规则的电子病历命名实体识别方法及系统 | |
US20220237230A1 (en) | System and method for automated file reporting | |
CN111078875B (zh) | 一种基于机器学习的从半结构化文档中提取问答对的方法 | |
CN111949759A (zh) | 病历文本相似度的检索方法、系统及计算机设备 | |
CN110277167A (zh) | 基于知识图谱的慢性非传染性疾病风险预测系统 | |
US20210042344A1 (en) | Generating or modifying an ontology representing relationships within input data | |
CN112241457A (zh) | 一种融合扩展特征的事理知识图谱事件检测方法 | |
CN112800766A (zh) | 基于主动学习的中文医疗实体识别标注方法及系统 | |
CN111858940A (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN113707299A (zh) | 基于问诊会话的辅助诊断方法、装置及计算机设备 | |
CN111950283A (zh) | 面向大规模医疗文本挖掘的中文分词和命名实体识别系统 | |
CN114358001A (zh) | 诊断结果的标准化方法及其相关装置、设备和存储介质 | |
CN113779179A (zh) | 一种基于深度学习和知识图谱的icd智能编码的方法 | |
CN116719840A (zh) | 一种基于病历后结构化处理的医疗信息推送方法 | |
CN115545021A (zh) | 一种基于深度学习的临床术语识别方法与装置 | |
CN113722507B (zh) | 基于知识图谱的住院费用预测方法、装置及计算机设备 | |
CN113450905A (zh) | 医疗辅助诊断系统、方法及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |