CN114420233A - 一种中文电子病历后结构化信息的抽取方法 - Google Patents

一种中文电子病历后结构化信息的抽取方法 Download PDF

Info

Publication number
CN114420233A
CN114420233A CN202210052810.6A CN202210052810A CN114420233A CN 114420233 A CN114420233 A CN 114420233A CN 202210052810 A CN202210052810 A CN 202210052810A CN 114420233 A CN114420233 A CN 114420233A
Authority
CN
China
Prior art keywords
medical record
symptom
text
entity
rules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210052810.6A
Other languages
English (en)
Inventor
蒋雪晴
杜金莲
高红雨
张潇
张津丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202210052810.6A priority Critical patent/CN114420233A/zh
Publication of CN114420233A publication Critical patent/CN114420233A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种中文电子病历后结构化信息的抽取方法,首先使用BERT模型对含有不同症状实体修饰成分的句子进行分类,然后利用现有的命名实体识别模型对每类句子中的症状实体做不同类别的标注,达到识别实体修饰成分的目的。提出基于规则的中文电子病历中症状实体属性值的特征化抽取方法。通过总结病历文本症状语义段的行文规则,形成属性值的抽取模板,将抽取到属性值存储到数据库中。本发明基于现有的病历文本抽取技术成果,深入分析病历文本的行文规则,对已经完成分词和标注的症状语义段进行实体修饰识别和特征化的属性值抽取,能为后续的上层应用提供结构化的数据支持。

Description

一种中文电子病历后结构化信息的抽取方法
技术领域
本发明涉及自然语言处理技术领域,涉及一种基于深度学习和规则的中文电子病历后结构化信息抽取方法。
背景技术
近年来,信息技术的迅猛发展推动了医院的信息化建设,越来越多的中文电子病历(Electronic Medical Record,EMR)取代了传统纸质病历。电子病历作为医疗活动过程中产生的重要临床信息资源,包含了海量的与患者健康状况密切相关的医疗知识,如何将这些知识从非结构化的病历文本中抽取出来,是临床医疗信息处理技术的首要任务,也是病历文本信息抽取的主要内容。病历文本结构化信息抽取技术是使用自然语言处理相关技术手段,结合病历文本的独有特征,将文本中的症状、检查、治疗和疾病等实体及其属性抽取出来的一种技术。该技术能够为医疗知识图谱构建、辅助诊断等上层应用提供数据支撑,进而推动我国医疗事业的发展。
目前,针对中文电子病历结构化抽取的研究大多集中在命名实体识别和实体关系抽取以及命名实体修饰识别等方面。命名实体识别的方法主要有基于规则与词典的方法、传统机器学习方法和深度学习方法等,三种方法各有优劣,目前较为主流的方法的是基于深度学习的BiLSTM+CRF序列标注模型,其具有自动提取序列特征和捕捉双向语义信息的强大功能,显著提高了命名实体识别的精度;实体关系抽取的方法主要有共现分析法、传统机器学习方法和深度学习方法等,其中,引入Attention机制的基于RNN的深度学习方法在最近的测评任务中取得了较好的排名。然而,上述两种信息抽取技术仅实现了对医疗实体的标注或对实体间的关系的分类,而无法抽取出实体的各类属性值,例如无法抽取出症状实体的开始时间、持续时间、严重程度、伴随症状、无症状说明等属性。在命名实体修饰识别方面,相对于英文电子病历来说,中文电子病历在此方面的研究较少,Zhang等(Medicalassertion classification in Chinese EMRs using attention enhancedneuralnetwork,2019,Mathematical Biosciences and Engineering,1966-1977)将CNN与GRU进行结合,获取字符级别和句子级别的表征,取得了一定的效果,但仍有较大的优化空间,因此,在命名实体修饰识别方面亟待更多的研究。
可以看出,现有的中文电子病历信息抽取技术更多着眼于命名实体识别和实体关系抽取等文本处理方面,而在实体修饰别和特征化抽取方面存在一定的不足。
发明内容:
针对现有信息抽取技术无法完全实现中文病历文本特征化抽取的问题,本发明深入研究中文电子病历的行文特点和规则,提出一种基于深度学习和规则的中文电子病历后结构化信息抽取方法,对已经完成分词和实体标注的症状语义段进行症状实体修饰成分的识别,并抽取出症状实体的各类属性,实现症状实体的结构化表达。
本发明包括两个部分:
第一项发明内容是提出中文电子病历中症状实体的修饰成分识别方法。首先使用BERT模型对含有不同症状实体修饰成分的句子进行分类,然后利用现有的命名实体识别模型对每类句子中的症状实体做不同类别的标注,达到识别实体修饰成分的目的。
第二项发明内容是提出基于规则的中文电子病历中症状实体属性值的特征化抽取方法。症状实体共六个属性:当前症状、开始时间、持续时间、严重程度、伴随症状和否认症状等,通过总结病历文本症状语义段的行文规则,形成属性值的抽取模板,将抽取到属性值存储到数据库中。
本发明方法的具体步骤如下:
步骤一:对句子分类
使用BERT(Bidirectional EncoderRepresentation from Transformers)模型对句子进行分类,分别得到包含主要症状实体、伴随症状实体和否认症状实体的三类句子。
步骤二:分词和命名实体标注
利用现有的中文电子病历分词系统和命名实体识别系统对病历文本进行分词和实体标注。
步骤三:编写规则修正标注结果
总结症状实体的属性值在病历文本中的位置分布和表达规律,设计规则模板对步骤二的标注结果进行修正,提高属性抽取的精度。
步骤四:命名实体修饰识别
根据步骤一获得的句子分类结果和步骤三获得的实体标注结果,对不同类句子中的症状实体做标签替换,实现症状实体修饰的识别。
步骤五:对每条病历文本以“开始时间”为分割点进行文本分块;
步骤六:抽取属性并存储至数据库。
作为优选,步骤一中BERT是一种预训练语言表示模型,其主要结构是双向Transformer编码器,模型输入由原始序列的词嵌入和位置编码加和后得到,输入序列首先经过多头自注意力(Multi-headed Self-attention)机制层(head数量为12),使序列中的每个词可以学习到其在当前上下文中的多重语义;然后,注意力机制层的输出经过残差连接和层归一化处理后输入到前馈神经网络中;最后,前馈网络的输出再进行一次残差连接和层归一化得到输出序列,至此,完成了一个Transformer编码器的运行。将12个Transformer编码器逐层堆叠起来构成BERT模型,每个编码器的输入是前一个编码器的输出,最后一个编码器的输出即BERT模型输出的文本特征表达。
作为优选,步骤三设计了一系列的规则模板,以修正病历文本中属性值的标注结果。规则主要分为三类——第一类:合并规则,该类规则主要是为了解决原标注结果中完整的语义片段被过度分词并标注的问题,规则列举如表1。
表1合并规则的内容和举例
Figure BDA0003475020880000031
第二类:分类规则,该类规则主要是为了解决原标注结果中“开始时间”和“持续时间”的标注标签相同的问题,规则列举如表2。
表2分类规则的内容和举例
规则编号 规则内容
Regex6 持续.([\u4e00-\u9fa7]U)*[0-9]*-?[0-9]*[\u4e00-\u9fa7]+P
Regex7 [0-9]*-?[0-9]*[\u4e00-\u9fa7]+P([\u4e00-\u9fa7]+U)*缓解
第三类:否定规则,该类规则主要是为了解决病历文本中“身体部位”与“症状”两类实体被否定词分隔的问题,规则列举如表3。
表3否定规则的内容和举例
Figure BDA0003475020880000032
作为优选,步骤四根据步骤一获得的句子分类结果和步骤三获得的实体标注结果,分别将句子标签为1、2的句子中的症状实体标签S替换为DS、AS,从而将症状实体分为主要症状、伴随症状、否认症状等三类实体。
作为优选,步骤五对每条病历文本以“开始时间”为分割点进行文本分块,如果病人存在多个出现在不同时间的症状,通过该步操作将得到多个文本块,每个文本块将在下一步骤中被抽取为一条记录,对应一个时间的症状属性。
作为优选,步骤六利用上述步骤得到的标注结果抽取症状实体的各类属性,将抽取结果保存至数据库,数据库表的字段共8个:id、patientId、symptom、startTime、duration、degree、accSymptom和denSymptom,其中id是数据库表的主键,patientId用于识别各条记录是否归属于同一个病人,symptom字段存储病历文本中标注标签为S的语义片段、startTime字段存储病历文本中标注标签为P或TP或SS的语义片段,之后的4个字段分别存储病历文本中标签为DP、HL或LL、AS、DS的语义片段。
本发明基于现有的病历文本抽取技术成果,深入分析病历文本的行文规则,对已经完成分词和标注的症状语义段进行实体修饰识别和特征化的属性值抽取,能为后续的上层应用提供结构化的数据支持。
附图说明
图1为本发明一个实施例的中文电子病历后结构化信息抽取方法的流程图;
图2a为本发明一个实施例BERT的模型结构图;
图2b为本发明一个实施例Transformer编码器的模型结构图。
具体实施方式
下面将详细描述本发明各个方面的特征和示例性实施例。下面的描述涵盖了许多具体细节,以便提供对本发明的全面理解。但是,对于本领域技术人员来说显而易见的是,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更清楚的理解。本发明绝不限于下面所提出的任何具体配置和算法,而是在不脱离本发明的精神的前提下覆盖了相关元素、部件和算法的任何修改、替换和改进。
鉴于以上所述的现有信息抽取技术无法完全实现病历文本特征化抽取的问题,本发明深入研究中文电子病历的行文特点和规则,提出一种基于深度学习和规则的中文电子病历后结构化信息抽取方法。下面结合图1,说明根据本发明一个实施例的中文电子病历后结构化信息抽取方法示例。
图1示出了根据本发明一个实施例的中文电子病历后结构化信息抽取方法的流程图。如图1所示,根据本发明一个实施例的中文电子病历后结构化信息抽取方法包括文本处理模块、标注结果修正模块、实体修饰识别模块以及属性抽取模块,它们的功能如下:文本处理模块通过BERT模型实现句子分类,并利用现用的中文电子病历分词系统和命名实体识别系统对病历文本进行分词和实体标注,BERT模型及其主体结构Transformer编码器的模型结构图分别如图2a、图2b所示;标注结果修正模块通过三类规则模板对原标注结果进行修正;实体修饰识别模块利用句子分类结果和修正后的标注结果,通过替换症状实体标签的方式得到三类具有不同修饰成分的症状实体;属性抽取模块先按照症状开始时间的不同对病历文本进行分块,然后综合修正后的标注结果和实体修饰识别的结果,进行症状实体的属性抽取。
本发明实施例的一种中文电子病历后结构化信息抽取方法,包括以下步骤:
步骤一:对句子分类
使用BERT(Bidirectional EncoderRepresentation from Transformers)模型对句子进行分类,分别得到包含主要症状实体、伴随症状实体和否认症状实体的三类句子。
步骤二:分词和命名实体标注
利用现有的中文电子病历分词系统和命名实体识别系统对病历文本进行分词和实体标注。
步骤三:编写规则修正标注结果
总结症状实体的属性值在病历文本中的位置分布和表达规律,设计规则模板对步骤二的标注结果进行修正,提高属性抽取的精度。
步骤四:症状实体修饰识别
根据步骤一获得的句子分类结果和步骤三获得的实体标注结果,对不同类句子中的症状实体做标注标签的替换,实现症状实体修饰的识别。
步骤五:对每条病历文本以“开始时间”为分割点进行文本分块;
步骤六:抽取属性并存储至数据库。
作为优选,步骤一中BERT是一种预训练语言表示模型,其主要结构是双向Transformer编码器,模型输入由原始序列的词嵌入和位置编码加和后得到,输入序列首先经过多头自注意力(Multi-headed Self-attention)机制层(head数量为12),使序列中的每个词可以学习到其在当前上下文中的多重语义;然后,注意力机制层的输出经过残差连接和层归一化处理后输入到前馈神经网络中;最后,将前馈网络的输出再进行一次残差连接和层归一化得到输出序列,至此,完成了一个Transformer编码器的运行。将12个Transformer编码器逐层堆叠起来构成BERT模型,每个编码器的输入是前一个编码器的输出,最后一个编码器的输出即BERT模型输出的文本特征表达。
使用BERT模型的句子分类任务通过“预训练一微调(Pre-Training andFine-Tuning)”两个过程来实现。预训练过程利用大规模未标注过的文本语料进行自监督训练,形成预训练模型,预训练过程由谷歌公司完成并发布预训练模型。微调过程使用预训练模型的参数作为模型的初始化参数,输入人工标注好的数据集,对参数进行微调,完成模型的进一步拟合与收敛。该任务中的句子标签有三种:0、1、2,分别表示含主要症状实体的句子、含否认症状实体的句子、含伴随症状实体的句子,例如“右侧大脑中动脉起始段管腔狭窄”的句子标签为0,“双肾未见占位”的句子标签为1,“伴双下肢水肿”的句子标签为2。
步骤二中的命名实体识别系统标注出人体部位、症状、药物、疾病、时间、否定词、严重程度等17种词类别,其中与症状实体相关的词标签类别有9种:症状(S)、人体部位(BP)、时间点(TP)、时间段(P)、具体情景(SS)、否定词(A)、高程度(HL)、低程度(LL)、无具体类别(U)。
步骤三设计了一系列的规则模板,以修正病历文本中属性值的标注结果。规则主要分为三类——第一类:合并规则,规则内容和举例如表4所示。该类规则主要是为了解决原标注结果中完整的语义片段被过度分词并标注的问题,对于规则识别出的语义片段,仅保留最后一个标签,而将片段内的其他标签和空格删除,实现将片段内各个词合并成一个整体的目的。
表4合并规则的内容和举例
Figure BDA0003475020880000061
第二类:分类规则,规则内容和举例如表5所示。该类规则主要是为了解决原标注结果中“开始时间”和“持续时间”的标注标签相同的问题,由规则识别出的语义片段中的时间均为“持续时间”,将其中的P标签替换为表示持续时间的新标签DP,达到了区分“开始时间”和“持续时间”的目的。
表5分类规则的内容和举例
Figure BDA0003475020880000062
第三类:否定规则,规则内容和举例如表6所示。该类规则主要是为了解决病历文本中“身体部位”与“症状”两类实体被否定词分隔的问题,对于该规则识别出的语义片段,将否定词前移,并利用Regex5将“身体部位”与“症状”两类实体合并。
表6否定规则的内容和举例
Figure BDA0003475020880000063
Figure BDA0003475020880000071
步骤四根据步骤一获得的句子分类结果和步骤三获得的实体标注结果,分别将句子标签为1、2的句子中的症状实体标签S替换为DS、AS,从而将症状实体分为主要症状(S)、伴随症状(DS)、否认症状(AS)等三类实体。例如句子“双肾未见占位”中的症状实体“双肾占位”,其标注标签由S被替换成“DS”,表示否认症状;“伴双下肢水肿”中的症状实体“双下肢水肿”,其标注标签由S被替换成“AS”,表示伴随症状。
步骤五对每条病历文本以“开始时间”为分割点进行文本分块,如果病人存在多个出现在不同时间的症状,通过该步操作将得到多个文本块,每个文本块将在下一步骤中被抽取为一条记录,对应一个时间的症状属性。如针对某段病历文本“患者22年前体检时发现空腹血糖升高,伴有烦渴、多饮、多尿症状。……9年前开始间断出现四肢麻木、发凉、左足疼痛等,……3年前患者反复出现心慌、出汗等低血糖症状……”,以“22年前”、“9年前”、“3年前”为分割点进行文本分块,然后从每块文本中抽取出一条对应该时间的记录。
步骤六利用上述步骤得到的标注结果抽取症状实体的各类属性,将抽取结果保存至数据库,数据库表的字段共8个:id、patientId、symptom、startTime、duration、degree、accSymptom和denSymptom,其中id是数据库表的主键,patientId用于识别各条记录是否归属于同一个病人,symptom字段存储病历文本中标注标签为S的语义片段、startTime字段存储病历文本中标注标签为P或TP或SS的语义片段,之后的4个字段分别存储病历文本中标签为DP、HL或LL、AS、DS的语义片段。
上面已经参考附图对本发明实施例的中文电子病历后结构化信息抽取方法进行了详细描述,如前所述,本发明通过研究中文电子病历的行文特点和规则,利用深度学习和规则模板的方法进行中文电子病历后结构化的信息抽取,解决了现有信息抽取技术无法实现病历文本特征化抽取的问题。
但是,需要明确,本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且,为了简明起见,这里省略对已知方法技术的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神之后,做出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明可以以其他的具体形式实现,而不脱离其精神和本质特征。例如,特定实施例中所描述的算法可以被修改,而系统体系结构并不脱离本发明的基本精神。因此,当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims (6)

1.一种中文电子病历后结构化信息的抽取方法,其特征在于:实现该方法的具体步骤如下:
步骤一:对句子分类;
使用BERT模型对句子进行分类,分别得到包含主要症状实体、伴随症状实体和否认症状实体的三类句子;
步骤二:分词和命名实体标注;
利用现有的中文电子病历分词系统和命名实体识别系统对病历文本进行分词和实体标注;
步骤三:编写规则修正标注结果;
总结症状实体的属性值在病历文本中的位置分布和表达规律,设计规则模板对步骤二的标注结果进行修正,提高属性抽取的精度;
步骤四:命名实体修饰识别;
根据步骤一获得的句子分类结果和步骤三获得的实体标注结果,对不同类句子中的症状实体做标签替换,实现症状实体修饰的识别;
步骤五:对每条病历文本以“开始时间”为分割点进行文本分块;
步骤六:抽取属性并存储至数据库。
2.根据权利要求1所述的一种中文电子病历后结构化信息的抽取方法,其特征在于:步骤一中BERT是一种预训练语言表示模型,其主要结构是双向Transformer编码器,模型输入由原始序列的词嵌入和位置编码加和后得到,输入序列首先经过多头自注意力机制层,head数量为12,使序列中的每个词可以学习到其在当前上下文中的多重语义;然后,注意力机制层的输出经过残差连接和层归一化处理后输入到前馈神经网络中;最后,前馈网络的输出再进行一次残差连接和层归一化得到输出序列,完成一个Transformer编码器的运行;将12个Transformer编码器逐层堆叠起来构成BERT模型,每个编码器的输入是前一个编码器的输出,最后一个编码器的输出即BERT模型输出的文本特征表达。
3.根据权利要求1所述的一种中文电子病历后结构化信息的抽取方法,其特征在于:步骤三设计了一系列的规则模板,以修正病历文本中属性值的标注结果;规则主要分为三类——第一类:合并规则,该类规则主要是为了解决原标注结果中完整的语义片段被过度分词并标注的问题;
第二类:分类规则,该类规则是为了解决原标注结果中“开始时间”和“持续时间”的标注标签相同的问题;
第三类:否定规则,该类规则主要是为了解决病历文本中“身体部位”与“症状”两类实体被否定词分隔的问题。
4.根据权利要求1所述的一种中文电子病历后结构化信息的抽取方法,其特征在于:步骤四根据步骤一获得的句子分类结果和步骤三获得的实体标注结果,分别将句子标签为1、2的句子中的症状实体标签S替换为DS、AS,从而将症状实体分为主要症状、伴随症状、否认症状等三类实体。
5.根据权利要求1所述的一种中文电子病历后结构化信息的抽取方法,其特征在于:步骤五对每条病历文本以“开始时间”为分割点进行文本分块,如果病人存在多个出现在不同时间的症状,通过该步操作将得到多个文本块,每个文本块将在下一步骤中被抽取为一条记录,对应一个时间的症状属性。
6.根据权利要求1所述的一种中文电子病历后结构化信息的抽取方法,其特征在于:步骤六利用上述步骤得到的标注结果抽取症状实体的各类属性,将抽取结果保存至数据库,数据库表的字段共8个:id、patientId、symptom、startTime、duration、degree、accSymptom和denSymptom,其中id是数据库表的主键,patientId用于识别各条记录是否归属于同一个病人,symptom字段存储病历文本中标注标签为S的语义片段、startTime字段存储病历文本中标注标签为P或TP或SS的语义片段,之后的4个字段分别存储病历文本中标签为DP、HL或LL、AS、DS的语义片段。
CN202210052810.6A 2022-01-18 2022-01-18 一种中文电子病历后结构化信息的抽取方法 Pending CN114420233A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210052810.6A CN114420233A (zh) 2022-01-18 2022-01-18 一种中文电子病历后结构化信息的抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210052810.6A CN114420233A (zh) 2022-01-18 2022-01-18 一种中文电子病历后结构化信息的抽取方法

Publications (1)

Publication Number Publication Date
CN114420233A true CN114420233A (zh) 2022-04-29

Family

ID=81273240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210052810.6A Pending CN114420233A (zh) 2022-01-18 2022-01-18 一种中文电子病历后结构化信息的抽取方法

Country Status (1)

Country Link
CN (1) CN114420233A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117238458A (zh) * 2023-09-14 2023-12-15 广东省第二人民医院(广东省卫生应急医院) 基于云计算的重症护理跨机构协同平台系统
CN117493642A (zh) * 2023-11-28 2024-02-02 西康软件有限责任公司 相似电子病历检索方法、装置、终端及存储介质
CN117493642B (zh) * 2023-11-28 2024-06-07 西康软件有限责任公司 相似电子病历检索方法、装置、终端及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117238458A (zh) * 2023-09-14 2023-12-15 广东省第二人民医院(广东省卫生应急医院) 基于云计算的重症护理跨机构协同平台系统
CN117238458B (zh) * 2023-09-14 2024-04-05 广东省第二人民医院(广东省卫生应急医院) 基于云计算的重症护理跨机构协同平台系统
CN117493642A (zh) * 2023-11-28 2024-02-02 西康软件有限责任公司 相似电子病历检索方法、装置、终端及存储介质
CN117493642B (zh) * 2023-11-28 2024-06-07 西康软件有限责任公司 相似电子病历检索方法、装置、终端及存储介质

Similar Documents

Publication Publication Date Title
CN111414393B (zh) 一种基于医学知识图谱的语义相似病例检索方法及设备
CN111709233B (zh) 基于多注意力卷积神经网络的智能导诊方法及系统
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN111079377B (zh) 一种面向中文医疗文本命名实体识别的方法
CN112542223A (zh) 一种从中文电子病历构建医疗知识图谱的半监督学习方法
CN108959566B (zh) 一种基于Stacking集成学习的医疗文本去隐私方法和系统
CN106844351B (zh) 一种面向多数据源的医疗机构组织类实体识别方法及装置
CN109657158B (zh) 一种基于社交网络数据的药品不良事件信息提取方法
CN116682553B (zh) 一种融合知识与患者表示的诊断推荐系统
CN111538845A (zh) 一种构建肾病专科医学知识图谱的方法、模型及系统
CN106682411A (zh) 一种将体检诊断数据转化为疾病标签的方法
CN113343703B (zh) 医学实体的分类提取方法、装置、电子设备及存储介质
CN111312354A (zh) 基于多智能体强化学习的乳腺病历实体识别标注增强系统
CN112541066A (zh) 基于文本结构化的医技报告检测方法及相关设备
CN115982222A (zh) 一种基于特病特药场景的搜索方法
CN114912887A (zh) 一种基于电子病历的临床数据录入方法及录入装置
CN114420233A (zh) 一种中文电子病历后结构化信息的抽取方法
CN113343680A (zh) 一种基于多类型病历文本的结构化信息提取方法
CN116304114B (zh) 基于外科护理的智能数据处理方法及系统
CN113435200A (zh) 实体识别模型训练、电子病历处理方法、系统及设备
CN117493504A (zh) 一种基于生成式预训练语言模型的医疗事件抽取方法
CN116737924A (zh) 一种医疗文本数据处理方法及装置
CN116719840A (zh) 一种基于病历后结构化处理的医疗信息推送方法
CN116168844A (zh) 基于大数据分析的医疗数据处理系统
CN112347121B (zh) 一种可配置的自然语言转sql的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination