CN113343680A - 一种基于多类型病历文本的结构化信息提取方法 - Google Patents

一种基于多类型病历文本的结构化信息提取方法 Download PDF

Info

Publication number
CN113343680A
CN113343680A CN202110548210.4A CN202110548210A CN113343680A CN 113343680 A CN113343680 A CN 113343680A CN 202110548210 A CN202110548210 A CN 202110548210A CN 113343680 A CN113343680 A CN 113343680A
Authority
CN
China
Prior art keywords
medical record
entities
type
medical
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110548210.4A
Other languages
English (en)
Other versions
CN113343680B (zh
Inventor
彭苏婷
温涛
于丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Neusoft Education Technology Group Co ltd
Original Assignee
Dalian Neusoft Education Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Neusoft Education Technology Group Co ltd filed Critical Dalian Neusoft Education Technology Group Co ltd
Priority to CN202110548210.4A priority Critical patent/CN113343680B/zh
Publication of CN113343680A publication Critical patent/CN113343680A/zh
Application granted granted Critical
Publication of CN113343680B publication Critical patent/CN113343680B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多类型病历文本的结构化信息提取方法,包括:S1:确定病历类型,将获得的文本数据进行预处理以去除冗余信息后,通过文本相似度匹配的方法,判断病历的类型;S2:结构化信息提取,从医疗数据库中获取特定病历类型需要提取的属性列表,根据属性列表设置实体类别,并对文本数据中的实体进行标注构建命名实体识别数据集,通过算法进行训练以获得可能有用的实体,最后设定规则提取实体或其对应的值。S3:审核保存,将提取结果交由医生进行审核。本发明可以将传统的半结构化病历转换成结构化信息,提取并存储其中的重要信息,会更加便于医生快速浏览、阅读和查找病历,同时也便于后续的数据挖掘和深度利用。

Description

一种基于多类型病历文本的结构化信息提取方法
技术领域
本发明涉及结构化信息提取技术领域,尤其涉及一种基于多类型病历文本的结构化信息提取方法。
背景技术
近年来,随着医疗信息化产业的发展,以电子病历为代表的文本数据规模也呈现出了高速增长的趋势。电子病历因其便于共享、传输效率高、使用方便、便于管理、成本不高等各个方面的优点逐渐取代了传统的纸质病历。目前,在各个医院系统中存储的病历多为半结构化的,虽然大多包含了病人的基本信息、疾病诊断、检查结果、治疗状况等内容,但是其描述的复杂程度则是大不相同的,这为医生浏览病历增加了时间、人力成本。因此,如果能够将病历转换成结构化信息,提取并显示、存储其中的重要信息,会更加便于医生快速浏览、阅读和查找病历,同时也便于后续的数据挖掘和深度利用。目前的一些病历结构化信息提取方法多是针对某种特定类型(或疾病),而在实际应用中,针对于不同部位的相同检查、同一部位不同检查获得的文本描述差异巨大,需要提取的内容也各有不同,现有技术中的病历结构化大多是针对实体间关系提取,例如提取的实体关系包括“某检查发现某种症状”、“某治疗施加于某种疾病”、“某治疗改善某种疾病”等等,而关于重要属性的提取,例如“肿块位置”、“肿块大小”、“乳腺构成”等则是研究较少,医生可能需要花费很多的时间在文本的查找和阅读上,同时也不利于后续的数据挖掘与分析。
发明内容
根据现有技术存在的问题,本发明公开了一种基于多类型病历文本的结构化信息提取方法,具体包括如下步骤:
获取原始病历信息并对其进行预处理,包括去除冗余信息和清洗异常数据、异常值,再将该病历与数据库中的模板病历进行文本相似度匹配,获得该病历与每个模板的相似度从而确定病历类型;
从医疗数据库中获取病历需要提取的属性列表,根据属性列表设置实体类别,并对文本数据中的实体进行标注构建命名实体识别数据集,采用深度学习算法对识别模型进行训练,将命名实体识别数据集输入至完成训练的识别模型以获得有价值的实体,对不同的实体构建相应的提取规则筛选有用实体或提取实体对应的值;
对获得的结构化提取结果进行审核,如果审核通过则直接进行保存,如果审核不通过则手动修改后再继续保存。
进一步的,根据病历类型从医疗数据库中获取相应的需要提取的属性列表;
根据每个类型的病历需要提取的属性,设置实体类别,并以此实体类别作为依据对病历数据进行标注获得带标签的数据集;
将带标签的数据集输入至识别模型进行训练,利用训练好的识别模型对病历数据进行命名实体识别,从而得到有价值的实体;
对不同类别的实体构建相应的提取规则从而筛选有用实体或提取实体对应的值。
由于采用了上述技术方案,本发明提供了一种基于多类型病历文本的结构化信息提取方法,该方法可以将传统的半结构化病历转换成结构化信息,提取并存储其中的重要信息,会更加便于医生快速浏览、阅读和查找病历,大大减少了医生的工作量,同时也便于后续的数据挖掘和深度利用;本发明的重要属性提取与其他发明的关系提取有着很大不同,两者可以互为补充,使得对病历的提取更加充分、完整;本发明的模型能够持续迭代升级,可以通过扩充命名实体识别数据集来使模型的精度不断提高,同时也可不断增加可识别的病历类型。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法的流程图;
图2为本发明方法中结构化信息提取过程的流程图;
图3为本发明中具体实施例的示意图;
图4为本发明中BiLSTM-CRF算法示意图。
具体实施方式
为使本发明的技术方案和优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述:
如图1所示的一种基于多类型病历文本的结构化信息提取方法,具体步骤包括:
步骤1确定病历类型
获取原始病历信息,进行数据预处理,包括去除空白(空格、空行等)、去除重复内容,以去除冗余的信息,并对异常数据、异常值进行清洗。另外,由于医生的书写习惯不同,对于同一属性的描述存在着差异,例如关于肿块大小的描述,可能有“14mm*11mm”,“28mmX27mm”,“18mmx17mm”等,因此,需要对文本中的一些特殊字符和符号统一格式。预处理完成后,将其与数据库中的模板病历进行文本相似度匹配,获得病历与每个模板的相似度,从而确定病历类型。
步骤2结构化信息提取
从医疗数据库中获取特定病历类型需要提取的属性列表,根据属性列表设置实体类别,并对文本数据中的实体进行标注构建命名实体识别数据集,使用算法训练数据集以获得可能有用的实体,最后设定规则提取实体或其对应的值。流程图如图2至图3所示。
步骤2.1获得待提取属性列表
经过第一步处理之后,可以得到预处理之后的病历数据以及病历类型,根据病历类型从医疗数据库获取相应的需要提取的属性列表。
步骤2.2构建命名实体识别数据集
根据每个类型的病历需要提取的属性,设置实体类别,并以此作为依据对病历数据进行标注。实体一般指的是文本中具有特定意义或者指代性比较强的词语,在自然语言处理中一般包括人名、地名、组织名称、时间等等。在医学领域一般包括疾病名称、药物名称、手术治疗等医学名词。其中,实体类别是与病历类型息息相关的,特别是病历中需要结构化提取的属性,此外,还可以参考国际疾病标准分类编码ICD-10、中文医学主题词表(Chinese Medical Subject Headings,CMeSHs),该表主要收录了临床医学、药学、流行病学等各个领域的专业医疗主题词。
步骤2.3利用算法训练数据集
获得带标签的数据集后,将其作为命名实体识别算法的输入进行训练,相关的算法有很多种,主要包括三大类:早期的方法,基于规则、字典等自定义方法;传统的机器学习方法,基于HMM、MEMM、CRF等统计的方法;深度学习方法,包括RNN、LSTM、CNN、注意力模型等,算法经过训练后可以得到识别模型,利用模型对病历数据进行命名实体识别,从而得到可能有用的实体。
步骤2.4设定规则提取实体或其对应的值
在进行命名实体识别之后,通过对不同类别的实体构建相应的提取规则可以筛选有用实体或者提取实体对应的值。首先,对病历文本进行句子分割,根据中文中常见的分句符号:“。”、“;”、“!”等将文本分为多个句子;然后,以句子为单位设定提取规则。
步骤3审核保存
获得结构化提取结果后,将其提交给医生进行审核,如果审核通过则直接进行保存;如果审核不通过,则医生可以手动进行修改,最后再保存。
实施例:
步骤1:确定病历类型实施例
获取原始病历信息,进行数据预处理,包括去除空白(空格、空行等)、去除重复病历,以去除冗余的信息,并对异常数据、异常值进行清洗。另外,由于医生的书写习惯不同,对于同一属性的描述存在着差异,例如关于肿块大小的描述,可能有“14mm*11mm”,“28mmX27mm”,“18mmx17mm”等,因此,需要对文本中的一些特殊字符和符号统一格式。得到预处理数据后,将其与数据库中的模板病历进行文本相似度匹配,可以利用关键词匹配、计算余弦相似度等方法获得病历与每个模板的相似度,从而输出病历类型。
步骤2:结构化信息提取实施例
从医疗数据库中获取病历需要提取的属性列表,根据属性列表设置实体类别,并对文本数据中的实体进行标注构建命名实体识别数据集,通过算法进行训练以获得可能有用的实体,最后设定规则提取实体或其对应的值。
步骤2.1获得待提取属性列表
经过步骤1处理之后,可以得到预处理之后的病历数据以及病历类型,根据病历类型从医疗数据库获取相应的需要提取的属性列表。
步骤2.2构建命名实体识别数据集
根据每个类型的病历需要提取的属性,设置实体类别,并对文本中出现的符合要求的实体进行标注。以乳腺X线类型的病历为例,按照需要提取的信息,可以将实体划分为三大类:关键词类、直接提取类、规则提取类,每一大类中又包含多个小类,例如位置、构成、密度、边界、象限等类别。关键词类实体的功能是定位,可以判断句子中是否可能包含需要提取的内容;直接提取类是指文本中出现即可提取的实体,例如“双侧乳腺实质呈不均匀致密型”这句话中,“不均匀致密型”是一个“构成”实体,那么可以直接将这个实体提取为“乳腺构成”这一属性的值。规则提取类是指不能直接提取,而是要设定规则提取的实体。例如“左乳可见肿块”和“左侧腋下可见淋巴结影”这两个句子中,“左乳”和“左侧腋下”均可被识别为“位置”实体,但是待提取的属性是“肿块位置”,因此要设定规则,当句子中存在关键词类实体“肿块”时,才提取“位置”实体,最终提取到“左乳”。
步骤2.3利用算法训练数据集
获得带标签的数据集后,将其作为命名实体识别算法的输入进行训练,相关的算法有很多种,本实施例使用LSTM、BiLSTM、BiLSTM-CRF算法进行了对比实验,数据集使用乳腺X线文本,训练结果(设置相同的轮数)如表1所示。BiLSTM-CRF算法的结构如图4所示,给定输入句子“左乳可见肿块”,泛化后表示为输入x={x1,x2,x3,x4,x5,x6},经过embedding之后,每个xi被转换为ei,得到e={e1,e2,e3,e4,e5,e6},ei进入前向LSTM处理后可得到fi,进而得到序列f={f1,f2,f3,f4,f5,f6},ei进入后向LSTM处理后得到bi,序列b={b1,b2,b3,b4,b5,b6},而后fi、bi进行并联处理后得到ci向量,进而得到序列c={c1,c2,c3,c4,c5,c6},此序列进入CRF层进行优化,得到最终每个字被标注为某个标签的概率,取最大概率对应的标签。LSTM算法经过embedding和单向LSTM处理后计算得出每个字对应的标签;BiLSTM算法经过embedding和双向LSTM处理后得到标签。从表1的结果可以看出,与单向LSTM对比,双向LSTM能够很大程度地提升标注效果,使用CRF进行后处理也能够略微提升结果。这是因为BiLSTM-CRF可以提取到每个字与前后字之间的关系,同时也可以进行后处理添加一些约束,使得标注的正确率更高。
表1命名实体识别训练结果
Precision Recall F1
LSTM 91.90 95.15 93.50
BiLSTM 95.63 96.47 96.05
BiLSTM-CRF 96.19 96.62 96.40
步骤2.4设定规则提取实体或其对应的值
在进行命名实体识别之后,通过对不同类别的实体构建相应的提取规则可以筛选有用实体或者提取实体对应的值。首先,对病历文本进行句子分割,根据中文中常见的分句符号:“。”、“;”、“!”等将文本分为多个句子;然后,以句子为单位设定提取规则,最后获得结构化信息。
步骤3:审核保存实施例
获得结构化提取结果后,将其提交给医生进行审核,如果审核通过则直接进行保存;如果审核不通过,则医生可以手动进行修改,最后再保存。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (2)

1.一种基于多类型病历文本的结构化信息提取方法,其特征在于包括:
获取原始病历信息并对其进行预处理,包括去除冗余信息和清洗异常数据、异常值,再将该病历与数据库中的模板病历进行文本相似度匹配,获得该病历与每个模板的相似度从而确定病历类型;
从医疗数据库中获取病历需要提取的属性列表,根据属性列表设置实体类别,并对文本数据中的实体进行标注构建命名实体识别数据集,采用深度学习算法对识别模型进行训练,将命名实体识别数据集输入至完成训练的识别模型以获得有价值的实体,对不同的实体构建相应的提取规则筛选有用实体或提取实体对应的值;
对获得的结构化提取结果进行审核,如果审核通过则直接进行保存,如果审核不通过则手动修改后再继续保存。
2.根据权利要求1所述的基于多类型病历文本的结构化信息提取方法,其特征在于:
根据病历类型从医疗数据库中获取相应的需要提取的属性列表;
根据每个类型的病历需要提取的属性,设置实体类别,并以此实体类别作为依据对病历数据进行标注获得带标签的数据集;
将带标签的数据集输入至识别模型进行训练,利用训练好的识别模型对病历数据进行命名实体识别,从而得到有价值的实体;
对不同类别的实体构建相应的提取规则从而筛选有用实体或提取实体对应的值。
CN202110548210.4A 2021-05-19 2021-05-19 一种基于多类型病历文本的结构化信息提取方法 Active CN113343680B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110548210.4A CN113343680B (zh) 2021-05-19 2021-05-19 一种基于多类型病历文本的结构化信息提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110548210.4A CN113343680B (zh) 2021-05-19 2021-05-19 一种基于多类型病历文本的结构化信息提取方法

Publications (2)

Publication Number Publication Date
CN113343680A true CN113343680A (zh) 2021-09-03
CN113343680B CN113343680B (zh) 2024-07-09

Family

ID=77469710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110548210.4A Active CN113343680B (zh) 2021-05-19 2021-05-19 一种基于多类型病历文本的结构化信息提取方法

Country Status (1)

Country Link
CN (1) CN113343680B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114783581A (zh) * 2022-06-22 2022-07-22 北京惠每云科技有限公司 一种单病种数据的上报方法及上报装置
CN116028648A (zh) * 2023-02-15 2023-04-28 熙牛医疗科技(浙江)有限公司 一种细粒度各场景通用的医疗文本结构化信息抽取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578798A (zh) * 2017-10-26 2018-01-12 北京康夫子科技有限公司 电子病历的处理方法及系统
CN110277149A (zh) * 2019-06-28 2019-09-24 北京百度网讯科技有限公司 电子病历的处理方法、装置及设备
CN110705293A (zh) * 2019-08-23 2020-01-17 中国科学院苏州生物医学工程技术研究所 基于预训练语言模型的电子病历文本命名实体识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578798A (zh) * 2017-10-26 2018-01-12 北京康夫子科技有限公司 电子病历的处理方法及系统
CN110277149A (zh) * 2019-06-28 2019-09-24 北京百度网讯科技有限公司 电子病历的处理方法、装置及设备
CN110705293A (zh) * 2019-08-23 2020-01-17 中国科学院苏州生物医学工程技术研究所 基于预训练语言模型的电子病历文本命名实体识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114783581A (zh) * 2022-06-22 2022-07-22 北京惠每云科技有限公司 一种单病种数据的上报方法及上报装置
CN116028648A (zh) * 2023-02-15 2023-04-28 熙牛医疗科技(浙江)有限公司 一种细粒度各场景通用的医疗文本结构化信息抽取方法
CN116028648B (zh) * 2023-02-15 2023-06-09 熙牛医疗科技(浙江)有限公司 一种细粒度各场景通用的医疗文本结构化信息抽取方法

Also Published As

Publication number Publication date
CN113343680B (zh) 2024-07-09

Similar Documents

Publication Publication Date Title
CN109299239B (zh) 一种基于es的电子病历检索方法
Wu et al. Comparison of chest radiograph interpretations by artificial intelligence algorithm vs radiology residents
CN111414393B (zh) 一种基于医学知识图谱的语义相似病例检索方法及设备
CN107341264B (zh) 一种支持自定义实体的电子病历检索系统及方法
CN108831559B (zh) 一种中文电子病历文本分析方法与系统
CN111538845A (zh) 一种构建肾病专科医学知识图谱的方法、模型及系统
CN106682411A (zh) 一种将体检诊断数据转化为疾病标签的方法
CN112241457A (zh) 一种融合扩展特征的事理知识图谱事件检测方法
Li et al. Automatic approach for constructing a knowledge graph of knee osteoarthritis in Chinese
Cao et al. Multi-information source hin for medical concept embedding
CN113764112A (zh) 一种在线医疗问答方法
CN113343680B (zh) 一种基于多类型病历文本的结构化信息提取方法
CN112035757A (zh) 医疗瀑布流推送方法、装置、设备及存储介质
CN115083550B (zh) 基于多源信息的病人相似度分类方法
CN116737924B (zh) 一种医疗文本数据处理方法及装置
CN111460173B (zh) 一种甲状腺癌的疾病本体模型的构建方法
CN115841861A (zh) 一种相似病历推荐方法及系统
CN111061835B (zh) 查询方法及装置、电子设备和计算机可读存储介质
CN114420233A (zh) 一种中文电子病历后结构化信息的抽取方法
Hsu et al. Multi-label classification of ICD coding using deep learning
CN116775897A (zh) 知识图谱构建和查询方法、装置、电子设备及存储介质
CN117194604B (zh) 一种智慧医疗病患问诊语料库构建方法
CN112349367B (zh) 一种生成仿真病历的方法、装置、电子设备及存储介质
JP7473314B2 (ja) 医療情報管理装置及び医療レポートのメタデータ付加方法
CN109840275B (zh) 一种医疗搜索语句的处理方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 116000 room 206, no.8-9, software garden road, Ganjingzi District, Dalian City, Liaoning Province

Applicant after: Neusoft Education Technology Group Co.,Ltd.

Address before: 116000 room 206, no.8-9, software garden road, Ganjingzi District, Dalian City, Liaoning Province

Applicant before: Dalian Neusoft Education Technology Group Co.,Ltd.

GR01 Patent grant
GR01 Patent grant