CN112151186A - 一种在医疗文本中提取疾病诱因、病因的方法及装置及系统 - Google Patents

一种在医疗文本中提取疾病诱因、病因的方法及装置及系统 Download PDF

Info

Publication number
CN112151186A
CN112151186A CN202011067120.5A CN202011067120A CN112151186A CN 112151186 A CN112151186 A CN 112151186A CN 202011067120 A CN202011067120 A CN 202011067120A CN 112151186 A CN112151186 A CN 112151186A
Authority
CN
China
Prior art keywords
extracting
disease
etiology
causes
medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011067120.5A
Other languages
English (en)
Inventor
冯洪海
侯瑞辉
魏亚举
李云鹏
王赫
栗哲远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University
Original Assignee
Henan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University filed Critical Henan University
Priority to CN202011067120.5A priority Critical patent/CN112151186A/zh
Publication of CN112151186A publication Critical patent/CN112151186A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种在医疗文本中提取疾病诱因、病因的方法及装置及系统,具体涉及自然语言处理信息抽取技术领域。本发明主要包括读取模块、计算模块、展示模块。读取模块主要指系统读取输入的一些医疗文本。计算模块主要包含关系词提取单元、疾病提取单元、病因提取单元。主要包括如下步骤:a.系统读取准确的疾病和病因;b.通过正确的疾病和病因学习关系词;c.通过疾病和关系词学习病因;d.通过病因和关系词学习疾病。对抽取结果进行评估。展示模块主要包含:存储单元、输出单元。本发明以公开的非结构化医疗文本为起点,最终实现医疗文本中疾病诱因、病因的准确抽取。

Description

一种在医疗文本中提取疾病诱因、病因的方法及装置及系统
技术领域
本发明涉及自然语言处理信息抽取的技术领域,具体涉及一种在医疗文本中提取疾病诱因、病因的方法及装置及系统。
背景技术
近些年来,积累了大量的医疗文本。医疗文本主要包括专业教材、专业医疗网站、医疗大典、电子病例、科研期刊中的医疗学术论文。这些医疗文本中包含了丰富的医疗数据,其中主要包括疾病的病因、症状、治疗、诊断等信息。但是这些海量的数据大多以半结构化或非结构化的形式存在,目前自然语言处理或信息抽取技术对于在非结构化文本中提取完整、准确的信息都不太成熟。已有公司或产品尚不能将疾病诱因、病因提取到几万的准确水平。本发明主要分析医疗文本中常用句式,将句式数学化,设计了一种迭代算法和程序,能够从医疗文本中迭代地获取几万准确的疾病诱因、病因。
随着计算机的不断发展,文本挖掘系统已经得到了实现。如一种基于非结构化电子病历的文本挖掘方法及系统,专利申请号为201910701406.5,包括了文本预处理模块、特征工程模块、分析预测模块。该发明主要提取的特征有症状、检查所见、放化疗方案、疗效评价等。所述专利以时间节点进行切分住院记录,通过规则库的疾病信息提取来抽取特征,最后通过无监督聚类实现文本聚类。该专利是以时间节点进行切分,句子的完整语义没有考虑进去。输入文本仅仅包括了医院数据库中的病史记录,数据来源范围较小。
在医疗领域的识别任务中面临着很多困难,主要有以下几个方面:
从提取过程来看:
医疗领域通常包含丰富的实体类别;
实体上下文存在着很多不同的修饰和限定词从而导致了实体的边界较难确定并划分;
待提取的实体通常存在着不同更多描述方式;
病因实体的长度通常较难确定。
从提取结果来看:
提取的诱因、病因数量不多,仅仅几千,多则上万,但没有达到几万至十万的规模。涉及的疾病仅仅几千,没有达到上万直至几万的规模。
发明内容
本发明的目的在于提供一种在医疗文本中提取疾病诱因、病因的方法及装置及系统。以解决上述背景技术中提出的问题。本发明目的为以医疗文本为起点,最终实现在医疗文本中抽取疾病病因、诱因实体。
为实现上述目的,本发明提供了一种疾病病因、诱因抽取方法,所述方法主要包括:
步骤1:获取医疗文本和病因句式结构;
步骤2:基于句式结构,在医疗文本中,通过疾病、病因获取各句式结构的关系词;
步骤3:关系词除杂、并入已有的关系词集合中;
步骤4:基于句式结构,在医疗文本中,通过疾病和关系词学习各句式结构的病因;
步骤5:病因除杂、验证、并入已有的病因集合中;
步骤6:基于句式结构,在医疗文本中,通过病因和关系词学习各句式结构的疾病;
步骤7:疾病进行除杂、并入已有的疾病集合中。
优选的,所述步骤1中获取的医疗文本是输入的一些专业教材、专业医疗网站、医疗大典、电子病例、科研期刊中的医疗学术论文等各类非结构化医疗文本。
优选的,对读取的医疗文本使用正则表达式来过滤出医疗文本中的中文句子。
优选的,本发明对各个语义元素的学习是一个迭代的过程,即:一个关系词、疾病、病因迭代学习的过程。
优选的,本发明在学习每一个语义元素的时候会固定其他n-1个语义元素来提高该实体的提取准确度。
优选的,所述步骤3中提取的各种句式结构的关系词代表该句式结构中疾病和病因之间的关系,句式结构的数量代表了疾病和病因之间关系的种类。
与方法对应,本发明还提供了一种病因、诱因抽取系统,所述系统包括:
文本输入单元,用于系统读取非结构化医疗文本;
疾病提取单元,用于提取医疗疾病实体,通过关系词集合和病因集合来提取疾病实体;
关系词提取单元,用于提取关系词实体,通过疾病集合和病因集合来提取关系词实体;
病因提取单元,用于提取病因实体,通过关系词集合和疾病集合来提取病因、诱因实体;
存储单元,用于结果的结构化存储,将提取出来的疾病、关系词、病因按照关系存储到相应句式结构文件中。
与系统对应,本发明实施方式提供一种病因抽取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现一种在医疗文本中提取疾病诱因、病因的系统。
本发明实施方式提供一种计算机可读存储介质,所述计算机可存储有计算机程序,该程序被处理器执行时实现一种在医疗文本中提取疾病诱因、病因的系统。
本发明与现有技术相比,具有以下优点和有益效果:
(1)本发明实现了一种在医疗文本中提取疾病诱因、病因的方法及装置及系统,通过不同的句式限定以及其他语义元素的限定,使得处理器对疾病、关系词、病因进行准确的抽取。同时能够较好地解决依赖领域中病因实体长度无法处理的问题。
(2)本发明实现了将病因、诱因的提取结果达到几万的数量级上,精度和准确度上得到了大幅度的提高。
附图说明
图1为本发明的系统框图;
图2位本发明的诱因、病因抽取方法的流程图;
图3为本发明的流程示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面将结合附图和具体实施方式对本发明作进一步的说明。
本发明提供了一种在医疗文本中提取病因的方法,该方法主要包括:通过本发明提出的句式化后的句子结构来识别病因,每一种句式结构中的语义元素能够对病因实体进行严格的限制最终实现提取。通过对各个句式中的语义元素进行学习提取,并扩充该语义元素库。该方法的优势在于能够应用在专业教材、专业医疗网站、医疗大典、电子病例、医疗科研期刊中的论文等各类非结构化医疗文本中,同时能够较好地解决病因实体长度差异较大的问题,并且对于医疗知识图谱的构建起到了至关重要的作用。
实施例一
结合附图1,图1为医疗文本中提取疾病诱因、病因系统的系统模块框图,所述系统包括:
文本输入单元,用于系统读取非结构化医疗文本;
疾病提取单元,用于提取医疗疾病实体,通过关系词集合和病因集合来提取疾病实体;
关系词提取单元,用于提取关系词实体,通过疾病集合和病因集合来提取关系词实体;
病因提取单元,用于提取病因实体,通过关系词集合和疾病集合来提取病因、诱因实体;
存储单元,用于结果的结构化存储,将提取出来的疾病、关系词、病因按照关系存储到相应句式结构文件中。
首先通过读取模块中的文本输入单元向系统输入非结构化医疗文本。随后在计算模块中结合各句式结构,通过疾病提取单元、关系词提取单元、病因提取单元进行提取相应实体词。最后通过展示模块中的存储单元将提取实体进行结构化存储。
实施例二
结合附图3,图3为一种在医疗文本中提取疾病诱因、病因的方法流程图,具体步骤如下:
步骤1:获取并存储医疗文本和病因句式结构;
步骤2:基于句式结构,在医疗文本中,通过疾病、病因获取各句式结构的关系词;
步骤3:对新的关系词进行除杂;
步骤4:将除杂后的关系词并入已有的关系词集合中;
步骤5:基于句式结构,在医疗文本中,通过更新后的关系词集合和疾病获取各句式结构的病因;
步骤6:对新的病因进行除杂、验证;
步骤7:将验证后的病因并入已有的病因集合中;
步骤8:基于句式结构,在医疗文本中,通过更新后的病因集合和关系词获取各句式结构的疾病;
步骤9:对新的疾病进行除杂;
步骤10:将除杂后的疾病并入已有的疾病集合中;
步骤11:存储获取的疾病、关系词、病因。
本方法通过迭代的思想来模型进行多次的训练,同时更新阈值参数设置得到最优的模型。
本实施例的医疗文本中提取疾病诱因、病因方法,能够通过结合句式个n-1个语义元素来获取待提取实体,不仅提高了实体提取的精度和准确度,还有效的解决了病因实体长度无法解决的问题。
实施例三
本发明实施例三提供了一种病因、诱因抽取装置,主要包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述疾病诱因、病因抽取方法的步骤。
本发明实施例的疾病诱因、病因抽取装置包括:获取器、处理器、存储器以及存储在存储器中并可在所述处理器上运行的计算机程序,例如:疾病诱因、病因抽取程序。所述处理器执行所述计算机程序时实现上述疾病诱因、病因抽取方法实施例中的步骤,例如图2所示的疾病诱因、病因抽取方法中的步骤。或者所述处理器执行所述计算机程序时实现上述各装置实施例中各模块或单元的功能,例如:文本输入单元、疾病提取单元、关系词提取单元、病因提取单元、存储单元。
以上所述仅为本发明的优选实例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种在医疗文本中提取疾病诱因、病因的方法,其特征在于,包括:
步骤S100:获取并存储医疗文本和病因句式;
步骤S200:提取关系词,并对关系词进行除杂,将除杂后的关系词并入到已有的关系词集合中;
步骤S300:提取病因,并对病因进行除杂、验证,将通过验证的病因并入已有的病因集合中;
步骤S400:提取疾病,并对疾病进行除杂、验证,将通过验证的疾病并入已有的疾病集合中;
步骤S500:判断提取的各种实体在数量上是否较已有的集合增加,若增加,返回步骤200,否则,结束。
2.根据权利要求1所述的医疗文本中提取疾病诱因、病因的方法,其特征在于,将疾病和病因之间的关系词当做实体词来提取。
3.根据权利要求1所述的医疗文本中提取疾病诱因、病因的方法,其特征在于,所述关系词的除杂是根据Hanlp分词工具进行分词和停用词过滤,然后加入特定阈值筛选条件进行筛选。
4.根据权利要求1所述的医疗文本中提取疾病诱因、病因的方法,其特征在于,所述医疗文本的获取是通过正则表达式来获取非结构化文本中的中文句子。
5.根据权利要求1所述的医疗文本中提取疾病诱因、病因的方法,其特征在于,在训练疾病诱因、病因抽取模型时,通过迭代的思想来模型进行多次的训练,同时引入阈值参数设置,最终经过调参得到最优模型。
6.一种在医疗文本中提取疾病诱因、病因的装置,包括获取器、处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5中任意一个所述方法的步骤。
7.一种在医疗文本中提取疾病诱因、病因的系统,其特征在于,所述系统包括:
医疗文本库,用于存储非结构化医疗文本以及各实体集合;
文本输入单元,用于系统读取非结构化医疗文本;
疾病提取单元,用于提取医疗疾病实体,通过关系词集合和病因集合来提取疾病实体;
关系词提取单元,用于提取关系词实体,通过疾病集合和病因集合来提取关系词实体;
病因提取单元,用于提取病因实体,通过关系词集合和疾病集合来提取病因、诱因实体;
存储单元,用于结果的结构化存储,将提取出来的疾病、关系词、病因按照关系存储到相应句式结构文件中;
展示单元,用于展示病因提取的结果。
CN202011067120.5A 2020-10-05 2020-10-05 一种在医疗文本中提取疾病诱因、病因的方法及装置及系统 Pending CN112151186A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011067120.5A CN112151186A (zh) 2020-10-05 2020-10-05 一种在医疗文本中提取疾病诱因、病因的方法及装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011067120.5A CN112151186A (zh) 2020-10-05 2020-10-05 一种在医疗文本中提取疾病诱因、病因的方法及装置及系统

Publications (1)

Publication Number Publication Date
CN112151186A true CN112151186A (zh) 2020-12-29

Family

ID=73952405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011067120.5A Pending CN112151186A (zh) 2020-10-05 2020-10-05 一种在医疗文本中提取疾病诱因、病因的方法及装置及系统

Country Status (1)

Country Link
CN (1) CN112151186A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420562A (zh) * 2021-05-10 2021-09-21 河南大学 医疗文本中抽取疾病及其对应的化验指标实体词的方法及系统及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070124291A1 (en) * 2005-11-29 2007-05-31 Hassan Hany M Method and system for extracting and visualizing graph-structured relations from unstructured text
CN108319605A (zh) * 2017-01-16 2018-07-24 医渡云(北京)技术有限公司 医学检查数据的结构化处理方法及系统
CN108427717A (zh) * 2018-02-06 2018-08-21 北京航空航天大学 一种基于逐步扩展的字母类语系医疗文本关系抽取方法
CN109166608A (zh) * 2018-09-17 2019-01-08 新华三大数据技术有限公司 电子病历信息提取方法、装置和设备
CN109192255A (zh) * 2018-07-03 2019-01-11 北京康夫子科技有限公司 病历结构化方法
CN109299472A (zh) * 2018-11-09 2019-02-01 天津开心生活科技有限公司 文本数据处理方法、装置、电子设备及计算机可读介质
CN109522338A (zh) * 2018-11-09 2019-03-26 天津开心生活科技有限公司 临床术语挖掘方法、装置、电子设备及计算机可读介质
CN110427491A (zh) * 2019-07-04 2019-11-08 北京爱医生智慧医疗科技有限公司 一种基于电子病历的医学知识图谱构建方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070124291A1 (en) * 2005-11-29 2007-05-31 Hassan Hany M Method and system for extracting and visualizing graph-structured relations from unstructured text
CN108319605A (zh) * 2017-01-16 2018-07-24 医渡云(北京)技术有限公司 医学检查数据的结构化处理方法及系统
CN108427717A (zh) * 2018-02-06 2018-08-21 北京航空航天大学 一种基于逐步扩展的字母类语系医疗文本关系抽取方法
CN109192255A (zh) * 2018-07-03 2019-01-11 北京康夫子科技有限公司 病历结构化方法
CN109166608A (zh) * 2018-09-17 2019-01-08 新华三大数据技术有限公司 电子病历信息提取方法、装置和设备
CN109299472A (zh) * 2018-11-09 2019-02-01 天津开心生活科技有限公司 文本数据处理方法、装置、电子设备及计算机可读介质
CN109522338A (zh) * 2018-11-09 2019-03-26 天津开心生活科技有限公司 临床术语挖掘方法、装置、电子设备及计算机可读介质
CN110427491A (zh) * 2019-07-04 2019-11-08 北京爱医生智慧医疗科技有限公司 一种基于电子病历的医学知识图谱构建方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
于楠: "中文电子病历信息抽取关键技术研究", 《中国优秀硕士学位论文全文数据库》 *
张立邦: "基于半监督学习的中文电子病历分词和名实体挖掘", 《中国优秀硕士学位论文全文数据库》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420562A (zh) * 2021-05-10 2021-09-21 河南大学 医疗文本中抽取疾病及其对应的化验指标实体词的方法及系统及装置

Similar Documents

Publication Publication Date Title
US20200311115A1 (en) Method and system for mapping text phrases to a taxonomy
CN108108426B (zh) 自然语言提问的理解方法、装置及电子设备
Neudecker et al. A survey of OCR evaluation tools and metrics
RU2760471C1 (ru) Способы и системы идентификации полей в документе
CN112035846A (zh) 一种基于文本分析的未知漏洞风险评估方法
CN115858785A (zh) 一种基于大数据的敏感数据识别方法及系统
CN112181490A (zh) 功能点评估法中功能类别的识别方法、装置、设备及介质
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN114706985A (zh) 文本分类方法、装置、电子设备及存储介质
Angeli et al. Stanford’s distantly supervised slot filling systems for KBP 2014
CN112151186A (zh) 一种在医疗文本中提取疾病诱因、病因的方法及装置及系统
US11361565B2 (en) Natural language processing (NLP) pipeline for automated attribute extraction
CN112487293A (zh) 一种安全事故案例结构化信息抽取方法、装置及介质
AU2021104693A4 (en) An approach and device and system for extracting diseases and causes in medical texts
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
CN113628757A (zh) 一种在医疗文本中基于词汇构词法获取时间复合词的方法及系统及装置
CN114139530A (zh) 同义词提取方法、装置、电子设备及存储介质
Huang et al. An Approach of Suspected Code Plagiarism Detection Based on XGBoost Incremental Learning
CN113628756A (zh) 一种在医疗文本中提取症状、症因的方法及装置及系统
JP5020274B2 (ja) 意味ドリフトの発生評価方法及び装置
Khumaidi et al. Comparison of Knuth Morris Pratt and Boyer Moore algorithms for a web-based dictionary of computer terms
Rahman et al. ChartSumm: A large scale benchmark for Chart to Text Summarization
AU2021106441A4 (en) Method, System and Device for Extracting Compound Words of Pathological location in Medical Texts Based on Word-Formation
CN116453702B (zh) 孤独症行为特征集的数据处理方法、设备、系统及介质
CN113505599B (zh) 病历文书中实体概念的提取方法、装置及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201229

WD01 Invention patent application deemed withdrawn after publication