CN114155950A - 一种基于hanlp解析医疗诊断的方法 - Google Patents

一种基于hanlp解析医疗诊断的方法 Download PDF

Info

Publication number
CN114155950A
CN114155950A CN202111251999.3A CN202111251999A CN114155950A CN 114155950 A CN114155950 A CN 114155950A CN 202111251999 A CN202111251999 A CN 202111251999A CN 114155950 A CN114155950 A CN 114155950A
Authority
CN
China
Prior art keywords
entity
node
result
medical
noun
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111251999.3A
Other languages
English (en)
Inventor
张豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Funo Mobile Communication Technology Co ltd
Original Assignee
Fujian Funo Mobile Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Funo Mobile Communication Technology Co ltd filed Critical Fujian Funo Mobile Communication Technology Co ltd
Priority to CN202111251999.3A priority Critical patent/CN114155950A/zh
Publication of CN114155950A publication Critical patent/CN114155950A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于hanlp解析医疗诊断的方法。通过hanlp的分词功能与依存句法分析,通过构建句法树,遍历判断实体词的依赖动词,副词,形容词以及语料库维护的诊断名词,将特征性质等信息与医疗实体名词相关联,从而得出实体名词与其诊断、特性记录。

Description

一种基于hanlp解析医疗诊断的方法
技术领域
本发明涉及一种基于hanlp解析医疗诊断的方法。
背景技术
在医疗数据中,比如电子病历等数据,其数据存储格式为非结构化的文本数据,这些数据难以被关系数据库所建模,也难以被代码利用,在数据处理之前,其不具备数据分析,数据挖掘的价值,本发明旨在针对医疗数据进行非结构化的处理分析,并获得有价值的诊断结果。
目前市面上暂无公开的基于hanlp分词来生成医疗诊断的方法,公开的基于hanlp的应用主要集中于垃圾信息过滤等领域,且功能多为简单采用hanlp分词,并没有有效将实体与特征、动词副词相结合得出可靠的关联。
发明内容
本发明的目的在于提供一种基于hanlp解析医疗诊断的方法,通过hanlp的分词功能与依存句法分析,通过构建句法树,遍历判断实体词的依赖动词,副词,形容词以及语料库维护的诊断名词,将特征性质等信息与医疗实体名词相关联,从而得出实体名词与其诊断、特性记录。
为实现上述目的,本发明的技术方案是:一种基于hanlp解析医疗诊断的方法,对hanlp完整分词以及构造出的句法树结果进行处理,采用树遍历的方式找寻医疗实体的特征值,具体实现步骤如下:
S1、输入医疗非结构化数据,根据句号,分号分段符进行预分段,将数据预先划分为n组;
S2、将预先分组的各组数据采用多线程方式,启动hanlp多线程处理并输出语义依存句法数组;
S3、对依存句法数组进行分析处理:
S31、初始化一个最终解析结果列表,该列表存储有解析结果的对象集合,解析结果对象属性有实体名词名称、特征描述字符串数组、诊断内容字符串数组;初始完成后开始遍历语义依存句法结果分组,针对每一条分组执行步骤S32;
S32、遍历语义依存数组,原始数据为一个维度1的对象数组,根据对象的前置节点信息,重新构建自定义的依存句法树,该树存在父指针和子集合,分别指向其父节点和子节点集合;
S33、从解析结果数组下标i(初始i=0)开始遍历数组,当遇到医疗实体名词后以该名词对象信息创建最终解析结果对象,加入结果列表list中,并复制为currentObj对象,并进入实体名词特征搜索逻辑,即步骤S34;
S34、以当前实体名词所在ID,找到该节点位于语法树中的位置,随后开始递归向上追溯父节点,找到词性为nd(诊断)、词性为a(形容词)的节点,且该节点与当前医疗实体名词具有直接或传递的主谓关系、定中关系,符合条件的相关词语设置为当前实体元素对象(currentObj)的属性值,直到父节点为null或遇到下一个医疗实体;
S35、以当前实体名词所在节点,递归向下追溯子节点集合,找到词性为nd(诊断)、词性为a(形容词)的节点,且该节点与当前医疗实体名词具有直接或传递的主谓关系、定中关系,则将该节点内容设置为当前实体元素对象(currentObj)的属性值,直到父节点为null或遇到上一个医疗实体;
S36、返回步骤S33继续遍历数组直到遇到下一个实体,重复步骤S34到S35,否则进入步骤S37;
S37、遍历结果集,若存在层级关系,将实体标注为nh2(次级医疗实体)的结果对象的父信息设置为列表第一个元素,完成后进入步骤S38;
S38、进入下一组依存句法结果分组,重复步骤S32到S35。
相较于现有技术,本发明具有以下有益效果:本发明方法通过hanlp的分词功能与依存句法分析,通过构建句法树,遍历判断实体词的依赖动词,副词,形容词以及语料库维护的诊断名词,将特征性质等信息与医疗实体名词相关联,从而得出实体名词与其诊断、特性记录;
本发明方法具有以下特点:
1、本发明不仅仅只是将预料分词从非结构化数据中识别出来,还需要进行分析,关联对应;
2、本发明采用依存句法树进行数据遍历,找到实体名词对应的特征信息,包括其方位描述、行为描述、形容描述以及关键诊断。
附图说明
图1为本发明方法流程示意图。
图2为本发明遍历语义依存句法结果分组流程示意图。
图3为本发明解析结果的数据结构示意图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
如图1所示,本发明一种基于hanlp解析医疗诊断的方法,核心为对hanlp完整分词以及构造出的句法树结果进行处理,采用树遍历的方式找寻医疗实体的特征值。其处理流程如下:
非结构化数据读取后,根据句号,分号分段符进行预分段,将数据预先划分为n组,则最终实体以及其特征记录结果应大于等于n条(存在医疗数据不规范的情况,在一个断句中写入多个医疗实体诊断),再将各组数据采用多线程方式,启动hanlp多线程处理并输出语义依存句法数组,接下来开始对依存句法数组进行分析处理:
1)步骤一:初始化一个最终解析结果列表,该列表存储了解析结果的对象集合,解析结果对象属性有实体名词名称、特征描述字符串数组、诊断内容字符串数组,如图3所示;初始完成后开始遍历语义依存句法结果分组(如图2所示),针对每一条分组执行步骤二;
2)步骤二:遍历语义依存数组,原始数据为一个维度1的对象数组,根据对象的前置节点信息,重新构建自定义的依存句法树,该树存在父指针和子集合,分别指向其父节点和子节点集合;
3)步骤三:从解析结果数组下标i(初始i=0)开始遍历数组,当遇到医疗实体名词后以该名词对象信息创建最终解析结果对象,加入结果列表list中,并复制为currentObj对象,(按照正常规范描述,一级实体名词作为主语必然是list的第一个元素)并进入实体名词特征搜索逻辑,即步骤四;
4)步骤四:以当前实体名词所在ID,找到该节点位于语法树中的位置,随后开始递归向上追溯父节点,找到词性为nd(诊断)、词性为a(形容词)的节点,且该节点与当前医疗实体名词具有直接或传递的主谓关系、定中关系,符合条件的相关词语设置为当前实体元素对象(currentObj)的属性值,直到父节点为null或遇到下一个医疗实体;
5)步骤五:以当前实体名词所在节点,递归向下追溯子节点集合,找到词性为nd(诊断)、词性为a(形容词)的节点,且该节点与当前医疗实体名词具有直接或传递的主谓关系、定中关系,则将该节点内容设置为当前实体元素对象(currentObj)的属性值,直到父节点为null或遇到上一个医疗实体;
6)步骤六:返回步骤三继续遍历数组直到遇到下一个实体,重复步骤四到五,否则进入步骤七;
7)步骤七:遍历结果集,若存在层级关系,将实体标注为nh2(次级医疗实体)的结果对象的父信息设置为列表第一个元素,完成后进入步骤八;
8)步骤八:进入下一组依存句法结果分组,重复步骤二到五。
实施例1:
针对文本内容“甲状腺结节形态正常,表面光滑,包膜完整”进行解析,本地分词库将甲状腺结节、形态、表面、包膜标注为nh(医疗名词),正常、不正常、光滑、欠光滑、完整、欠完整标注为nd(医疗诊断),解析后结果可以梳理出:
甲状腺结节->形态->正常,表面->光滑,包膜->完整
组合成的结果对象即为表1所示:
表1
Figure 196251DEST_PATH_IMAGE002
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (1)

1.一种基于hanlp解析医疗诊断的方法,其特征在于,对hanlp完整分词以及构造出的句法树结果进行处理,采用树遍历的方式找寻医疗实体的特征值,具体实现步骤如下:
S1、输入医疗非结构化数据,根据句号,分号分段符进行预分段,将数据预先划分为n组;
S2、将预先分组的各组数据采用多线程方式,启动hanlp多线程处理并输出语义依存句法数组;
S3、对依存句法数组进行分析处理:
S31、初始化一个最终解析结果列表,该列表存储有解析结果的对象集合,解析结果对象属性有实体名词名称、特征描述字符串数组、诊断内容字符串数组;初始完成后开始遍历语义依存句法结果分组,针对每一条分组执行步骤S32;
S32、遍历语义依存数组,原始数据为一个维度1的对象数组,根据对象的前置节点信息,重新构建自定义的依存句法树,该树存在父指针和子集合,分别指向其父节点和子节点集合;
S33、从解析结果数组下标i(初始i=0)开始遍历数组,当遇到医疗实体名词后以该名词对象信息创建最终解析结果对象,加入结果列表list中,并复制为currentObj对象,并进入实体名词特征搜索逻辑,即步骤S34;
S34、以当前实体名词所在ID,找到该节点位于语法树中的位置,随后开始递归向上追溯父节点,找到词性为nd(诊断)、词性为a(形容词)的节点,且该节点与当前医疗实体名词具有直接或传递的主谓关系、定中关系,符合条件的相关词语设置为当前实体元素对象(currentObj)的属性值,直到父节点为null或遇到下一个医疗实体;
S35、以当前实体名词所在节点,递归向下追溯子节点集合,找到词性为nd(诊断)、词性为a(形容词)的节点,且该节点与当前医疗实体名词具有直接或传递的主谓关系、定中关系,则将该节点内容设置为当前实体元素对象(currentObj)的属性值,直到父节点为null或遇到上一个医疗实体;
S36、返回步骤S33继续遍历数组直到遇到下一个实体,重复步骤S34到S35,否则进入步骤S37;
S37、遍历结果集,若存在层级关系,将实体标注为nh2(次级医疗实体)的结果对象的父信息设置为列表第一个元素,完成后进入步骤S38;
S38、进入下一组依存句法结果分组,重复步骤S32到S35。
CN202111251999.3A 2021-10-27 2021-10-27 一种基于hanlp解析医疗诊断的方法 Pending CN114155950A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111251999.3A CN114155950A (zh) 2021-10-27 2021-10-27 一种基于hanlp解析医疗诊断的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111251999.3A CN114155950A (zh) 2021-10-27 2021-10-27 一种基于hanlp解析医疗诊断的方法

Publications (1)

Publication Number Publication Date
CN114155950A true CN114155950A (zh) 2022-03-08

Family

ID=80458307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111251999.3A Pending CN114155950A (zh) 2021-10-27 2021-10-27 一种基于hanlp解析医疗诊断的方法

Country Status (1)

Country Link
CN (1) CN114155950A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127960A (zh) * 2023-04-17 2023-05-16 广东粤港澳大湾区国家纳米科技创新研究院 信息抽取方法、装置、存储介质及计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109378053A (zh) * 2018-11-30 2019-02-22 安徽影联云享医疗科技有限公司 一种用于医学影像的知识图谱构建方法
CN111933251A (zh) * 2020-06-24 2020-11-13 安徽影联云享医疗科技有限公司 一种医学影像标注方法及系统
WO2021155684A1 (zh) * 2020-09-09 2021-08-12 平安科技(深圳)有限公司 基因疾病关系知识库构建方法、装置和计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109378053A (zh) * 2018-11-30 2019-02-22 安徽影联云享医疗科技有限公司 一种用于医学影像的知识图谱构建方法
CN111933251A (zh) * 2020-06-24 2020-11-13 安徽影联云享医疗科技有限公司 一种医学影像标注方法及系统
WO2021155684A1 (zh) * 2020-09-09 2021-08-12 平安科技(深圳)有限公司 基因疾病关系知识库构建方法、装置和计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
田驰远;陈德华;王梅;乐嘉锦;: "基于依存句法分析的病理报告结构化处理方法", 计算机研究与发展, no. 12, 15 December 2016 (2016-12-15), pages 2670 - 2679 *
聂莉莉;李传富;许晓倩;朱川川;徐志鹏;武红利;: "人工智能在医学诊断知识图谱构建中的应用研究", 医学信息学杂志, no. 06, 25 June 2018 (2018-06-25) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127960A (zh) * 2023-04-17 2023-05-16 广东粤港澳大湾区国家纳米科技创新研究院 信息抽取方法、装置、存储介质及计算机设备

Similar Documents

Publication Publication Date Title
Wu et al. Fonduer: Knowledge base construction from richly formatted data
Chang et al. A survey of web information extraction systems
Hatzivassiloglou et al. Towards the automatic identification of adjectival scales: Clustering adjectives according to meaning
Nayak et al. Knowledge graph based automated generation of test cases in software engineering
CN112035508A (zh) 基于sql在线元数据解析的方法及系统、设备
Moradi Frequent itemsets as meaningful events in graphs for summarizing biomedical texts
Bai et al. Enhanced natural language interface for web-based information retrieval
Li et al. A survey on renamings of software entities
Bertolotti et al. Fold2Vec: Towards a statement-based representation of code for code comprehension
Kalo et al. Knowlybert-hybrid query answering over language models and knowledge graphs
Zhang et al. An accurate identifier renaming prediction and suggestion approach
Kim et al. Authorship classification: a syntactic tree mining approach
CN114155950A (zh) 一种基于hanlp解析医疗诊断的方法
Talburt et al. A practical guide to entity resolution with OYSTER
CN113032371A (zh) 数据库语法分析方法、装置和计算机设备
Liartis et al. Searching for explanations of black-box classifiers in the space of semantic queries
Wallis et al. Exploiting fuzzy tree fragment queries in the investigation of parsed corpora
Wang et al. Pre-implementation Method Name Prediction for Object-oriented Programming
Shen et al. Evaluating Code Summarization with Improved Correlation with Human Assessment
Lee et al. Mining Stack Overflow for API class recommendation using DOC2VEC and LDA
El-salam et al. Extracting Arabic relations from the web
Zinoviev Data Science Essentials in Python: Collect-Organize-Explore-Predict-Value
Lehmberg Web table integration and profiling for knowledge base augmentation
Sánchez Ruenes Domain Ontology learning from the Web
Günther et al. Learning from textual data in database systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination