CN114155950A - 一种基于hanlp解析医疗诊断的方法 - Google Patents
一种基于hanlp解析医疗诊断的方法 Download PDFInfo
- Publication number
- CN114155950A CN114155950A CN202111251999.3A CN202111251999A CN114155950A CN 114155950 A CN114155950 A CN 114155950A CN 202111251999 A CN202111251999 A CN 202111251999A CN 114155950 A CN114155950 A CN 114155950A
- Authority
- CN
- China
- Prior art keywords
- entity
- node
- result
- medical
- noun
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003745 diagnosis Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000004458 analytical method Methods 0.000 title claims abstract description 18
- 230000011218 segmentation Effects 0.000 claims abstract description 12
- 238000003491 array Methods 0.000 claims description 12
- 208000009453 Thyroid Nodule Diseases 0.000 description 3
- 208000024770 Thyroid neoplasm Diseases 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于hanlp解析医疗诊断的方法。通过hanlp的分词功能与依存句法分析,通过构建句法树,遍历判断实体词的依赖动词,副词,形容词以及语料库维护的诊断名词,将特征性质等信息与医疗实体名词相关联,从而得出实体名词与其诊断、特性记录。
Description
技术领域
本发明涉及一种基于hanlp解析医疗诊断的方法。
背景技术
在医疗数据中,比如电子病历等数据,其数据存储格式为非结构化的文本数据,这些数据难以被关系数据库所建模,也难以被代码利用,在数据处理之前,其不具备数据分析,数据挖掘的价值,本发明旨在针对医疗数据进行非结构化的处理分析,并获得有价值的诊断结果。
目前市面上暂无公开的基于hanlp分词来生成医疗诊断的方法,公开的基于hanlp的应用主要集中于垃圾信息过滤等领域,且功能多为简单采用hanlp分词,并没有有效将实体与特征、动词副词相结合得出可靠的关联。
发明内容
本发明的目的在于提供一种基于hanlp解析医疗诊断的方法,通过hanlp的分词功能与依存句法分析,通过构建句法树,遍历判断实体词的依赖动词,副词,形容词以及语料库维护的诊断名词,将特征性质等信息与医疗实体名词相关联,从而得出实体名词与其诊断、特性记录。
为实现上述目的,本发明的技术方案是:一种基于hanlp解析医疗诊断的方法,对hanlp完整分词以及构造出的句法树结果进行处理,采用树遍历的方式找寻医疗实体的特征值,具体实现步骤如下:
S1、输入医疗非结构化数据,根据句号,分号分段符进行预分段,将数据预先划分为n组;
S2、将预先分组的各组数据采用多线程方式,启动hanlp多线程处理并输出语义依存句法数组;
S3、对依存句法数组进行分析处理:
S31、初始化一个最终解析结果列表,该列表存储有解析结果的对象集合,解析结果对象属性有实体名词名称、特征描述字符串数组、诊断内容字符串数组;初始完成后开始遍历语义依存句法结果分组,针对每一条分组执行步骤S32;
S32、遍历语义依存数组,原始数据为一个维度1的对象数组,根据对象的前置节点信息,重新构建自定义的依存句法树,该树存在父指针和子集合,分别指向其父节点和子节点集合;
S33、从解析结果数组下标i(初始i=0)开始遍历数组,当遇到医疗实体名词后以该名词对象信息创建最终解析结果对象,加入结果列表list中,并复制为currentObj对象,并进入实体名词特征搜索逻辑,即步骤S34;
S34、以当前实体名词所在ID,找到该节点位于语法树中的位置,随后开始递归向上追溯父节点,找到词性为nd(诊断)、词性为a(形容词)的节点,且该节点与当前医疗实体名词具有直接或传递的主谓关系、定中关系,符合条件的相关词语设置为当前实体元素对象(currentObj)的属性值,直到父节点为null或遇到下一个医疗实体;
S35、以当前实体名词所在节点,递归向下追溯子节点集合,找到词性为nd(诊断)、词性为a(形容词)的节点,且该节点与当前医疗实体名词具有直接或传递的主谓关系、定中关系,则将该节点内容设置为当前实体元素对象(currentObj)的属性值,直到父节点为null或遇到上一个医疗实体;
S36、返回步骤S33继续遍历数组直到遇到下一个实体,重复步骤S34到S35,否则进入步骤S37;
S37、遍历结果集,若存在层级关系,将实体标注为nh2(次级医疗实体)的结果对象的父信息设置为列表第一个元素,完成后进入步骤S38;
S38、进入下一组依存句法结果分组,重复步骤S32到S35。
相较于现有技术,本发明具有以下有益效果:本发明方法通过hanlp的分词功能与依存句法分析,通过构建句法树,遍历判断实体词的依赖动词,副词,形容词以及语料库维护的诊断名词,将特征性质等信息与医疗实体名词相关联,从而得出实体名词与其诊断、特性记录;
本发明方法具有以下特点:
1、本发明不仅仅只是将预料分词从非结构化数据中识别出来,还需要进行分析,关联对应;
2、本发明采用依存句法树进行数据遍历,找到实体名词对应的特征信息,包括其方位描述、行为描述、形容描述以及关键诊断。
附图说明
图1为本发明方法流程示意图。
图2为本发明遍历语义依存句法结果分组流程示意图。
图3为本发明解析结果的数据结构示意图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
如图1所示,本发明一种基于hanlp解析医疗诊断的方法,核心为对hanlp完整分词以及构造出的句法树结果进行处理,采用树遍历的方式找寻医疗实体的特征值。其处理流程如下:
非结构化数据读取后,根据句号,分号分段符进行预分段,将数据预先划分为n组,则最终实体以及其特征记录结果应大于等于n条(存在医疗数据不规范的情况,在一个断句中写入多个医疗实体诊断),再将各组数据采用多线程方式,启动hanlp多线程处理并输出语义依存句法数组,接下来开始对依存句法数组进行分析处理:
1)步骤一:初始化一个最终解析结果列表,该列表存储了解析结果的对象集合,解析结果对象属性有实体名词名称、特征描述字符串数组、诊断内容字符串数组,如图3所示;初始完成后开始遍历语义依存句法结果分组(如图2所示),针对每一条分组执行步骤二;
2)步骤二:遍历语义依存数组,原始数据为一个维度1的对象数组,根据对象的前置节点信息,重新构建自定义的依存句法树,该树存在父指针和子集合,分别指向其父节点和子节点集合;
3)步骤三:从解析结果数组下标i(初始i=0)开始遍历数组,当遇到医疗实体名词后以该名词对象信息创建最终解析结果对象,加入结果列表list中,并复制为currentObj对象,(按照正常规范描述,一级实体名词作为主语必然是list的第一个元素)并进入实体名词特征搜索逻辑,即步骤四;
4)步骤四:以当前实体名词所在ID,找到该节点位于语法树中的位置,随后开始递归向上追溯父节点,找到词性为nd(诊断)、词性为a(形容词)的节点,且该节点与当前医疗实体名词具有直接或传递的主谓关系、定中关系,符合条件的相关词语设置为当前实体元素对象(currentObj)的属性值,直到父节点为null或遇到下一个医疗实体;
5)步骤五:以当前实体名词所在节点,递归向下追溯子节点集合,找到词性为nd(诊断)、词性为a(形容词)的节点,且该节点与当前医疗实体名词具有直接或传递的主谓关系、定中关系,则将该节点内容设置为当前实体元素对象(currentObj)的属性值,直到父节点为null或遇到上一个医疗实体;
6)步骤六:返回步骤三继续遍历数组直到遇到下一个实体,重复步骤四到五,否则进入步骤七;
7)步骤七:遍历结果集,若存在层级关系,将实体标注为nh2(次级医疗实体)的结果对象的父信息设置为列表第一个元素,完成后进入步骤八;
8)步骤八:进入下一组依存句法结果分组,重复步骤二到五。
实施例1:
针对文本内容“甲状腺结节形态正常,表面光滑,包膜完整”进行解析,本地分词库将甲状腺结节、形态、表面、包膜标注为nh(医疗名词),正常、不正常、光滑、欠光滑、完整、欠完整标注为nd(医疗诊断),解析后结果可以梳理出:
甲状腺结节->形态->正常,表面->光滑,包膜->完整
组合成的结果对象即为表1所示:
表1
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (1)
1.一种基于hanlp解析医疗诊断的方法,其特征在于,对hanlp完整分词以及构造出的句法树结果进行处理,采用树遍历的方式找寻医疗实体的特征值,具体实现步骤如下:
S1、输入医疗非结构化数据,根据句号,分号分段符进行预分段,将数据预先划分为n组;
S2、将预先分组的各组数据采用多线程方式,启动hanlp多线程处理并输出语义依存句法数组;
S3、对依存句法数组进行分析处理:
S31、初始化一个最终解析结果列表,该列表存储有解析结果的对象集合,解析结果对象属性有实体名词名称、特征描述字符串数组、诊断内容字符串数组;初始完成后开始遍历语义依存句法结果分组,针对每一条分组执行步骤S32;
S32、遍历语义依存数组,原始数据为一个维度1的对象数组,根据对象的前置节点信息,重新构建自定义的依存句法树,该树存在父指针和子集合,分别指向其父节点和子节点集合;
S33、从解析结果数组下标i(初始i=0)开始遍历数组,当遇到医疗实体名词后以该名词对象信息创建最终解析结果对象,加入结果列表list中,并复制为currentObj对象,并进入实体名词特征搜索逻辑,即步骤S34;
S34、以当前实体名词所在ID,找到该节点位于语法树中的位置,随后开始递归向上追溯父节点,找到词性为nd(诊断)、词性为a(形容词)的节点,且该节点与当前医疗实体名词具有直接或传递的主谓关系、定中关系,符合条件的相关词语设置为当前实体元素对象(currentObj)的属性值,直到父节点为null或遇到下一个医疗实体;
S35、以当前实体名词所在节点,递归向下追溯子节点集合,找到词性为nd(诊断)、词性为a(形容词)的节点,且该节点与当前医疗实体名词具有直接或传递的主谓关系、定中关系,则将该节点内容设置为当前实体元素对象(currentObj)的属性值,直到父节点为null或遇到上一个医疗实体;
S36、返回步骤S33继续遍历数组直到遇到下一个实体,重复步骤S34到S35,否则进入步骤S37;
S37、遍历结果集,若存在层级关系,将实体标注为nh2(次级医疗实体)的结果对象的父信息设置为列表第一个元素,完成后进入步骤S38;
S38、进入下一组依存句法结果分组,重复步骤S32到S35。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111251999.3A CN114155950A (zh) | 2021-10-27 | 2021-10-27 | 一种基于hanlp解析医疗诊断的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111251999.3A CN114155950A (zh) | 2021-10-27 | 2021-10-27 | 一种基于hanlp解析医疗诊断的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114155950A true CN114155950A (zh) | 2022-03-08 |
Family
ID=80458307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111251999.3A Pending CN114155950A (zh) | 2021-10-27 | 2021-10-27 | 一种基于hanlp解析医疗诊断的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114155950A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116127960A (zh) * | 2023-04-17 | 2023-05-16 | 广东粤港澳大湾区国家纳米科技创新研究院 | 信息抽取方法、装置、存储介质及计算机设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109378053A (zh) * | 2018-11-30 | 2019-02-22 | 安徽影联云享医疗科技有限公司 | 一种用于医学影像的知识图谱构建方法 |
CN111933251A (zh) * | 2020-06-24 | 2020-11-13 | 安徽影联云享医疗科技有限公司 | 一种医学影像标注方法及系统 |
WO2021155684A1 (zh) * | 2020-09-09 | 2021-08-12 | 平安科技(深圳)有限公司 | 基因疾病关系知识库构建方法、装置和计算机设备 |
-
2021
- 2021-10-27 CN CN202111251999.3A patent/CN114155950A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109378053A (zh) * | 2018-11-30 | 2019-02-22 | 安徽影联云享医疗科技有限公司 | 一种用于医学影像的知识图谱构建方法 |
CN111933251A (zh) * | 2020-06-24 | 2020-11-13 | 安徽影联云享医疗科技有限公司 | 一种医学影像标注方法及系统 |
WO2021155684A1 (zh) * | 2020-09-09 | 2021-08-12 | 平安科技(深圳)有限公司 | 基因疾病关系知识库构建方法、装置和计算机设备 |
Non-Patent Citations (2)
Title |
---|
田驰远;陈德华;王梅;乐嘉锦;: "基于依存句法分析的病理报告结构化处理方法", 计算机研究与发展, no. 12, 15 December 2016 (2016-12-15), pages 2670 - 2679 * |
聂莉莉;李传富;许晓倩;朱川川;徐志鹏;武红利;: "人工智能在医学诊断知识图谱构建中的应用研究", 医学信息学杂志, no. 06, 25 June 2018 (2018-06-25) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116127960A (zh) * | 2023-04-17 | 2023-05-16 | 广东粤港澳大湾区国家纳米科技创新研究院 | 信息抽取方法、装置、存储介质及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Fonduer: Knowledge base construction from richly formatted data | |
Chang et al. | A survey of web information extraction systems | |
Hatzivassiloglou et al. | Towards the automatic identification of adjectival scales: Clustering adjectives according to meaning | |
Nayak et al. | Knowledge graph based automated generation of test cases in software engineering | |
CN112035508A (zh) | 基于sql在线元数据解析的方法及系统、设备 | |
Moradi | Frequent itemsets as meaningful events in graphs for summarizing biomedical texts | |
Bai et al. | Enhanced natural language interface for web-based information retrieval | |
Li et al. | A survey on renamings of software entities | |
Bertolotti et al. | Fold2Vec: Towards a statement-based representation of code for code comprehension | |
Kalo et al. | Knowlybert-hybrid query answering over language models and knowledge graphs | |
Zhang et al. | An accurate identifier renaming prediction and suggestion approach | |
Kim et al. | Authorship classification: a syntactic tree mining approach | |
CN114155950A (zh) | 一种基于hanlp解析医疗诊断的方法 | |
Talburt et al. | A practical guide to entity resolution with OYSTER | |
CN113032371A (zh) | 数据库语法分析方法、装置和计算机设备 | |
Liartis et al. | Searching for explanations of black-box classifiers in the space of semantic queries | |
Wallis et al. | Exploiting fuzzy tree fragment queries in the investigation of parsed corpora | |
Wang et al. | Pre-implementation Method Name Prediction for Object-oriented Programming | |
Shen et al. | Evaluating Code Summarization with Improved Correlation with Human Assessment | |
Lee et al. | Mining Stack Overflow for API class recommendation using DOC2VEC and LDA | |
El-salam et al. | Extracting Arabic relations from the web | |
Zinoviev | Data Science Essentials in Python: Collect-Organize-Explore-Predict-Value | |
Lehmberg | Web table integration and profiling for knowledge base augmentation | |
Sánchez Ruenes | Domain Ontology learning from the Web | |
Günther et al. | Learning from textual data in database systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |