CN108228572A - 基于强化学习的医学自然语言语义网络反馈式提取系统与方法 - Google Patents
基于强化学习的医学自然语言语义网络反馈式提取系统与方法 Download PDFInfo
- Publication number
- CN108228572A CN108228572A CN201810120429.2A CN201810120429A CN108228572A CN 108228572 A CN108228572 A CN 108228572A CN 201810120429 A CN201810120429 A CN 201810120429A CN 108228572 A CN108228572 A CN 108228572A
- Authority
- CN
- China
- Prior art keywords
- module
- medicine
- ontology
- data
- semantic network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于强化学习的医学自然语言语义网络反馈式提取系统与方法,包括医学文本大数据模块,医学本体提取模块,医学语义网络模块,质量医学语义网络数据库模块;医学文本大数据模块包括电子病历、生物医学文献、生物医药专利和网络论坛数据;医学本体提取模块用于从医学文本中对一系列生物医学本体进行提取的操作;医学语义网络模块是以医学本体为节点,以本体间关系为连线构成的网络;质量医学语义网络数据库模块,通过医学语义网络经过众包校对和专家校对形成质量更高的结构化数据并用于关系提取神经网络的强化学习训练。
Description
技术领域
本发明涉及医学大数据领域,具体涉及一种基于强化学习的医学自然语言语义网络反馈式提取系统与方法。
背景技术
在疾病发现、治疗的过程中,医生根据病人的不同特征进行相应的诊断。因此,发现病人特征与治疗方式之间的关系可以对医生选择合适的药物和治疗方式有指导作用。现有的相关分析方法通常将病人信息与治疗方式依次进行简单的假设检验,数据来源通常局限于已实现结构化的标准数据库,数据采集和处理量较小,并且缺少自动化的实现方式。因此,由于大量疾病相关数据以非结构化的自然语言的形式存在,需要一种大吞吐量,准确性高,响应速度快的自然语言提取结构化信息的系统与方法。
发明内容
针对上述问题,本发明一种基于强化学习的医学自然语言语义网络反馈式提取系统与方法,包括医学文本大数据模块,医学本体提取模块,医学语义网络模块,质量医学语义网络数据库模块;所述医学文本大数据模块包括电子病历、生物医学文献、生物医药专利和网络论坛数据;所述医学本体提取模块用于从医学文本中对疾病、症状、科室、药物、检测和基因一系列生物医学本体进行提取的操作;所述医学语义网络模块是以医学本体为节点,以本体间关系为连线构成的网络;所述质量医学语义网络数据库模块,通过医学语义网络经过众包校对和专家校对形成质量更高的数据,这部分数据作为强化学习的数据源反馈给关系提取神经网络。
进一步地,还包括数据清洗模块,所述数据清洗模块用于对所述医学文本大数据模块进行去非法字符、编码统一化、拼写错误检查、数据补全和缩写替代的操作。
进一步地,还包括医学本体提取模块和医学本体提取模型模块,所述医学本体提取模块用于从医学文本中对疾病、症状、科室、药物、检测和基因的生物医学本体进行提取的操作;所述医学本体提取模型模块用于是指进行医学本体提取的计算机模型,模型通常包括分词、专业词库和神经网络模糊匹配。
进一步地,还包括本体间关系提取模块,所述本体间关系模块用于两个本体之间的关系,包括影响、关联、增加、导致、不同于、破坏、抑制、相互作用、是一种、含有、负相关、是组分、产生、相同、刺激和治疗等。
进一步地,还包括众包校对模块,所述众包校对模块用于将校对工作分割成若干任务包,通过互联网寻找愿意认领相关任务的专业人士。
进一步地,还包括专家校对模块,所述专家校对模块用于通过生物医学领域的资深专家对数据进行校对。
进一步地,还包括关系提取神经网络模块,所述关系提取神经网络模块是指用于提取本体间关系的神经网络,通过医学本体关系标准数据库初步训练,再由后期的人工校对数据反馈做进一步的强化学习进而生成更新的关系提取神经网络。
进一步地,还包括医学本体关系标准数据库模块,所述医学本体关系标准数据库是指由人工标注的生物医学本体之间相互关系的数据库,用于关系提取神经网络的初步训练。
进一步地,包括以下步骤,对医学文本大数据进行收集,并对医学文本大数据进行整理,将整理好的数据进行关键词提取与匹配,形成数据网络,接着通过众包模块分割成不同的任务包通过互联网寻找相关的专业人士认领,然后通过生物医学领域的资深专家对数据进行校对,最终反馈得出高质量的结构化数据。
本发明的有益效果是:通过医学语义网络经过众包校对和专家校对形成质量更高的结构化数据,这部分数据作为强化学习的数据源反馈给关系提取神经网络用于本体关系的自动化提取。
附图说明
图1是本发明基于强化学习的医学自然语言语义网络反馈式提取系统与方法的模块图。
图2是本发明基于强化学习的医学自然语言语义网络反馈式提取系统与方法的流程示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1是本发明基于强化学习的医学自然语言语义网络反馈式提取系统与方法的模块图。
如图1所示,本发明一种基于强化学习的医学自然语言语义网络反馈式提取系统与方法,包括医学文本大数据模块,医学本体提取模块,医学语义网络模块,质量医学语义网络数据库模块;所述医学文本大数据模块包括电子病历、生物医学文献、生物医药专利和网络论坛数据;所述医学本体提取模块用于从医学文本中对疾病、症状、科室、药物、检测和基因一系列生物医学本体进行提取的操作;所述医学语义网络模块是以医学本体为节点,以本体间关系为连线构成的网络;所述质量医学语义网络数据库模块,通过医学语义网络经过众包校对和专家校对形成质量更高的数据,这部分数据作为强化学习的数据源反馈给关系提取神经网络。
其中,还包括数据清洗模块,所述数据清洗模块用于对所述医学文本大数据模块进行去非法字符、编码统一化、拼写错误检查、数据补全和缩写替代的操作。
其中,还包括医学本体提取模块和医学本体提取模型模块,所述医学本体提取模块用于从医学文本中对疾病、症状、科室、药物、检测和基因的生物医学本体进行提取的操作;所述医学本体提取模型模块用于是指进行医学本体提取的计算机模型,模型通常包括分词、专业词库和神经网络模糊匹配。
其中,还包括本体间关系提取模块,所述本体间关系模块用于两个本体之间的关系,包括影响、关联、增加、导致、不同于、破坏、抑制、相互作用、是一种、含有、负相关、是组分、产生、相同、刺激和治疗等。
其中,还包括众包校对模块,所述众包校对模块用于将校对工作分割成若干任务包,通过互联网寻找愿意认领相关任务的专业人士。
其中,还包括专家校对模块,所述专家校对模块用于通过生物医学领域的资深专家对数据进行校对。
其中,还包括关系提取神经网络模块,所述关系提取神经网络模块是指用于提取本体间关系的神经网络,通过医学本体关系标准数据库初步训练,再由后期的人工校对数据反馈做进一步的强化学习进而生成更新的关系提取神经网络。
其中,还包括医学本体关系标准数据库模块,所述医学本体关系标准数据库是指由人工标注的生物医学本体之间相互关系的数据库,用于关系提取神经网络的初步训练。
其中,包括以下步骤,对医学文本大数据进行收集,并对医学文本大数据进行整理,将整理好的数据进行关键词提取与匹配,形成数据网络,接着通过众包模块分割成不同的任务包通过互联网寻找相关的专业人士认领,然后通过生物医学领域的资深专家对数据进行校对,最终反馈得出高质量的数据。
图2是本发明基于强化学习的医学自然语言语义网络反馈式提取系统与方法的流程示意图,首先对医学文本大数据进行收集,并对医学文本大数据进行整理,去非法字符、编码统一化、拼写错误检查、数据补全和缩写替代的操作;将整理好的数据进行关键词提取与匹配,形成数据网络,接着通过众包模块分割成不同的任务包通过互联网寻找愿意认领相关任务的专业人士,然后通过生物医学领域的资深专家对数据进行校对,用于关系提取神经网络的强化学习训练,得出高质量的结构化数据。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于强化学习的医学自然语言语义网络反馈式提取系统与方法,包括医学文本大数据模块,医学本体提取模块,医学语义网络模块,质量医学语义网络数据库模块;所述医学文本大数据模块包括电子病历、生物医学文献、生物医药专利和网络论坛数据;所述医学本体提取模块用于从医学文本中对疾病、症状、科室、药物、检测和基因一系列生物医学本体进行提取的操作;所述医学语义网络模块是以医学本体为节点,以本体间关系为连线构成的网络;所述质量医学语义网络数据库模块,通过医学语义网络经过众包校对和专家校对形成质量更高的结构化数据,这部分数据作为强化学习的数据源反馈给关系提取神经网络。
2.根据权利要求1所述基于强化学习的医学自然语言语义网络反馈式提取系统与方法,其特征在于:还包括数据清洗模块,所述数据清洗模块用于对所述医学文本大数据模块进行去非法字符、编码统一化、拼写错误检查、数据补全和缩写替代的操作。
3.根据权利要求2所述基于强化学习的医学自然语言语义网络反馈式提取系统与方法,其特征在于:还包括医学本体提取模块和医学本体提取模型模块,所述医学本体提取模块用于从医学文本中对疾病、症状、科室、药物、检测和基因的生物医学本体进行提取的操作;所述医学本体提取模型模块用于是指进行医学本体提取的计算机模型,模型通常包括分词、专业词库和神经网络模糊匹配。
4.根据权利要求3所述基于强化学习的医学自然语言语义网络反馈式提取系统与方法,其特征在于:还包括本体间关系提取模块,所述本体间关系模块用于两个本体之间的关系,包括影响、关联、增加、导致、不同于、破坏、抑制、相互作用、是一种、含有、负相关、是组分、产生、相同、刺激和治疗等。
5.根据权利要求4所述基于强化学习的医学自然语言语义网络反馈式提取系统与方法,其特征在于:还包括众包校对模块,所述众包校对模块用于将校对工作分割成若干任务包,通过互联网寻找愿意认领相关任务的专业人士。
6.根据权利要求5所述基于强化学习的医学自然语言语义网络反馈式提取系统与方法,其特征在于:还包括专家校对模块,所述专家校对模块用于通过生物医学领域的资深专家对数据进行校对。
7.根据权利要求6所述基于强化学习的医学自然语言语义网络反馈式提取系统与方法,其特征在于:还包括关系提取神经网络模块,所述关系提取神经网络模块是指用于提取本体间关系的神经网络,通过医学本体关系标准数据库初步训练,再由后期的人工校对数据反馈做进一步的强化学习进而生成更新的关系提取神经网络。
8.根据权利要求7所述基于强化学习的医学自然语言语义网络反馈式提取系统与方法,其特征在于:还包括医学本体关系标准数据库模块,所述医学本体关系标准数据库是指由人工标注的生物医学本体之间相互关系的数据库,用于关系提取神经网络的强化学习训练。
9.根据权利要求8所述基于强化学习的医学自然语言语义网络反馈式提取系统与方法,其特征在于:包括以下步骤,对医学文本大数据进行收集,并对医学文本大数据进行整理与清洗等预处理,将预处理后的数据进行关键词提取与匹配,并通过关系提取神经网络提取本体间结构化关系数据形成知识网络,接着通过众包模块分割成不同的任务包通过互联网寻找相关的专业人士认领,然后通过生物医学领域的资深专家对数据进行校对,得出高质量的结构化数据并用于关系提取神经网络的强化学习训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810120429.2A CN108228572A (zh) | 2018-02-07 | 2018-02-07 | 基于强化学习的医学自然语言语义网络反馈式提取系统与方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810120429.2A CN108228572A (zh) | 2018-02-07 | 2018-02-07 | 基于强化学习的医学自然语言语义网络反馈式提取系统与方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108228572A true CN108228572A (zh) | 2018-06-29 |
Family
ID=62671016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810120429.2A Pending CN108228572A (zh) | 2018-02-07 | 2018-02-07 | 基于强化学习的医学自然语言语义网络反馈式提取系统与方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108228572A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008332A (zh) * | 2019-02-13 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 通过强化学习提取主干词的方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021281A (zh) * | 2016-04-29 | 2016-10-12 | 京东方科技集团股份有限公司 | 医学知识图谱的构建方法、其装置及其查询方法 |
CN106295187A (zh) * | 2016-08-11 | 2017-01-04 | 中国科学院计算技术研究所 | 面向智能临床辅助决策支持系统的知识库构建方法与系统 |
CN106844723A (zh) * | 2017-02-10 | 2017-06-13 | 厦门大学 | 基于问答系统的医学知识库构建方法 |
US20170300636A1 (en) * | 2016-01-06 | 2017-10-19 | International Business Machines Corporation | Clinically relevant medical concept clustering |
-
2018
- 2018-02-07 CN CN201810120429.2A patent/CN108228572A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170300636A1 (en) * | 2016-01-06 | 2017-10-19 | International Business Machines Corporation | Clinically relevant medical concept clustering |
CN106021281A (zh) * | 2016-04-29 | 2016-10-12 | 京东方科技集团股份有限公司 | 医学知识图谱的构建方法、其装置及其查询方法 |
CN106295187A (zh) * | 2016-08-11 | 2017-01-04 | 中国科学院计算技术研究所 | 面向智能临床辅助决策支持系统的知识库构建方法与系统 |
CN106844723A (zh) * | 2017-02-10 | 2017-06-13 | 厦门大学 | 基于问答系统的医学知识库构建方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008332A (zh) * | 2019-02-13 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 通过强化学习提取主干词的方法及装置 |
CN110008332B (zh) * | 2019-02-13 | 2020-11-10 | 创新先进技术有限公司 | 通过强化学习提取主干词的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109920540A (zh) | 辅助诊疗决策系统的构建方法、装置及计算机设备 | |
CN108614885A (zh) | 基于医学信息的知识图谱分析方法及装置 | |
CN109949929A (zh) | 一种基于深度学习大规模病历的辅助诊断系统 | |
CN110931128B (zh) | 非结构化医疗文本无监督症状自动识别方法、系统、装置 | |
CN111723570A (zh) | 药品知识图谱的构建方法、装置和计算机设备 | |
CN109003677B (zh) | 病历数据结构化分析处理方法 | |
CN110687999A (zh) | 一种对脑电信号进行语义处理的方法和装置 | |
CN114580418B (zh) | 一种警察体能训练知识图谱系统 | |
CN112149411B (zh) | 一种抗生素临床使用领域本体构建方法 | |
CN109215798B (zh) | 一种面向中医古文的知识库构建方法 | |
CN113539414A (zh) | 一种抗生素用药合理性预测方法及系统 | |
DE202023102803U1 (de) | System zur Erkennung von Emotionen und zur Stimmungsanalyse durch maschinelles Lernen | |
Stout et al. | Grammars of action in human behavior and evolution | |
CN115691786A (zh) | 基于电子病历的眼科疾病信息提取方法和辅助诊断装置 | |
CN110299194A (zh) | 基于综合特征表示与改进宽深度模型的相似病例推荐方法 | |
CN108228572A (zh) | 基于强化学习的医学自然语言语义网络反馈式提取系统与方法 | |
CN112347773B (zh) | 基于bert模型的医学应用模型训练方法及装置 | |
CN113066572A (zh) | 一种增强局部特征提取的中医辅助诊断系统及方法 | |
Mam et al. | Drug repurposing for type 2 diabetes using combined textual and structural graph representation based on transformer | |
CN113836892B (zh) | 样本量数据提取方法、装置、电子设备及存储介质 | |
CN115579153A (zh) | 问诊评价方法、问诊评价装置、电子设备和可读存储介质 | |
Frishkoff et al. | Development of neural electromagnetic ontologies (NEMO): ontology-based tools for representation and integration of event-related brain potentials | |
Jiang et al. | Fine-tuning BERT-based models for plant health bulletin classification | |
Carrasco et al. | Using Embeddings and Bi-LSTM+ CRF Model to Detect Tumor Morphology Entities in Spanish Clinical Cases. | |
Viikki, E. Kentala, M. Juhola, I. Pyykko | Decision tree induction in the diagnosis of otoneurological diseases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180629 |