CN108549638A - 一种中医古代文献半监督学习方法和系统 - Google Patents

一种中医古代文献半监督学习方法和系统 Download PDF

Info

Publication number
CN108549638A
CN108549638A CN201810354856.7A CN201810354856A CN108549638A CN 108549638 A CN108549638 A CN 108549638A CN 201810354856 A CN201810354856 A CN 201810354856A CN 108549638 A CN108549638 A CN 108549638A
Authority
CN
China
Prior art keywords
chinese medicine
tcm
sub
related terms
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810354856.7A
Other languages
English (en)
Inventor
刘佳琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xin Cheng Wisdom (haikou) Health Technology Co Ltd
Original Assignee
Xin Cheng Wisdom (haikou) Health Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xin Cheng Wisdom (haikou) Health Technology Co Ltd filed Critical Xin Cheng Wisdom (haikou) Health Technology Co Ltd
Priority to CN201810354856.7A priority Critical patent/CN108549638A/zh
Publication of CN108549638A publication Critical patent/CN108549638A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/90ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to alternative medicines, e.g. homeopathy or oriental medicines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Alternative & Traditional Medicine (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Medicines Containing Plant Substances (AREA)

Abstract

本发明公开了一种中医古代文献半监督学习方法和系统,所述方法包括:构建中医术语库,所述中医术语库中收录有中医语料;对医学文本中归属于中医术语库的语料进行识别并在中医文本中标记;接收中医术语库中未收录的中医语料的输入并收录于深度学习库和中医术语库中。本发明结合计算机批量处理的速度优势以及人工干预的准确性,使中医病案深度学习的速度和质量都得到保障。

Description

一种中医古代文献半监督学习方法和系统
技术领域
本发明涉及中医技术领域,具体涉及一种中医古代文献半监督学习方法和系统。
背景技术
中医文献学是研究中医文献的学术源流,讨论整理和利用中医文献的方法及理论的一门学问。
公开号为CN104933026A的中国专利文献公开了一种中医针灸领域知识自动抽取的实现方法,包括步骤一)种子集构建、步骤二)语料库构建、步骤三)术语构建集的生成、步骤四)候选术语集的生成和步骤五)术语集的生成。该专利针对中医针灸领域文献的特点,研究并开发中医针灸领域术语抽取系统,从海量的中医针灸领域文献中快速有效地提取领域术语,形成结构化的数据并存入一个数据库,供用户查询和使用,填补了中医针灸领域知识自动抽取技术的空白。
公开号为CN106933985A的中国专利文献公开了一种核心方的分析发现方法,涉及中医专科专病、医家以及文献核心方大数据关联性研究技术领域,解决了现有技术基于关联规则的分析方法对于药物之间“关联”的定义较为模糊以及基于聚类的核心方关联研究方法在特征值提取和相似度度量方法上存在较大差异的问题。该核心方的分析发现方法在基于知识图谱的基础上利用深度学习技术赋予每个知识单元个体坐标映射,充分利用距离信息,体现他们之间的关联,可综合关联规则、样品聚类和复杂网络社团发现的优势,并达到上述传统方法不具备的优势,即多尺度知识图谱呈现和知识推理。用户可以自由设定社群数量,在常用药对语义检索、可视化中药社团发现,单味药、基础方关联性研究上有显著的优越性。
中医古代文献有着自己独特的语言结构和分词语料,目前现有的技术为计算机的无监督归纳以及人工识别标引法,单纯的无监督归纳通过设定字符长度以及标点符号断句等方法虽然效率高,但是识别质量差,难以准确的提取病案隐性内容。比如“日月”在中医文献中有时指太阳和月亮,有时指穴位,纯计算机的文字识别难以划分其定义,在医案提取时就会出现字段分类的识别错误。单纯的人为识别标引法如果想得到提取结果则需要消耗大量的时间和人员,并且人员水平的参差不齐会造成文献提取质量的巨大差异。
发明内容
本发明的目的在于提供一种中医古代文献半监督学习方法和系统,用以解决中医古代医案深度学习时无监督学习的不确定性与纯人工监督的繁琐性。
为实现上述目的,本发明提供一种中医古代文献半监督学习方法,所述方法包括:
构建中医术语库,所述中医术语库中收录有中医语料;
对医学文本中归属于中医术语库的语料进行识别并在中医文本中标记;
接收中医术语库中未收录的中医语料的输入并收录于深度学习库和中医术语库中。
可选的,所述中医术语库和深度学习库均包括如下子术语库:
病名类子术语库,用于收录关于病名的术语;
症状类子术语库,用于收录关于症状的术语;
证型类子术语库,用于收录关于证型的术语;
中药类子术语库,用于收录关于中药的术语;
方剂类子术语库,用于收录关于方剂的术语;
穴位类子术语库,用于收纳关于穴位的术语。
可选的,所述在中医文本中标记的步骤包括:
赋予中医术语库中每个子术语库一种颜色;
将属于对应子术语库的语料在中医文本中采用对应的颜色进行标记。
可选的,在所述构建中医术语库的步骤之后,在所述对医学文本中归属于中医术语库的语料进行识别并在中医文本中标记的步骤之前,所述方法还包括:接收人工监督之后所输入的医学文本。
本发明还提供一种中医古代文献半监督学习系统,所述系统包括:
中医术语库,用于收录中医语料;
标记模块,用于对医学文本中归属于中医术语库的语料进行识别并在中医文本中标记;
收录模块和深度学习库,用于接收中医术语库中未收录的中医语料的输入并收录于深度学习库和中医术语库中。
可选的,所述中医术语库和深度学习库均包括如下子术语库:
病名类子术语库,用于收录关于病名的术语;
症状类子术语库,用于收录关于症状的术语;
证型类子术语库,用于收录关于证型的术语;
中药类子术语库,用于收录关于中药的术语;
方剂类子术语库,用于收录关于方剂的术语;
穴位类子术语库,用于收纳关于穴位的术语。
可选的,所述标记模块包括:
颜色赋予子模块,用于赋予中医术语库中每个子术语库一种颜色;
标记子模块,用于将属于对应子术语库语料在中医文本中采用对应的颜色进行标记。
可选的,所述系统还包括输入模块:用于接收人工监督之后所输入的医学文本。
本发明具有如下优点:
本发明结合计算机批量处理的速度优势以及人工干预的准确性,使中医病案深度学习的速度和质量都得到保障。
附图说明
图1是本发明方法一种具体实施方式的流程示意图。
图2是本发明系统一种具体实施方式的结构示意图。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。
图1是本发明方法一种具体实施方式的流程示意图。如图1所示,所述方法包括如下步骤。
构建中医术语库,所述中医术语库中收录有中医语料;所述中医术语库可以包括如下子术语库:病名类子术语库,用于收录关于病名的术语;症状类子术语库,用于收录关于症状的术语;证型类子术语库,用于收录关于证型的术语;中药类子术语库,用于收录关于中药的术语;方剂类子术语库,用于收录关于方剂的术语;穴位类子术语库,用于收纳关于穴位的术语。本领域技术人员根据需要也可设置其它子术语库,本发明不再赘述。该步骤可以接收人工监督之后所输入的医学文本,该医学文本可以采用现有的格式例如Word、Excel、Txt等格式自动导入,也可以通过手动输入。
对医学文本中归属于中医术语库的语料进行识别并在中医文本中标记;所述在中医文本中标记的步骤可以包括:赋予中医术语库中每个子术语库一种颜色;将属于对应子术语库的语料在中医文本中采用对应的颜色进行标记。例如,将病名类子术语库赋予蓝色,而当出现肾虚、气虚等病名时,该语料显示为蓝色。
接收中医术语库中未收录的中医语料的输入并收录于深度学习库和中医术语库中。例如一篇文章,研究者提取的内容为“治双乳蛾用皂荚二片,镬锈一钱,为末,冷水调,加清油数点灌下”。那么在数据经过无监督中医术语库时,病名库的“双乳蛾”和中药库的“皂荚”将会被自动被识别入库,并标记有颜色。“镬锈”通过人为观察前后文得出此条目疑似“中药类”的内容,经过查询确定,则添加“镬锈”于中药库中。自此病名“双乳蛾”,中药“镬锈”“皂荚”进入深度学习库。所述深度学习库可以包括如下子术语库:病名类子术语库,用于收录关于病名的术语;症状类子术语库,用于收录关于症状的术语;证型类子术语库,用于收录关于证型的术语;中药类子术语库,用于收录关于中药的术语;方剂类子术语库,用于收录关于方剂的术语;穴位类子术语库,用于收纳关于穴位的术语。本领域技术人员根据需要也可设置其它子术语库,本发明不再赘述。
本发明方法结合了现有监督和无监督两种方法的优势,通过现有的材料先建立基础词库和近义词词库并分类,词库的语料将在文献中按照类目分颜色被识别,研究人员选取完整的医案文本,系统就会进行数据库已有语料的智能提取以及分类,再由研究人员进行校验和人工补录完成深度学习条目,如果遇到新的术语可以再进行术语库的添加以便后续识别,有效提高了中医文献深度学习的准确性和效率。
图2是本发明系统一种具体实施方式的结构示意图,如图2所示,所述系统可以包括:
中医术语库,用于收录中医语料;
标记模块,用于对医学文本中归属于中医术语库的语料进行识别并在中医文本中标记;
收录模块和深度学习库,用于接收中医术语库中未收录的中医语料的输入并收录于深度学习库和中医术语库中。
由于本发明的方法与系统一一对应,本发明不再赘述。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (8)

1.一种中医古代文献半监督学习方法,其特征在于,所述方法包括:
构建中医术语库,所述中医术语库中收录有中医语料;
对医学文本中归属于中医术语库的语料进行识别并在中医文本中标记;
接收中医术语库中未收录的中医语料的输入并收录于深度学习库和中医术语库中。
2.根据权利要求1所述的学习方法,其特征在于,所述中医术语库和深度学习库均包括如下子术语库:
病名类子术语库,用于收录关于病名的术语;
症状类子术语库,用于收录关于症状的术语;
证型类子术语库,用于收录关于证型的术语;
中药类子术语库,用于收录关于中药的术语;
方剂类子术语库,用于收录关于方剂的术语;
穴位类子术语库,用于收纳关于穴位的术语。
3.根据权利要求2所述的学习方法,其特征在于,所述在中医文本中标记的步骤包括:
赋予中医术语库中每个子术语库一种颜色;
将属于对应子术语库的语料在中医文本中采用对应的颜色进行标记。
4.根据权利要求1所述的学习方法,其特征在于,在所述构建中医术语库的步骤之后,在所述对医学文本中归属于中医术语库的语料进行识别并在中医文本中标记的步骤之前,所述方法还包括:接收人工监督之后所输入的医学文本。
5.一种中医古代文献半监督学习系统,其特征在于,所述系统包括:
中医术语库,用于收录中医语料;
标记模块,用于对医学文本中归属于中医术语库的语料进行识别并在中医文本中标记;
收录模块和深度学习库,用于接收中医术语库中未收录的中医语料的输入并收录于深度学习库和中医术语库中。
6.根据权利要求5所述的学习系统,其特征在于,所述中医术语库和深度学习库均包括如下子术语库:
病名类子术语库,用于收录关于病名的术语;
症状类子术语库,用于收录关于症状的术语;
证型类子术语库,用于收录关于证型的术语;
中药类子术语库,用于收录关于中药的术语;
方剂类子术语库,用于收录关于方剂的术语;
穴位类子术语库,用于收纳关于穴位的术语。
7.根据权利要求6所述的学习系统,其特征在于,所述标记模块包括:
颜色赋予子模块,用于赋予中医术语库中每个子术语库一种颜色;
标记子模块,用于将属于对应子术语库语料在中医文本中采用对应的颜色进行标记。
8.根据权利要求5所述的学习系统,其特征在于,所述系统还包括输入模块:用于接收人工监督之后所输入的医学文本。
CN201810354856.7A 2018-04-19 2018-04-19 一种中医古代文献半监督学习方法和系统 Pending CN108549638A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810354856.7A CN108549638A (zh) 2018-04-19 2018-04-19 一种中医古代文献半监督学习方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810354856.7A CN108549638A (zh) 2018-04-19 2018-04-19 一种中医古代文献半监督学习方法和系统

Publications (1)

Publication Number Publication Date
CN108549638A true CN108549638A (zh) 2018-09-18

Family

ID=63515636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810354856.7A Pending CN108549638A (zh) 2018-04-19 2018-04-19 一种中医古代文献半监督学习方法和系统

Country Status (1)

Country Link
CN (1) CN108549638A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111540475A (zh) * 2020-04-26 2020-08-14 电子科技大学 一种基于半监督学习技术的中医治法规律挖掘方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149751A (zh) * 2007-10-29 2008-03-26 浙江大学 用于分析中医方剂药物组配规律的泛化关联规则挖掘方法
CN103530840A (zh) * 2013-10-10 2014-01-22 中国中医科学院 一种准确快速的电子病历录入系统
CN104408545A (zh) * 2014-10-30 2015-03-11 江苏迅捷装具科技有限公司 药品计量系统及方法
CN106682220A (zh) * 2017-01-04 2017-05-17 华南理工大学 一种基于深度学习的在线中医文本命名实体识别方法
CN107357780A (zh) * 2017-06-28 2017-11-17 浙江大学 一种针对中医药症状句子的中文分词方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149751A (zh) * 2007-10-29 2008-03-26 浙江大学 用于分析中医方剂药物组配规律的泛化关联规则挖掘方法
CN103530840A (zh) * 2013-10-10 2014-01-22 中国中医科学院 一种准确快速的电子病历录入系统
CN104408545A (zh) * 2014-10-30 2015-03-11 江苏迅捷装具科技有限公司 药品计量系统及方法
CN106682220A (zh) * 2017-01-04 2017-05-17 华南理工大学 一种基于深度学习的在线中医文本命名实体识别方法
CN107357780A (zh) * 2017-06-28 2017-11-17 浙江大学 一种针对中医药症状句子的中文分词方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘耀等: "中医药古文献语料库设计与开发研究", 《中文信息学报》 *
周扬: "中医药文献语料库的设计与应用", 《中华中医药学会第九届中医医史文献学术研讨会论文集萃》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111540475A (zh) * 2020-04-26 2020-08-14 电子科技大学 一种基于半监督学习技术的中医治法规律挖掘方法
CN111540475B (zh) * 2020-04-26 2022-10-21 电子科技大学 一种基于半监督学习技术的中医治法规律挖掘方法

Similar Documents

Publication Publication Date Title
Rudkowsky et al. More than bags of words: Sentiment analysis with word embeddings
CN108182262A (zh) 基于深度学习和知识图谱的智能问答系统构建方法和系统
US20160350288A1 (en) Multilingual embeddings for natural language processing
Turney et al. Literal and metaphorical sense identification through concrete and abstract context
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
Onwuegbuzie et al. Sampling designs in qualitative research: making the sampling process more public.
CN111753098A (zh) 一种基于跨媒体动态知识图谱的教学方法及系统
CN106776711A (zh) 一种基于深度学习的中文医学知识图谱构建方法
Kim et al. Textbook question answering with multi-modal context graph understanding and self-supervised open-set comprehension
Arnulf et al. Measuring semantic components in training and motivation: a methodological introduction to the semantic theory of survey response
CN115329200A (zh) 一种基于知识图谱和用户相似度的教学资源推荐方法
Van Atteveldt et al. Studying political decision making with automatic text analysis
Xu et al. CET-4 score analysis based on data mining technology
Xu et al. Implicitly incorporating morphological information into word embedding
Jian et al. An end-to-end algorithm for solving circuit problems
Nityasya et al. Hypernym-hyponym relation extraction from indonesian wikipedia text
Mellace et al. Temporal embeddings and transformer models for narrative text understanding
Ma et al. Matching descriptions to spatial entities using a Siamese hierarchical attention network
Huang et al. Software expert discovery via knowledge domain embeddings in a collaborative network
CN108549638A (zh) 一种中医古代文献半监督学习方法和系统
Bacon et al. Web-enhanced design of university curricula
Abdelhamid et al. Architecture for personality detection using enneagram knowledge: case study
Scaccia Examining the concept of equity in community psychology with natural language processing
CN114297404A (zh) 一种领域评审专家行为轨迹的知识图谱构建方法
Varnaseri et al. A Knowledge Map of Knowledge Engineering Scientific Products from 2011 to 2021 on Web of Science: Scientometrics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180918