CN106295187A - 面向智能临床辅助决策支持系统的知识库构建方法与系统 - Google Patents

面向智能临床辅助决策支持系统的知识库构建方法与系统 Download PDF

Info

Publication number
CN106295187A
CN106295187A CN201610658768.7A CN201610658768A CN106295187A CN 106295187 A CN106295187 A CN 106295187A CN 201610658768 A CN201610658768 A CN 201610658768A CN 106295187 A CN106295187 A CN 106295187A
Authority
CN
China
Prior art keywords
entity
tlv triple
label
knowledge base
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610658768.7A
Other languages
English (en)
Inventor
张书涵
刘鹏鹤
孙晓平
孙毓忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201610658768.7A priority Critical patent/CN106295187A/zh
Publication of CN106295187A publication Critical patent/CN106295187A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种面向智能临床辅助决策支持系统的知识库构建方法与系统,涉及知识库的构建领域,该方法包括获取输入信息,对所述输入信息进行分词处理、词性标注以及语法分析,获取关系依赖树,提取所述关系依赖树中的概念、实体、实体修饰语;并根据所述概念、所述实体、所述实体修饰语,通过关系语义规则,获取所述关系依赖树中各所述实体之间的关系;设置扩展三元组,通过所述扩展三元组将所述关系依赖树中各所述实体之间的关系进行储存,以完成构建知识库。本发明可用于临床实例多且特征多的情况,对于病例表述信息可实现灵活拓展。

Description

面向智能临床辅助决策支持系统的知识库构建方法与系统
技术领域
本发明涉及知识库的构建领域,特别涉及一种面向智能临床辅助决策支持系统的知识库构建方法与系统。
背景技术
智能临床辅助决策支持系统CDSS(Clinical Decision Support System)借助信息技术、智能技术,通过分析电子病例,基于数据库和知识库,为医生临床诊断决策提供信息服务,提升医疗质量,减少医疗差错,控制医疗费用支出。临床医生借助CDSS深入分析病历资料,能够获取更为全面细致的信息和知识,做出恰当诊疗决策,CDSS的一个关键基础是基于临床病例和临床路径知识建立的知识库,将医生的临床经验与临床指南作为主要决策依据,提升了临床决策过程的科学性("From spoken narratives to domain knowledge:Mining linguistic data for medical image understanding",ArtificialIntelligence in Medicine,vol.62,pp.79-90,/2014)。
知识库构建的核心是知识的表达方法,构建知识库所用的知识表示方法大多采用语义网中的本体技术:
发明专利“一种模糊本体描述方法和模糊本体建模方法”,该发明公开了一种模糊本体描述方法和模糊本体建模方法,模糊本体描述方法是在原有的网络本体语言(OWL)描述本体上,不改变原有对精确本体表达的同时能够添加本体的模糊信息,使信息有可精确表达的部分和需要模糊表达的部分。但是该发明对于人类社会中普遍存在的不确定性和模糊性信息无法直接定义和描述,通常需要借助描述逻辑等本体构建技术,对于描述病例中的“咳嗽渐渐加重”、“发热有段时间了”等经常出现的信息无法灵活扩展。
文献(A fuzzy-ontology-oriented case-based reasoning framework forsemantic diabetes diagnosis)介绍了一种基于CBR框架的模糊本体框架,来模拟专家思维以及一种新型的OWL2模糊本体语言,从而支持模糊语义检索。
发明专利“案例知识库表示及案例相似度获取方法及系统”公开了一种案例知识库表示方法,其中介绍了一种N元关系模型,通过引入新类和相关属性来实现,该方法的缺点是不适用于实例多且特征多的情况,对医学领域的知识表示,尤其对病例知识的表示,经常需要使用多元关系,且实例多、实例包含的特征多、特征又包含了模糊知识,很难通过引入新类和相关属性的方法解决医学领域知识表示的问题。
本体技术不能描述有时间顺序的多元关系,例如,若描述“发烧39度,持续了3天,吃过退烧药好了,几天后发烧40度,不能通过本体技术描述病情在时间上的演变顺序等。
发明专利“一种基于语义网无监督的自动问答方法”使用语义网的知识表示方法构建的知识库,网络中每个节点代表实体(人名、地名、机构名、概念等),而每条边则代表实体之间的关系,因此大部分知识采用三元组(实体1,关系,实体2)来表示,对应语义网中的一条边及其连接的两个实体,这种方式虽然很严谨、很详细,但其知识组织太过冗余、复杂,当利用知识库计算实体间的语义或推理关系时,计算效率过低。
发明专利“一种人体医学知识构建方法”公开了一种人体医学知识构建方法。该方法根据人体的不同部位建立了多个医学知识库,但是对于涉及多人体器官的临床知识,无法界定存储在哪个医学知识库。
发明专利“基于开放式管理的医学知识本体建模方法”公开了一种基于开放式管理的医学本体建模方法,通过构建医学知识本体结构将医学概念用层级结构表示,但是该方法仍然基于RDF/OWL来构建,构建本体费时耗力,更新维护难。
综上所述,医学知识中模糊知识的表示及提取、多元关系的表示及提取、时序关系的表示及提取、知识库存储结构的灵活性与计算效率的提高是本发明要解决的问题。
发明内容
针对现有技术的不足,本发明提出一种面向智能临床辅助决策支持系统的知识库构建方法与系统。
本发明提出一种面向智能临床辅助决策支持系统的知识库构建方法,包括:
步骤1,获取输入信息,对所述输入信息进行分词处理、词性标注以及语法分析,获取关系依赖树,提取所述关系依赖树中的概念、实体、实体修饰语;
步骤2,并根据所述概念、所述实体、所述实体修饰语,通过关系语义规则,获取所述关系依赖树中各所述实体之间的关系;
步骤3,设置扩展三元组,通过所述扩展三元组将所述关系依赖树中各所述实体之间的关系进行储存,以完成构建知识库。
扩展三元组定义:将如[<L1>……<Ln>:A,<M1>…<Mt>:B,<N1>……<Ns>:C]的表示称为扩展三元组,其中,L1……Ln,M1…Mt,N1……Ns称为实体修饰标号,实体修饰标号使用<>标识,A,C为结点,B为所述关系依赖树中各所述实体之间的关系,Li为对结点A的实体修饰标号,Mj为对结点B的实体修饰标号,Nk为对结点C的实体修饰标号。
如果对一个扩展三元组中的任何一个结点没有实体修饰标号,则称没有实体修饰标号的扩展三元组为无嵌套扩展三元组;如果对一个扩展三元组中的任意一个结点存在实体修饰标号,则称存在实体修饰标号的扩展三元组为嵌套扩展三元组。
实体修饰标号用三元组的形式表示,三元组的主语为空或不为空。
初始的所述关系依赖树主语和谓语部分为空,关系依赖树采用正则表达式定义。
本发明还提出一种面向智能临床辅助决策支持系统的知识库构建系统,
获取关系依赖树模块,用于获取输入信息,对所述输入信息进行分词处理、词性标注以及语法分析,获取关系依赖树,提取所述关系依赖树中的概念、实体、实体修饰语;
获取实体间关系模块,用于并根据所述概念、所述实体、所述实体修饰语,通过关系语义规则,获取所述关系依赖树中各所述实体之间的关系;
构建知识库模块,用于设置扩展三元组,通过所述扩展三元组将所述关系依赖树中各所述实体之间的关系进行储存,以完成构建知识库。
扩展三元组定义:将如[<L1>……<Ln>:A,<M1>…<Mt>:B,<N1>……<Ns>:C]的表示称为扩展三元组,其中,L1……Ln,M1…Mt,N1……Ns称为实体修饰标号,实体修饰标号使用<>标识,A,C为结点,B为所述关系依赖树中各所述实体之间的关系,Li为对结点A的实体修饰标号,Mj为对结点B的实体修饰标号,Nk为对结点C的实体修饰标号。
如果对一个扩展三元组中的任何一个结点没有实体修饰标号,则称没有实体修饰标号的扩展三元组为无嵌套扩展三元组;如果对一个扩展三元组中的任意一个结点存在实体修饰标号,则称存在实体修饰标号的扩展三元组为嵌套扩展三元组。
实体修饰标号用三元组的形式表示,三元组的主语为空或不为空。
初始的所述关系依赖树主语和谓语部分为空,关系依赖树采用正则表达式定义。
由以上方案可知,本发明的优势在于:
(1)知识库中的知识能够用于快速查询、检索、匹配、推荐等问题,计
算效率大大提高;
(2)可用于临床实例多且特征多的情况,对于病例表述信息可实现灵活
拓展;
(3)可通过概念实体识别环节描述病情在时间上的演变顺序;
(4)知识库更新维护简单。
附图说明
图1为本发明方法框架图;
图2为概念实体识别流程图;
图3为病例知识库模型图。
具体实施方式
本发明提供了面向智能临床辅助决策支持系统的知识库构建方法与系统,通过定义一系列关系语义规则来表示、获取医学诊疗过程中的多元关系,以及定义一种扩展三元组的新型数据结构来存储模糊知识、多元关系,时序关系,该数据结构能够使知识库存储形式具有扩展性,知识库中的知识能够用于快速查询、检索、匹配、推荐等问题。
面向医学诊疗知识库的构建方法步骤,如图1所示:
步骤A:文法分析,接收知识库系统的输入,知识库系统输入包含无结构的电子形式的病例、参考文献、专家经验,并统称为输入知识;利用现有的自然语言技术进行分词处理、词性标注以及语法分析,得到关系依赖树;
步骤A1:本发明的输入知识包含电子形式的病例、参考文献、专家经验,都是基于无结构/半结构化的数据,使用HMM分析方法进行分词处理、词性标注、语法分析;
步骤A2:根据步骤A1得到的语法分析结果,构造关系依赖树,初始的关系依赖树主语和谓语部分为空,关系依赖树采用正则表达式定义,关系依赖树的形式以病例为例:
{<人>|<疾病>[病症行为]*}+<病症词>[病症描述]+
步骤B:概念实体识别,根据文法分析得到的关系依赖树提取实体的概念、实体和实体修饰语,实体修饰语即医学诊疗过程中的模糊知识;
步骤B1:人、疾病、病症行为、病症词、病症描述根据医学诊疗词典进行实体识别,提取关键词,所述关键词包括患者信息、医学概念(包括疾病、症状、检查、治疗)、实体修饰语(模糊知识)、药物(包括剂量、服用频次、摄入方式、服用时间)、实体之间的时间信息。
医学诊疗词典的形式如下:
病症词:{病症词库}
病症行为:{得,出现,持续,可能,连续,偶尔,得过,过去得过,偶见,偶有}
病症描述:{高,重,好了,未见,偶见}
人:{我,你,他,病人,患者}
疾病:{感冒,肺炎,支气管炎}
步骤B2:实体修饰语识别,医学诊疗问题中出现的实体修饰语包含六种类型:当前的、不存在的、非患者本人的、有条件的、可能的、待证实的,本发明使用机器学习的方法提取实体的模糊信息。
步骤C:实体之间的关系抽取,主要由定义关系语义规则和基于规则获取实体间的关系两部分组成,定义了一系列关系语义规则,用于表示、获取实体之间的关系即医学诊疗过程中的多元关系。
步骤C1:定义关系语义规则:
分类:表示个体的值与类型的关系,用“种类”表示;
包含:表示高层概念的分解,即类型与值的关系,用“包含”表示;
泛化:表示事物的属概念与种概念之间的关系,用“是”表示;
属于:表示个体概念与整体概念之间的关系,用“属于”表示;
蕴含:表示前者事件导致了后者事件的发生,用“引起”表示;
表示前者事件发生的条件是后者事件的发生,用“条件”表示;
解释:表示事务概念与概念描述之间的关系,用“描述”表示;
表示事务概念与结果之间的因果关系,用“病因”表示;
表示事务概念与属性之间的从属关系,用“具有”表示;
定义:表示一个事务的概念与相同概念之间的关系,用“名称”表示;
逻辑:表示概念之间的与、或、非等逻辑关系,用“与”、“或”、“非”表示;
时间:表示事件与事件之间发生的先后关系,用“时间”表示;
除此之外,还定义了一系列医学领域特有的语义规则:
治愈:表示治疗方案治愈了疾病,用“治愈”表示;
改善:表示治疗方案改善了疾病的状况,用“改善”表示;
恶化:表示治疗方案没有治愈/改善疾病的状况,用“恶化”表示;
证实:表示检查证实了某个疾病,用“证实”表示;
不存在:表示疾病和疾病间不存在上述关系,用“不存在”表示;
实体之间的关系包含层级关系、因果关系、时序关系等,本发明基于上述规则获取实体之间的关系,通过识别表达语义关系的短语来抽取实体之间的关系,例如(传染性单核细胞增多症,又称为,传单)、(传单,症状,发热)(发热,持续时间,3天)。
步骤C2:基于步骤C1定义的关系语义规则抽取14种类型的关系。本发明采用SVM(Min J,Chen Y,Mei L,et al.A study of machine-learning-based approaches toextract clinical entities and their assertions from discharge summaries[J].Journal of the American Medical Informatics Association,2011,18(5):93-94.)的方法将关系的抽取转化为特征分类问题,进行抽取。
步骤D:构建知识库,定义了一种扩展三元组的新型数据结构,可以存储步骤B、步骤C所提的概念、实体以及实体间的关系。
步骤D1:所述扩展三元组的数据结构指在传统的知识表示结构三元组的基础上通过引入标号关系式以增强语义知识表示结构。
扩展三元组定义:
将形如的表示称为扩展三元组。其中,L1……Ln,M1…Mt,N1……NS称为实体修饰标号,实体修饰标号使用<>标识,A,C为结点,B为关系,当n≠0,t≠0,时,Li为对结点A的实体修饰标号,Mj为对结点B的实体修饰标号,Nk为对结点C的实体修饰标号。这里n代表结点A的实体修饰总个数,t代表关系B的总个数,s代表结点A的实体修饰总个数,其中i≤n,j≤t,k≤s。实体修饰标号可以用三元组的形式表示,三元组的主语可以为空。
如果对一个扩展三元组中的任何一个结点没有实体修饰标号,则称这样的扩展三元组为无嵌套扩展三元组;如果对一个扩展三元组中的任意一个结点存在实体修饰标号,则称这样的扩展三元组为嵌套扩展三元组。
步骤D2:标号关系式也是三元组形式,其可以表示医学专家知识或病例知识中存在的多元关系,例如分类关系、包含关系、泛化关系等。
本发明还提出一种面向智能临床辅助决策支持系统的知识库构建系统,
获取关系依赖树模块,用于获取输入信息,对所述输入信息进行分词处理、词性标注以及语法分析,获取关系依赖树,提取所述关系依赖树中的概念、实体、实体修饰语;
获取实体间关系模块,用于并根据所述概念、所述实体、所述实体修饰语,通过关系语义规则,获取所述关系依赖树中各所述实体之间的关系;
构建知识库模块,用于设置扩展三元组,通过所述扩展三元组将所述所述关系依赖树中各所述实体之间的关系进行储存,以完成构建知识库。
扩展三元组定义:将如[<L1>……<Ln>:A,<M1>…<Mt>:B,<N1>……<Ns>:C]的表示称为扩展三元组,其中,L1……Ln,M1…Mt,N1……Ns称为实体修饰标号,实体修饰标号使用<>标识,A,C为结点,B为所述关系依赖树中各所述实体之间的关系,Li为对结点A的实体修饰标号,Mj为对结点B的实体修饰标号,Nk为对结点C的实体修饰标号。
如果对一个扩展三元组中的任何一个结点没有实体修饰标号,则称没有实体修饰标号的扩展三元组为无嵌套扩展三元组;如果对一个扩展三元组中的任意一个结点存在实体修饰标号,则称存在实体修饰标号的扩展三元组为嵌套扩展三元组。
实体修饰标号用三元组的形式表示,三元组的主语为空或不为空。
初始的所述关系依赖树主语和谓语部分为空,关系依赖树采用正则表达式定义。
下面结合图1,进一步描述面向医学诊疗的知识库系统的构建流程。
步骤1:现有的病例都是基于无结构/半结构化的数据,其中,病例的主要字段包初步诊断、主诉、现病史、体格检查、科别、日期、患者编号等,将无结构的医学病例、医学参考文献、专家经验作为知识库构建系统的输入,记作,为单字;依据医学领域词库,使用中文分词工具(HMM分析方法)进行分词以及词性标注,分词以及词性标注的结果为,/*代表了分词结果的词性,例如/n,/v等;在此过程中,当遇到未出现的词汇时,加入到医学领域词库。
步骤2:通过语法分析获取关系依赖树,关系依赖树采用正则表达式定义,以病例为例形式如下:
{<人>|<疾病>[病症行为]*}+<病症词>[病症描述]+
其中<>表示匹配词,病例或参考文献中出现的疾病名称或病症词,|表示将两个匹配条件进行逻辑或运算,*表示之前出现表达式任意次,{}表示匹配的固定对象,病例或参考文献一定要匹配的对象,[]表示字符集合,可有可无,+表示匹配前面的子表达式一次或多次。
步骤3:概念实体识别,人、疾病、病症行为、病症词、病症描述采用基于词典和规则的方法识别文本中的实体,所述关键词包括患者信息、医学概念(包括疾病、症状、检查、治疗)、实体修饰语(模糊知识)、药物(包括剂量、服用频次、摄入方式、服用时间)、实体间时间信息。医学诊疗词典的形式如下:
病症词:{病症词库}
病症行为:{得,出现,持续,可能,连续,偶尔,得过,过去得过,偶见,偶有}
病症描述:{高,重,好了,未见,偶见}
人:{我,你,他,病人,患者}
疾病:{感冒,肺炎,支气管炎等}
实体间时间信息是病例、医疗参考文献以及专家经验中的重要信息,可以抽取事件发生的时间建立事件的时序逻辑关系,采用正则表达式提取时间信息,概念实体识别流程见图2所示。
步骤如下:
步骤3.1:先定义现实文献中与时间相关的短语其中包含时间、年龄、日期等:
d_time_unit=[u'天',u'月',u'小时',u'周',u'星期',u'礼拜',u'分',u'分钟',u'点']
d_nianling_unit=[u'岁',u'个月大',u'周岁',u'周',u'个月',u'个星期']
d_post_guiji=[u'左右',u'前后',u'分钟',u'下',u'个',u'岁']
d_date=[u'd号',u'星期d',u'周d',u'd月(d(号|日))?',u'月初',u'月中',u'月末']
d_time=[u'd点(半|d(点|刻)?)?']
d_duration=[u'd(个|来|来个)?(小时|分钟|天|日|周|月|星期|年|季度)']
d_age=[u'd(岁半?|个月大|周岁|周大|天大|月龄)']
d_agetime=[u'd(岁半?|个月大|周岁|周大|天大|个半月|个月|个星期|月龄|月|号)']
步骤3.2:然后定义第一级的匹配模式串:
p_num=u'(一|二|三|四|五|六|七|八|九|十|百|千|万|半|\\d)+'
p_time_unit=u'(天|月|小时|周|星期|礼拜|分|分钟|点)+'
p_nianling_unit=u'(岁|个月大|周岁|周|个月|个星期)+'
p_pre_guji=u'(几|若干|数)+'
p_pre_xiangdui=u'(前|后|差)+'
步骤3.3:利用一级正则匹配串以及时间相关短语生成以下几种匹配带有时序的信息如日期相关、年龄相关的内容:
病历中带有时间间隔含义的正则匹配模式串如下:
u'(一|二|三|四|五|六|七|八|九|十|百|千|万|半|\\d)+(个|来|来个)?(小时|分钟|天|日|周|月|星期|年|季度)'
例如:
11点白天咳嗽轻点吃药已有十天不见好转。若干天后到医院拍片说是支气管炎,几天前医生让住院治疗,打点滴8天后夜里咳嗽好转,偶尔咳嗽,医生讲可以出院了并且不要吃药了,在家注意不要受凉,出院一星期目前还是不定期偶尔咳嗽,发现口臭。
匹配结果:能够识别出句子中的时间信息,十天、8天、一星期。
步骤3.4:病历中真实年龄的正则匹配模式串如下:
u'(宝宝|孩子|小孩|小儿|宝贝|小孩子|儿童|幼儿|幼子|婴儿|婴幼儿|女儿|小女|女宝宝|女童|女宝|女孩|男孩|男宝|男童|男宝宝|儿子)\\D{0,3}(一|二|三|四|五|六|七|八|九|十|百|千|万|半|\\d)+(岁半?|个月大|周岁|周大|天大|个半月|个月|个星期|月龄|月|号)'
u'(宝宝|孩子|小孩|小儿|宝贝|小孩子|儿童|幼儿|幼子|婴儿|婴幼儿|女儿|小女|女宝宝|女童|女宝|女孩|男孩|男宝|男童|男宝宝|儿子)\\D{0,3}(差|还有)?(一|二|三|四|五|六|七|八|九|十|百|千|万|半|\\d)+(个|来|来个)?(小时|分钟|天|日|周|月|星期|年|季度)就?(一|二|三|四|五|六|七|八|九|十|百|千|万|半|\\d)+(岁半?|个月大|周岁|周大|天大|个半月|个月|个星期|月龄|月|号)'
u'(宝宝|孩子|小孩|小儿|宝贝|小孩子|儿童|幼儿|幼子|婴儿|婴幼儿|女儿|小女|女宝宝|女童|女宝|女孩|男孩|男宝|男童|男宝宝|儿子)\\D{0,3}(一|二|三|四|五|六|七|八|九|十|百|千|万|半|\\d)+(岁半?|个月大|周岁|周大|天大|月龄)零?(一|二|三|四|五|六|七|八|九|十|百|千|万|半|\\d)+(岁半?|个月大|周岁|周大|天大|个半月|个月|个星期|月龄|月|号)'
u'(一|二|三|四|五|六|七|八|九|十|百|千|万|半|\\d)+(岁半?|个月大|周岁|周大|天大|个半月|个月|个星期|月龄|月|号)\\D{0,3}(宝宝|孩子|小孩|小儿|宝贝|小孩子|儿童|幼儿|幼子|婴儿|婴幼儿|女儿|小女|女宝宝|女童|女宝|女孩|男孩|男宝|男童|男宝宝|儿子)'
u'(差|还有)?(一|二|三|四|五|六|七|八|九|十|百|千|万|半|\\d)+(个|来|来个)?(小时|分钟|天|日|周|月|星期|年|季度)就?(一|二|三|四|五|六|七|八|九|十|百|千|万|半|\\d)+(岁半?|个月大|周岁|周大|天大|个半月|个月|个星期|月龄|月|号)\\D{0,3}(宝宝|孩子|小孩|小儿|宝贝|小孩子|儿童|幼儿|幼子|婴儿|婴幼儿|女儿|小女|女宝宝|女童|女宝|女孩|男孩|男宝|男童|男宝宝|儿子)'
u'(一|二|三|四|五|六|七|八|九|十|百|千|万|半|\\d)+(岁半?|个月大|周岁|周大|天大|月龄)零?(一|二|三|四|五|六|七|八|九|十|百|千|万|半|\\d)+(岁半?|个月大|周岁|周大|天大|个半月|个月|个星期|月龄|月|号)\\D{0,3}(宝宝|孩子|小孩|小儿|宝贝|小孩子|儿童|幼儿|幼子|婴儿|婴幼儿|女儿|小女|女宝宝|女童|女宝|女孩|男孩|男宝|男童|男宝宝|儿子)'
例如:我家宝宝差1个月3岁,我家宝宝4岁1个月,我家宝宝5岁零1月。
匹配结果:能够识别出句子中的年龄信息,宝宝差1个月3岁、宝宝5岁零1月。
步骤4:实体修饰语识别,本发明采用的实体修饰语识别的方法使用符合步骤2的正则表达式的匹配的方法,采用基于机器学习的SVM,其中提取了若干特征如:句法特征、医疗名词所在的章节标题、上下文特征等,其中上下文特征由分词结果中实体前后5个词,该方法充分考虑语法特征、医疗文献章节标题以及上下文特征等结构化信息,能有效的识别出实体修饰的类型。
步骤5:实体之间的关系抽取。
步骤5.1:关系语义规则示例如下:
分类:[传染性单核细胞增多症,种类,急性感染性疾病]
包含:[呼吸系统症状,包含,发热]
泛化:[阿奇霉素,是,药]
属于:[EBV,属于,疱疹病毒属]
蕴含:[换气功能障碍,引起,低氧血症]
[神经系统疾病,条件,重症患者]
解释:[发热,描述,体温38到40不等,无固定热型,热程大概1至2周,少数可达数月,中毒症状多不严重]
[传单,病因,EB病毒]
[传单,具有,特征]
定义:[传染性单核细胞增多症,名称,传单]
逻辑:[异性淋巴细胞大于10%,或,绝对值大于1.0*10^9/L]
时间:[白细胞总数,具有,<M1>:变化]
<M1>[,时间,早期]
步骤5.2:关系的抽取实际上是一种分类问题,本发明采用机器学习的方法根据特征做分类,其中构造的分类模型以SVM为主,选取的特征有实体在句中的顺序以及距离、词汇特征、上下文文本之间的相似度。
步骤6:构建知识库,根据图3,定义了一种扩展三元组的新型数据结构,可以存储文法分析和概念实体识别所提的概念、实体以及实体间的关系。
步骤6.1:以病例初步诊断结果为中心,构建与其直接相连的边,即主语为该诊断类型而谓语与宾语不同的三元组,例如[u“肺炎”,u“症状”,u“咳嗽”];
步骤6.2:对于上一步产生的每一个三元组,以其宾语为新的三元组的主语构建三元组,如果可以扩展则构建,否则停止扩展,例如[u“肺炎”,u“症状”,u“咳嗽”]可添加[u“咳嗽”,u“诱因”,u“着凉”],而[u“肺炎”,u“性别”,u“男”]则无法扩展新的三元组边;
步骤6.3:返回步骤6.1,直至无可扩展的三元组为止。

Claims (10)

1.一种面向智能临床辅助决策支持系统的知识库构建方法,其特征在于,包括:
步骤1,获取输入信息,对所述输入信息进行分词处理、词性标注以及语法分析,获取关系依赖树,提取所述关系依赖树中的概念、实体、实体修饰语;
步骤2,并根据所述概念、所述实体、所述实体修饰语,通过关系语义规则,获取所述关系依赖树中各所述实体之间的关系;
步骤3,设置扩展三元组,通过所述扩展三元组将所述关系依赖树中各所述实体之间的关系进行储存,以完成构建知识库。
2.如权利要求1所述的面向智能临床辅助决策支持系统的知识库构建方法,其特征在于,扩展三元组定义:将如[<L1>……<Ln>:A,<M1>…<Mt>:B,<N1>……<Ns>:C]的表示称为扩展三元组,其中,L1……Ln,M1…Mt,N1……Ns称为实体修饰标号,实体修饰标号使用<>标识,A,C为结点,B为所述关系依赖树中各所述实体之间的关系,Li为对结点A的实体修饰标号,Mj为对结点B的实体修饰标号,Nk为对结点C的实体修饰标号。
3.如权利要求2所述的面向智能临床辅助决策支持系统的知识库构建方法,其特征在于,如果对一个扩展三元组中的任何一个结点没有实体修饰标号,则称没有实体修饰标号的扩展三元组为无嵌套扩展三元组;如果对一个扩展三元组中的任意一个结点存在实体修饰标号,则称存在实体修饰标号的扩展三元组为嵌套扩展三元组。
4.如权利要求2所述的面向智能临床辅助决策支持系统的知识库构建方法,其特征在于,实体修饰标号用三元组的形式表示,三元组的主语为空或不为空。
5.如权利要求1所述的面向智能临床辅助决策支持系统的知识库构建方法,其特征在于,初始的所述关系依赖树主语和谓语部分为空,关系依赖树采用正则表达式定义。
6.一种面向智能临床辅助决策支持系统的知识库构建系统,其特征在于,包括:
获取关系依赖树模块,用于获取输入信息,对所述输入信息进行分词处理、词性标注以及语法分析,获取关系依赖树,提取所述关系依赖树中的概念、实体、实体修饰语;
获取实体间关系模块,用于并根据所述概念、所述实体、所述实体修饰语,通过关系语义规则,获取所述关系依赖树中各所述实体之间的关系;
构建知识库模块,用于设置扩展三元组,通过所述扩展三元组将所述关系依赖树中各所述实体之间的关系进行储存,以完成构建知识库。
7.如权利要求6所述的面向智能临床辅助决策支持系统的知识库构建系统,其特征在于,扩展三元组定义:将如[<L1>……<Ln>:A,<M1>…<Mt>:B,<N1>……<Ns>:C]的表示称为扩展三元组,其中,L1……Ln,M1…Mt,N1……Ns称为实体修饰标号,实体修饰标号使用<>标识,A,C为结点,B为所述关系依赖树中各所述实体之间的关系,Li为对结点A的实体修饰标号,Mj为对结点B的实体修饰标号,Nk为对结点C的实体修饰标号。
8.如权利要求7所述的面向智能临床辅助决策支持系统的知识库构建系统,其特征在于,如果对一个扩展三元组中的任何一个结点没有实体修饰标号,则称没有实体修饰标号的扩展三元组为无嵌套扩展三元组;如果对一个扩展三元组中的任意一个结点存在实体修饰标号,则称存在实体修饰标号的扩展三元组为嵌套扩展三元组。
9.如权利要求7所述的面向智能临床辅助决策支持系统的知识库构建系统,其特征在于,实体修饰标号用三元组的形式表示,三元组的主语为空或不为空。
10.如权利要求6所述的面向智能临床辅助决策支持系统的知识库构建系统,其特征在于,初始的所述关系依赖树主语和谓语部分为空,关系依赖树采用正则表达式定义。
CN201610658768.7A 2016-08-11 2016-08-11 面向智能临床辅助决策支持系统的知识库构建方法与系统 Pending CN106295187A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610658768.7A CN106295187A (zh) 2016-08-11 2016-08-11 面向智能临床辅助决策支持系统的知识库构建方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610658768.7A CN106295187A (zh) 2016-08-11 2016-08-11 面向智能临床辅助决策支持系统的知识库构建方法与系统

Publications (1)

Publication Number Publication Date
CN106295187A true CN106295187A (zh) 2017-01-04

Family

ID=57668386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610658768.7A Pending CN106295187A (zh) 2016-08-11 2016-08-11 面向智能临床辅助决策支持系统的知识库构建方法与系统

Country Status (1)

Country Link
CN (1) CN106295187A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844723A (zh) * 2017-02-10 2017-06-13 厦门大学 基于问答系统的医学知识库构建方法
CN106909783A (zh) * 2017-02-24 2017-06-30 北京交通大学 一种基于时间线的病历文本医学知识发现方法
CN107562732A (zh) * 2017-10-26 2018-01-09 北京康夫子科技有限公司 电子病历的处理方法及系统
CN107798123A (zh) * 2017-11-10 2018-03-13 上海智臻智能网络科技股份有限公司 知识库及其建立、修改、智能问答方法、装置及设备
CN107887036A (zh) * 2017-11-09 2018-04-06 北京纽伦智能科技有限公司 临床决策辅助系统的构建方法、装置及临床决策辅助系统
CN108228572A (zh) * 2018-02-07 2018-06-29 苏州迪美格智能科技有限公司 基于强化学习的医学自然语言语义网络反馈式提取系统与方法
CN109299239A (zh) * 2018-09-29 2019-02-01 福建弘扬软件股份有限公司 一种基于es的电子病历检索方法
CN109685215A (zh) * 2018-12-17 2019-04-26 中科国力(镇江)智能技术有限公司 一种快捷的智能辅助决策支持系统及方法
CN109918436A (zh) * 2019-03-08 2019-06-21 上海一健事信息科技有限公司 一种医学知识管理和查询系统
CN110033859A (zh) * 2018-01-12 2019-07-19 西门子医疗有限公司 评估患者的医学检查结果的方法、系统、程序和存储介质
CN110110050A (zh) * 2018-01-22 2019-08-09 北京大学 一种新闻事件生成式问答数据集的生成方法
CN110489562A (zh) * 2019-07-19 2019-11-22 国网福建省电力有限公司 一种基于本体的电网调度规程规定知识建模方法及系统
CN112151130A (zh) * 2019-01-15 2020-12-29 合肥工业大学 一种基于文献检索的决策支持系统和构建方法
CN112331260A (zh) * 2020-11-17 2021-02-05 湘南学院 一种药用辅料分析管理方法及管理系统
CN113393916A (zh) * 2021-08-17 2021-09-14 浙江卡易智慧医疗科技有限公司 一种冠脉医疗报告结构关系提取的方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102354340A (zh) * 2011-10-18 2012-02-15 浙江大学 一种人体医学知识构建方法和系统
CN104462227A (zh) * 2014-11-13 2015-03-25 中国测绘科学研究院 一种图形化知识谱系自动构建方法
CN104615904A (zh) * 2015-02-28 2015-05-13 领智控股有限公司 抗菌药物临床应用决策支持系统及其构建方法
CN104699981A (zh) * 2015-03-24 2015-06-10 西安电子科技大学 基于开放式管理的医学知识本体建模方法
CN105335447A (zh) * 2014-08-14 2016-02-17 北京奇虎科技有限公司 基于计算机网络的专家问答系统及其构建方法
CN105701253A (zh) * 2016-03-04 2016-06-22 南京大学 中文自然语言问句语义化的知识库自动问答方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102354340A (zh) * 2011-10-18 2012-02-15 浙江大学 一种人体医学知识构建方法和系统
CN105335447A (zh) * 2014-08-14 2016-02-17 北京奇虎科技有限公司 基于计算机网络的专家问答系统及其构建方法
CN104462227A (zh) * 2014-11-13 2015-03-25 中国测绘科学研究院 一种图形化知识谱系自动构建方法
CN104615904A (zh) * 2015-02-28 2015-05-13 领智控股有限公司 抗菌药物临床应用决策支持系统及其构建方法
CN104699981A (zh) * 2015-03-24 2015-06-10 西安电子科技大学 基于开放式管理的医学知识本体建模方法
CN105701253A (zh) * 2016-03-04 2016-06-22 南京大学 中文自然语言问句语义化的知识库自动问答方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
徐天伟等: "由语义网络语言的知识表示到谓词逻辑的转换", 《云南师范大学学报》 *
李敬华等: "面向临床决策支持的中医脾胃病本体知识库构建研究", 《中国医学创新》 *
王志飞等: "正则表达式在上市中药文献信息提取中的应用", 《中国中药杂志》 *
胡绍波等: "面向教学管理系统的知识库设计研究", 《保山师专学报》 *
鄂世嘉等: "自动化构建的中文知识图谱系统", 《计算机应用》 *
阮彤等: "基于本体的医疗健康语义知识库构建", 《中国信息界(E医疗)》 *
马云等: "基于临床决策支持系统与知识库的临床数据中心的研究与应用", 《中国医疗设备》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844723A (zh) * 2017-02-10 2017-06-13 厦门大学 基于问答系统的医学知识库构建方法
CN106844723B (zh) * 2017-02-10 2019-09-10 厦门大学 基于问答系统的医学知识库构建方法
CN106909783A (zh) * 2017-02-24 2017-06-30 北京交通大学 一种基于时间线的病历文本医学知识发现方法
CN107562732A (zh) * 2017-10-26 2018-01-09 北京康夫子科技有限公司 电子病历的处理方法及系统
CN107887036A (zh) * 2017-11-09 2018-04-06 北京纽伦智能科技有限公司 临床决策辅助系统的构建方法、装置及临床决策辅助系统
CN107798123A (zh) * 2017-11-10 2018-03-13 上海智臻智能网络科技股份有限公司 知识库及其建立、修改、智能问答方法、装置及设备
CN110033859A (zh) * 2018-01-12 2019-07-19 西门子医疗有限公司 评估患者的医学检查结果的方法、系统、程序和存储介质
CN110033859B (zh) * 2018-01-12 2024-01-02 西门子医疗有限公司 评估患者的医学检查结果的方法、系统、程序和存储介质
CN110110050B (zh) * 2018-01-22 2021-08-03 北京大学 一种新闻事件生成式问答数据集的生成方法
CN110110050A (zh) * 2018-01-22 2019-08-09 北京大学 一种新闻事件生成式问答数据集的生成方法
CN108228572A (zh) * 2018-02-07 2018-06-29 苏州迪美格智能科技有限公司 基于强化学习的医学自然语言语义网络反馈式提取系统与方法
CN109299239A (zh) * 2018-09-29 2019-02-01 福建弘扬软件股份有限公司 一种基于es的电子病历检索方法
CN109685215A (zh) * 2018-12-17 2019-04-26 中科国力(镇江)智能技术有限公司 一种快捷的智能辅助决策支持系统及方法
CN109685215B (zh) * 2018-12-17 2023-01-20 中科国力(镇江)智能技术有限公司 一种快捷的智能辅助决策支持系统及方法
CN112151130B (zh) * 2019-01-15 2022-11-04 合肥工业大学 一种基于文献检索的决策支持系统和构建方法
CN112151130A (zh) * 2019-01-15 2020-12-29 合肥工业大学 一种基于文献检索的决策支持系统和构建方法
CN109918436A (zh) * 2019-03-08 2019-06-21 上海一健事信息科技有限公司 一种医学知识管理和查询系统
CN109918436B (zh) * 2019-03-08 2022-12-20 麦博(上海)健康科技有限公司 一种医学知识管理和查询系统
CN110489562A (zh) * 2019-07-19 2019-11-22 国网福建省电力有限公司 一种基于本体的电网调度规程规定知识建模方法及系统
CN112331260A (zh) * 2020-11-17 2021-02-05 湘南学院 一种药用辅料分析管理方法及管理系统
CN112331260B (zh) * 2020-11-17 2024-04-26 湘南学院 一种药用辅料分析管理方法及管理系统
CN113393916A (zh) * 2021-08-17 2021-09-14 浙江卡易智慧医疗科技有限公司 一种冠脉医疗报告结构关系提取的方法和装置
CN113393916B (zh) * 2021-08-17 2021-12-31 浙江卡易智慧医疗科技有限公司 一种冠脉医疗报告结构关系提取的方法和装置

Similar Documents

Publication Publication Date Title
CN106295187A (zh) 面向智能临床辅助决策支持系统的知识库构建方法与系统
CN110210037B (zh) 面向循证医学领域的类别检测方法
CN112597774B (zh) 中文医疗命名实体识别方法、系统、存储介质和设备
CN110032648A (zh) 一种基于医学领域实体的病历结构化解析方法
CN116682553B (zh) 一种融合知识与患者表示的诊断推荐系统
CN110083710A (zh) 一种基于循环神经网络与潜变量结构的词语定义生成方法
Dima et al. Automatic noun compound interpretation using deep neural networks and word embeddings
JP7464800B2 (ja) 小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム
CN110569343B (zh) 一种基于问答的临床文本结构化方法
CN112420191A (zh) 一种中医辅助决策系统及方法
CN115293161A (zh) 基于自然语言处理和药品知识图谱的合理用药系统及方法
CN113779220A (zh) 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN112149411B (zh) 一种抗生素临床使用领域本体构建方法
WO2024008043A1 (zh) 一种基于因果关系挖掘的临床数据自动化生成方法及系统
Qi et al. KeMRE: Knowledge-enhanced medical relation extraction for Chinese medicine instructions
CN117316466A (zh) 一种基于知识图谱与自然语言处理技术的临床决策方法、系统及设备
Liu et al. Deep neural network-based recognition of entities in Chinese online medical inquiry texts
JabaSheela et al. A hybrid model for detecting linguistic cues in alzheimer’s disease patients
CN117493504A (zh) 一种基于生成式预训练语言模型的医疗事件抽取方法
CN112069825A (zh) 面向警情笔录数据的实体关系联合抽取方法
CN107085655A (zh) 基于属性的约束概念格的中医数据处理方法及系统
Ning et al. Research on a vehicle-mounted intelligent TCM syndrome differentiation system based on deep belief network
CN113488165B (zh) 基于知识图谱的文本匹配方法、装置、设备以及存储介质
CN115565655A (zh) 一种增强的辅助问诊方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170104