CN105389470A - 一种中医针灸领域实体关系自动抽取的实现方法 - Google Patents

一种中医针灸领域实体关系自动抽取的实现方法 Download PDF

Info

Publication number
CN105389470A
CN105389470A CN201510798926.4A CN201510798926A CN105389470A CN 105389470 A CN105389470 A CN 105389470A CN 201510798926 A CN201510798926 A CN 201510798926A CN 105389470 A CN105389470 A CN 105389470A
Authority
CN
China
Prior art keywords
entity
chinese medicine
medicine acupuncture
domain entities
acupuncture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510798926.4A
Other languages
English (en)
Inventor
孙水华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian University of Technology
Original Assignee
Fujian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian University of Technology filed Critical Fujian University of Technology
Priority to CN201510798926.4A priority Critical patent/CN105389470A/zh
Publication of CN105389470A publication Critical patent/CN105389470A/zh
Pending legal-status Critical Current

Links

Classifications

    • G06F19/32

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种中医针灸领域实体关系自动抽取的实现方法,包括如下步骤:步骤1)定义中医针灸领域命名实体及实体关系类型体系;步骤2)构建中医针灸领域实体关系语料库;步骤3)构造中医针灸领域实体关系特征模板;步骤4)构建中医针灸领域实体关系实例向量化模块;步骤5)中医针灸领域实体关系分类模型训练及评估。本发明技术方案针对中医针灸领域文献的特点,构建中医针灸领域实体关系抽取模型,该模型较好地完成了在中医针灸领域文献中抽取中医针灸领域实体关系的任务,DM、HM、AM和DRM实体关系分类模型的F值分别达到了93.25%、87.19%、86.57%和84.57%,填补了相关研究的空白。

Description

一种中医针灸领域实体关系自动抽取的实现方法
技术领域
本发明属于信息技术领域,具体地,本发明涉及一种中医针灸领域实体关系自动抽取的实现方法。
背景技术
关系抽取是信息抽取和自然语言理解技术不可缺少的环节,其主要目的是识别用自然语言表达的两个实体之间的语义关系。关系抽取技术的研究对信息检索、问答系统、信息过滤、机器翻译等有非常积极的意义。在生物医学领域,关系抽取任务是要实现从生物医学文本中抽取出各种不同的生物医学实体(疾病、药物、基因、蛋白等)之间的语义关系,并以人们可以理解的方式表示出来,用以帮助生物医学研究者解决信息过载的问题。目前,主流的实体语义关系抽取方式有三种:基于特征向量的机器学习方法、基于核函数的机器学习方法以及特征向量与核函数融合的机器学习方法。有些文献按照预先设定好的特征模板,将训练集和测试集中的实体关系实例数字化,形成多维的特征向量。然后,用训练集中的特征向量训练支持向量机(SVM)、最大熵(ME)等统计学习模型,用测试集中的特征向量对得到的模型的实体关系类别预测能力进行评估。该方法的主要研究重点在于如何将语句中的语法、词法以及实体的相关特性利用起来,组成最能代表实体对关系的特征向量。有些文献将语句的句法结构树、词序列等视为处理对象,通过定义树核函数和语义序列核函数来计算处理对象之间的相似度,从而避免了构建高纬度的特征向量。有些文献将特征向量和树核函数有效融合,用核方法弥补特征向量无法表示结构特征的缺陷,用特征向量将树核函数扩展到大量数据,取得了较好的关系抽取效果。有些文献采用包括词、关键词、蛋白质实体名距离、关联路径等特征组合成特征模板,使用支持向量机统计模型来抽取蛋白质关系。有些文献将两个实体所在的句子信息以及两个实体周围的局部上下文信息组合在一起应用于药物关系抽取,取得了较好的结果。有些文献用实体在句子中的顺序和距离、词汇特征以及链接语法特征训练6个SVM分类器,实现疾病、症状、检查和治疗之间的实体关系识别,该研究为电子病历实体关系抽取研究提供了借鉴。
目前,对于在中医针灸领域文献中抽取实体关系的关键技术研究还是空白。中医针灸文献作为针灸医学领域成果展示和学术交流的主要载体,其内容组织和知识表达与英文生物医学文献以及中文通用领域文献都具有很大的差异性。
当前,生物医学领域关系抽取任务主要集中在对英文医学文献的关系抽取技术研究上,如:研究英文生物医学文献中的蛋白质关系抽取;研究英文医学文献中的药物相互作用关系抽取。中文实体关系抽取技术研究起步较晚,主要是针对通用领域关系抽取技术的研究,如:在ACE2005基准语料上进行了中文实体关系自动抽取技术的研究。中医针灸蕴含着中华民族特有的精神、思维和文化精华,涵纳着大量的实践观察、知识体系和技术技艺,凝聚着中华民族强大的生命力与创造力,是中华民族智慧的结晶,也是全人类文明的瑰宝。随着中医针灸领域文献的快速增长,迫切需要一种有效的工具来高效地利用这些文献中所蕴含的知识。本发明的目的是针对中医针灸领域文献的特点,研究并开发中医针灸领域实体语义关系抽取系统,该系统能从海量的中医针灸领域文献中快速有效地提取针灸领域实体语义关系,形成结构化的数据存入数据库,以帮助中医针灸研究者解决信息过载的问题,推动针灸医学的进一步发展。
发明内容
为实现上述目的,本发明提供了一种中医针灸领域实体关系自动抽取的实现方法。本发明技术方案针对中医针灸领域文献的特点,构建中医针灸领域实体关系抽取模型,该模型较好地完成了在中医针灸领域文献中抽取中医针灸领域实体关系的任务,DM、HM、AM和DRM实体关系分类模型的F值分别达到了93.25%、87.19%、86.57%和84.57%,填补了相关研究的空白。
为达到上述技术效果,本发明的技术方案是:
一种中医针灸领域实体关系自动抽取的实现方法,包括如下步骤:
步骤1)定义中医针灸领域命名实体及实体关系类型体系:
选择中医词汇作为实体;对实体进行归类,将同一类别的实体定义为对应的命名实体类型;对实体之间的关系进行归类,将同一类实体关系定义为对应的实体关系类型;设置命名实体类型和实体关系类型的标注格式;
步骤2)构建中医针灸领域实体关系语料库:
收集中医针灸领域的文献,然后根据步骤1)中的命名实体类型和实体关系类型以及命名实体类型和实体关系类型的标注格式对收集的中医针灸领域的文献进行人工标注,构建中医针灸领域实体关系实例;中医针灸领域实体关系实例组成中医针灸领域实体关系语料库;
步骤3)构造中医针灸领域实体关系特征模板:
构造两个实体组成的实体对的特征模板;限定只针对处于同一个句子内的两个实体间的实体关系类型进行识别,对跨越句子的实体间的实体关系类型不进行识别;将识别的两个实体间的实体关系类型构造为特征模板的样式;特征模板具有多个特征项;
步骤4)构建中医针灸领域实体关系实例向量化模块:
将中医针灸领域实体关系语料库中人工标注好的中医针灸领域实体关系实例按照步骤3)中构造的特征模板中预先设定好的特征项赋予特征值,形成多维的特征向量;使用向量空间模型进行实体关系抽取;中医针灸领域实体关系实例向量化模块的输入是构建好的中医针灸领域实体关系语料库;中医针灸领域实体关系实例向量化模块的输出是中医针灸领域实体关系实例向量集;
步骤5)中医针灸领域实体关系分类模型训练及评估:
构造中医针灸领域实体关系分类器,使用分类器评价指标对中医针灸领域实体关系分类器的分类能力进行评价。
进一步的改进,所述步骤1)中,命名实体类型包括疾病命名实体、养生保健命名实体、治疗与保健方法命名实体、经络穴位命名实体和药物命名实体。
进一步的改进,所述步骤1)中,实体关系类型包括疾病-治疗方法实体关系、养生保健-方法实体关系、经络穴位-方法实体关系和药物-方法实体关系。
进一步的改进,所述步骤3)中,特征模板包括的特征项有实体类型特征、实体所有词特征、实体上下文特征、动词特征、词距特征、子句特征和间隔实体特征;其中实体类型特征指两个实体各自的类型;实体所有词特征指两个实体各自的词汇;实体上下文特征指两个实体各自前方的3个单词和后方的3个单词以及这些单词的词性;动词特征指取两个实体中与处于后方的实体距离最近的动词,若有两个动词满足条件,则取处于后方的动词;词距特征指两个实体之间的词汇数;子句特征指两个实体是否在同一个子句中,若在同一个子句中则为1,若不在同一个子句中则为0;间隔实体特征指组成实体关系的两个实体之间是否还有其它实体,若有其它实体则为1,若没有其它实体则为0。
进一步的改进,所述实体上下文特征指两个实体各自前方的3个单词和后方的3个单词以及这些单词的词性。
进一步的改进,所述步骤4)中,中医针灸领域实体关系实例向量化模块将人工标注的中医针灸领域实体关系语料库转化为ACE格式文件。
进一步的改进,所述步骤4)中,使用从中医针灸领域实体关系语料库中抽取出人工标注的中医针灸领域实体实例,形成实体集,以实体集作为训练语料库训练分词工具,使用训练过的分词工具对中医针灸领域实体关系语料库进行分词和词性标注。
进一步的改进,所述步骤5)中,使用SVM算法构造中医针灸领域实体关系分类器。
进一步的改进,将中医针灸领域实体关系实例向量集划分为训练集和测试集,然后采用训练集训练中医针灸领域实体关系分类模型,使中医针灸领域实体关系分类模型在给定的数据表示下得到可判别的效果;最后,在测试集上评估中医针灸领域实体关系分类模型对中医针灸领域实体关系类型的预测能力。
进一步的改进,所述步骤5)中,分类器评价指标包括:准确率(P)、召回率(R)和F-值,具体定义如下公式所示:
本发明技术方案针对中医针灸领域文献的特点,构建中医针灸领域实体关系抽取模型。该模型较好地完成了在中医针灸领域文献中抽取中医针灸领域实体关系的任务,DM、HM、AM和DRM实体关系分类模型的F值分别达到了93.25%、87.19%、86.57%和84.57%
术语解释:
(1)中医针灸领域命名实体:中医针灸领域文本中特定的事实信息称之为中医针灸领域命名实体。本技术方案将中医针灸领域命名实体定义为如下五类:
①疾病命名实体:限定指示具体的疾病名称。如:肩周炎、冠心病、颈椎病等。
②养生保健命名实体:限定指示具体的与养生保健相关的事实信息。例如:机体免疫功能、体质、微循环、脾胃功能、瘀、气、阳、血沉等。
③治疗与保健方法命名实体:限定指示具体的疾病治疗方法或保健方法名称,一般指针灸疗法术语或针灸用具术语。例如:牵引、针刺、腹针、激光耳针、穴位注射、电磁波、湿针重灸、毫针刺、循经取穴深针透穴刺法、电针等。
④经络穴位命名实体:限定指示具体的人体经络与穴位术语。例如:神门穴、腰夹脊穴、命门、腰阳关、肾俞、下肢胆经、膀胱经穴等。
⑤药物命名实体:限定指示具体的用于疾病治疗或保健的药物名称。例如:当归注射液、白芥子散、胞二磷胆碱、蜂毒、复方丹参、辅酶A等。
(2)中医针灸领域实体关系:中医针灸领域文献中句子范围内的2个中医针灸领域命名实体之间存在的语义关系,称之为中医针灸领域实体关系。本技术方案将中医针灸领域实体关系定义为如下四类:
①疾病-治疗方法实体关系:疾病-治疗方法实体关系获取2个中医针灸领域命名实体之间存在的治疗语义关系,用以指示以什么方法或用什么药物或什么穴位对什么疾病有治疗作用。例如,“本文介绍了近十年来针灸治疗肩周炎的研究进展情况”,在这个句子中,命名实体“针灸”和“肩周炎”之间存在疾病-治疗方法实体语义关系。
②养生保健-方法实体关系:养生保健-方法实体关系获取2个中医针灸领域命名实体之间存在的养生保健语义关系,用以指示以什么方法或用什么药物或什么穴位有养生保健作用。例如,“探讨在支气管哮喘缓解期采用三伏灸预防哮喘发作与年龄、病程的关系”,在这个句子中,命名实体“三伏灸”和“哮喘”之间存在养生保健-方法实体语义关系。
③经络穴位-方法实体关系:经络穴位-方法实体关系获取2个中医针灸领域命名实体之间存在的经络穴位与治疗保健方法之间的语义关系,用以指示以什么方法作用在什么经络或穴位上有治疗或保健的作用。例如,“督脉电针电场治疗大鼠的半横断脊损伤,是一种简便、安全、疗效确实的治疗方法”,在这个句子中,命名实体“督脉”和“电针”之间存在经络穴位-方法实体关系。
④药物-方法实体关系:药物-方法实体关系获取2个中医针灸领域命名实体之间存在的药物与治疗保健方法之间的语义关系,用以指示以什么方式使用什么药物有治疗或保健的作用。例如,“本文以复方丹参注射液和独参注射液穴位水针治疗冠心病患者102例”,在这个句子中,命名实体“复方丹参注射液”和“穴位水针”之间存在药物-方法实体关系。
(3)中医针灸领域实体关系自动抽取:是指自动识别出中医针灸领域文献的语句范围内用自然语言表达的两个中医针灸领域实体之间的语义关系类别。即,自动识别两个中医针灸领域实体之间有无语义关系,或属于上述预定义的4类中医针灸领域实体关系中的哪一类。
附图说明
图1为本发明的流程示意图;
图2为实施例中的中医针灸领域实体关系特征模板;
图3为实体关系向量化程序流程示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行详细的说明。
实施例
如图1所示的一种中医针灸领域实体关系自动抽取的实现方法,包括如下步骤:
(一)定义中医针灸领域命名实体及实体关系类型体系:
表1中医针灸领域命名实体类型及其标注实例
表2中医针灸领域实体关系类型及其标注实例
本技术方案通过分析总结中医针灸领域文本的特点,预定义了5类中医针灸领域命名实体类型和4类中医针灸领域实体关系类型。中医针灸领域命名实体类型及其标注实例如表1所示,中医针灸领域实体关系类型及其标注实例如表2所示。
(二)构建中医针灸领域实体关系语料库
本技术方案采用基于特征向量的有监督机器学习方法来构建中医针灸领域实体关系抽取模型。有监督方法从训练数据集中学习模型,对测试数据的关系类型进行预测。中医针灸领域实体关系语料库构建步骤如下:1.从网站(http://www.cqvip.com/)上爬取《针灸临床杂志》期刊2009至2013年发表的中医针灸领域文献的摘要信息共有4.2M;2.从爬取的摘要信息中随机选取350篇;3.按照本技术方案中预定义的实体类型、实体关系类型及其标注格式逐句逐篇进行人工标注,形成一定规模的中医针灸领域实体关系语料库。
(三)构造中医针灸领域实体关系特征模板
本技术方案只考虑中医针灸领域语料中一个句子范围内的两个实体之间的关系,对跨越句子的实体之间的关系不进行识别。中医针灸领域实体关系抽取系统的输入是一个句子和句子中已经标记出的2个实体,输出则是这2个实体间的语义关系。为了捕获中医针灸领域实体关系的局部和全局特征,用以构建特征向量,提高分类性能,在对中医针灸领域实体关系实例的语境进行综合分析的基础上,总结得到了有效描述中医针灸领域实体关系的词汇、语法和语义特征,具体包括:
1)实体类型特征。两个实体各自的类型,这个特征可以从人工标注的中医针灸领域语料中获取。
2)实体所有词特征。两个实体各自的词汇。
3)实体上下文特征。2个实体各自的前3个词、后3个词以及这些词的词性。
4)动词特征。取离实体2最近的动词,如果满足条件的有2个动词,则取实体2后面的动词。
5)词距特征。指组成实体关系的2个实体对之间的词数。词距为>=0的数值。
6)子句特征。两个实体是否在同一个子句中,若在同一个子句中为1,否则为0。其中子句即从句,它是复合句的一个成分,自有其主语和谓语。
7)间隔实体特征。组成实体关系的2个实体对之间是否还有其他实体存在,若存在其他实体为1,不存在其他实体为0。
综上所述,本方案为中医针灸领域语料库一个句子中的任意2个实体组成的实体对(E1,E2)构造的实体关系组合特征模板如图2所示。
其中:E1.TYPE表示实体E1的实体类型特征;E2.TYPE表示实体E2的实体类型特征;E1.TEXT表示E1的实体所有词特征,E2.TEXT表示E2的实体所有词特征;上栏的Wi-3,Wi-2,Wi-1,Wi+1,Wi+2和Wi+3表示E1的实体上下文特征中的词汇,即E1的前三个词和后三个词;上栏的Ti-3,Ti-2,Ti-1,Ti+1,Ti+2和Ti+3表示E1的前三个词和后三个词的词性;下栏的Wj-3,Wj-2,Wj-1,Wj+1,Wj+2和Wj+3表示E2的实体上下文特征中的词汇,即E2的前三个词和后三个词;下栏的Tj-3,Tj-2,Tj-1,Tj+1,Tj+2和Tj+3表示E2的前三个词和后三个词的词性;
Verb表示动词特征;Word_Distance表示词距特征;Clause表示子句特征;Interval表示间隔实体特征。
(四)中医针灸领域实体关系实例向量化
向量空间模型(vectorspacemodel)是将文本特征转化为数字特征的模型。使用向量空间模型进行实体关系抽取时,要将实体关系实例按照预先设定好的特征项赋予特定的特征值,以形成多维的特征向量。本发明根据图2所描述的实体关系特征模板,将中医针灸领域语料库中的实体关系实例映射成特征向量。实体关系实例向量化模块的输入是人工标注好实体及实体关系的中医针灸文献摘要集,输出是中医针灸领域实体关系实例向量集,程序流程如图3所示。
为了使原始语料中的中医针灸领域实体,如:晴明穴、循经取穴深针透穴刺法、穴位敷贴等在进行分词时不被切碎,我们首先使用从语料库中抽取出的实体集训练分词词典,然后再使用经过词典训练后的分词工具对原始语料进行分词及词性标注。本模块还将人工标注的中医针灸领域实体关系语料库转化为ACE(AutomaticContentExtraction)格式文件,以便将来提供给有意从事中医针灸领域信息抽取的研究者共享。
(五)中医针灸领域实体关系分类模型训练及评估
本方案选择SVM算法构造中医针灸领域实体关系分类器。首先,把中医针灸领域实体关系实例特征向量集划分成训练集和测试集;然后,采用SVM分类器训练中医针灸领域实体关系分类模型,使分类模型在给定的数据表示下得到可判别的效果;最后,在测试集上评估分类模型对中医针灸领域实体关系类型的预测能力。
分类器评价指标包括:准确率(P)、召回率(R)和F-值,具体定义如下公式所示:
本发明可以对中医针灸领域文献进行自动阅读,抽取中医针灸领域命名实体间的语义关系(如:疾病-治疗方法实体关系、养生保健-方法实体关系等),并以结构化的信息形式表示和存储。该软件产品的开发对中医针灸领域知识网络的构建、疾病治疗、中医保健、中药研制以及加快中医针灸标准化、现代化、国际化进程均具有重要的意义。
本发明技术方案针对中医针灸领域文献的特点,构建中医针灸领域实体关系抽取模型。该模型较好地完成了在中医针灸领域文献中抽取中医针灸领域实体关系的任务,DM、HM、AM和DRM实体关系分类模型的F值分别达到了93.25%、87.19%、86.57%和84.57%。
以上实例的说明只是用于帮助理解本发明的核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种中医针灸领域实体关系自动抽取的实现方法,其特征在于,包括如下步骤:
步骤1)定义中医针灸领域命名实体及实体关系类型体系:
选择中医词汇作为实体;对实体进行归类,将同一类别的实体定义为对应的命名实体类型;对实体之间的关系进行归类,将同一类实体关系定义为对应的实体关系类型;设置命名实体类型和实体关系类型的标注格式;
步骤2)构建中医针灸领域实体关系语料库:
收集中医针灸领域的文献,然后根据步骤1)中的命名实体类型和实体关系类型以及命名实体类型和实体关系类型的标注格式对收集的中医针灸领域的文献进行人工标注,构建中医针灸领域实体关系实例;中医针灸领域实体关系实例组成中医针灸领域实体关系语料库;
步骤3)构造中医针灸领域实体关系特征模板:
构造两个实体组成的实体对的特征模板;限定只针对处于同一个句子内的两个实体间的实体关系类型进行识别,对跨越句子的实体间的关系类型不进行识别;将识别的两个实体间的实体关系类型构造为特征模板的样式;特征模板具有多个特征项;
步骤4)构建中医针灸领域实体关系实例向量化模块:
将中医针灸领域实体关系语料库中人工标注好的中医针灸领域实体关系实例按照步骤3)中构造的特征模板中预先设定好的特征项赋予特征值,形成多维的特征向量;使用向量空间模型进行实体关系抽取;中医针灸领域实体关系实例向量化模块的输入是构建好的中医针灸领域实体关系语料库;中医针灸领域实体关系实例向量化模块的输出是中医针灸领域实体关系实例向量集;
步骤5)中医针灸领域实体关系分类模型训练及评估:
构造中医针灸领域实体关系分类器,使用分类器评价指标对中医针灸领域实体关系分类器的分类能力进行评价。
2.如权利要求1所述的中医针灸领域实体关系自动抽取的实现方法,其特征在于,所述步骤1)中,命名实体类型包括疾病命名实体、养生保健命名实体、治疗与保健方法命名实体、经络穴位命名实体和药物命名实体。
3.如权利要求1所述的中医针灸领域实体关系自动抽取的实现方法,其特征在于,所述步骤1)中,实体关系类型包括疾病-治疗方法实体关系、养生保健-方法实体关系、经络穴位-方法实体关系和药物-方法实体关系。
4.如权利要求1所述的中医针灸领域实体关系自动抽取的实现方法,其特征在于,所述步骤3)中,特征模板包括的特征项有实体类型特征、实体所有词特征、实体上下文特征、动词特征、词距特征、子句特征和间隔实体特征;其中实体类型特征指两个实体各自的类型;实体所有词特征指两个实体各自的词汇;实体上下文特征指两个实体各自前方的3个单词和后方的3个单词以及这些单词的词性;动词特征指取两个实体中与处于后方的实体距离最近的动词,若有两个动词满足条件,则取处于后方的动词;词距特征指两个实体之间的词汇数;子句特征指两个实体是否在同一个子句中,若在同一个子句中则为1,若不在同一个子句中则为0;间隔实体特征指组成实体关系的两个实体之间是否还有其它实体,若有其它实体则为1,若没有其它实体则为0。
5.如权利要求4所述的中医针灸领域实体关系自动抽取的实现方法,其特征在于,所述实体上下文特征指两个实体各自前方的3个单词和后方的3个单词以及这些单词的词性。
6.如权利要求1所述的中医针灸领域实体关系自动抽取的实现方法,其特征在于,所述步骤4)中,中医针灸领域实体关系实例向量化模块将人工标注的中医针灸领域实体关系语料库转化为ACE格式文件。
7.如权利要求1所述的中医针灸领域实体关系自动抽取的实现方法,其特征在于,所述步骤4)中,使用从中医针灸领域实体关系语料库中抽取出人工标注的中医针灸领域实体实例,形成实体集,以实体集作为训练语料库训练分词工具,使用训练过的分词工具对中医针灸领域实体关系语料库进行分词和词性标注。
8.如权利要求1所述的中医针灸领域实体关系自动抽取的实现方法,其特征在于,所述步骤5)中,使用SVM算法构造中医针灸领域实体关系分类器。
9.如权利要求8所述的中医针灸领域实体关系自动抽取的实现方法,其特征在于,将中医针灸领域实体关系实例向量集划分为训练集和测试集,然后采用训练集训练中医针灸领域实体关系分类模型,使中医针灸领域实体关系分类模型在给定的数据表示下得到可判别的效果;最后,在测试集上评估中医针灸领域实体关系分类模型对中医针灸领域实体关系类型的预测能力。
10.如权利要求1所述的中医针灸领域实体关系自动抽取的实现方法,其特征在于,所述步骤5)中,分类器评价指标包括:准确率(P)、召回率(R)和F-值,具体定义如下公式所示:
CN201510798926.4A 2015-11-18 2015-11-18 一种中医针灸领域实体关系自动抽取的实现方法 Pending CN105389470A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510798926.4A CN105389470A (zh) 2015-11-18 2015-11-18 一种中医针灸领域实体关系自动抽取的实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510798926.4A CN105389470A (zh) 2015-11-18 2015-11-18 一种中医针灸领域实体关系自动抽取的实现方法

Publications (1)

Publication Number Publication Date
CN105389470A true CN105389470A (zh) 2016-03-09

Family

ID=55421751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510798926.4A Pending CN105389470A (zh) 2015-11-18 2015-11-18 一种中医针灸领域实体关系自动抽取的实现方法

Country Status (1)

Country Link
CN (1) CN105389470A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055631A (zh) * 2016-05-27 2016-10-26 成都成信高科信息技术有限公司 基于模糊联合聚类方法的针灸处方主穴挖掘方法
CN106407443A (zh) * 2016-09-28 2017-02-15 医渡云(北京)技术有限公司 一种结构化医疗数据生成方法及装置
CN106919671A (zh) * 2017-02-20 2017-07-04 广东省中医院 一种中医文本病案挖掘与辅助决策智能系统
CN107341264A (zh) * 2017-07-19 2017-11-10 东北大学 一种支持自定义实体的电子病历检索系统及方法
CN107657063A (zh) * 2017-10-30 2018-02-02 合肥工业大学 医学知识图谱的构建方法及装置
CN108628824A (zh) * 2018-04-08 2018-10-09 上海熙业信息科技有限公司 一种基于中文电子病历的实体识别方法
CN108920465A (zh) * 2018-07-13 2018-11-30 福州大学 一种基于句法语义的农业领域关系抽取方法
CN109585024A (zh) * 2018-11-14 2019-04-05 金色熊猫有限公司 数据挖掘方法及装置、存储介质、电子设备
CN109906449A (zh) * 2016-10-27 2019-06-18 华为技术有限公司 一种查找方法及装置
CN109994201A (zh) * 2019-03-18 2019-07-09 浙江大学 一种基于深度学习的糖尿病与高血压概率计算方法
CN113963804A (zh) * 2018-11-09 2022-01-21 天津新开心生活科技有限公司 医学数据关系挖掘方法及装置
CN114373512A (zh) * 2021-12-28 2022-04-19 大连海事大学 基于高斯增强及辅助任务的蛋白质相互作用关系抽取方法
CN115019906A (zh) * 2022-06-06 2022-09-06 电子科技大学 多任务序列标注的药物实体和相互作用联合抽取方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110035210A1 (en) * 2009-08-10 2011-02-10 Benjamin Rosenfeld Conditional random fields (crf)-based relation extraction system
US20110231347A1 (en) * 2010-03-16 2011-09-22 Microsoft Corporation Named Entity Recognition in Query
CN101425065B (zh) * 2007-10-31 2013-01-09 日电(中国)有限公司 实体关系挖掘设备和方法
WO2014021656A1 (ko) * 2012-08-03 2014-02-06 한국과학기술정보연구원 패스웨이 구축 시스템 및 방법
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN104933164A (zh) * 2015-06-26 2015-09-23 华南理工大学 互联网海量数据中命名实体间关系提取方法及其系统
CN104933026A (zh) * 2015-06-11 2015-09-23 福建工程学院 一种中医针灸领域知识自动抽取的实现方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101425065B (zh) * 2007-10-31 2013-01-09 日电(中国)有限公司 实体关系挖掘设备和方法
US20110035210A1 (en) * 2009-08-10 2011-02-10 Benjamin Rosenfeld Conditional random fields (crf)-based relation extraction system
US20110231347A1 (en) * 2010-03-16 2011-09-22 Microsoft Corporation Named Entity Recognition in Query
WO2014021656A1 (ko) * 2012-08-03 2014-02-06 한국과학기술정보연구원 패스웨이 구축 시스템 및 방법
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN104933026A (zh) * 2015-06-11 2015-09-23 福建工程学院 一种中医针灸领域知识自动抽取的实现方法
CN104933164A (zh) * 2015-06-26 2015-09-23 华南理工大学 互联网海量数据中命名实体间关系提取方法及其系统

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
冯丽芝,: "面向命名实体抽取的大规模中医临床病历语料库构建方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 *
杨锦锋,等;: "电子病历命名实体识别和实体关系抽取研究综述", 《自动化学报》 *
梁繁荣,等,主编;: "《针灸数据挖掘与临床决策 2010年2月第1版 》", 28 February 2010, 四川出版集团巴蜀书社 *
毕海滨,: "基于海量文本数据的实体关系抽取及挖掘", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 *
车万祥,等;: "实体关系自动抽取", 《中文信息学报》 *
陈宇,等;: "基于Deep Belief Nets 的中文名实体关系抽取", 《软件学报》 *
顾铮,等;: "信息抽取技术在中医研究中的应用", 《医学信息》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055631A (zh) * 2016-05-27 2016-10-26 成都成信高科信息技术有限公司 基于模糊联合聚类方法的针灸处方主穴挖掘方法
CN106407443A (zh) * 2016-09-28 2017-02-15 医渡云(北京)技术有限公司 一种结构化医疗数据生成方法及装置
CN106407443B (zh) * 2016-09-28 2022-04-22 医渡云(北京)技术有限公司 一种结构化医疗数据生成方法及装置
CN109906449A (zh) * 2016-10-27 2019-06-18 华为技术有限公司 一种查找方法及装置
US11210292B2 (en) 2016-10-27 2021-12-28 Huawei Technologies Co., Ltd. Search method and apparatus
CN109906449B (zh) * 2016-10-27 2021-07-20 华为技术有限公司 一种查找方法及装置
CN106919671B (zh) * 2017-02-20 2020-06-05 广东省中医院 一种中医文本病案挖掘与辅助决策智能系统
CN106919671A (zh) * 2017-02-20 2017-07-04 广东省中医院 一种中医文本病案挖掘与辅助决策智能系统
CN107341264B (zh) * 2017-07-19 2020-09-25 东北大学 一种支持自定义实体的电子病历检索系统及方法
CN107341264A (zh) * 2017-07-19 2017-11-10 东北大学 一种支持自定义实体的电子病历检索系统及方法
CN107657063A (zh) * 2017-10-30 2018-02-02 合肥工业大学 医学知识图谱的构建方法及装置
CN108628824A (zh) * 2018-04-08 2018-10-09 上海熙业信息科技有限公司 一种基于中文电子病历的实体识别方法
CN108920465A (zh) * 2018-07-13 2018-11-30 福州大学 一种基于句法语义的农业领域关系抽取方法
CN113963804A (zh) * 2018-11-09 2022-01-21 天津新开心生活科技有限公司 医学数据关系挖掘方法及装置
CN109585024B (zh) * 2018-11-14 2021-03-09 金色熊猫有限公司 数据挖掘方法及装置、存储介质、电子设备
CN109585024A (zh) * 2018-11-14 2019-04-05 金色熊猫有限公司 数据挖掘方法及装置、存储介质、电子设备
CN109994201B (zh) * 2019-03-18 2021-06-11 浙江大学 一种基于深度学习的糖尿病与高血压概率计算系统
CN109994201A (zh) * 2019-03-18 2019-07-09 浙江大学 一种基于深度学习的糖尿病与高血压概率计算方法
CN114373512A (zh) * 2021-12-28 2022-04-19 大连海事大学 基于高斯增强及辅助任务的蛋白质相互作用关系抽取方法
CN115019906A (zh) * 2022-06-06 2022-09-06 电子科技大学 多任务序列标注的药物实体和相互作用联合抽取方法
CN115019906B (zh) * 2022-06-06 2024-04-16 电子科技大学 多任务序列标注的药物实体和相互作用联合抽取方法

Similar Documents

Publication Publication Date Title
CN105389470A (zh) 一种中医针灸领域实体关系自动抽取的实现方法
CN111414393B (zh) 一种基于医学知识图谱的语义相似病例检索方法及设备
CN107391906B (zh) 基于神经网络和图谱结构的健康饮食知识网络构建方法
CN104965992B (zh) 一种基于在线医疗问答信息的文本挖掘方法
CN112487202B (zh) 融合知识图谱与bert的中文医学命名实体识别方法、装置
CN108628824A (zh) 一种基于中文电子病历的实体识别方法
CN109920540A (zh) 辅助诊疗决策系统的构建方法、装置及计算机设备
Lee et al. Medical concept normalization for online user-generated texts
CN106919793A (zh) 一种医疗大数据的数据标准化处理方法及装置
CN107785075A (zh) 基于文本病历的小儿发热疾病深度学习辅助诊断系统
CN107341264A (zh) 一种支持自定义实体的电子病历检索系统及方法
CN107092674A (zh) 一种中医针灸领域事件触发词的自动抽取方法及系统
CN112241457A (zh) 一种融合扩展特征的事理知识图谱事件检测方法
Li et al. Automatic approach for constructing a knowledge graph of knee osteoarthritis in Chinese
Yaiprasert et al. Artificial intelligence for target symptoms of Thai herbal medicine by web scraping
Li et al. Chemical-induced disease extraction via convolutional neural networks with attention
Kropf et al. Structuring legacy pathology reports by openEHR archetypes to enable semantic querying
Mucheng et al. TCM-SD: a benchmark for probing syndrome differentiation via Natural Language processing
Wang et al. Research on named entity recognition of doctor-patient question answering community based on bilstm-crf model
Gu et al. Chemical-induced disease relation extraction with lexical features
Jiang et al. Fine-tuning BERT-based models for plant health bulletin classification
Ghoulam et al. Using local grammar for entity extraction from clinical reports
CN113033210A (zh) 一种基于社交媒体数据分析的药物潜在副作用挖掘方法
Zouaoui et al. Ontological Approach Based on Multi-Agent System for Indexing and Filtering Arabic Docu-ments
Zhao et al. Using LFtext-TextCNN to classify short text of TCM symptoms

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160309