CN109992777A - 一种基于关键词的中医病情文本关键语义信息提取方法 - Google Patents

一种基于关键词的中医病情文本关键语义信息提取方法 Download PDF

Info

Publication number
CN109992777A
CN109992777A CN201910232087.8A CN201910232087A CN109992777A CN 109992777 A CN109992777 A CN 109992777A CN 201910232087 A CN201910232087 A CN 201910232087A CN 109992777 A CN109992777 A CN 109992777A
Authority
CN
China
Prior art keywords
keyword
relationship
text
illness
chinese medicine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910232087.8A
Other languages
English (en)
Other versions
CN109992777B (zh
Inventor
姜晓红
陈广
吴健
吴朝晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910232087.8A priority Critical patent/CN109992777B/zh
Publication of CN109992777A publication Critical patent/CN109992777A/zh
Application granted granted Critical
Publication of CN109992777B publication Critical patent/CN109992777B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于关键词的中医病情文本关键语义信息提取方法,包括以下步骤:(1)对中医病情文本进行分句、分词处理;(2)对分句、分词处理结果生成依存句法树;(3)初始化中医病情文本中的关键词,生成关键词队列;(4)基于依存句法树,对关键词队列中的任意词为起始点,在依存句法树中进行向上搜索和向下搜索,搜索得到的词语标记为关键语义信息。该方法以关键词作为提取关键语义信息的一个特征,通过依存句法树来获得最终结果。

Description

一种基于关键词的中医病情文本关键语义信息提取方法
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于关键词的中医病情文本关键语义信息提取方法。
背景技术
中医药是我国医学科学的特色。目前。我国在中医药信息化上取的了不错的进展,为中医药智能化打下了良好的基础。中医药信息化建设主要体现在2个方面:1)中医药文献信息化方面;20世纪80年代,《黄帝内经素问》、《本草纲目》等10多部中医药书籍实现数字化检索;2)中医药基础数据库建设方面。1998年开始,吴朝晖教授带领的团队联合全国30多个中医药研究机构,经过近300名中医药科学工作者的努力,在全国范围内建成了17个分中心的分布式多融合平台,已经集成了50多种中医药基础数据库。
随着人工智能的快速发展,带动了智能医疗的发展,不同于西医有许多医学图像数据,对中医来说,中医智能医疗主要是对中医病情文本的处理,其中病情文本往往包括一些西医检测数据,比如血常规、尿常规等数据,这些数据给基于文本分析的算法带来了一定困扰,另外,对于中医病情文本来说,往往更加关注病症、病位、病症严重程度及病症有无关系等信息,因此提取中医病情文本中的关键语义信息是有必要的。
目前,关键语义信息提取可以分为2大类,一类是有监督的实体识别算法来抽取关键语义信息,另一类是基于主谓宾结构来抽取关键语义信息。有监督的方法需要大量标注数据,基于主谓宾结构的虽然是无监督的方法,但需要句子主谓宾结构明显,因此,急需一种方法能够具备以下特征:
1)无监督方法。无监督方法可以减少标注成本,极大地减少了人力成本;
2)应对语法不规范,主谓宾不全的文本。对于中医病情文本来说,其往往会忽略主语或者句子其他成分,如“出现咳嗽”,只有谓语和宾语,因此,提取中医病情文本关键语义信息需要考虑到主谓宾不齐全这样的语法特征;
3)运行效率高等。一般地,实体识别都是基于深度学习的,网络参数多,运行效率慢。
发明内容
本发明的目的在于提出一种基于关键词的中医病情文本关键语义信息提取方法,以关键词作为提取关键语义信息的一个特征,通过依存句法树来获得最终结果。
为实现上述发明目的,本发明提供以下技术方案:
一种基于关键词的中医病情文本关键语义信息提取方法,包括以下步骤:
(1)对中医病情文本进行分句、分词处理;
(2)对每句分词结果生成依存句法树;
(3)初始化中医病情文本中的关键词,生成关键词队列;
(4)基于依存句法树,以关键词队列中的任意词为起始点,在依存句法树中进行向上搜索和向下搜索,搜索得到的词语标记为关键语义信息。
本发明中,主要是依据中医病情文本中的“;”和“。”等中文断句标点,对中医病情文本进行分句。同时,采用语言技术平台(LTP)或者结巴中文分词工具对中医病情文本进行分词处理。
采用哈工大的LTP工具进行分词时,加载领域词典、停用词表。其中,领域词典是中医领域相关术语集合,停用词典是中医领域相关的停用词表,比如“病人”、“病史”等词。
生成的依存句法树主要是依赖依存关系,一个依次关系包含两个词,一个是核心词,一个是修饰词。具体地,依存句法树中的依存关系包括主谓关系(SBV)、动宾关系(VOB)、定中关系(ATT)、状中结构(ADV)、并列关系(COO)以及核心关系(HED)。
本发明中,可以采用TF-IDF算法或者TextRank算法提取中医病情文本中的关键词,形成关键词队列。
步骤(4)中,对关键词队列中的任意词依次进行向上搜索和向下搜索,具体地,向上搜索时,搜索依存关系为动宾关系、定中关系以及主谓关系的父亲节点,具体地,
对于动宾关系,直接将动宾关系中的父亲节点对应的词语标记为关键语义信息;
对于定中关系,将定中关系中词性为动词或名词的父亲节点对应的词语标记为关键语义信息;
对于主谓关系,搜索到父亲节点后,继续搜索该父亲节点的孩子节点,当孩子节点与父亲节点满足状中结构、动宾关系时,则该孩子节点对应的词语标记为关键语义信息。
在进行向上搜索的过程中,不仅仅是融合了词性和词,还对关键词进行了扩充。
向下搜索的搜索方式与向上搜索方式相似,不同的是向下搜索和向上搜索的依存关系不同,相同的是都考虑到了词性和依存关系,同时也对关键词进行了扩展。具体地,向下搜索时,搜索依存关系为定中关系、并列关系以及状中结构的孩子节点,具体包括:
对于定中关系,将定中关系中词性为量词的孩子节点对应的词语标记为关键语义信息;
对于并列关系,直接将孩子节点对应的词语标记为关键语义信息作为关键词。
在本发明中,对于中医病情文本来说,关键语义信息是指中医病情文本中的症状词、病位词、症状程度词及症状有无关系等信息。
本发明提供的基于关键词的中医病情文本关键语义信息提取方法克服了传统方法需要大量标注数据、不能很好适应语法不规范,主谓宾不全的文本、运行效率慢等问题,通过使用关键词作为核心,进一步使用依存句法树,最终得到病情文本关键语义信息。本发明具备以下优势:
1)无需标注数据。本发明是无监督学习的,不需要标注数据,极大的减少了人力成本;
2)运行效率高。本发明是基于依存句法树的。一般地,传统有监督的实体识别和实体关系抽取算法都是基于深度学习的,网络参数多,运行效率慢;
3)相对于传统的依据句子主谓宾进行关键语义信息抽取方法,本发明能够更好的适应语法不规范,主谓宾不全的文本,比如中医病情文本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是本发明基于关键词的中医病情文本关键语义信息提取方法的流程图;
图2是本发明生成的依存句法树结果图;
图3是本发明向下搜索规则示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
如图1所示,本实施例提供的基于关键词的中医病情文本关键语义信息提取方法,包括以下步骤:
S101,对中医病情文本进行分句、分词处理。
具体地,依据中医病情文本中的中文断句标点对中医病情文本进行分句,并采用哈工大的LTP工具,并加载领域词典、停用词表进行分词。
S102,对分句、分词处理结果生成依存句法树。
具体地,对中医病情文本中每一句进行依存句法树生成,依存句法树生成使用LTP工具,其中的依存关系包括主谓关系(SBV)、动宾关系(VOB)、定中关系(ATT)、状中结构(ADV)、并列关系(COO)、核心关系(HED)等。
S103,初始化中医病情文本中的关键词,生成关键词队列Q。
本实施例中,采用TF-IDF算法提取中医病情文本中的关键词,形成关键词队列Q。
S104,基于依存句法树,对关键词队列Q中的词语q为起始点,在依存句法树中进行向上搜索,搜索得到的词语标记为关键语义信息。
向上搜索依存关系为VOB、ATT和SBV的父亲节点,且ATT关系节点词性需要为动词或名词,然后进行标记。对于SBV关系继续搜索其孩子为ADV、VOB的节点进行标记,并将VOB节点词语加入关键词队列Q,被标记的词语即为关键语义信息。
S105,向上搜索结束后,S104中的词语q为起始点,在依存句法树中进行向下搜索,搜索得到的词语标记为关键语义信息。
向下搜索同向上搜索相似。向下搜索依存关系为ATT、COO和ADV的孩子节点,且ATT关系节点词性为量词,然后进行标记,同时将COO关系节点词加入关键词队列Q,被标记的基于即为关键语义信息。
S106,重复S102~S105,对中医病情文本中的每个句子进行关键语义信息提取。
实验例
假设中医病情文本A内容如下:患者一周前无明显诱因下出现咳嗽,发热,无咳痰。
经过上述S101分句分词后得到,中医病情文本A:患者一周前无明显诱因下出现咳嗽,发热,无咳痰
经过上述S102得到中医病情文本A的依存句法树结果,如图2所示。
经过上述S103得到中医病情文本A的关键词队列Q如下:Q=[“咳嗽”、“发热”、“咳痰”]
利用上述S104向上搜索时,会有:
“咳嗽”一词向上搜索为“出现”
“发热”一词向上搜索为空
“咳痰”一词向上搜索为“无”
利用上述S105向下搜索时,会有:“咳嗽”、“发热”、“咳痰”三词向下搜索均为空。
向下搜索原则如图3中所示,ADV关系是为了提取症状严重程度等信息。VOB关系是为了提取动词,比如“出现咳嗽”,ATT关系主要是为了提取病位修辞词,比如“两肺”中的“两”一词。COO表示该词和关键词呈现并列关系,可以进行关键词扩充,另外,关键词的SBV父节点的VOB子节点也可以作为关键词扩充,见图3中的虚线圆节点。
则认为“出现”、“咳嗽”、“发热”、“无”、“咳痰”为关键语义信息,其他词为非关键语义信息。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于关键词的中医病情文本关键语义信息提取方法,包括以下步骤:
(1)对中医病情文本进行分句、分词处理;
(2)对每句分词结果生成依存句法树;
(3)初始化中医病情文本中的关键词,生成关键词队列;
(4)基于依存句法树,以关键词队列中的任意词为起始点,在依存句法树中进行向上搜索和向下搜索,搜索得到的词语标记为关键语义信息。
2.如权利要求1所述的基于关键词的中医病情文本关键语义信息提取方法,其特征在于,采用LTP中文分词或者结巴中文分词工具对中医病情文本进行分句,分词处理。
3.如权利要求1所述的基于关键词的中医病情文本关键语义信息提取方法,其特征在于,依存句法树中的依存关系包括主谓关系、动宾关系、定中关系、状中结构、并列关系以及核心关系。
4.如权利要求1所述的基于关键词的中医病情文本关键语义信息提取方法,其特征在于,采用TF-IDF算法或者TextRank算法提取中医病情文本中的关键词。
5.如权利要求3所述的基于关键词的中医病情文本关键语义信息提取方法,其特征在于,向上搜索时,搜索依存关系为动宾关系、定中关系以及主谓关系的父亲节点,具体地,
对于动宾关系,直接将动宾关系中的父亲节点对应的词语标记为关键语义信息;
对于定中关系,将定中关系中词性为动词或名词的父亲节点对应的词语标记为关键语义信息;
对于主谓关系,搜索到父亲节点后,继续搜索该父亲节点的孩子节点,当孩子节点与父亲节点满足状中结构、动宾关系时,则该孩子节点对应的词语标记为关键语义信息。
6.如权利要求3所述的基于关键词的中医病情文本关键语义信息提取方法,其特征在于,向下搜索时,搜索依存关系为定中关系、并列关系以及状中结构的孩子节点,具体包括:
对于定中关系,将定中关系中词性为量词的孩子节点作为关键词;
对于并列关系,直接将孩子节点作为关键词。
CN201910232087.8A 2019-03-26 2019-03-26 一种基于关键词的中医病情文本关键语义信息提取方法 Active CN109992777B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910232087.8A CN109992777B (zh) 2019-03-26 2019-03-26 一种基于关键词的中医病情文本关键语义信息提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910232087.8A CN109992777B (zh) 2019-03-26 2019-03-26 一种基于关键词的中医病情文本关键语义信息提取方法

Publications (2)

Publication Number Publication Date
CN109992777A true CN109992777A (zh) 2019-07-09
CN109992777B CN109992777B (zh) 2020-10-13

Family

ID=67131569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910232087.8A Active CN109992777B (zh) 2019-03-26 2019-03-26 一种基于关键词的中医病情文本关键语义信息提取方法

Country Status (1)

Country Link
CN (1) CN109992777B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110534170A (zh) * 2019-08-30 2019-12-03 志诺维思(北京)基因科技有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN112364648A (zh) * 2020-12-02 2021-02-12 中金智汇科技有限责任公司 一种关键词抽取方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150347521A1 (en) * 2014-05-08 2015-12-03 Koninklijke Philips N.V. Systems and methods for relation extraction for chinese clinical documents
CN106485525A (zh) * 2015-08-31 2017-03-08 百度在线网络技术(北京)有限公司 信息处理方法及装置
CN108319627A (zh) * 2017-02-06 2018-07-24 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN109062902A (zh) * 2018-08-17 2018-12-21 科大讯飞股份有限公司 一种文本语义表达方法及装置
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150347521A1 (en) * 2014-05-08 2015-12-03 Koninklijke Philips N.V. Systems and methods for relation extraction for chinese clinical documents
CN106485525A (zh) * 2015-08-31 2017-03-08 百度在线网络技术(北京)有限公司 信息处理方法及装置
CN108319627A (zh) * 2017-02-06 2018-07-24 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN109062902A (zh) * 2018-08-17 2018-12-21 科大讯飞股份有限公司 一种文本语义表达方法及装置
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈广: "基于关键语义信息的中医肾病病情文本分类问题研究", 《中国优秀硕士学位论文全文数据库医药卫生科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110534170A (zh) * 2019-08-30 2019-12-03 志诺维思(北京)基因科技有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN112364648A (zh) * 2020-12-02 2021-02-12 中金智汇科技有限责任公司 一种关键词抽取方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN109992777B (zh) 2020-10-13

Similar Documents

Publication Publication Date Title
CN110825881B (zh) 一种建立电力知识图谱的方法
KR100533810B1 (ko) 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법
CN105955956B (zh) 一种汉语隐式篇章关系识别方法
CN112487202B (zh) 融合知识图谱与bert的中文医学命名实体识别方法、装置
CN107368547A (zh) 一种基于深度学习的智能医疗自动问答方法
CN105701253A (zh) 中文自然语言问句语义化的知识库自动问答方法
KR102149701B1 (ko) 텍스트 데이터에서 의미상 대응하는 자연어-sql의 매핑 방법
CN111768869B (zh) 面向智能问答系统的医学指南图谱化构建搜索系统及方法
CN110838368A (zh) 一种基于中医临床知识图谱的机器人主动问诊方法
CN110032649B (zh) 一种中医文献的实体间关系抽取方法及装置
CN111310458A (zh) 一种基于多特征融合的主观题自动评分方法
CN108681574A (zh) 一种基于文本摘要的非事实类问答答案选择方法及系统
CN103942192B (zh) 一种双语最大名词组块分离-融合的翻译方法
CN109408814A (zh) 基于释义基元词的中英跨语言词汇表征学习方法及系统
CN112948543A (zh) 基于加权TextRank的多语言多文档摘要抽取方法
CN107844608B (zh) 一种基于词向量的句子相似度比较方法
CN113343694A (zh) 一种医疗命名实体识别方法及系统
CN112632250A (zh) 一种多文档场景下问答方法及系统
CN110390022A (zh) 一种自动化的专业知识图谱构建方法
CN109992777A (zh) 一种基于关键词的中医病情文本关键语义信息提取方法
CN111814485A (zh) 一种基于海量标准文献数据的语义解析方法及装置
CN106156013A (zh) 一种固定搭配型短语优先的两段式机器翻译方法
CN113408307B (zh) 一种基于翻译模板的神经机器翻译方法
Gyawali et al. Surface realisation from knowledge-bases
CN112417170A (zh) 面向不完备知识图谱的关系链接方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant