CN109992777A

CN109992777A - 一种基于关键词的中医病情文本关键语义信息提取方法

Info

Publication number: CN109992777A
Application number: CN201910232087.8A
Authority: CN
Inventors: 姜晓红; 陈广; 吴健; 吴朝晖
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2019-07-09
Anticipated expiration: 2039-03-26
Also published as: CN109992777B

Abstract

本发明公开了一种基于关键词的中医病情文本关键语义信息提取方法，包括以下步骤：(1)对中医病情文本进行分句、分词处理；(2)对分句、分词处理结果生成依存句法树；(3)初始化中医病情文本中的关键词，生成关键词队列；(4)基于依存句法树，对关键词队列中的任意词为起始点，在依存句法树中进行向上搜索和向下搜索，搜索得到的词语标记为关键语义信息。该方法以关键词作为提取关键语义信息的一个特征，通过依存句法树来获得最终结果。

Description

一种基于关键词的中医病情文本关键语义信息提取方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于关键词的中医病情文本关键语义信息提取方法。

背景技术

中医药是我国医学科学的特色。目前。我国在中医药信息化上取的了不错的进展，为中医药智能化打下了良好的基础。中医药信息化建设主要体现在2个方面：1)中医药文献信息化方面；20世纪80年代，《黄帝内经素问》、《本草纲目》等10多部中医药书籍实现数字化检索；2)中医药基础数据库建设方面。1998年开始，吴朝晖教授带领的团队联合全国30多个中医药研究机构，经过近300名中医药科学工作者的努力，在全国范围内建成了17个分中心的分布式多融合平台，已经集成了50多种中医药基础数据库。

随着人工智能的快速发展，带动了智能医疗的发展，不同于西医有许多医学图像数据，对中医来说，中医智能医疗主要是对中医病情文本的处理，其中病情文本往往包括一些西医检测数据，比如血常规、尿常规等数据，这些数据给基于文本分析的算法带来了一定困扰，另外，对于中医病情文本来说，往往更加关注病症、病位、病症严重程度及病症有无关系等信息，因此提取中医病情文本中的关键语义信息是有必要的。

目前，关键语义信息提取可以分为2大类，一类是有监督的实体识别算法来抽取关键语义信息，另一类是基于主谓宾结构来抽取关键语义信息。有监督的方法需要大量标注数据，基于主谓宾结构的虽然是无监督的方法，但需要句子主谓宾结构明显，因此，急需一种方法能够具备以下特征：

1)无监督方法。无监督方法可以减少标注成本，极大地减少了人力成本；

2)应对语法不规范，主谓宾不全的文本。对于中医病情文本来说，其往往会忽略主语或者句子其他成分，如“出现咳嗽”，只有谓语和宾语，因此，提取中医病情文本关键语义信息需要考虑到主谓宾不齐全这样的语法特征；

3)运行效率高等。一般地，实体识别都是基于深度学习的，网络参数多，运行效率慢。

发明内容

本发明的目的在于提出一种基于关键词的中医病情文本关键语义信息提取方法，以关键词作为提取关键语义信息的一个特征，通过依存句法树来获得最终结果。

为实现上述发明目的，本发明提供以下技术方案：

一种基于关键词的中医病情文本关键语义信息提取方法，包括以下步骤：

(1)对中医病情文本进行分句、分词处理；

(2)对每句分词结果生成依存句法树；

(3)初始化中医病情文本中的关键词，生成关键词队列；

(4)基于依存句法树，以关键词队列中的任意词为起始点，在依存句法树中进行向上搜索和向下搜索，搜索得到的词语标记为关键语义信息。

本发明中，主要是依据中医病情文本中的“；”和“。”等中文断句标点，对中医病情文本进行分句。同时，采用语言技术平台(LTP)或者结巴中文分词工具对中医病情文本进行分词处理。

采用哈工大的LTP工具进行分词时，加载领域词典、停用词表。其中，领域词典是中医领域相关术语集合，停用词典是中医领域相关的停用词表，比如“病人”、“病史”等词。

生成的依存句法树主要是依赖依存关系，一个依次关系包含两个词，一个是核心词，一个是修饰词。具体地，依存句法树中的依存关系包括主谓关系(SBV)、动宾关系(VOB)、定中关系(ATT)、状中结构(ADV)、并列关系(COO)以及核心关系(HED)。

本发明中，可以采用TF-IDF算法或者TextRank算法提取中医病情文本中的关键词，形成关键词队列。

步骤(4)中，对关键词队列中的任意词依次进行向上搜索和向下搜索，具体地，向上搜索时，搜索依存关系为动宾关系、定中关系以及主谓关系的父亲节点，具体地，

对于动宾关系，直接将动宾关系中的父亲节点对应的词语标记为关键语义信息；

对于定中关系，将定中关系中词性为动词或名词的父亲节点对应的词语标记为关键语义信息；

对于主谓关系，搜索到父亲节点后，继续搜索该父亲节点的孩子节点，当孩子节点与父亲节点满足状中结构、动宾关系时，则该孩子节点对应的词语标记为关键语义信息。

在进行向上搜索的过程中，不仅仅是融合了词性和词，还对关键词进行了扩充。

向下搜索的搜索方式与向上搜索方式相似，不同的是向下搜索和向上搜索的依存关系不同，相同的是都考虑到了词性和依存关系，同时也对关键词进行了扩展。具体地，向下搜索时，搜索依存关系为定中关系、并列关系以及状中结构的孩子节点，具体包括：

对于定中关系，将定中关系中词性为量词的孩子节点对应的词语标记为关键语义信息；

对于并列关系，直接将孩子节点对应的词语标记为关键语义信息作为关键词。

在本发明中，对于中医病情文本来说，关键语义信息是指中医病情文本中的症状词、病位词、症状程度词及症状有无关系等信息。

本发明提供的基于关键词的中医病情文本关键语义信息提取方法克服了传统方法需要大量标注数据、不能很好适应语法不规范，主谓宾不全的文本、运行效率慢等问题，通过使用关键词作为核心，进一步使用依存句法树，最终得到病情文本关键语义信息。本发明具备以下优势：

1)无需标注数据。本发明是无监督学习的，不需要标注数据，极大的减少了人力成本；

2)运行效率高。本发明是基于依存句法树的。一般地，传统有监督的实体识别和实体关系抽取算法都是基于深度学习的，网络参数多，运行效率慢；

3)相对于传统的依据句子主谓宾进行关键语义信息抽取方法，本发明能够更好的适应语法不规范，主谓宾不全的文本，比如中医病情文本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是本发明基于关键词的中医病情文本关键语义信息提取方法的流程图；

图2是本发明生成的依存句法树结果图；

图3是本发明向下搜索规则示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

如图1所示，本实施例提供的基于关键词的中医病情文本关键语义信息提取方法，包括以下步骤：

S101，对中医病情文本进行分句、分词处理。

具体地，依据中医病情文本中的中文断句标点对中医病情文本进行分句，并采用哈工大的LTP工具，并加载领域词典、停用词表进行分词。

S102，对分句、分词处理结果生成依存句法树。

具体地，对中医病情文本中每一句进行依存句法树生成，依存句法树生成使用LTP工具，其中的依存关系包括主谓关系(SBV)、动宾关系(VOB)、定中关系(ATT)、状中结构(ADV)、并列关系(COO)、核心关系(HED)等。

S103，初始化中医病情文本中的关键词，生成关键词队列Q。

本实施例中，采用TF-IDF算法提取中医病情文本中的关键词，形成关键词队列Q。

S104，基于依存句法树，对关键词队列Q中的词语q为起始点，在依存句法树中进行向上搜索，搜索得到的词语标记为关键语义信息。

向上搜索依存关系为VOB、ATT和SBV的父亲节点，且ATT关系节点词性需要为动词或名词，然后进行标记。对于SBV关系继续搜索其孩子为ADV、VOB的节点进行标记，并将VOB节点词语加入关键词队列Q，被标记的词语即为关键语义信息。

S105，向上搜索结束后，S104中的词语q为起始点，在依存句法树中进行向下搜索，搜索得到的词语标记为关键语义信息。

向下搜索同向上搜索相似。向下搜索依存关系为ATT、COO和ADV的孩子节点，且ATT关系节点词性为量词，然后进行标记，同时将COO关系节点词加入关键词队列Q，被标记的基于即为关键语义信息。

S106，重复S102～S105，对中医病情文本中的每个句子进行关键语义信息提取。

实验例

假设中医病情文本A内容如下：患者一周前无明显诱因下出现咳嗽，发热，无咳痰。

经过上述S101分句分词后得到，中医病情文本A：患者一周前无明显诱因下出现咳嗽，发热，无咳痰

经过上述S102得到中医病情文本A的依存句法树结果，如图2所示。

经过上述S103得到中医病情文本A的关键词队列Q如下：Q＝[“咳嗽”、“发热”、“咳痰”]

利用上述S104向上搜索时，会有：

“咳嗽”一词向上搜索为“出现”

“发热”一词向上搜索为空

“咳痰”一词向上搜索为“无”

利用上述S105向下搜索时，会有：“咳嗽”、“发热”、“咳痰”三词向下搜索均为空。

向下搜索原则如图3中所示，ADV关系是为了提取症状严重程度等信息。VOB关系是为了提取动词，比如“出现咳嗽”，ATT关系主要是为了提取病位修辞词，比如“两肺”中的“两”一词。COO表示该词和关键词呈现并列关系，可以进行关键词扩充，另外，关键词的SBV父节点的VOB子节点也可以作为关键词扩充，见图3中的虚线圆节点。

则认为“出现”、“咳嗽”、“发热”、“无”、“咳痰”为关键语义信息，其他词为非关键语义信息。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于关键词的中医病情文本关键语义信息提取方法，包括以下步骤：

(1)对中医病情文本进行分句、分词处理；

(2)对每句分词结果生成依存句法树；

(3)初始化中医病情文本中的关键词，生成关键词队列；

2.如权利要求1所述的基于关键词的中医病情文本关键语义信息提取方法，其特征在于，采用LTP中文分词或者结巴中文分词工具对中医病情文本进行分句，分词处理。

3.如权利要求1所述的基于关键词的中医病情文本关键语义信息提取方法，其特征在于，依存句法树中的依存关系包括主谓关系、动宾关系、定中关系、状中结构、并列关系以及核心关系。

4.如权利要求1所述的基于关键词的中医病情文本关键语义信息提取方法，其特征在于，采用TF-IDF算法或者TextRank算法提取中医病情文本中的关键词。

5.如权利要求3所述的基于关键词的中医病情文本关键语义信息提取方法，其特征在于，向上搜索时，搜索依存关系为动宾关系、定中关系以及主谓关系的父亲节点，具体地，

6.如权利要求3所述的基于关键词的中医病情文本关键语义信息提取方法，其特征在于，向下搜索时，搜索依存关系为定中关系、并列关系以及状中结构的孩子节点，具体包括：

对于定中关系，将定中关系中词性为量词的孩子节点作为关键词；

对于并列关系，直接将孩子节点作为关键词。