CN107423289A

CN107423289A - 一种跨类型乳腺肿瘤临床文档的结构化处理方法

Info

Publication number: CN107423289A
Application number: CN201710590651.4A
Authority: CN
Inventors: 陈德华; 车楠楠; 朱立峰; 乐嘉锦; 潘乔
Original assignee: Ruinjin Hospital Affiliated to Shanghai Jiaotong University School of Medicine Co Ltd; Donghua University
Current assignee: Ruinjin Hospital Affiliated to Shanghai Jiaotong University School of Medicine Co Ltd; Donghua University; National Dong Hwa University
Priority date: 2017-07-19
Filing date: 2017-07-19
Publication date: 2017-12-01

Abstract

本发明提供了一种跨类型乳腺肿瘤临床文档的结构化处理方法，步骤1：对乳腺肿瘤临床文档的文本进行预处理，包括：切分短文本、及对切分后的短文本进行分词；步骤2：针对分词结果，进行单类型报告的部分语料标注；步骤3：采用所述单类型报告的语料，实现跨类型实体识别；步骤4：提取出结构化结果，包括：组织、位置、特征、特征值。本发明提供的方法克服了现有技术的不足，结构化信息的提取是自动形成，节省了人力与时间，且不局限于报告类型，可以应用于不同报告的特征识别与文本结构化，解决了中文跨类型临床文档的结构化处理问题。方法实现简单，处理速度快，处理结果准确率高。

Description

一种跨类型乳腺肿瘤临床文档的结构化处理方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于跨类型半监督学习的乳腺肿瘤临床文档的结构化处理方法。

背景技术

由于近些年计算机技术高速发展，导致各行业信息电子存储方式越来越流行，医疗数据尤甚，现如今病人的病历已逐渐转换为电子病历，取代手写纸张病历。目前医院累积了大量电子病历，虽然与传统的纸质病历相比，电子病历对于数据的采集和分析更加容易，但是由于电子病历是纸质病历的电子化存储，因此其中病人病情描述记录以及病理报告中的检验信息都是自然语言形式存储的医疗记录，为了方便管理数据并从中得到有用的信息，自然语言结构化处理成为了必不可少的手段。

医疗信息较复杂且更灵活，不同类型的临床文档报告有各自的语言特点，所以现有的结构化实现技术很难满足跨类型临床文档结构化要求。因此，如何实现跨类型临床文档结构化处理成为了目前急需解决的关键问题之一。

发明内容

本发明要解决的技术问题是如何实现跨类型乳腺肿瘤临床文档的结构化处理。

为了解决上述技术问题，本发明的技术方案是提供一种跨类型乳腺肿瘤临床文档的结构化处理方法，其特征在于，包括如下步骤：

步骤1：对乳腺肿瘤临床文档的文本进行预处理，包括：切分短文本、及对切分后的短文本进行分词；

步骤2：针对分词结果，进行单类型报告的部分语料标注；

步骤3：采用所述单类型报告的语料，实现跨类型实体识别；

步骤4：提取出结构化结果，包括：组织、位置、特征、特征值。

优选地，所述步骤1中，切分短文本是指：通过截取方法将乳腺肿瘤临床文档的文本分为不包含两个特征的短句。

优选地，所述步骤1中，分词是指：针对切分后的短文本，采用jieba分词工具，结合肉眼观察和历史资料制作的自定义词典，切分成短语。

优选地，所述步骤2中，语料标注是指：采用句法分析与人工标注相结合的方式，将步骤1中的部分分词结果标注为I-X形式，标注方式符合CoNLL2003公布的标注数据集构建模式。

更优选地，所述语料标注的实体类别包括：组织ORG、位置LOC、特征IND、特征值ATT。

优选地，所述步骤3中，实体识别是指：针对步骤2中构建的单类型报告的语料库，采用协同训练模型实现跨类型实体识别，选择LSTM-CRF算法做学习器，生成实体识别模型；针对未标注语料，采用实体识别模型进行标注，对实验结果进行反馈，扩大标注数据集规模，实现跨类型临床文档实体识别。

优选地，所述步骤4中，提取出结构化结果是指：针对步骤3中识别的实体，将特征与特征值相对应，按照同组织不同位置的形式进行区分，形成特征-特征值的键对模式。

本发明提供的方法克服了现有技术的不足，结构化信息的提取是自动形成，节省了人力与时间，且不局限于报告类型，可以将模型应用于不同报告的特征识别与文本结构化，解决了中文跨类型临床文档的结构化处理问题。方法实现简单，处理速度快，处理结果准确率高。

附图说明

图1为乳腺肿瘤临床文档的层次结构图；

图2为语料库构建的数据流图；

图3为协同训练的数据流图；

图4为长短期记忆网络-条件随机场学习器的数据流图；

图5为长短期记忆网络的数据流图；

图6为条件随机场的数据流图；

图7为结构化信息提取的数据流图；

图8为跨类型乳腺肿瘤临床文档的结构化处理方法整体流程图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。

结合图1，本发明针对非结构化中文乳腺跨类型临床文档进行结构化处理，步骤为：(1)对临床文本进行预处理，包括切分短文本及对该短文本进行分词；

(2)针对分词结果进行单类型报告的部分语料标注；(3)采用半监督学习实现跨类型报告的实体识别；(4)提取出组织、位置、特征、特征值等结构化结果。

乳腺超声文本包含以下信息，如表1：

表1 中文乳腺超声样本数据案例

乳腺X光文本包含以下信息，如表2：

表2 中文乳腺X光样本数据案例

对上表进行分析发现，虽然不同医疗报告的语言特点、语义结构不同，但多由若干句独立的短句构成，短句间用“。”或“；”隔开，且每个短句均会包含一个检查组织，而每个短句又会包含不同的位置描述，针对不同的位置含有若干个特征项，每个特征项一般由特征名和特征值成对组成，不同特征项之间由“，”分隔开。首先对临床文档进行预处理，包括以下两个步骤：

1.临床文档预处理：

1)短文本切分：由上述分析可知，针对短文本切分可以采取以下两种方式。

(1)可以对医疗文本针对标点符号进行划分，将医疗文本按照标点符号“。”、“；”和“，”分成短句；

(2)有特定的词语标识了短句的间隔，如“呈”、“见”等，定义其为断点词。将常见的分隔标点和词汇作为短句的切分规则。判断短句中是否包含断点词，若包含，则判断断点词前是否为标点符号，若是，则将断点词的前一句与该短句切分为一句，若不是忽略。若不包含断点词，则直接切分。

针对上述方法，运行表1中的实验数据，可得以下结果：

2)分词：针对上述切分结果进行分词操作。运用jieba工具对例句进行分词，发现分词结果并不完全符合要求。对医疗数据语法进行分析，由于医疗数据的特殊性，导致其与其他自然语言有着明显的区别，其中包含大量医疗专业术语、医务人员习惯用语及医学英语缩略词，这严重影响了分词效果。为解决此问题，首先针对大量医疗文档进行医疗专有词语词典构建，再在词典中填写可能出现的其他描述情况，涵盖面要求尽量广，同时上网搜索同一个词语可能出现的其他描述方式，将结果一同写入词典中，将其存储为jieba工具自定义词典，提高分词准确率。

至此，临床文档预处理结束，下面进行实体识别，主要包括以下两个步骤：

2.跨类型半监督学习实体识别

1)单报告部分语料标注：实体识别中标注语料是首位，现有的语料标注方式有两种：人工和机械。为减少人力和时间的耗费，同时保证标注的准确性，采用句法分析与医疗规则相结合的方式，如图2所示。

(1)句法分析方法：判断核心关系词的词性，定义以下规则：

规则1：核心词为动词时，其子结点依赖关系为主谓关系，且词性为名词，则定义该动词为IND，名词为ATT；其子结点依赖关系为定中关系，且词性为nz，则定义其为LOC；其子结点依赖关系为定中关系，且词性为n，则定义其为ORG，附加关系定义为O。

规则2：核心词为形容词时，定义该形容词为ATT，其子结点依赖关系为主谓关系或并列关系，且其词性为名词，则定义该名词为IND，其余关系标注如规则1。

规则3：若定中关系中包含两个词语，词性为名词和形容词，则将其合并，定义为IND或ATT，其余关系标注如规则1。

(2)医疗规则方法：由于医疗语句的特殊性，导致标注数据集覆盖范围有限，而句法分析结果并不完全准确且无法覆盖所有医疗语句，因此需在其中手动添加医疗规则。对医疗文档研究分析，可定义以下规则：

规则4：短句中包含断点词：若短句中含断点词“见”，且其前向词语词性为n或nz时，定义n为ORG，nz为LOC，其后向词语词性若为形容词，定义为ATT，若为名词或动词，定义为IND。例如“双侧乳腺见丰富血流信号”，则标注如下：“双侧LOC_乳腺_ORG见丰富_ATT血流信号_IND”，若短句中包含断点词：“呈”，且其前向词词性为名词，则定义为IND，其后向词词性为名词或形容词，则定义为ATT。例如“形状呈椭圆形”，则标注如下：“形状_IND呈椭圆形_ATT”；

规则5：若短句中包含数字，则定义数字为ATT，定义数字前向词为IND；

规则6：若短句中包含冒号，且其前向词为名词，则定义为IND，其后向词为数字或名词或形容词，则定义为ATT。

根据上述描述，标注语料举例如下：

2)跨类型实体识别：为实现跨类型协同训练实体识别，需结合上述语料标注方式。结合图3～图6，操作共包括以下步骤：

(1)将乳腺超声报告数据保存至数据集U_C中，并对U_C中的数据采用步骤1的操作进行切分，选取U_C中的部分数据，采用步骤2构建部分标注语料，并将结果保存至数据集M_C中；针对乳腺X光数据采用同样操作，原始数据保存至数据集U_X，标注语料保存至数据集M_X。

(2)选取LSTM-CRF模型做协同训练的基学习器，将M_C与M_X中的数据采用word2vec工具进行词向量转化，结果分别传入LSTM-CRF模型，针对数据集M_C得到模型LC_C，针对数据集M_X得到模型LC_X。

其中，LSTM-CRF模型为现有技术，参见文献：Raghavendra Chalapathy，EhsanZare Borzeshi，Massimo Piccardi.Bidirectional LSTM-CRF forClinical ConceptExtraction[J].Proceedingsof the Clinical Natural Language ProcessingWorkshop，2016，7-12。

(3)在数据集U_C中选取部分未标注数据导入模型LC_C中，同时在数据集U_X中选取部分未标注数据导入模型LC_X中，进行实体识别。

(4)判断识别结果。将短句序列标注得分定义为ε，并自定义一个常量ST，若识别结果中某短句的打分ε大于常量ST，则将其作为返回值，保存至数据集中，超声结果保存至数据集N_C中，X光结果保存至数据集N_X中。

(5)将反馈数据集N与标注数据集M同时作为LSTM-CRF模型的输入，扩大标注数据集规模，重复上述步骤，重新训练学习模型，直至结果收敛。

至此，基于跨类型协同训练实体识别结束，下面进行结构化信息抽取。

3.结构化信息抽取

结合图7，首先区分医疗组织：寻找标注结果为ORG的词语，截取两个ORG之间的结果作为上一个组织的相关描述，并将同属于一个组织的结果保存在一个表格中。针对同一个组织按照LOC标注词语进行位置切分，与上述方法相同，同一个位置的结果保存在同一列，如将“左I-LOC”作为切分标准，将其保存在第一列，将“右I-LOC”保存在第二列，而将“双I-LOC”保存在第三列。最后将同一短句中标注结果为IND和ATT的关系对进行保存，IND作为列名，而ATT作为列值。注意，该操作中会出现双侧特征与左右侧特征重复的情况出现，此时需将双侧与左右侧融合，若针对某一特征左右侧没有特征值，则将双侧结果平分覆盖至左右侧，若含有特征值，则忽略双侧的结果。

综上，图8所示为跨类型乳腺肿瘤临床文档的结构化处理方法整体流程图。试验表明，本实施例提供的方法解决了中文跨类型临床文档的结构化处理问题，方法实现简单，处理速度快，处理结果准确率高。

以上所述，仅为本发明的较佳实施例，并非对本发明任何形式上和实质上的限制，应当指出，对于本技术领域的普通技术人员，在不脱离本发明方法的前提下，还将可以做出若干改进和补充，这些改进和补充也应视为本发明的保护范围。凡熟悉本专业的技术人员，在不脱离本发明的精神和范围的情况下，当可利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时，凡依据本发明的实质技术对上述实施例所作的任何等同变化的更动、修饰与演变，均仍属于本发明的技术方案的范围内。

Claims

1.一种跨类型乳腺肿瘤临床文档的结构化处理方法，其特征在于，包括如下步骤：

步骤2：针对分词结果，进行单类型报告的部分语料标注；

步骤3：采用所述单类型报告的语料，实现跨类型实体识别；

2.如权利要求1所述的一种跨类型乳腺肿瘤临床文档的结构化处理方法，其特征在于：所述步骤1中，切分短文本是指：通过截取方法将乳腺肿瘤临床文档的文本分为不包含两个特征的短句。

3.如权利要求1所述的一种跨类型乳腺肿瘤临床文档的结构化处理方法，其特征在于：所述步骤1中，分词是指：针对切分后的短文本，采用jieba分词工具，结合肉眼观察和历史资料制作的自定义词典，切分成短语。

4.如权利要求1所述的一种跨类型乳腺肿瘤临床文档的结构化处理方法，其特征在于：所述步骤2中，语料标注是指：采用句法分析与人工标注相结合的方式，将步骤1中的部分分词结果标注为I-X形式，标注方式符合CoNLL2003公布的标注数据集构建模式。

5.如权利要求4所述的一种跨类型乳腺肿瘤临床文档的结构化处理方法，其特征在于：所述语料标注的实体类别包括：组织ORG、位置LOC、特征IND、特征值ATT。

6.如权利要求1所述的一种跨类型乳腺肿瘤临床文档的结构化处理方法，其特征在于：所述步骤3中，实体识别是指：针对步骤2中构建的单类型报告的语料库，采用协同训练模型实现跨类型实体识别，选择LSTM-CRF算法做学习器，生成实体识别模型；针对未标注语料，采用实体识别模型进行标注，对实验结果进行反馈，扩大标注数据集规模，实现跨类型临床文档实体识别。

7.如权利要求1所述的一种跨类型乳腺肿瘤临床文档的结构化处理方法，其特征在于：所述步骤4中，提取出结构化结果是指：针对步骤3中识别的实体，将特征与特征值相对应，按照同组织不同位置的形式进行区分，形成特征-特征值的键对模式。