CN111180076B

CN111180076B - 一种基于多层语义分析的医疗信息提取方法

Info

Publication number: CN111180076B
Application number: CN201811347337.4A
Authority: CN
Inventors: 阮耀平; 汤若云; 罗翔凤; 张天泽
Original assignee: Linkdoc Technology Beijing Co ltd
Current assignee: Linkdoc Technology Beijing Co ltd
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2023-09-05
Anticipated expiration: 2038-11-13
Also published as: CN111180076A

Abstract

本发明提供了一种基于多层语义分析的医疗信息提取方法，该方法包括训练过程和提取过程，具体包括以下步骤：A、获取多层标注数据；B、将多层标注数据进行分层处理，并将分层后的数据派发到所属事件层；C、利用每层标注数据训练该层对应的事件层的模型；D、利用训练好的模型树将病历文本从第一事件层逐层提取数据，并依次向上一事件层输出提取的数据；E、将最高事件层提取的数据作为提取结果，得到医疗信息。本发明不依赖于现有方法中对谓词的使用，并且由于多层嵌套的设计拥有较优的泛化能力，从相似的病历文本中提取结构化信息所需要的标注量相比于传统的模式匹配大大降低。

Description

一种基于多层语义分析的医疗信息提取方法

技术领域

本发明涉及智慧医疗技术领域，特别涉及一种基于多层语义分析的医疗信息提取方法。

背景技术

随着信息化在医院中的普及，大量病历数据以电子病历的形式存储在医院的HIS(Hospital Information System,HIS)系统中，并且利用以电子病历数据为代表的临床医疗数据来辅助医疗诊断以及建立用户健康信息模型已经成为了医疗信息学的发展的方向。然而，由于我国研究起步较晚，且存储的电子病历数据多数是未结构化的文本，具有自然语言表达较灵活，以及包含众多的专业术语等特点，进行电子病历的信息抽取研究有一定的难度，使得其中包含的重要医疗信息无法被用于信息检索。

当前，事件抽取技术经常被用于从文本中提取结构化数据，其中，基于模式匹配和基于机器学习的事件提取技术，已经在医疗领域，尤其是基因表达方向取得了较为广泛的使用。基于模式匹配的方法可以获取较高性能，但是当前主要使用谓词作为事件触发词，而在中文医学领域中，电子病历的写法通常是比较有限的，电子病历中普遍缺少带有强烈事件特征的谓词，使得当前基于谓词的模式匹配方法较难直接应用，移植性较差。基于机器学习的方法尽管移植性较好，但是需要大量标注语料，而电子病历的语料在标注时需要大量的专业领域知识，标注语料的构建存在着较大困难，因此表现较为一般。有鉴于此，本专利提供了一种可以从病历文本中提取结构化医疗信息的，基于多层语义分析的方法。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于多层语义分析的医疗信息提取方法，本方法不依赖于谓词的使用，并且由于多层嵌套的设计拥有较优的泛化能力，从相似的病历文本中提取结构化信息所需要的标注量相比于传统的模式匹配大大降低。

本发明采用的技术方案为，一种基于多层语义分析的医疗信息提取方法，该方法通过多层标注数据训练模型并利用训练好的模型提取病历文本中的医疗信息，具体包括以下步骤：

A、通过标注端获取多层标注数据；

B、将多层标注数据进行分层处理，并将分层后的数据派发到所属事件层；

C、利用每层标注数据训练该层对应的事件层的模型；

D、利用训练好的模型树将病历文本从第一事件层逐层提取数据，并依次向上一事件层输出提取的数据；

E、将最高事件层提取的数据作为提取结果，得到医疗信息。

由上，本方法基于现有事件标注方法进行改进，将传统的谓词标注改成整个事件的文本标注，并将医疗文本进行分层，形成多个事件并对多个事件进行嵌套标注，形成多层标注数据。训练过程中，首先将多层标注数据逐层拆分，然后分层派发给每层的模型各自进行训练，组成一套完整的模型树。提取过程中，将待提取的医疗文本按照模型树从第一层开始，进行逐层提取，每层输出的提取数据，包括事件提取的结果和原始待提取的文本，作为下一层事件的输入数据，最后一层输出的数据作为提取完成的医疗信息返回给使用方。本方法不依赖于谓词的使用，并且由于多层嵌套的设计拥有较优的泛化能力，从相似的病历文本中提取结构化信息所需要的标注量相比于传统的模式匹配大大降低。

其中，步骤A所述的多层标注数据包括在文本中标注实体、事件、关系和属性，并将所述事件涉及到的文本都标注为事件；

其中，标注实体的文本为第一层标注，且每一个实体标注内不包含其他实体或事件。

由上，由于常规的事件标注方法要求将事件的触发词(通常是谓词)标注为事件，而中文医疗文本的构成普遍缺少带有强烈事件特征的谓词，不适用于中文医疗文本，本方法通过将事件涉及到的所有文本都标注为事件，形成多层事件，在提取时进行逐层提取，更适用于中文医疗文本。

其中，步骤B所述将多层标注数据进行分层处理包括：

将多层标注数据按照模型的层次配置拆分，生成每一层的标注数据。

由上，将标注完成的多层数据按照待训练模型的层次配置进行拆分，是每层标注数据对应一层训练模型，以供后续训练。

其中，步骤B所述将分层后的数据派发到所属事件层包括：

将每层标注数据中的事件、事件内的顶层子事件或子实体以及其间的关系派发到该层标注数据对应的事件层。

由上，每层事件都可包含更低层事件或实体，称为子事件或子实体，同一层事件的文本不能有交叉，且关系的标注必须在一个事件层及其内部的顶层子事件或子实体间。

其中，步骤C所述训练的过程包括以下步骤：

利用每层标注数据的子事件或子实体的标签替换原来的文本；

将替换后的文本按照文本顺序不变的规则转换成序列；

使用该层的多个标注数据的序列建立模型树，并使一个完整的序列为该模型树的一个分支，将子事件的标签、关系和属性数据保存在该分支上。

其中，步骤D所述提取及输出数据的过程包括以下步骤：

预处理上一事件层中提取的数据，取出上一事件层中的顶层的实体标签或事件标签，并使用该标签替换原文本；

按照文本顺序不变的规则将所述替换后的标签转换为序列；

利用搜索指针指向序列的首位字符，并在本层的模型树中搜索匹配，当匹配到一个分支后，将该分支关联的数据加入提取数据中，同时搜索指针指向该序列匹配分支后的下一个字符；若没有匹配到任一分支，则搜索指针指向当前字符的下一个字符，直至完成整个序列的搜索。

其中，所述在本层的模型树中搜索匹配，当遇到以下任一条件时停止搜索：

模型树的某个分支节点和当前搜索指针指向的待匹配序列中的元素不相同时；

搜索指针指向该模型树的分支节点时；

搜索指针指向文本末尾时。

由上，当遇到上述条件时，即停止搜索，并尝试从停止的分支节点开始回溯，寻找最近的一个分支，如果找到了，那么这个分支就是匹配的分支，否则就是没有找到匹配的分支。

其中，当对第一事件层进行提取时，其预处理过程还包括：

通过词表或正则表达式将实体标签提取出来，与原文本一起组成本层的提取数据，以提供至第二事件层。

由上，由于第一事件层由一个或多个实体标签构成，可通过预先设定好的词表或正则表达式进行实体标签的提取，为第二事件层提供输入数据。

其中，步骤E所述医疗信息为包含实体、时间、关系和属性的结构化信息。

由上，通过本发明所提供的医疗信息提取方法，可从复杂的医疗文本中迅速提取出由实体、时间、关系和属性共同构成的结构化医疗信息。

附图说明

图1为本发明基于多层语义分析的医疗信息提取方法的流程图；

图2为本发明第一实施例多层标注数据的示意图；

图3为本发明第一实施例多层标注数据分层派发过程的示意图；

图4为本发明第一实施例层1模型训练过程的示意图；

图5为本发明第一实施例层1事件提取过程的示意图；

图6A为本发明第二实施例层1模型的结构示意图；

图6B为本发明第二实施例层2模型的结构示意图；

图6C为本发明第二实施例层3模型的结构示意图；

图7为本发明第二实施例所用词表的示意图；

图8为本发明第二实施例进行实体标注之后的医疗文本示意图；

图9A为本发明第二实施例层1事件预处理后形成的序列示意图；

图9B为本发明第二实施例层1事件提取数据后的示意图；

图10A为本发明第二实施例层2事件预处理后形成的序列示意图；

图10B为本发明第二实施例层2事件提取数据后的示意图；

图11A为本发明第二实施例层3事件预处理后形成的序列示意图；

图11B为本发明第二实施例层3事件提取数据后的示意图。

具体实施方式

本发明的主要目的在于提供一种基于多层语义分析的医疗信息提取方法，本方法不依赖于谓词的使用，并且由于多层嵌套的设计拥有较优的泛化能力，从相似的病历文本中提取结构化信息所需要的标注量相比于传统的模式匹配大大降低。

下面将参照附图所示的工作流程和实施例，对本发明的工作原理进行详细描述。

如图1所示，本发明所采用的技术方案为，一种基于多层语义分析的医疗信息提取方法，该方法通过多层标注数据训练模型并利用训练好的模型提取病历文本中的医疗信息，具体包括以下步骤：

S100：通过标注端获取多层标注数据；

本步骤中，所述多层标注数据包括在病历文本中标注实体、事件、关系和属性，和常规的事件标注要求将事件的触发词文本(通常是谓词)标为事件不同，该步骤中的多层标注将所述事件涉及到的文本都标注为事件，形成多层事件；

其中，标注实体的文本为第一层标注，且每一个实体标注内不包含其他实体或事件；

如图2所示，本发明提供的第一实施例中，有病历文本：“(左肺肿物)送检肺组织内见癌细胞，考虑肺腺癌”；

其中，“左肺”、“肿物”、“肺”(“送检肺组织”中)、“肺”(“肺腺癌”中)被标成相应的实体标签“解剖部位”、“肿物”、“解剖部位”、“解剖部位”；

“(左肺肿物)送检肺组织内”、“肺”被标成相应的层1事件的标签“定位短语”、“定位短语”；

“见癌细胞，考虑肺腺癌”被标成层2事件的标签“诊断结果”。

“(左肺肿物)送检肺组织内见癌细胞，考虑肺腺癌”被标成层3事件的标签“病理诊断”。

并且，一些事件有指向其内部子事件或实体的关系，注意“诊断结果”的“原发”关系指向的是顶层的子事件“定位短语”而不是“解剖部位”。

S200：将多层标注数据进行分层处理，并将分层后的数据派发到所属事件层；

本步骤中，将多层标注数据按照待训练的模型的层次配置进行拆分，生成每一层的标注数据，使每一层标注数据对应一层训练模型；然后将每层标注数据中的事件、事件内包含的顶层子事件或子实体以及其间的关系派发到该层标注数据对应的事件层；

其中，每个事件都是一个独立的训练模型，进行单独训练；

如图3所示，将步骤S100生成的多层标注数据，按照待训练的模型层数拆分之后，分别派发到所属层，其中层1事件包含两个子事件，因此对应两个训练模型。

S300：利用每层标注数据训练该层对应的事件层的模型；

本步骤中，训练的过程包括以下步骤：

将替换后的文本按照规则转换成序列，通常为了简化转换过程，转换的规则将保持文本顺序不变，以一个字符或者一个标签为序列中的一个元素；

如图4所示第一实施例层1模型训练过程的示意图，首先利用实体标签“解剖部位”替换原来文本中的“左肺”“肺”，利用实体标签“肿物”替换原文本中的“肿物”；

将替换后的标签按照文本顺序不变的规则生成新的序列，为：(解剖部位肿物)送检解剖部位组织内；

使用新的序列建立模型树，将层1事件中的子事件对应的事件标签：定位短语和关系：位置分别保存在分支1和分支2上。

层2事件和层3事件的训练过程与层1一致，在此不做赘述。

S400：利用训练好的模型树将病历文本从第一事件层逐层提取数据，并依次向上一事件层输出提取的数据；

如图5所示第一实施例层1事件提取过程的示意图，提取数据及输出数据的过程包括以下步骤：

首先对层1文本进行特殊预处理，将文本“左肺下叶”标为实体标签：解剖部位，将文本“肿物”标为实体标签：肿物，并使用该标签替换原文本；

按照步骤S200中训练的转换规则将所述替换后的标签转换为序列，生成新的序列：(解剖部位肿物)；

利用搜索指针指向序列的首位字符“(”，并在本层的模型树中搜索匹配，当匹配到分支1后，将该分支1关联匹配的数据加入提取数据中，直至搜索到字符“送”，此时不匹配，对分支1的搜索停止，寻找下一个分支节点，搜索指针指向下一个字符“解剖部位”时，匹配到分支2，并提取分支2中的数据，将分支1和分支2提取的数据按照顺序组成新的数据序列提供至层2事件，作为层2事件的输入数据。

层2事件与层3事件提取数据及输出数据的过程与层1事件一致，不再单独举例。

S500：将最高事件层提取的数据作为提取结果，得到医疗信息；

该步骤中的医疗信息为包含实体、时间、关系和属性的结构化信息。

如图6A～图11B所示，本发明的第二实施例中，提供了一更为复杂的医疗文本进行医疗信息的提取，具体处理和提取过程如下：

原医疗文本为：(左肺下叶)腺癌，为贴壁状及腺泡状。侵及肺膜。未见肯定的脉管内癌栓及神经侵犯。(支气管边缘)干净。(另送5组淋巴结)0/2。(另送6组淋巴结)0/1。(另送7组淋巴结)0/2。(另送9组淋巴结)0/2。(另送10组淋巴结)0/2。

如图6A～图6C所示，有训练好的3层语义分析模型，具体训练过程可参照第一实施例中的训练步骤，其中模型层1包含4个分支，模型层2包含3个分支，模型层3包含2个分支，上述同一模型层中的分支与分支独立存在，两相邻分支之间存在分支节点；

按照上述3层语义分析模型，对本实施例中的医疗文本进行分析处理和信息提取，首先需要将原医疗文本按照词表进行实体标注，如图7所示，将文本“左肺上叶”、“肺膜”标注为实体标签“解剖部位”，将文本“支气管”标注为实体标签“解剖部位片段”，将文本“腺癌”标注为实体标签“病理分型”，将文本“贴壁状”、“腺泡状”标注为实体标签“病理分型片段”，将文本“5组淋巴结”、“6组淋巴结”、“7组淋巴结”、“9组淋巴结”、“10组淋巴结”标注为实体标签“淋巴结组数”，将文本“0”、“1”、“2”标注为实体标签“数字”；

标注实体标签后的原医疗文本成为如图8所示的医疗文本结构，针对该医疗文本结构，可进行处理和提取；

如图9A所示，将实体标签替换对应的医疗文本，并按照原医疗文本的字符顺序，与未标注的医疗文本组成新的序列文本：

(解剖部位)病理分型，为病理分型片段及病理分型片段。侵及解剖部位。

未见肯定的脉管内癌栓及神经侵犯。

(解剖部位片段边缘)干净。

(另送淋巴结组数)数字/数字。

如图9B所示，按照层1训练模型，针对上述序列文本进行提取，将实体标签“解剖部位”、“解剖部位片段”标注为层1事件标签“定位短语”，将实体标签“淋巴结组数”“数字”/“数字”标注为层1事件标签“淋巴结清扫项”，并将提取的数据输入层2训练模型中，进行层2事件处理和提取；

如图10A所示，将层1事件标签替换对应的实体标签，并按照原医疗文本的字符顺序，与未标注的医疗文本组成新的序列文本：

定位短语病理分型，为病理分型片段及病理分型片段。侵及定位短语。

未见肯定的脉管内癌栓及神经侵犯。

定位短语干净。

淋巴结清扫项。

如图10B所示，按照层2训练模型，针对上述序列文本进行提取，将事件标签“病理分型”、“病理分型片段”标注为层2事件标签“诊断结果”，将“侵及实体部位”、“未见肯定的脉管内癌栓及神经侵犯”标注为层2事件标签“侵犯描述”，并将提取的数据输入层3训练模型中，进行层2事件处理和提取；

如图11A所示，将层2事件标签替换对应的层1事件标签和实体标签，并按照原医疗文本的字符顺序，与未标注的医疗文本组成新的序列文本：

定位短语诊断结果。侵犯描述。

侵犯描述。

定位短语干净。

淋巴结清扫项。

如图11B所示，按照层3训练模型，针对上述序列文本进行提取，分别从上述序列文本中提取分支1“定位短语”+“诊断结果”和分支2“定位短语”+干净所对应的序列文本信息，作为最终提取结果，生成有效的结构化医疗信息，即“左肺下叶腺癌，支气管边缘干净”。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多层语义分析的医疗信息提取方法，其特征在于，该方法通过多层标注数据训练模型并利用训练好的模型提取病历文本中的医疗信息，具体包括以下步骤：

A、通过标注端获取多层标注数据；所述多层标注数据包括在文本中标注实体、事件、关系和属性，并将所述事件涉及到的文本都标注为事件；其中，标注实体的文本为第一层标注，且每一个实体标注内不包含其他实体或事件；

B、将多层标注数据按照模型的层次配置拆分，生成每一层的标注数据，将每层标注数据中的事件、事件内的顶层子事件或子实体以及其间的关系派发到该层标注数据对应的事件层；

C、利用每层标注数据训练该层对应的事件层的模型；所述训练的过程包括：

将替换后的文本按照文本顺序不变的规则转换成序列；

使用该层的多个标注数据的序列建立模型树，并使一个完整的序列为该模型树的一个分支，将子事件的标签、关系和属性数据保存在该分支上；

D、利用训练好的模型树将病历文本从第一事件层逐层提取数据，并依次向上一事件层输出提取的数据；所述提取及输出数据的过程包括：

按照文本顺序不变的规则将所述替换后的标签转换为序列；

利用搜索指针指向序列的首位字符，并在本层的模型树中搜索匹配，当匹配到一个分支后，将该分支关联的数据加入提取数据中，同时搜索指针指向该序列匹配分支后的下一个字符；若没有匹配到任一分支，则搜索指针指向当前字符的下一个字符，直至完成整个序列的搜索；

E、将最高事件层提取的数据作为提取结果，得到医疗信息。

2.根据权利要求1所述的方法，其特征在于，所述在本层的模型树中搜索匹配，当遇到以下任一条件时停止搜索：

搜索指针指向该模型树的分支节点时；

搜索指针指向文本末尾时。

3.根据权利要求2所述的方法，其特征在于，当对第一事件层进行提取时，其预处理过程还包括：

4.根据权利要求1所述的方法，其特征在于，步骤E所述医疗信息为包含实体、时间、关系和属性的结构化信息。