CN113393916B

CN113393916B - 一种冠脉医疗报告结构关系提取的方法和装置

Info

Publication number: CN113393916B
Application number: CN202110940134.1A
Authority: CN
Inventors: 金倍建; 林铭强; 陈集房; 麻元兴
Original assignee: Zhejiang Keyi Intelligent Medical Technology Co ltd
Current assignee: Zhejiang Keyi Intelligent Medical Technology Co ltd
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2021-12-31
Anticipated expiration: 2041-08-17
Also published as: CN113393916A

Abstract

本发明公开了一种冠脉医疗报告结构关系提取的方法和装置，包括以下步骤：S1：获取冠脉报告描述文本，对获得的文本进行数据预处理；S2：将预处理化后的文本进行错别字纠正后进行归一化处理；S3：根据归一化后的文本对文本中的医学实体进行识别，将文本分割成若干个实体文本；S4：根据结构化提取规则对实体文本进行实体关系的提取，形成结构化关系路径图；S5：对结构化关系路径图进行验证后，得到冠脉医疗报告结构关系的输出结果；本发明通过错字纠正和文本归一化方法，提高了实体识别的准确度；通过构建实体之间的链式结构，实现高准确度的实体关系提取。

Description

一种冠脉医疗报告结构关系提取的方法和装置

技术领域

本发明涉及医疗文本识别技术领域，尤其涉及一种冠脉医疗报告结构关系提取的方法和装置。

背景技术

随着大数据技术和人工智能的发展，人们对于结构化数据的需求越来越高，而在医疗领域存在着大量非结构化的诊断报告数据难以利用，给医疗领域的大数据和人工智能的发展带来了瓶颈。结构化的医疗数据能为医疗行业的各个领域带来非常重要的作用。医疗数据将能为医疗行业的各个领域带来非常重要的作用。对于医院临床来说，它能被临床辅助决策提供大量的数据支持。对于医生科研来说，能够让医生用更大量的数据展开科研合作。

现有技术通过对文本进行分词，之后统计各个字或者各个词的词频，通过计算文本与模板之间的相似度来达到提取结构化报告的目的，该方法对于复杂的中文语境中准确率较低，并且搭建词库和模板的难度也较大。还有的是通过搭建大规模的知识图谱来实现医疗报告结构化，但搭建知识图谱需要投入大量的人力物力，对于中小企业来说会有较大的成本。

例如，中国专利CN201911232525.7公开了非结构化医疗文本无监督症状自动识别方法、系统、装置。实现医学症状实体的无监督自动抽取，同时以症状为线索可以强有力地支持医学智能辅助诊断服务以及医学知识图谱的自动构建，不需要专家和手工的管理，可以自动地对训练数据进行标注；但是，该方法依然需要通过搭建大规模的知识图谱来实现医疗报告结构化，且识别准确率低。

发明内容

本发明主要解决现有的技术中非结构化医疗报告文本进行结构化识别提取时准确度低的问题；提供一种冠脉医疗报告结构关系提取的方法和装置，可以对现存的大量的非结构化的冠脉医疗报告进行结构化，提高了实体识别的准确度，降低时间和人力成本。

本发明的上述技术问题主要是通过下述技术方案得以解决的：一种冠脉医疗报告结构关系提取的方法，包括以下步骤：

S1：获取冠脉报告描述文本，对获得的文本进行数据预处理；

S2：将预处理化后的文本进行错别字纠正后进行归一化处理；

S3：根据归一化后的文本对文本中的医学实体进行识别，将文本分割成若干个实体文本；

S4：根据结构化提取规则对实体文本进行实体关系的提取，形成结构化关系路径图；

S5：对结构化关系路径图进行验证后，得到冠脉医疗报告结构关系的输出结果。通过整个方法步骤，对非结构化的冠脉医疗报告构建了一种实体识别和关系提取的结构化方法，通过深度学习的神经网络算法对错别字进行纠正，保证了实体识别的准确度，同时，设置链式的结构化提取规则实现高准确度的实体关系提取，不需要花费大量时间和人力进行知识图谱的建立，降低时间和人力成本，实现高准确度的冠脉医疗报告结构化提取。

作为优选，步骤S1中，对获得的文本进行数据预处理的具体方法为：

S11：将长文本根据标点符号拆分成若干个短文本；

S12：去除文本中的空格；

S13：去除括号以及括号内的内容；

S14：统一中英文标点符号和全角半角数字字母，并删除重复的标点符号；

S15：去除转义符；

S16：将文字向量化，映射进向量空间中。对长文本进行预处理后，使得文本更加方便后续步骤的处理，加快文本处理速度。

作为优选，步骤S2中，对预处理后的文本进行错别字纠正的方法为：

S21：通过错误探查网络对每个字符是否为错别字进行判断，进行错别字分类；

S22：采用Soft Masking Connection联系全文，对所有字符的权重做一个加权求和，结合错误探查网络的分类结果，联系全文词向量的关系进一步给出该字符为错别字的概率；

S23：利用纠错网络计算错字字符被纠正为候选词表中的字符的概率，输出文本纠正结果。通过对错别字的纠正，提高文本识别的准确率。

作为优选，步骤S2中，对错别字纠正后的文本进行归一化处理之前，先通过对数据库中的冠脉医疗报告进行统计分析，找出各个医学实体对应存在的文本分词描述，建立各个文本分词描述与其对应实体的关系映射表，根据输入的描述文本中的文本分词，对于每个分词查询是否在映射表中存在映射，若存在则将其替换成对应的映射实体。通过关系映射表，将文本分词进行实体映射，实现文本分词到实体识别的转换。

作为优选，步骤S3中，对医学实体进行识别的方法为：将归一化完成后的文本重新映射到向量空间，传入transformer-crf模型中，利用transformer对于文本前后文关系的识别，结合crf对于transformer对标签预测的约束，对文本中的医学实体进行识别。由于transformer通过自注意力机制对于多语义的词有很好的区分效果，并且在循环神经网络中使用的是双向LSTM，因此能够学习到词语的上下文信息，使模型能够对标签之间的联系有很好的学习，从而提升模型识别的准确率，而CRF 的引入能够约束transformer对标签的预测，从而体现出标签之间的联系。

作为优选，步骤S4中，对实体文本进行实体关系的提取包括以下步骤：

S41：建立结构化提取规则；

S42：遍历文本中的实体，记录实体的原始文本、实体的标签、实体在文中的索引以及标签在文中的索引；

S43：将所有的标签通过两两配对形成实体A—实体B 的二元组，形成集合A；

S44：遍历集合A，获取实体A的标签，根据结构化提取规则向下搜查，判断实体B是否从属于实体A，若不是则跳过，若是则根据两个实体的位置坐标，找出两个实体之间的实体，判断实体A与实体B之间是否存在实体，若实体A与实体B之间存在实体且这些实体之间存在一个或多个从属关系，则认为实体A与实体B之间不存在直接关系，跳过，若通过以上规则的判断，认为两个实体之间存在关系，则将之记录到新的集合中，形成集合B；

S45：根据结构化提取规则中各个实体的从属关系以及各个实体在文本中的索引位置，先从提取规则的顶层向下搜寻，根据集合B生成关系结构树状图，提取出文本中的结构化信息，形成结构化关系路径图。

作为优选，步骤S41中，结构化提取规则的建立方法为：对冠脉检查报告进行分析，构建一个实体间的链式结构，用来寻找实体存在的对应关系，同时建立一套关系验证法则，剔除掉其中无效的实体关系，形成结构化提取规则。

作为优选，步骤S5中，对结构化关系路径图进行验证的方法为：

S51：根据结构化关系路径图，验证每条路径的有效性，若路径中存在“症状或表现”，“影像表现”，“评估项目”中的一个或多个，则认为路径有效，否则剔除该路径；

S52：检测每条路径中是否存在未被识别到的标签，若存在则用None填充，形成完整路径，输出结果。

本发明还提供一种冠脉医疗报告结构关系提取的装置，包括：预处理模块，用于对冠脉报告描述文本进行向量化处理；错字纠正模块，用于对描述文本进行错别字纠正处理，与预处理模块连接；文本归一模块，用于文本数据进行归一化，与错字纠正模块连接；识别模块，对文本中的医学实体进行识别，与文本归一模块连接；提取模块，提取出文本中的结构化信息，形成结构化关系路径图，与识别模块连接。

本发明的有益效果是：（1）通过错字纠正和文本归一化方法，提高了实体识别的准确度；（2）通过构建实体之间的链式结构，实现高准确度的实体关系提取；（3）可以从非结构化冠脉医疗报告中有效提取实体，并建立各实体之间的联系，达到快速且准确的结构化，有效降低时间和人力成本。

附图说明

图1是本发明实施例的方法的流程图。

图2是本发明实施例的错别字纠正方法的模型框架示意图。

图3是本发明实施例的一种结构化关系路径图。

图4是本发明实施例的链式结构的示意图。

图5是本发明实施例的装置的连接框图。

图中1、预处理模块，2、错字纠正模块，3、文本归一模块，4、识别模块，5、提取模块。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：一种冠脉医疗报告结构关系提取的装置，如图5所示，包括预处理模块1，用于对冠脉报告描述文本进行向量化处理，预处理模块与前端或数据库连接，通过前端或访问数据库资源获取详细的报告描述。

错字纠正模块2，用于对描述文本进行错别字纠正处理，与预处理模块连接；本发明的错字纠正模块采用Soft-Masked BERT模型框架，如图2所示，由三部分组成：DetectionNetwork，Soft Masking Connection 以及Correction Network，Detection Network为错误探查网络，采用双向GRU模型对输入进行编码，对每个字符是否为错别字进行判断；SoftMasking Connection联系全文，对所有字符的权重做一个加权求和，目的是结合错误探查网络的分类结果，联系全文词向量的关系进一步给出该字符为错别字的概率；CorrectionNetwork为纠错网络，结合错误探查网络与原始文本，计算错字字符被纠正为候选词表中的字符的条件概率。

文本归一模块3，用于文本数据进行归一化，与错字纠正模块连接，通过对文本数据的归一化，能够减少输入变量的类型，降低模型所需词向量的维度，从而提高模型性能，减少误判。

识别模块4，对文本中的医学实体进行识别，与文本归一模块连接；本发明的识别模块采用transformer-crf的网络结构，由于transformer通过自注意力机制对于多语义的词有很好的区分效果，并且在循环神经网络中使用的是双向LSTM，因此能够学习到词语的上下文信息，使模型能够对标签之间的联系有很好的学习，从而提升模型识别的准确率，而CRF 的引入能够约束transformer对标签的预测，从而体现出标签之间的联系，进而将医学实体分割成若干个实体文本。

提取模块5，提取出文本中的结构化信息，形成结构化关系路径图，与识别模块连接；本发明的提取模块为SREM模块，SREM模块中设置有结构化提取规则，该结构化提取规则借鉴知识图谱的思想，构建了一个实体间的链式结构，如图4所示，基于结构化提取规则实现文本中结构化信息的提取。

一种冠脉医疗报告结构关系提取的方法，如图1所示，包括以下步骤：

S1：获取冠脉报告描述文本，对获得的文本进行数据预处理；对获得的文本进行数据预处理的具体方法为：

S11：将长文本根据标点符号拆分成若干个短文本；

S12：去除文本中的空格；

S13：去除括号以及括号内的内容；

S15：去除转义符（如换行符，缩进符等）；

S16：将文字向量化，映射进向量空间中。

S2：将预处理化后的文本进行错别字纠正后进行归一化处理；对预处理后的文本进行错别字纠正的方法为：

S23：利用纠错网络计算错字字符被纠正为候选词表中的字符的概率，输出文本纠正结果；

对错别字纠正后的文本进行归一化处理之前，先通过对数据库中的冠脉医疗报告进行统计分析，找出各个医学实体对应存在的文本分词描述，建立各个文本分词描述与其对应实体的关系映射表，根据输入的描述文本中的文本分词，对于每个分词查询是否在映射表中存在映射，若存在则将其替换成对应的映射实体。

S3：根据归一化后的文本对文本中的医学实体进行识别，将文本分割成若干个实体文本；对医学实体进行识别的方法为：将归一化完成后的文本重新映射到向量空间，传入transformer-crf模型中，利用transformer对于文本前后文关系的识别，结合crf对于transformer对标签预测的约束，对文本中的医学实体进行识别。

S4：根据结构化提取规则对实体文本进行实体关系的提取，形成结构化关系路径图；对实体文本进行实体关系的提取包括以下步骤：

S41：建立结构化提取规则；结构化提取规则的建立方法为：对冠脉检查报告进行分析，构建一个实体间的链式结构，用来寻找实体存在的对应关系，同时建立一套关系验证法则，剔除掉其中无效的实体关系，形成结构化提取规则；

S45：根据结构化提取规则中各个实体的从属关系以及各个实体在文本中的索引位置，先从提取规则的顶层向下搜寻，根据集合B生成关系结构树状图，提取出文本中的结构化信息，形成结构化关系路径图，如图3所示。

S5：对结构化关系路径图进行验证后，得到冠脉医疗报告结构关系的输出结果；对结构化关系路径图进行验证的方法为：

本发明中，通过结构化提取规则实现实体关系二元组提取的方法为：

a、识别如图4所示的链式结构中的各实体，组成多个实体二元组；

b、实体二元组根据实体的链式结构，将其中可能存在从属关系的实体结构找出作为一个规则集合，例如次部位从属于主部位，则可能存在着（主部位-次部位）这样的关系；

c、剔除其中存在的一些错误的关系，需要建立一些规则剔除。

例如：原文为：第 1、2对角支管壁与管腔异常征象，实体识别后的结果（括号内为识别的实体结果）如下：

第 1、2【位置】对角支【次部位】管壁【详细位置】与管腔【详细位置】异常【症状或表现】征象。

针对“症状或表现”这一实体，根据提取规则将会得到（对角支【次部位】-异常【症状或表现】）、（管腔【详细位置】-异常【症状或表现】）和（管壁【详细位置】-异常【症状或表现】）这三种规则，而显然“异常”这一实体是描述管壁和管腔的，而管壁和管腔从属于对角支，因此可以根据次部位实体和症状实体之间是否存在其他的从属关系来剔除这一情况。

例如，假设实体识别后的文本如下：

左【位置】冠状动脉【主部位】前降支【次部位】近中段【位置】可见多发钙化斑块及非钙化斑块【症状或表现】，第三【位置】对角支【次部位】管腔【详细位置】重度狭窄【症状或表现】，约达 75【数字】 %【单位】。

遍历文本中的实体，记录实体的原始文本、实体在文中的索引、标签在文中的索引。如（source_text: 左, word_index:0, tag_index:0）。

提取关系二元组：根据结构化提取规则，提取文本中可能存在关系的二元组，放入一个新的集合中，如（左，冠状动脉），（冠状动脉，前降支）。

根据结构化提取规则中各个实体的从属关系以及各个实体在文本中的索引位置，对关系二元组集合生成关系结构树状图，提取出文本中的结构化信息，生成如图3所示的结构化关系路径图。

本发明针对非结构化的冠脉医疗报告构建了一种实体识别和关系提取的结构化方法，通过基于深度学习的自然语言处理技术实现对医疗报告的实体识别，保证了实体识别的准确度，加入了错字纠正和文本归一化方法，进一步提高了实体识别的准确度；提出了SREM模块，通过构建实体之间的链式结构，实现高准确度的实体关系提取。

以上所述的实施例只是本发明的一种较佳的方案，并非对本发明作任何形式上的限制，在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims

1.一种冠脉医疗报告结构关系提取的方法，其特征在于，包括以下步骤：

S5：对结构化关系路径图进行验证后，得到冠脉医疗报告结构关系的输出结果；

步骤S4中，对实体文本进行实体关系的提取包括以下步骤：

S41：建立结构化提取规则；

S45：根据结构化提取规则中各个实体的从属关系以及各个实体在文本中的索引位置，先从提取规则的顶层向下搜寻，根据集合B生成关系结构树状图，提取出文本中的结构化信息，形成结构化关系路径图；

步骤S41中，结构化提取规则的建立方法为：对冠脉检查报告进行分析，构建一个实体间的链式结构，用来寻找实体存在的对应关系，同时建立一套关系验证法则，剔除掉其中无效的实体关系，形成结构化提取规则；

步骤S5中，对结构化关系路径图进行验证的方法为：

S51：根据结构化关系路径图，验证每条路径的有效性，若路径中存在症状或表现、影像表现以及评估项目中的一个或多个，则认为路径有效，否则剔除该路径；

2.根据权利要求1所述的一种冠脉医疗报告结构关系提取的方法，其特征在于，

步骤S1中，对获得的文本进行数据预处理的具体方法为：

S11：将长文本根据标点符号拆分成若干个短文本；

S12：去除文本中的空格；

S13：去除括号以及括号内的内容；

S15：去除转义符；

S16：将文字向量化，映射进向量空间中。

3.根据权利要求1所述的一种冠脉医疗报告结构关系提取的方法，其特征在于，

步骤S2中，对预处理后的文本进行错别字纠正的方法为：

S23：利用纠错网络计算错字字符被纠正为候选词表中的字符的概率，输出文本纠正结果。

4.根据权利要求1所述的一种冠脉医疗报告结构关系提取的方法，其特征在于，

步骤S2中，对错别字纠正后的文本进行归一化处理之前，先通过对数据库中的冠脉医疗报告进行统计分析，找出各个医学实体对应存在的文本分词描述，建立各个文本分词描述与其对应实体的关系映射表，根据输入的描述文本中的文本分词，对于每个分词查询是否在映射表中存在映射，若存在则将其替换成对应的映射实体。

5.根据权利要求1所述的一种冠脉医疗报告结构关系提取的方法，其特征在于，

步骤S3中，对医学实体进行识别的方法为：将归一化完成后的文本重新映射到向量空间，传入transformer-crf模型中，利用transformer对于文本前后文关系的识别，结合crf对于transformer对标签预测的约束，对文本中的医学实体进行识别。

6.一种冠脉医疗报告结构关系提取的装置，采用如权利要求1所述的一种冠脉医疗报告结构关系提取的方法，其特征在于，包括：

预处理模块，用于对冠脉报告描述文本进行向量化处理；

错字纠正模块，用于对描述文本进行错别字纠正处理，与预处理模块连接；

文本归一模块，用于文本数据进行归一化，与错字纠正模块连接；

识别模块，对文本中的医学实体进行识别，与文本归一模块连接；

提取模块，提取出文本中的结构化信息，形成结构化关系路径图，与识别模块连接。