CN114360677A

CN114360677A - 基于多轮问答的ct影像报告信息抽取方法、装置、计算机设备和存储介质

Info

Publication number: CN114360677A
Application number: CN202111544922.5A
Authority: CN
Inventors: 吕旭东; 胡丹青; 章宦耀; 段会龙
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-04-15

Abstract

本发明公开了一种基于多轮问答的CT影像报告信息抽取方法、装置、计算机设备和存储介质，包括：(1)根据信息抽取任务预设头实体问答问题和尾实体问答问题模板；(2)基于阅读理解框架构建并优化信息抽取模型；(3)将从提取CT影像报告中提取的句子与每条头实体问答问题拼接，得到提取头实体所需的输入文本，并输入到训练好的信息提取模型得到头实体；随后，将头实体与尾实体问答问题模板拼接，得到针对头实体的尾实体问答问题，并将其与句子拼接得到提取尾实体所需的输入文本，将输入文本输入到训练好的信息提取模型中得到尾实体；(5)将得到的头实体和尾实体配对成三元组，并将提取的三元组信息进行标准化后输出。

Description

基于多轮问答的CT影像报告信息抽取方法、装置、计算机设备和存储介质

技术领域

本发明属于医疗数据挖掘领域，具体涉及一种基于多轮问答的CT影像报告信息抽取方法、装置、计算机设备和存储介质。

背景技术

计算机断层扫描(CT)是医疗临床的主要检查手段，得到的CT影像报告记载了被扫描部位的生理状态信息和放射科医生解释的大量宝贵信息，可用于临床分期分析和预测。然而，CT影像报告是以非结构化文本的形式存储在计算机中，这为直接利用CT影像报告带来了挑战。如果想利用CT影像报告中的非结构化文本，需要从CT影像报告中提取结构化信息，如果采用人工手动提取的方式，会造成提取耗时长、容易出错且成本高等问题。

信息抽取(Information Extraction，IE)是指从非结构化的文本中，抽取用户所感兴趣的实体、实体间的关系及事件，即将非结构化的信息转化为结构化或半结构化的信息，并以数据库的形式存储，供用户查询以及进一步分析、利用的过程。

针对手动信息抽取存在的问题，现有技术中结合信息抽取思想，采用管道方法进行信息的自动抽取。他们首先应用标记模型来识别实体，然后利用关系提取模型来识别每个实体对之间的关系。尽管管道策略具有集成不同数据源和学习算法的灵活性，但往往提取的信息的准确性不高，主要是因为这些局限性，1)前面命名实体模块的错误会严重影响后面关系抽取的性能；2)识别出来的实体两两组合配对后再进行关系抽取，这样很多本来没有关系的实体对就会产生冗余的信息，给模型识别带来困难。

机器阅读理解(Machine Reading Comprehension,MRC)是一种利用算法使计算机理解文章语义并回答相关问题的技术。由于文章和问题均采用人类语言的形式，因此机器阅读理解属于自然语言处理(NLP)的范畴。机器阅读理解主要就是给定一篇文章，以及基于文章的一个问题，让机器在阅读文章后对问题进行作答。

早期的MRC系统是基于规则的，在很多场景下性能表现一般。随着深度学习和大规模数据集的兴起，基于深度学习的MRC显著优于基于规则的MRC，甚至超越了人类的水平。常见的MRC任务可以分为四种类型：完形填空、多项选择、片段抽取、自由回答。

发明内容

鉴于上述，本发明的目的是提供一种基于多轮问答的CT影像报告信息抽取方法、装置、计算机设备和存储介质，以实现CT影像报告信息的自动抽取，且提高信息抽取的准确率。

为实现上述发明目的，实施例提供了一种基于多轮问答的CT影像报告信息抽取方法，包括：

步骤1，根据信息抽取任务预设问答模板，包括头实体问答问题和尾实体问答问题模板；

步骤2，基于阅读理解框架构建信息抽取模型；

步骤3，在信息抽取模型训练阶段，首先，利用分句算法提取CT影像报告中的每条句子；然后，将句子与每条头实体问答问题拼接，得到提取头实体所需的输入文本；随后，根据人工标注的头实体金标准数据，与对应的每条尾实体问答问题模板拼接，形成针对该头实体的尾实体问答问题，再将该尾实体问答问题与句子拼接，得到提取尾实体所需的输入文本；最后，将构架好的提取头实体和尾实体的输入文本输入信息抽取模型，进行模型训练优化；

步骤4，在信息抽取模型测试阶段，首先利用分句算法提取CT影像报告中的每条句子；然后，将句子与每条头实体问答问题拼接，得到提取头实体所需的输入文本，将文本输入到训练好的信息提取模型中得到头实体，作为第一轮问答结果；随后，利用提取到的头实体与尾实体问答问题模板拼接，得到针对该头实体的尾实体问答问题，再将该尾实体问答问题与句子拼接，得到提取尾实体所需的输入文本，将文本再次输入到训练好的信息提取模型中得到尾实体，作为第二轮问答结果；

步骤5，将多轮问答提取到的头实体和尾实体配对成三元组，并将提取的三元组信息进行标准化后输出。

优选地，所述阅读理解框架包括BiLSTM、GRU、BERT、GPT、XLNET等，利用样本数据来优化阅读理解框架参数，以构建信息抽取模型。

优选地，在训练阶段，提取CT影像报告中每条句子，将每条句子分别头实体问答问题拼接形成头实体问答输入文本，将人工标注的头实体金标准数据与尾实体问答问题模板和输入文本拼接形成尾实体问答输入文本，构建数据集；将数据集分为训练集、验证集以及测试集；利用训练集训练阅读理解框架，以优化阅读理解框架参数，参数优化后的阅读理解框架作为信息抽取模型。

优选地，在训练阶段，在模型训练的每次迭代中，利用验证集对信息抽取模型进行评估，以得到F1-marco，如果F1-marco值比之前全局最佳F1-marco值要好，更新全局最佳F1-marco值，同时保存信息抽取模型。该过程直到训练结束，取得全局最佳F1-marco值的模型作为最终的信息抽取模型。

优选地，在测试阶段，利用第一轮问答得到的头实体结果，结合尾实体问答问题模板生成尾实体问答问题，并与句子拼接得到提取尾实体的文本；将提取尾实体的文本输入到训练好的模型中，提取尾实体。利用测试集评估信息抽取模型抽取信息的准确性，比对测试集人工标注的金标准数据与信息抽取模型得到的提取结果，得到精准率、召回率、F1值，评估信息抽取模型抽取信息的准确性。

为实现上述发明目的，实施例还提供了一种基于多轮问答的CT影像报告信息抽取装置，包括：

模板构建模块，用于根据信息抽取任务预设问答模板，包括头实体问答问题和尾实体问答问题模板；

模型构建并优化模块，用于基于阅读理解框架构建信息抽取模型，对信息抽取模型训练时，首先，利用分句算法提取CT影像报告中的每条句子；然后，将句子与每条头实体问答问题拼接，得到提取头实体所需的输入文本；随后，根据人工标注的头实体金标准数据，与对应的每条尾实体问答问题模板拼接，形成针对该头实体的尾实体问答问题，再将该尾实体问答问题与句子拼接，得到提取尾实体所需的输入文本；最后，将构架好的提取头实体和尾实体的输入文本输入信息抽取模型，进行模型训练优化；

多轮问答抽取模块，用于首先利用分句算法提取CT影像报告中的每条句子；然后，将句子与每条头实体问答问题拼接，得到提取头实体所需的输入文本，将文本输入到训练好的信息提取模型中得到头实体，作为第一轮问答结果；随后，利用提取到的头实体与尾实体问答问题模板拼接，得到针对该头实体的尾实体问答问题，再将该尾实体问答问题与句子拼接，得到提取尾实体所需的输入文本，将文本再次输入到训练好的信息提取模型中得到尾实体，作为第二轮问答结果；

标准化模块，用于将多轮问答提取到的头实体和尾实体配对成三元组，并将提取的三元组信息进行标准化后输出。

为实现上述发明目的，实施例还提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，所述存储器中存有基于阅读理解框架构建信息抽取模型、头实体问答模板以及尾实体问答模板，所述信息抽取模型通过上述基于多轮问答的CT影像报告信息抽取方法构建，所述处理器执行所述计算机程序时实现以下步骤：

步骤1，首先利用分句算法提取CT影像报告中的每条句子；然后，将句子与每条头实体问答问题拼接，得到提取头实体所需的输入文本，将文本输入到训练好的信息提取模型中得到头实体，作为第一轮问答结果；

步骤2，利用提取到的头实体与尾实体问答问题模板拼接，得到针对该头实体的尾实体问答问题，再将该尾实体问答问题与句子拼接，得到提取尾实体所需的输入文本，将文本再次输入到训练好的信息提取模型中得到尾实体，作为第二轮问答结果；

步骤3，将多轮问答提取到的头实体和尾实体配对成三元组，并将提取的三元组信息进行标准化后输出。

为实现上述发明目的，实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理执行时实现上述基于多轮问答的CT影像报告信息抽取方法的步骤。

与现有技术相比，本发明具有的有益效果至少包括：

根据抽取任务预设头实体问答问题和尾实体问答问题模板，基于阅读理解框架构建信息抽取模型，在此基础上，利用信息抽取模型并结合头实体问答问题对CT影像报告中的每条句子进行头实体抽取，然后再利用信息抽取模型并结合尾实体问答问题模板和头实体对句子进行尾实体抽取，这两轮抽取的头实体和尾实体形成抽取信息具有结构化，由于是在问答模板的指导下抽取得到的，所以抽取准确率高，且利用信息抽取模型自动计算，抽取效率高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的基于多轮问答的CT影像报告信息抽取方法的流程图；

图2是实施例提供的基于多轮问答的CT影像报告信息抽取装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

针对现有CT影像报告信息抽取准确率不高的问题，经过研究发现，基于机器阅读理解原理，将信息抽取问题转为问答形式变得很自然，即将想要抽取的实体以问题的形式提出，让阅读理解模型去从文章中找寻答案。这为一步到位抽取结构化信息，解决基于管道的方法中存在的误差传递问题提供了可能。因此，实施例提供了一种基于多轮问答的CT影像报告信息抽取方法、装置、计算机设备和存储介质。

图1是实施例提供的基于多轮问答的CT影像报告信息抽取方法的流程图。如图1所示，实施例提供的基于多轮问答的CT影像报告信息抽取方法，包括以下步骤：

S1，根据信息抽取任务预设问答模板，包括头实体问答问题和尾实体问答问题模板。

实施例中，信息抽取任务一般为抽取主体以及主体的相关内容，这些相关内容可以是主体的相关属性，或者主体的相关处理方式等。基于这样的信息抽取任务一般会将主体认为是头实体，围绕头实体构建头实体问答问题，同时会认为主体的相关内容为尾实体，围绕这该尾实体构建尾实体问答问题模板。

S2，构建样本数据，并对样本数据进行训练集，验证集，测试集的划分。

实施例中，提取CT影像报告中的每一句话与预先设计好的头实体问答问题和尾实体问答模板拼接，形成的两个拼接结果形成问答对，该问答对作为样本数据，形成的问答对适用于用阅读理解框架的数据格式(问题+答案)。初始答案全为0的向量，如果问题有答案，那对应的下标改为答案对应的实体的序号。

在得到样本数据后，将样本数据划分为训练集，验证集，测试集。具体的划分比例可以优选为7:1:2。

S3，基于阅读理解框架构建信息抽取模型，利用训练集，验证集，测试集优化和评估信息抽取模型。

实施例中，阅读理解框架可以采用BiLSTM、GRU、BERT、GPT、XLNET等，优选为BERT模型。利用训练集优化阅读理解框架参数以构建信息抽取模型，过程包括：首先，利用分句算法提取CT影像报告中的每条句子；然后，将句子与每条头实体问答问题拼接，得到提取头实体所需的输入文本；随后，根据人工标注的头实体金标准数据，与对应的每条尾实体问答问题模板拼接，形成针对该头实体的尾实体问答问题，再将该尾实体问答问题与句子拼接，得到提取尾实体所需的输入文本；最后，将构架好的提取头实体和尾实体的输入文本输入信息抽取模型，进行模型训练优化。

在训练阶段的每次迭代中，利用验证集对信息抽取模型进行验证评估，以F1-macro值作为评估结果，如果F1-marco值超过全局最佳F1-marco值，更新全局最佳F1-marco值，同时保存验证集优化参数后的信息抽取模型。在没有达到迭代次数后，继续利用训练集优化信息抽取模型参数，也继续利用验证集对信息抽取模型进行验证评估。

S4，利用信息抽取模型测对CT影像报告中的每条句子进行两轮抽取测试。

实施例中，提取CT影像报告中的每条句子，结合头实体问答问题利用信息抽取模型对句子进行第一轮抽取，获得头实体。具体过程为：利用分句算法提取CT影像报告中的每条句子；然后，将句子与每条头实体问答问题拼接，得到提取头实体所需的输入文本，将文本输入到训练好的信息提取模型中得到头实体，作为第一轮问答结果。如果从句子中不能抽取到头实体问题的答案，则第一轮抽取任务结束。

实施例中，基于头实体问题进行的第一轮信息抽取获得的头实体，进行第二轮尾实体信息的抽取。具体过程为：利用提取到的头实体与尾实体问答问题模板拼接，得到针对该头实体的尾实体问答问题，再将该尾实体问答问题与句子拼接，得到提取尾实体所需的输入文本，将文本再次输入到训练好的信息提取模型中得到尾实体，作为第二轮问答结果。如果从句子中不能抽取到尾实体问题的答案，则第二抽取任务结束，通过第一轮的头实体问题的头实体将第一轮和第二轮关联起来，最大程度利用两轮的信息，使得头实体和尾实体具有很强的关联性。

实施例中，利用测试集评估信息抽取模型抽取信息的准确性，即将测试集包含的问答对输入至信息抽取模型，经过两轮的信息抽取，得到抽取信息，并对比抽取信息与对应的问答对标签，通过评估指标精准率(Precision)、召回率(Recall)、F1值评估信息抽取模型抽取信息的准确性。经过评估验证的信息抽取模型可以用于临床CT影像报告的信息抽取。

S5，将多轮问答提取到的头实体和尾实体配对成三元组，并将提取的三元组信息进行标准化后输出。

多轮抽取任务结束后，将头实体和尾实体关联形成一个完成的提取信息三元组，由于在不同的CT影像报告中同一内容可能具有不同的表述方式，因此得到的提取信息不标准。为此，实施例中，对提取信息进行标准化，如利用字典表提供的规则对提取信息进行标准化处理，以得到结构化信息并输出。

图2是实施例提供的基于多轮问答的CT影像报告信息抽取装置的结构示意图。如图2所示，实施例提供的CT影像报告信息抽取装置包括：

样本数据构建模块，用于对样本数据进行训练集，验证集，测试集的划分；

模型构建并优化模块，用于基于阅读理解框架构建信息抽取模型，利用训练集，验证集，测试集优化和评估信息抽取模型；

多轮问答抽取模块，利用信息抽取模型测对CT影像报告中的每条句子进行两轮抽取测试。

标准化模块，用于利用信息抽取模型测对CT影像报告中的每条句子进行两轮抽取测试。

需要说明的是，上述实施例提供的CT影像报告信息抽取装置在进行CT影像报告信息抽取时，应以上述各功能模块的划分进行举例说明，可以根据需要将上述功能分配由不同的功能模块完成，即在终端或服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的CT影像报告信息抽取装置与CT影像报告信息抽取方法实施例属于同一构思，其具体实现过程详见CT影像报告信息抽取方法实施例，这里不再赘述。

实施例还提供了一种计算机设备，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，存储器中存有基于阅读理解框架构建信息抽取模型、头实体问答问题以及尾实体问答问题模板，信息抽取模型通过上述基于多轮问答的CT影像报告信息抽取方法构建，处理器执行计算机程序时实现以下步骤：

需要说明的是，该计算机设备通过步骤1-3实现的CT影像报告信息抽取方式，与上述实施例提供的基于多轮问答的CT影像报告信息抽取方法相同，在此不再赘述。

实际应用中，计算机存储器可以为在近端的易失性存储器，如RAM，还可以是非易失性存储器，如ROM，FLASH，软盘，机械硬盘等，还可以是远端的存储云。计算机处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)，即可以通过这些处理器实现CT影像报告信息的抽取步骤。

实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理执行时实现上述基于多轮问答的CT影像报告信息抽取方法的步骤。

实施例提供的CT影像报告信息抽取方法和装置，基于实际信息抽取任务预设问题模板，使得该CT影像报告信息抽取方法具有很强的通用性。基于阅读理解框架构建信息抽取模型，并利用信息抽取模型并结合头实体问答问题对CT影像报告中的每条句子进行头实体抽取，然后再信息抽取模型并结合尾实体问答问题模板和头实体对句子进行尾实体抽取，这两轮抽取的头实体和尾实体形成抽取信息具有结构化，由于是在问答模板的指导下抽取得到的，所以抽取准确率高，且利用信息抽取模型自动计算，抽取效率高。

实验例：

信息抽取任务为对肺部CT影像报告中肺癌分期信息进行抽取。基于该抽取任务，构建的头实体问答模板和尾实体问答模板如表1所示：

表1问题模板

针对多份胸部CT影像报告，以有医学背景的工程师对肺癌分期相关信息的标注结果作为样本标签。同时提取多份胸部CT影像报告中每个语句，并结合表1中的问答模板构建样本数据，然后按照上述多轮问答的CT影像报告信息抽取方法中的步骤2的方式构建信息抽取模型。并利用测试样本进行信息抽取模型、Pipeline-BERT以及Pipeline-BiLSTM的验证，验证结果如表2和表3，分析表2和表3可得，实施例提供的基于多轮问答的信息抽取模型在精确率、召回率以及F1值的表现上都优于基于Pipeline-BERT以及Pipeline-BiLSTM的模型。信息抽取模型以93.66％的F1分数实现最佳性能，并显着优于Pipeline-BERT和Pipeline-BiLSTM，在F1分数上分别提高了11.35％和15.10％。

表2

表3不同方法结构化信息提取各个特征F1值

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多轮问答的CT影像报告信息抽取方法，其特征在于，包括以下步骤：

步骤2，基于阅读理解框架构建信息抽取模型；

2.根据权利要求1所述的基于多轮问答的CT影像报告信息抽取方法，其特征在于，所述阅读理解框架包括BiLSTM、GRU、BERT、GPT、XLNET等，利用样本数据来优化阅读理解框架参数，以构建信息抽取模型。

3.根据权利要求1所述的基于多轮问答的CT影像报告信息抽取方法，其特征在于，在训练阶段，提取CT影像报告中每条句子，将每条句子分别头实体问答问题拼接形成头实体问答输入文本，将人工标注的头实体金标准数据与尾实体问答问题模板和输入文本拼接形成尾实体问答输入文本，构建数据集；将数据集分为训练集、验证集以及测试集；在监督下，利用训练集训练阅读理解框架，以优化阅读理解框架参数，参数优化后的阅读理解框架作为信息抽取模型。

4.根据权利要求3所述的基于多轮问答的CT影像报告信息抽取方法，其特征在于，在训练阶段，在模型训练的每次迭代中，利用验证集对信息抽取模型进行评估，以得到F1-marco，如果F1-marco值比之前全局最佳F1-marco值要好，更新全局最佳F1-marco值，同时保存信息抽取模型，直到训练结束，取得全局最佳F1-marco值的模型作为最终的信息抽取模型。

5.根据权利要求1所述的基于多轮问答的CT影像报告信息抽取方法，其特征在于，在测试阶段，利用第一轮问答得到的头实体结果，结合尾实体问答问题模板生成尾实体问答问题，并与句子拼接得到提取尾实体的文本；将提取尾实体的文本输入到训练好的模型中，提取尾实体，利用测试集评估信息抽取模型抽取信息的准确性，比对测试集人工标注的金标准数据与信息抽取模型得到的提取结果，得到精准率、召回率、F1值，评估信息抽取模型抽取信息的准确性。

6.一种基于多轮问答的CT影像报告信息抽取装置，其特征在于，包括：

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，其特征在于，所述存储器中存有基于阅读理解框架构建信息抽取模型、头实体问答问题以及尾实体问答模板，所述信息抽取模型通过权利要求1-5任一项所述的基于多轮问答的CT影像报告信息抽取方法构建，所述处理器执行所述计算机程序时实现以下步骤：

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理执行时实现权利要求1-5任一项所述的基于多轮问答的CT影像报告信息抽取方法的步骤。