CN117594183A

CN117594183A - 基于反事实数据增强的放射学报告生成方法

Info

Publication number: CN117594183A
Application number: CN202311704996.XA
Authority: CN
Inventors: 宋晓; 王如心
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2023-12-12
Filing date: 2023-12-12
Publication date: 2024-02-23

Abstract

本申请涉及生物医学领域，提供一种基于反事实数据增强的放射学报告生成方法，所述方法获取初始样本集，初始样本集包括多张初始图像以及所述多张初始图像中每张初始图像的初始报告，初始报告中包含至少一个语句，所述至少一个语句中的每个语句与所述初始图像中的疾病特征具有对应关系；对所述初始样本集进行反事实数据增强得到反事实样本，根据所述反事实样本得到数据增强后的样本集，包括：基于初始图像中疾病特征的视觉耦合关系，对所述初始图像与所述初始报告进行反事实样本合成；和/或，基于所述初始报告中相邻语句间的连贯耦合关系，对所述初始报告进行反事实报告重构。利用上述方法能够提高放射学报告生成模型的性能。

Description

基于反事实数据增强的放射学报告生成方法

技术领域

本申请涉及生物医学技术领域，涉及数据增强技术，具体涉及一种基于反事实数据增强的放射学报告生成方法。

背景技术

为减少放射检查需求的快速增长对放射科医生的工作量带来的影响，近年来放射报告生成(Radiology Report Generation,RRG)任务备受关注。放射报告生成任务是一种跨模态翻译任务，该任务涉及医学、视觉和语言领域的交叉，用于通过识别放射学图像的视觉特征，生成包含多个句子的长段落报告以描述放射学图像中不同类型的病理现象。

相关技术中，通常使用原始的放射学图像与对应的放射报告作为训练样本训练放射报告生成模型，得到的模型在应用过程中的性能较低，例如，可能会出现由于无法独立识别具有重叠特征的疾病特征、无法避免生成具有连贯性的语句等问题导致的模型生成的放射报告的准确性较低。

发明内容

鉴于以上内容，有必要提出一种基于反事实数据增强的放射学报告生成方法，能够解决使用原始的放射学图像与对应的放射报告作为训练样本训练放射报告生成模型造成的模型性能较低的问题。

本申请的实施例提供一种基于反事实数据增强的放射学报告生成方法，所述方法包括：获取初始样本集，所述初始样本集包括多张初始图像以及所述多张初始图像中每张初始图像的初始报告，所述初始报告中包含至少一个语句，所述至少一个语句中的每个语句与所述初始图像中的疾病特征具有对应关系；对所述初始样本集进行反事实数据增强得到反事实样本，根据所述反事实样本得到数据增强后的样本集，包括：基于所述初始图像中疾病特征的视觉耦合关系，对所述初始图像与所述初始报告进行反事实样本合成；和/或，基于所述初始报告中相邻语句间的连贯耦合关系，对所述初始报告进行反事实报告重构。

在一个实施例中，所述基于所述初始图像中疾病特征的视觉耦合关系，对所述初始图像与所述初始报告进行反事实样本合成，包括：获取任一初始图像中的每个疾病特征；从所述任一初始图像的初始报告中随机选择一个语句作为目标语句；将所述任一初始图像中所述目标语句对应的疾病特征作为目标特征；对所述任一初始图像中的所述目标特征进行掩码，得到更新图像；从所述任一初始图像的初始报告中删除所述目标语句，得到更新报告；根据所述更新图像与所述更新报告生成所述反事实样本。

在一个实施例中，所述对所述初始报告进行反事实报告重构包括：对任一初始图像的初始报告中的至少一个语句的顺序进行随机重构，得到所述任一初始图像的更新报告，将所述更新报告作为所述反事实样本。

在一个实施例中，所述获取任一初始图像中的每个疾病特征包括：对所述任一初始图像进行特征提取，得到所述任一初始图像的所述疾病特征。

在一个实施例中，所述方法还包括：对所述疾病特征进行分类，得到所述疾病特征的分类结果，所述分类结果包括：指示所述疾病特征为阴性的判定结果；或者，指示所述疾病特征为阳性的判定结果。

在一个实施例中，所述基于所述初始图像中疾病特征的视觉耦合关系，对所述初始图像与所述初始报告进行反事实样本合成，还包括：确定所述任一初始图像中具有所述视觉耦合关系的至少两个阳性疾病特征，以及所述至少两个阳性疾病特征在所述任一初始图像的初始报告中对应的至少两个语句；基于所述至少两个阳性疾病特征中的任一阳性疾病特征，执行所述反事实样本合成，包括：将所述任一阳性疾病特征作为目标特征；对所述任一初始图像中的所述目标特征进行掩码，得到更新图像；将所述至少两个语句中所述目标特征对应的语句作为目标语句，从所述任一初始图像的初始报告中删除所述目标语句，得到更新报告；根据所述更新图像与所述更新报告生成所述反事实样本。

在一个实施例中，所述方法还包括：使用所述数据增强后的样本集训练预设的神经网络，得到报告生成模型，其中，所述神经网络包括编码器与解码器，所述编码器用于识别输入所述编码器的图像的疾病特征，所述解码器用于生成所述编码器输出的每个疾病特征对应的语句，所述语句包括每个疾病特征对应的疾病的类别以及所述疾病的判定结果，所述判定结果指示所述疾病为阴性或者阳性。

本申请的实施例提供一种基于反事实数据增强的放射学报告生成装置，所述装置包括：数据获取模块，用于获取初始样本集，所述初始样本集包括多张初始图像以及所述多张初始图像中每张初始图像的初始报告，所述初始报告中包含至少一个语句，所述至少一个语句中的每个语句与所述初始图像中的疾病特征具有对应关系；数据增强模块，对所述初始样本集进行反事实数据增强得到反事实样本，根据所述反事实样本得到数据增强后的样本集，包括：基于所述初始图像中疾病特征的视觉耦合关系，对所述初始图像与所述初始报告进行反事实样本合成；和基于所述初始报告中相邻语句间的连贯耦合关系，对所述初始报告进行反事实报告重构。

本申请的实施例提供一种电子设备，所述电子设备包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现所述基于反事实数据增强的放射学报告生成方法。

本申请的实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述基于反事实数据增强的放射学报告生成方法。

综上所述，本申请所述的基于反事实数据增强的放射学报告生成方法，能够从统计学和因果关系的新角度来分析造成放射学报告准确性较低的因果关系，其中，通过统计学和因果关系确定联合视觉耦合和条件句子连贯耦合是两个容易隐式降低报告准确性的方面。本申请提出了一种包含反事实样本合成和反事实报告重构两个子方法的反事实增强策略，能够打破联合视觉耦合和条件句子连贯耦合的虚假效应，使用反事实增强策略得到的反事实样本训练放射学报告生成模型，能够提高模型生成的报告的准确性。

附图说明

图1是本申请一实施例提供的混杂因子的示例图。

图2是本申请一实施例提供的因果关系的示例图。

图3是本申请一实施例提供的电子设备的结构图。

图4是本申请一实施例提供的基于反事实数据增强的放射学报告生成方法的流程图。

图5是本申请一实施例提供的反事实样本合成的方法的流程图。

图6是本申请一实施例提供的基于反事实数据增强的放射学报告生成的框架示例图。

图7是本申请一实施例提供的基于反事实数据增强的放射学报告生成装置的结构图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施例对本申请进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述在一个实施例中实施例的目的，不是旨在于限制本申请。

需要说明的是，本申请中“至少一个”是指一个或者多个，“多个”是指两个或多于两个。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不是用于描述特定的顺序或先后次序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

在一个实施例中，为帮助放射科医生减少因放射检查需求的快速增长而带来的工作量，近年来，医学及其与视觉和语言领域相交叉的放射学报告生成(Radiology ReportGeneration，RRG)任务受到了广泛关注。RRG任务是一种特定类型的跨模态翻译任务，RRG任务首先识别放射学图像的视觉特征，然后根据识别结果生成一个长段落作为报告，其中包含多个句子，每一句都描述了某些类型的正常或异常的病理现象。

使用RRG模型生成的报告需要与专业从医者撰写的准确的报告相匹配，不仅需要满足在自然语言层面的准确性，还要满足在医学层面的准确性。因此，为了验证RRG模型所生成报告的有效性，通常使用如下两个指标：自然语言生成(Neural LanguageGeneration，NLG)指标和临床性能(Clinical Efficacy，CE)指标。其中，NLG指标用于确定RRG模型生成的报告的语言清晰度和流畅性，可以使用传统序列生成任务的BLEU、METEOR和ROUGE等方法进行评估。CE指标用于评估RRG模型生成的报告中所包含的医学概念的准确性，包括但不限于所生成报告的准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1评分(F1-score)等。

相关技术中的RRG模型训练方法，遵循了传统机器翻译和图像描述任务的思想，旨在生成具有高度语言连贯性的段落。为此，相关技术中引入由解剖学概念的相关性组成的知识图谱等方法，将发生在同一器官或临近视觉区域的解剖学概念组合成高度相关的知识(即疾病共现的相关知识)，并将其作为训练样本训练RRG模型以提高所生成的放射学报告的可读性。

参考图1中的(a)图，疾病的共现关系C成为混杂因子，通过后门路径I←C→Y间接影响RRG模型所生成的放射学报告Y的准确性。根据本申请实施例，参考图1中的(b)图，共现混杂因子C可以分为两个方面，即联合视觉耦合(Joint Visual Coupling，C_j)和条件句子连贯耦合(Conditional Sentence Coherence Coupling，C_c)。

具体而言，一方面，共现混杂因子C造成的虚假的共现将导致图像的视觉特征与疾病标签识别的一对多耦合C_j。另一方面，RRG报告中的每一句话都独立地描述了某些类型的疾病，自由文本报告中的句子之间不应该有顺序关系。然而，现有的基于监督学习的RRG任务使用完整报告段落作为学习的目标，在提高句子内部可读性的同时也导致了句子之间的条件耦合C_c。此外，相关工作为了提高语义连贯性而注入了疾病共现知识，进一步恶化了这种伪关系的影响。

因此，将C_j和C_c中的任何一个注入RRG模型都提高了语言的一致性，创造了RRG性能的虚假繁荣。但是，如图1中(c)图和(d)图所示，使用原始数据集或初始数据集训练RRG模型(模型一)时，随着句子连贯性的提高，RRG模型生成的报告的F1分数和准确性随着RRG模型的训练过程的迭代次数的增加而下降，这说明报告的准确性这一对医生和患者来说更关键的指标却因此被降低。

为了重新思考上述问题，本申请从统计学和因果理论两个新角度对疾病共现关系的因果关系进行了推理。具体来说，包括如下三个部分(1)-(3)。

(1)使用Simpson悖论从统计学角度找到疾病共现是RRG任务中的混杂因子的原因：

Simpson悖论是一种统计学现象，Simpson悖论是指当整体数据被划分为子集时，子集的数据分布可能出现与整体数据的分布相反情况。忽视数据分布中的Simpson悖论会给决策者带来错误策略的严重风险，因为这可能会导致将伪关系误认为因果关系。

举例而言，选择两种特定类型的疾病，即气胸(Pneumothorax)(A)和胸腔积液(Pleural Effusion)(B)，并根据疾病是阳性还是阴性将其分组为子集，探索给定A条件下B发生的概率，表示为条件概率P(B^*|A^*)，其中，‘*’用于区分阳性与阴性，例如，‘*’为‘+’表示疾病为阳性，*为‘-’表示疾病为阴性。其中，可以将条件概率P(B^*|A^*)大于或等于0.5的B^*与A^*视为具有疾病共现关系的两种疾病。

例如表1所示，为本申请实施例提供的给定气胸(A)条件下胸腔积液(B)发生的数据分布的情况，括号外的数值表示样本数量，括号内的数值表示对应的条件概率，本申请认为概率高于0.5为有效的关联关系。

表1

根据表1可知，在整体数据分布中，A样本有203092个，给定A条件下的B样本有189707个，即整体分布中条件概率P(B|A)＝0.934。而每个子集对应的条件概率包括：P(B^-|A^-)＝0.787，P(B⁺|A⁺)＝0.463，P(B⁺|A^-)＝0.159，P(B^-|A⁺)＝0.175。

因此，从表1中可以发现疾病共现是一个会导致Simpson悖论的混杂因子，原因在于：只有P(B^-|A^-)与整体分布中条件概率P(B|A)同样大于0.5，即疾病A和疾病B在整体数据分布(B|A)中和两者同时正常的子集(B^-|A^-)中共现，但在其他子集中得出相反的结论。

上述内容中使用Simpson悖论从统计学角度找到疾病共现是RRG任务中的混杂因子的原因，其后，为了进一步探讨疾病共现对RRG任务的影响，可以从联合视觉耦合C_j和条件句子连贯耦合C_c两个方面出发，利用因果图进行进一步的分析。

(2)联合视觉耦合C_j对RRG任务的影响：

因果图是描述变量之间因果关系的有效方法，其表示为具有变量集V和因果效应关系E的有向无环图G＝{V，E}。例如图1中(a)图所示，图1中(a)图展示了包含三个变量I、C和Y的RRG任务的因果图的示例。其中，I→Y是表示I对Y的直接影响的因果路径，I←C→Y是引入从C到Y的间接虚假相关性的后门路径，其中C是混杂因子。

基于图1中(b)图和上述(1)中的分析，本申请对联合视觉耦合C_j和条件句子连贯耦合C_c下的因果关系进行了建模，其结果如图2所示。其中，C_j不直接影响输出Y，而是隐式地影响识别过程。如图2中(a)图所示，图2中(a)图展示了识别过程中的因果效应，其中I是输入图像，Y是生成的报告，C_j是伪共现关系，F是图像识别结果(图像特征或疾病特征)。然而，除了来自I→F的视觉信息，该过程同时受到通过间接后门路径的虚假同现关系C_j的间接影响I←C_j→F。

此外，基于放射学报告包含正常和异常病理结构的描述这一事实，相关技术中训练RRG模型时使用的数据集中的样本偏差较大，例如阴性的正常数据(包括放射学图像与对应的放射学报告)远远多于阳性的异常数据。例如表1所示，A样本中阴性的正常数据的数量为195725，A样本中阳性的异常数据的数量为7667。因此，使用样本偏差较大的初始样本数据集训练RRG模型，正常数据会主导RRG的数据分布，该严重偏差的数据分布将加剧C_j的影响，使得RRG模型的准确性降低。

根据上述内容可知，视觉特征的联合耦合C_j是RRG任务中的一个混杂因子，同时由于正常数据主导整体数据分布，C_j甚至加剧了视觉特征对疾病识别的一对多影响，并混淆了视觉特征与疾病对之间的独立性，可以表示为P(AB)≠P(A)P(B)。例如，在整个数据集中，两种特定类型的疾病(如气胸和胸腔积液)的一些虚假共现关系是由主流正常子集引起的，而少数异常子集不足以对抗这种虚假关系。

(3)条件句子连贯耦合C_c对RRG任务的影响：

句子连贯性的条件耦合C_c影响着从编码结果到语言报告的翻译过程。例如图2中的(b)图所示，本申请创新性地为RRG过程提出了一种时间因果图模型。

具体而言，RRG模型在每个时间步，根据图像特征的编码结果F和前t-1个时刻生成的单词{y₀,y₁,…,y_t-1}，生成一个单词y_t。然而，例如图2中的(b)图所示，C_c在每个时间步中都扮演着混杂因子的角色，通过后门路径{y₀,y₁,…,y_t-1}←C_c→{y₀,y₁,…,y_t}，在生成过程通过虚假的句子连贯效应影响报告生成的准确性。这种虚假效应混淆了句子之间的独立性，可以表示为P(P|A)≠P(B)。

然而，这种虚假的句子连贯性被广泛认为是RRG任务中的一个重要指标，以确保生成的报告的可读性。为了增强句子的连贯性，相关技术对RRG模型进行了详细的设计来学习疾病之间的伪关联。具体而言，通过在数据集中存储和利用现成的报告语料库，在提高生成报告的句子连贯性的同时，将一些无意义和虚假的句子间的连贯性引入模型中。这些精细设计的方法看似提高了所生成段落的NLG指标，但其中也包含了更多无意义的句子间连贯性，例如句子间的交接处也被统计在NLG指标的命中率中。

从理论上讲，大多数由段落性的报告监督的RRG模型基本上混淆了疾病之间的独立性，其中除了每个时刻生成的单词需要与报告中对应的单词相同之外，句子之间的顺序也被隐式地优化。这导致了句子和疾病的耦合，尤其是在主流子集主导的有较大偏差的数据分布下。这种句子顺序的隐式注入可能导致在训练迭代期间生成的报告的F1分数和准确性下降，例如图1中的(c)图和(d)图所示。例如，如果两个句子的相对顺序占比较高，模型可能会学习仅基于前一个句子生成连贯的下一个句子，而忽略视觉信息。

相关技术中，通常使用原始的放射学图像与对应的放射报告作为训练样本训练放射报告生成模型，得到的模型在应用过程中的性能较低。例如，可能会出现由于无法独立识别具有重叠特征的疾病特征、无法避免生成具有连贯性的语句等问题导致的模型生成的放射报告的准确性较低。

基于上述内容中对RRG任务中的疾病共现关系的反思和推理，为了解决由于疾病共现造成的联合视觉耦合C_j与条件句子连贯耦合C_c对RRG任务的影响，本申请提出了一种简单有效的通用反事实增强策略来干预上述两个方面的错误影响。

本申请提供的反事实增强策略具体包含两个子方法。具体而言，一方面，为解决C_j方面的问题，提出了一种反事实样本合成(Counterfactual Sample Synthesis,CSS)方法，CSS方法在识别过程中随机屏蔽视觉特征及其对应的句子，以打断部分视觉特征对疾病标签的一对多耦合问题，提高视觉特征与疾病标签对之间的独立性。另一方面，为解决C_c方面的问题，提出一种反事实报告重构(Counterfactual Report Reconstruction,CRR)方法，CRR方法通过随机打乱句子顺序，简单有效地解决了句子之间的条件耦合问题。

综上所述，本申请从统计学和因果理论两个角度为切入点，重新思考疾病共现关系成为RRG任务中的混杂因子的原因及其影响，进而提出包含两个子方法的反事实增强策略来干预其影响，使用反事实增强样本训练RRG模型，能够提升RRG模型生成报告的准确性。

图3为本申请实施例提供的一种电子设备的结构示意图。该电子设备10可以为计算机、服务器、手机、平板电脑、笔记本电脑等电子设备上，本申请实施例对电子设备的具体类型不作任何限制。

如图3所示，该电子设备10可以包括通信模块101、存储器102、处理器103、输入/输出(Input/Output，I/O)接口104及总线105。处理器103通过总线105分别耦合于通信模块101、存储器102、I/O接口104。

通信模块101可以包括有线通信模块和/或无线通信模块。有线通信模块可以提供通用串行总线(universal serial bus，USB)、控制器局域网总线(Controller AreaNetwork，CAN)等有线通信的解决方案中的一种或多种。无线通信模块可以提供无线保真(wireless fidelity，Wi-Fi)，蓝牙(bluetooth，BT)，移动通信网络，调频(frequencymodulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案中的一种或多种。

存储器102可以包括一个或多个随机存取存储器(random access memory，RAM)和一个或多个非易失性存储器(non-volatile memory，NVM)。随机存取存储器可以由处理器103直接进行读写，可以用于存储操作系统或其他正在运行中的程序的可执行程序(例如机器指令)，还可以用于存储用户及应用的数据等。随机存取存储器可以包括静态随机存储器(static random-access memory，SRAM)、动态随机存储器(dynamic random accessmemory，DRAM)、同步动态随机存储器(synchronous dynamic random access memory，SDRAM)、双倍资料率同步动态随机存取存储器(doubledata rate synchronous dynamicrandom access memory，DDR SDRAM)等。

非易失性存储器也可以存储可执行程序和存储用户及应用的数据等，可以提前加载到随机存取存储器中，用于处理器110直接进行读写。非易失性存储器可以包括磁盘存储器件、快闪存储器(flash memory)。

存储器102用于存储一个或多个计算机程序。一个或多个计算机程序被配置为被处理器103执行。该一个或多个计算机程序包括多个指令，多个指令被处理器103执行时，可实现在电子设备10上执行的基于反事实数据增强的放射学报告生成方法。

在其他实施例中，所述电子设备10还包括外部存储器接口，用于连接外部的存储器，实现扩展电子设备10的存储能力。

处理器103可以包括一个或多个处理单元，例如：处理器103可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

处理器103提供计算和控制能力，例如，处理器103用于执行存储器102内存储的计算机程序，以实现上述的基于反事实数据增强的放射学报告生成方法。

I/O接口104用于提供用户输入或输出的通道，例如I/O接口104可用于连接各种输入输出设备，例如，鼠标、键盘、触控装置、显示屏等，使得用户可以录入信息，或者使信息可视化。

总线105至少用于提供电子设备10中的通信模块101、存储器102、处理器103、I/O接口104之间相互通信的通道。

可以理解的是，本申请实施例示意的结构并不构成对电子设备10的具体限定。在本申请另一些实施例中，电子设备10可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

图4是本申请一实施例提供的基于反事实数据增强的放射学报告生成方法的流程图。所述基于反事实数据增强的放射学报告生成方法应用于电子设备中，例如图3中的电子设备10，具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

步骤S21，获取初始样本集。

在一个实施例中，所述初始样本集包括多张初始图像，所述初始图像可以包括放射学图像，例如数字摄影(Digital radiography，DR)图像等。

在一个实施例中，所述初始样本集还包括所述多张初始图像中每张初始图像的初始报告，所述初始报告中包含至少一个语句，所述至少一个语句中的每个语句与所述初始图像中的疾病特征具有对应关系。可以理解为每个语句都包含一个或多个疾病特征对应的疾病标签。一般而言，初始报告中每个语句中会包含一个阳性疾病对应的疾病标签；值得注意的是，当某些特定类型的疾病都是阴性时，这些阴性疾病对应的疾病标签可能会包含在同一个语句中。

步骤S22，对所述初始样本集进行反事实数据增强得到反事实样本，根据所述反事实样本得到数据增强后的样本集。

在一个实施例中，对所述初始样本集进行反事实数据增强得到反事实样本，根据所述反事实样本得到数据增强后的样本集，包括：基于所述初始图像中疾病特征的视觉耦合关系，对所述初始图像与所述初始报告进行反事实样本合成；和/或，基于所述初始报告中相邻语句间的连贯耦合关系，对所述初始报告进行反事实报告重构。

在一个实施例中，反事实样本合成方法已应用于自然图像处理任务领域。然而，与使用对象检测或语义分割等方法来更容易、更成熟地精确处理的自然图像相比，包含数十种疾病的射线照片很难被准确检测或分割。此外，某些特定类型疾病的解剖结构经常重叠在一起，因此独立识别每种疾病是有噪声的，也是不可实现的。因此，在自然图像处理中取得巨大成就的反事实增强方法无法应用于RRG任务。为了解决这些问题，本申请创新地提出在二元特征级别进行反事实样本合成，而不是在图像级别进行直接处理，其中每个二值特征代表一种独立的疾病类型。通过这种方式，可以精确地处理每种类型的疾病特征，同时保留其他有效信息不受损失。

参考图5所示，本申请实施例提供的反事实样本合成的方法包括如下步骤：

步骤S31，获取任一初始图像中的每个疾病特征。

在一个实施例中，可以使用预先训练的二元特征提取器对每张初始图像进行二元特征提取，得到每张初始图像的二元特征作为疾病特征，所述二元特征包括每张初始图像包含的疾病的类别。具体的，所述二元特征提取器用于确定所述初始图像中是否存在预设的类别的疾病，从而得到每张初始医学图像包含的疾病的类别。

在一个实施例中，使用预先训练的二元分类模型对疾病特征进行二元分类，得到疾病特征的二元分类结果，所述二元分类结果包括：每张初始图像中每种类别的疾病以及每种疾病是阴性还是阳性的判定结果，即所述二元分类结果包括所述疾病特征。具体的，所述二元分类模型包括多个二元分类器，其中每个二元分类器用于确定一种类别的疾病是阴性还是阳性。

在一个实施例中，例如图6所示，可以首先在初始样本集上使用N_c个疾病类别的二元分类任务来训练二元特征提取模型，具体公式可以表示为：

其中，I表示初始图像，BFE_i(·)是用于对第i个疾病类别的二元特征(即疾病特征)进行提取的二元特征提取器，BC_i(·)是用于对第i个疾病类别的二元特征进行分类的二元分类器；BC_i(·)基于BFE_i(·)提取的二元特征产生二元分类结果cls_i，其中，cls_i取值为0与1，cls_i取值为0时表示第i个二元特征为阴性，cls_i取值为1时表示第i个二元特征为阳性。

之后，可以使用预先训练的BEF模型提取初始图像I的二元特征，具体公式可以表示为：

因此，每个二元特征f_i包含关于第i个疾病类别的疾病是阳性还是阴性的独立信息。然后，可以对这些二元疾病特征进行反事实样本合成。

步骤S32，从所述任一初始图像的初始报告中随机选择一个语句作为目标语句。

在一个实施例中，得到每张初始图像的二元特征F后，本申请提出的反事实样本合成模块例如图6中的(a)图所示。具体而言，给定包含二元特征F及对应的初始报告Y的原始数据(F,Y)，从Y中随机出栈一个语句作为目标语句s，表示为Y^-←Pop(Y)，其中Y^-中不再包含目标语句s。

步骤S33，将所述任一初始图像中所述目标语句对应的疾病特征作为目标特征。

在一个实施例中，可以采用Chexbert标签提取器(LE)来识别目标语句s中描述的疾病标签l(即疾病名称)，表示为l←LE(s)。然后，确定F中疾病标签l对应的疾病特征作为目标特征。

步骤S34，对所述任一初始图像中的所述目标特征进行掩码，得到更新图像。

在一个实施例中，对所述任一初始图像中的所述目标特征进行掩码，得到反事实的疾病特征F^-，具体使用的公式可以表示为：

其中，f_m表示掩码特征(例如全0特征)。其中，当某些特定类型的疾病都是阴性时，这些阴性疾病可能会合并到一个句子中描述，在这种情况下，上述掩码过程可能掩码了f中所有与疾病标签l相应的二元特征。

步骤S35，从所述任一初始图像的初始报告中删除所述目标语句，得到更新报告。

步骤S36，根据所述更新图像与所述更新报告生成所述反事实样本。

在一个实施例中，反事实样本合成方法产生了合成的反事实样本(F^-,Y^-)，其中初始图像中某疾病特征被掩码，初始报告中该疾病特征对应的描述语句被删除，打破了被掩码的疾病与其他疾病的虚假耦合，实现了疾病之间的独立性表示。

在一个实施例中，上述方法中针对每种类型的疾病特征都进行了反事实样本合成，还可以针对已知具有视觉耦合关系的多种疾病特征，对所述初始图像与所述初始报告进行反事实样本合成，具体包括：确定所述任一初始图像中具有所述视觉耦合关系的至少两个阳性疾病特征，以及所述至少两个阳性疾病特征在所述任一初始图像的初始报告中对应的至少两个语句；基于所述至少两个阳性疾病特征中的任一阳性疾病特征，执行所述反事实样本合成，包括：将所述任一阳性疾病特征作为目标特征；对所述任一初始图像中的所述目标特征进行掩码，得到更新图像；将所述至少两个语句中所述目标特征对应的语句作为目标语句，从所述任一初始图像的初始报告中删除所述目标语句，得到更新报告；根据所述更新图像与所述更新报告生成所述反事实样本。

根据上述实施例的描述，句子连贯耦合C_c也是RRG任务中的混杂因子，它导致了疾病的条件耦合。为了解决这一问题，需要打破RRG报告中的语句连贯性。本申请提出了一种简单但有效的CRR策略，该策略可以随机重构报告中语句的顺序。具体而言，将每一句话视为独立的组成部分，而不是将完整的医疗报告视为一个完整的标签。因此，在句子层面进行反事实扩充来打破句子之间的连贯性，同时保持每个句子内部的信息不变是可以实现的。在这种思想下，对于给定的初始报告Y，本申请随机重构语句的顺序的操作如下：

其中，N_T表示初始报告Y中语句的数量，s_u表示初始报告Y中第i个语句，recon表示对语句顺序进行随机重构的函数，Y⁺代表干预虚假语句连贯性混杂因子的反事实增强报告，该方法同时保持了RRG的其他关键因果信息。

在一个实施例中，本申请提出的CSS和CRR两个子方法可以通过整合，使两者的优势得以综合来进一步提高准确性。具体而言，原始数据首先由CSS处理以干预联合视觉耦合，然后由CRR处理以干预条件句子连贯耦合，从而产生反事实增强数据(F^-,Y⁺)。

在一个实施例中，所述预设的神经网络还可以包括如下模型或结构：残差神经网络(Residual Neural Network，ResNet)、密集卷积网络模型(Densely ConnectedConvolutional Network，DenseNet)、ResNet模型和DenseNet模型、长短时记忆(Long-Short Term Memory，LSTM)网络、Transformer模型、Bert模型、GPT模型和其他用于医学图像处理和文本生成的通用基础模型和大模型。

在一个实施例中，如图1中(c)图和(d)图所示，使用数据增强后的样本集训练RRG模型(模型二)与使用原始数据集或初始数据集训练RRG模型(模型一)相比，随着迭代次数的增加，使用数据增强后的样本集训练RRG模型的F1分数和准确性随着RRG模型的训练过程的迭代次数更加稳定，即使用数据增强后的样本集训练得到的RRG模型的性能更高。

本申请提供的基于反事实数据增强的放射学报告生成方法，从统计学和因果关系的角度出发对放射学报告生成任务中的疾病共现关系进行深入地重新思考和推理，得到反事实样本合成和反事实报告重构两个子方法。与其他精细设计模型结构的方法相比，本申请提出的反事实增强方法及其两个子方法是简单有效的模型无关的通用方法，可以直接应用于其他相关技术中。此外，本申请方案所提出的疾病共现关系是其中的混杂因子的结论，是本申请的原创，基于该理论，本申请可以进一步应用后门干预、前门干预、反事实干预等理论设计方法进行验证和优化，更有效地提高生成报告的性能。

在一些实施例中，所述基于反事实数据增强的放射学报告生成装置40可以包括多个由计算机程序段所组成的功能模块。所述基于反事实数据增强的放射学报告生成装置40中的各个程序段的计算机程序可以存储于电子设备的存储器中，并由至少一个处理器所执行，以执行(详见图4描述)反事实数据增强的功能。

本实施例中，所述基于反事实数据增强的放射学报告生成装置40根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：数据获取模块401、数据增强模块402。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于所述基于反事实数据增强的放射学报告生成装置40的中各个模块的功能实现方式可以参见上文对基于反事实数据增强的放射学报告生成方法的限定，在此不再重复描述。

所述数据获取模块401，用于获取初始样本集，所述初始样本包括多张初始图像以及所述多张初始图像中每张初始图像的初始报告，所述初始报告中包含至少一个语句，所述至少一个语句中的每个语句与所述初始图像中的疾病特征具有对应关系。

所述数据增强模块402，用于对所述初始样本集进行反事实数据增强得到反事实样本，根据所述反事实样本得到数据增强后的样本集，包括：基于所述初始图像中疾病特征的视觉耦合关系，对所述初始图像与所述初始报告进行反事实样本合成；和/或，基于所述初始报告中相邻语句间的连贯耦合关系，对所述初始报告进行反事实报告重构。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本申请上述各个实施例中的方法。

其中，所述计算机可读存储介质可以是上述实施例所述的电子设备的内部存储器，例如所述电子设备的硬盘或内存。所述计算机可读存储介质也可以是所述电子设备的外接存储设备，例如所述电子设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

在一些实施例中，所述计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据电子设备的使用所创建的数据等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种基于反事实数据增强的放射学报告生成方法，其特征在于，所述方法包括：

获取初始样本集，所述初始样本集包括多张初始图像以及所述多张初始图像中每张初始图像的初始报告，所述初始报告中包含至少一个语句，所述至少一个语句中的每个语句与所述初始图像中的疾病特征具有对应关系；

对所述初始样本集进行反事实数据增强得到反事实样本，根据所述反事实样本得到数据增强后的样本集，包括：基于所述初始图像中疾病特征的视觉耦合关系，对所述初始图像与所述初始报告进行反事实样本合成；和/或，基于所述初始报告中相邻语句间的连贯耦合关系，对所述初始报告进行反事实报告重构。

2.根据权利要求1所述的基于反事实数据增强的放射学报告生成方法，其特征在于，所述基于所述初始图像中疾病特征的视觉耦合关系，对所述初始图像与所述初始报告进行反事实样本合成，包括：

获取任一初始图像中的每个疾病特征；

从所述任一初始图像的初始报告中随机选择一个语句作为目标语句；

将所述任一初始图像中所述目标语句对应的疾病特征作为目标特征；

对所述任一初始图像中的所述目标特征进行掩码，得到更新图像；

从所述任一初始图像的初始报告中删除所述目标语句，得到更新报告；

根据所述更新图像与所述更新报告生成所述反事实样本。

3.根据权利要求1所述的基于反事实数据增强的放射学报告生成方法，其特征在于，所述对所述初始报告进行反事实报告重构包括：

对任一初始图像的初始报告中的至少一个语句的顺序进行随机重构，得到所述任一初始图像的更新报告，将所述更新报告作为所述反事实样本。

4.根据权利要求2所述的基于反事实数据增强的放射学报告生成方法，其特征在于，所述获取任一初始图像中的每个疾病特征包括：

对所述任一初始图像进行特征提取，得到所述任一初始图像的所述疾病特征。

5.根据权利要求2所述的基于反事实数据增强的放射学报告生成方法，其特征在于，所述方法还包括：

对所述疾病特征进行分类，得到所述疾病特征的分类结果，所述分类结果包括：指示所述疾病特征为阴性的判定结果；或者，指示所述疾病特征为阳性的判定结果。

6.根据权利要求5所述的基于反事实数据增强的放射学报告生成方法，其特征在于，所述基于所述初始图像中疾病特征的视觉耦合关系，对所述初始图像与所述初始报告进行反事实样本合成，还包括：

确定所述任一初始图像中具有所述视觉耦合关系的至少两个阳性疾病特征，以及所述至少两个阳性疾病特征在所述任一初始图像的初始报告中对应的至少两个语句；

基于所述至少两个阳性疾病特征中的任一阳性疾病特征，执行所述反事实样本合成，包括：

将所述任一阳性疾病特征作为目标特征；

将所述至少两个语句中所述目标特征对应的语句作为目标语句，从所述任一初始图像的初始报告中删除所述目标语句，得到更新报告；

根据所述更新图像与所述更新报告生成所述反事实样本。

7.根据权利要求1所述的基于反事实数据增强的放射学报告生成方法，其特征在于，所述方法还包括：

使用所述数据增强后的样本集训练预设的神经网络，得到报告生成模型，其中，所述神经网络包括编码器与解码器，所述编码器用于识别输入所述编码器的图像的疾病特征，所述解码器用于生成所述编码器输出的每个疾病特征对应的语句，所述语句包括每个疾病特征对应的疾病的类别以及所述疾病的判定结果，所述判定结果指示所述疾病为阴性或者阳性。