CN116958693A

CN116958693A - 图像分析方法、装置、设备、存储介质和程序产品

Info

Publication number: CN116958693A
Application number: CN202310945498.8A
Authority: CN
Inventors: 沈逸; 廖术
Original assignee: Shanghai United Imaging Intelligent Healthcare Co Ltd
Current assignee: Shanghai United Imaging Intelligent Healthcare Co Ltd
Priority date: 2023-07-28
Filing date: 2023-07-28
Publication date: 2023-10-27

Abstract

本申请涉及一种图像分析方法、装置、设备、存储介质和程序产品。所述方法包括：获取待分析医学图像；采用预设的图像描述生成网络对待分析医学图像进行文本生成处理，确定待分析医学图像对应的描述文本；采用预设的语言模型对描述文本进行分析处理，确定待分析医学图像对应的分析结果；其中，分析结果用于表征感兴趣区域对应的至少一个候选类别；语言模型是基于第一训练集和第二训练集进行训练得到的，第一训练集包括多组训练描述文本以及相应的训练分析结果，第二训练集包括特殊类别以及特殊类别对应的医学资料，特殊类别对应的医学资料的占比大于特殊类别对应的图像占比。采用本方法能够保证对各类数据的图像分析结果的准确性。

Description

图像分析方法、装置、设备、存储介质和程序产品

技术领域

本申请涉及图像处理技术领域，特别是涉及一种图像分析方法、装置、设备、存储介质和程序产品。

背景技术

目前，随着大语言模型(LLM)的应用越来越广泛，大语言模型已被初步证明其可以在医学临床方面进行应用，但目前的LLM在图像维度上的分析能力较弱，不能很好地对医学图像进行分析。

传统的深度学习网络可以很好地进行图像分析任务，该深度学习网络在进行图像分析任务之前需要先获取大量专家级的标注训练数据，然后采用大量的标注训练数据对深度学习网络进行训练，在训练好之后即可进行特定的图像分析任务，可见，构建一个用于图像分析的深度学习网络的成本较大。

另外，对于一些训练样本身就很少且很难获取到的数据，或者对于一些图像特征游离于训练数据之外的数据，采用上述训练的深度学习网络很难保证对这些数据分析后获得的图像分析结果的准确性。

发明内容

基于此，有必要针对上述技术问题，提供一种能够保证对各类数据的图像分析结果的准确性的图像分析方法、装置、设备、存储介质和程序产品。

第一方面，本申请提供了一种图像分析方法，该方法包括：

获取待分析医学图像；上述待分析医学图像中包括感兴趣区域；

采用预设的图像描述生成网络对待分析医学图像进行文本生成处理，确定待分析医学图像对应的描述文本；上述描述文本表示待分析医学图像的影像特征；

采用预设的语言模型对描述文本进行分析处理，确定待分析医学图像对应的分析结果；

其中，上述分析结果用于表征感兴趣区域对应的至少一个候选类别；上述语言模型是基于第一训练集和第二训练集进行训练得到的，第一训练集包括多组训练描述文本以及相应的训练分析结果，第二训练集包括特殊类别以及特殊类别对应的医学资料，特殊类别对应的医学资料的占比大于特殊类别对应的图像占比。

在其中一个实施例中，上述图像描述生成网络包括相互连接的残差网络和循环神经网络；上述采用预设的图像描述生成网络对待分析医学图像进行文本生成处理，确定待分析医学图像对应的描述文本，包括：

将待分析医学图像输入至残差网络中进行特征提取处理，确定待分析医学图像对应的多维特征；

将多维特征输入至循环神经网络中进行文本生成处理，确定待分析医学图像对应的描述文本。

在其中一个实施例中，上述图像描述生成网络的训练方式包括：

获取历史医学影像报告集；上述历史医学影像报告集中包括多个历史影像报告对，每个历史影像报告对均包括历史影像和相应的历史报告；

对各历史报告中的历史描述文本进行提取处理，确定各历史报告对应的历史描述文本；

根据各历史影像及相应的历史描述文本对初始图像描述生成网络进行训练，确定图像描述生成网络。

在其中一个实施例中，上述根据各历史影像及相应的历史描述文本对初始图像描述生成网络进行训练，确定图像描述生成网络，包括：

对各历史描述文本进行向量转换处理，确定各历史描述文本对应的历史描述文本向量；

根据各历史影像及相应的历史描述文本向量对初始图像描述生成网络进行训练，确定图像描述生成网络。

在其中一个实施例中，上述对各历史描述文本进行向量转换处理，确定各历史描述文本对应的历史描述文本向量，包括：

对各历史描述文本分别进行切词处理，确定每个历史描述文本对应的至少一个分词；

根据预设的词库对各分词进行编码，确定各分词对应的编码符号；上述词库中包括多个分词及每个分词对应的编码符号；

将每个历史描述文本的各编码符号分别映射至高维空间，确定各历史描述文本对应的历史描述文本向量。

在其中一个实施例中，上述采用预设的语言模型对描述文本进行分析处理，确定待分析医学图像对应的分析结果，包括：

根据描述文本确定相关的提示词；上述提示词用于表征基于描述文本所需执行的分析任务；

将提示词以及描述文本输入至语言模型中进行分析处理，确定待分析医学图像对应的分析结果。

在其中一个实施例中，上述语言模型的训练方式包括：

获取预训练的初始语言模型；

将各训练描述文本输入至初始语言模型中，对各训练描述文本进行分析处理，确定各训练描述文本对应的预测分析结果；

将特殊类别对应的医学资料输入至初始语言模型中，对医学资料进行分析处理，确定医学资料对应的预测类别；

根据各预测分析结果和相应的训练分析结果以及根据预测类别及相应的特殊类别，对初始语言模型进行训练，确定语言模型。

在其中一个实施例中，上述根据各预测分析结果和相应的训练分析结果以及根据预测类别及相应的特殊类别，对初始语言模型进行训练，确定语言模型，包括：

确定初始语言模型中与分析任务相关的目标网络模块；

根据各预测分析结果和相应的训练分析结果以及根据预测类别及相应的特殊类别，对目标网络模块进行微调，确定语言模型。

在其中一个实施例中，上述方法还包括：

根据分析结果输出建议信息；上述建议信息用于指示基于至少一个候选类别再次进行图像分析处理或进行用药量估计处理。

第二方面，本申请还提供了一种图像分析装置，该装置包括：

图像获取模块，用于获取待分析医学图像；上述待分析医学图像中包括感兴趣区域；

描述文本生成模块，用于采用预设的图像描述生成网络对待分析医学图像进行文本生成处理，确定待分析医学图像对应的描述文本；上述描述文本表示待分析医学图像的影像特征；

分析模块，用于采用预设的语言模型对描述文本进行分析处理，确定待分析医学图像对应的分析结果；其中，上述分析结果用于表征感兴趣区域对应的至少一个候选类别；上述语言模型是基于第一训练集和第二训练集进行训练得到的，第一训练集包括多组训练描述文本以及相应的训练分析结果，第二训练集包括特殊类别以及特殊类别对应的医学资料，特殊类别对应的医学资料的占比大于特殊类别对应的图像占比。

第三方面，本申请还提供了一种计算机设备，该计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品，该计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述图像分析方法、装置、设备、存储介质和程序产品，通过获取包括感兴趣区域的待分析医学图像，并采用图像描述生成网络对待分析医学图像进行文本生成处理，确定待分析医学图像对应的描述文本，然后采用语言模型对描述文本进行分析处理，确定待分析医学图像对应的分析结果；其中，描述文本表示待分析医学图像的影像特征，分析结果用于表征感兴趣区域对应的至少一个候选类别，且该语言模型是基于两个训练集进行训练得到的。在该方法中，由于训练语言模型的第一训练集包括多组训练描述文本及相应的训练分析结果，因此该方法对具有大量标注数据的描述文本可以进行较好的分析，获得较为准确的分析结果；同时，由于训练语言模型的第二训练集包括特殊类别及其对应的医学资料，且特殊类别对应的医学资料的占比大于特殊类别对应的图像占比，因此对于训练样本身就很少且很难获取到的数据，或者对于图像特征游离于训练数据之外的数据，采用该语言模型也能获得较好的分析结果。

附图说明

图1为一个实施例中计算机设备的内部结构图；

图2为一个实施例中图像分析方法的流程示意图；

图3为另一个实施例中图像分析方法的流程示意图；

图4为另一个实施例中图像分析方法的流程示意图；

图5为另一个实施例中描述文本进行向量转换的示例图；

图6为另一个实施例中图像分析方法的流程示意图；

图7为另一个实施例中图像分析方法的流程示意图；

图8为另一个实施例中图像分析方法的整体流程框架示意图；

图9为一个实施例中图像分析装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的图像分析方法，可以应用于计算机设备，该计算机设备可以是终端，其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种图像分析方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，如图2所示，提供了一种图像分析方法，以该方法应用于图1中的计算机设备为例进行说明，该方法可以包括以下步骤：

S202，获取待分析医学图像；上述待分析医学图像中包括感兴趣区域。

在本步骤中，待分析医学图像可以是待测对象的待测部位的医学图像，该待测部位例如可以是头部、胸部、腹部等，或者可以是具体的器官组织，比如脑部、心脏、肾脏等等；该待测部位中可以包括感兴趣区域，感兴趣区域可以是病灶区域等，对于待分析医学图像中包括的感兴趣区域的数量不作限定。该待分析医学图像可以是二维图像、三维图像等。

该待分析医学图像可以是任意模态的图像，例如可以是CT(ComputedTomography，电子计算机断层扫描)图像、MR(Magnetic Resonance，磁共振)图像、PET(Positron Emission Tomography，正电子发射计算机断层扫描)图像等等。

对于获取待分析医学图像的获取方式，可以是对待测对象的待测部位进行扫描后，对扫描数据进行图像重建所获得的待分析医学图像；或者还可以是从预先存储有待分析医学图像的云端或数据库中获得该待分析医学图像，或者还可以是其他获取方式，这里不作具体限定。

S204，采用预设的图像描述生成网络对待分析医学图像进行文本生成处理，确定待分析医学图像对应的描述文本；上述描述文本表示待分析医学图像的影像特征。

在本步骤中，图像描述生成网络可以是神经网络，也可以是机器学习网络，或者还可以是其他网络。该图像描述生成网络可以包括一个网络架构，也可以包括多个网络架构。该图像描述生成网络可以基于标注好的描述文本和对应的医学影像进行训练得到。

其中，标注好的描述文本可以是对相应的医学影像上的影像特征或其他图像内容进行描述的文本，例如该标注好的描述文本可以是医学影像上的“征象描述”，由于获得“征象描述”属于较为通用且低级的任务，因此基于此对图像描述生成网络的训练就相对更容易，且对医学影像上的影像特征的描述也更准确。同时，这样也无需过多的标注样本就可以训练相对质量较好的图像描述生成网络，因此可以降低标注成本。

基于上述通过训练可以获得训练好的图像描述生成网络，那么在获得待分析医学图像之后，可以将该待分析医学图像输入至图像描述生成网络中，在该图像描述生成网络中可以进行影像特征的提取以及描述文本的生成处理，获得生成的与该待分析医学图像的影像特征相关的描述文本。

需要说明的是，这里生成的描述文本表示的是待分析医学图像的影像特征，该影像特征包括待分析医学图像上的整体影像特征，也包括其中感兴趣区域的影像特征。示例地，这里的描述文本例如可以是“磨玻璃样”、“右侧大脑中动脉走形区可见线状明显低密度灶”等，该描述文本就可以表示待分析医学图像上存在这些影像特征。

S206，采用预设的语言模型对描述文本进行分析处理，确定待分析医学图像对应的分析结果。

在本步骤中，上述分析结果用于表征感兴趣区域对应的至少一个候选类别；上述语言模型是基于第一训练集和第二训练集进行训练得到的，第一训练集包括多组训练描述文本以及相应的训练分析结果，第二训练集包括特殊类别以及特殊类别对应的医学资料，特殊类别对应的医学资料的占比大于特殊类别对应的图像占比。

其中，语言模型可以是大语言模型，该语言模型主要对描述文本做出进一步地分析，获得待分析医学图像的分析结果。这里的分析结果可以采用文本的形式表示出来或输出给用户，以给用户起到提示作用，也就是说，这里的语言模型也可以是文本到文本的语言模型，即输入是文本，输出也可以是文本。对于该分析结果，其中可以包括预测的感兴趣区域的至少一个候选类别，对于基于候选类别如何获得感兴趣区域的目标类别，还可以基于候选类别进行进一步地选择或确定处理；对于该分析结果，其中还可以包括感兴趣区域的其他信息，比如感兴趣区域的体积、面积等测量参数。

上述语言模型也可以预先训练好，该语言模型预先可以基于不同的训练集进行训练，比如可以基于较为容易收集的训练数据集进行训练，或者也可以结合一些不容易获取到的训练集进行联合训练。这里可以分为第一训练集和第二训练集，其中第一训练集就是比较容易收集到的训练数据集，例如可以是常见感兴趣区域的类别对应的描述文本和标注好的分析结果；第二训练集就是较难收集到或获取到的训练数据集，其可以是感兴趣区域的类别比较特殊或比较少见(记为特殊类别)，且通常该特殊类别的医学资料以及该特殊类别的图像均比较少见或较难获取到。

另外，对于该第二训练集，其中特殊类别的医学资料可以包括医学文献、网络论坛知识、历史医学影像报告等。一般该特殊类别的医学影像只有遇到或获取到特殊类别才可能会获取到医学影像，这种比较少见，占比较少。而特殊类别的医学资料则可以由很多有经验的医生或相关医学人员进行发表或撰写得到，该医学资料相对会多一些，即占比相对特殊类别的医学图像而言较多一些。

基于上述采用不同训练集对语言模型的训练，在训练完成之后即可获得训练好的语言模型，然后可以将上述待分析医学图像的描述文本输入至该语言模型中进行分析处理，获得该待分析医学图像对应的分析结果，该分析结果可以包括对待分析医学图像上的感兴趣区域的分析结果，也可以包括对待分析医学图像整体的分析结果。

可以看出，本实施例中通过这两类不同的训练集对语言模型进行训练，使得语言模型即可以适用于比较常见的医学影像，给出较为准确的分析结果；同时对于不常见且较难获取到的医学影像，也会在出现该类医学影像时，给出相对较为准确地图像分析结果。

上述图像分析方法中，通过获取包括感兴趣区域的待分析医学图像，并采用图像描述生成网络对待分析医学图像进行文本生成处理，确定待分析医学图像对应的描述文本，然后采用语言模型对描述文本进行分析处理，确定待分析医学图像对应的分析结果；其中，描述文本表示待分析医学图像的影像特征，分析结果用于表征感兴趣区域对应的至少一个候选类别，且该语言模型是基于两个训练集进行训练得到的。在该方法中，由于训练语言模型的第一训练集包括多组训练描述文本及相应的训练分析结果，因此该方法对具有大量标注数据的描述文本可以进行较好的分析，获得较为准确的分析结果；同时，由于训练语言模型的第二训练集包括特殊类别及其对应的医学资料，且特殊类别对应的医学资料的占比大于特殊类别对应的图像占比，因此对于训练样本身就很少且很难获取到的数据，或者对于图像特征游离于训练数据之外的数据，采用该语言模型也能获得较好的分析结果。

上述实施例中提到了通过图像描述生成网络生成待分析医学图像的描述文本，图像描述生成网络可以包括多个网络架构，以下实施例就以图像描述生成网络包括相互连接的残差网络和循环神经网络时，具体如何生成描述文本的过程进行说明。

在另一个实施例中，提供了另一种图像分析方法，在上述实施例的基础上，如图3所示，上述S204可以包括以下步骤：

S302，将待分析医学图像输入至残差网络中进行特征提取处理，确定待分析医学图像对应的多维特征。

其中，残差网络可以记为ResNet，实质属于卷积神经网络，其主要通过引入残差连接(residual connection)来解决网络中的梯度消失问题，在ResNet中，每个卷积层都不是直接映射输入到输出，而是将输入添加到输出上，即通过跨越几个层的跳跃连接(shortcutconnection)来实现。残差块(Residual block)是ResNet中的基本构建单元，用于实现网络中的跨层连接，残差块包含了一个或多个卷积层和一个跳跃连接，使得网络可以在不丢失信息的情况下更容易地训练。对于本实施例中的残差网络，其中可以包括一个或多个残差块，具体包括的残差块数量可以根据实际网络架构确定。

对于残差网络，可选的，可以是采用常规的骨干网络，其中可以去掉原有的全连接层，新增一个将前一层的输出转成固定维数(如512维)的全连接层，然后取该全连接层的输出作为残差网络的输出。这样采用更高更多维度输出的全连接层，可以提高最终获得的特征的丰富度，进而提升后续基于特征生成的描述文本的准确性。

在本实施例中，在获得待分析医学图像之后，可以将待分析影像输入至图像描述生成网络中的残差网络中，在残差网络中对待分析医学图像上的影像特征进行提取，获得提取的影像特征，这里获得的影像特征一般较多，即是多维的特征，可以记为多维特征。

S304，将多维特征输入至循环神经网络中进行文本生成处理，确定待分析医学图像对应的描述文本。

其中，循环神经网络可以记为RNN，该循环神经网络与上述的残差网络相连接，即循环神经网络的输入端可以与残差网络的输出端连接。该循环神经网络可以用于文本生成、机器翻译、看图描述等场景中，对时序类数据(比如文本数据)进行处理，本实施例中的循环神经网络主要用于进行文本生成。

上述在获得待分析医学图像的多维特征之后，可以将该多维特征输入至图像描述生成网络中的循环神经网络中，在循环神经网络中对多维特征进行文本生成处理等过程，最终获得生成的文本，即待分析医学图像对应的描述文本。当然，也可以是将多维特征进行预处理后再输入至循环神经网络中进行处理，或者在循环神经网络中对多维特征进行预处理也可以，这里的预处理例如可以是将多维特征转化为特征向量。

本实施例中，通过将待分析医学图像输入至图像描述生成网络中的残差网络最终进行特征提取处理，获得多维特征(也可以记为特征向量)，并将多维特征输入至循环神经网络中进行文本生成处理，获得描述文本，这样通过多个连接的网络来分别实现特征提取处理和文本生成处理，可以降低图像描述生成网络的实现难度，提高获得的描述文本的准确性。

上述实施例说明了图像描述生成网络的应用网络，以下实施例就对图像描述生成网络的训练过程进行说明。

在另一个实施例中，提供了另一种图像分析方法，在上述实施例的基础上，如图4所示，上述图像描述生成网络的训练方式可以包括以下步骤：

S402，获取历史医学影像报告集；上述历史医学影像报告集中包括多个历史影像报告对，每个历史影像报告对均包括历史影像和相应的历史报告。

在本步骤中，可以预先获取历史影像报告集，该历史影像报告集比如可以从目前各医疗中心现成的海量历史影像报告中获取到，获得的历史影像报告集中包括多个历史影像报告对，其中每个历史影像报告对中包括历史对象在历史时间拍摄的历史影像，以及在该历史时间针对该历史影像所做出的历史报告，该历史报告可以是影像报告，其中可以包括历史影像中的一部分影像或全部影像，也可以包括对历史影像的描述文本以及有关历史影像的结论文本等。

S404，对各历史报告中的历史描述文本进行提取处理，确定各历史报告对应的历史描述文本。

在本步骤中，在获得各个历史影像报告对之后，可以对每个历史影像报告对中的历史报告进行预处理，具体预处理可以是从各个历史报告中提取出所需的描述文本，该描述文本可以是针对其相应的历史影像上的内容或影像特征所进行的描述，可以记为历史描述文本。

上述具体在预处理时，可以是通过对各个历史报告中的各个标题进行分析，从中找到所需的描述文本的标题，然后将在该所需的描述文本的标题下的内容提取或采用文本识别出来，即可获得每个历史报告中的描述文本，即获得每个历史报告对应的历史描述文本。

当然，上述也可以对各个历史影像进行预处理，比如去噪、图像裁剪、对比度增强等预处理，获得预处理后的历史影像。

S406，根据各历史影像及相应的历史描述文本对初始图像描述生成网络进行训练，确定图像描述生成网络。

在本步骤中，在确定各个历史影像报告对中的各历史影像(具体可以是预处理后的历史影像)，同时确定出各个历史影像报告对的历史报告中的历史描述文本之后，就可以将各个历史影像与其相应的历史描述文本之间建立对应关系，例如建立影像-描述文本对，然后就可以基于建立的各影像-描述文本对，对初始图像描述生成网络进行训练，获得训练好的图像描述生成网络。

具体训练时，作为可选的实施例，可以采用如下步骤进行训练：

步骤A1，对各历史描述文本进行向量转换处理，确定各历史描述文本对应的历史描述文本向量。

其中，可以对每个历史描述文本均进行向量转换处理，即将每个历史描述文本均转换为文本向量，以便于后续可以在计算机设备中快速进行处理。

在将各历史描述文本进行向量转换处理时，作为可选的实施例，可以是对各历史描述文本分别进行切词处理，确定每个历史描述文本对应的至少一个分词；根据预设的词库对各分词进行编码，确定各分词对应的编码符号；上述词库中包括多个分词及每个分词对应的编码符号；将每个历史描述文本的各编码符号分别映射至高维空间，确定各历史描述文本对应的历史描述文本向量。

其中，具体进行切词处理时获得的分词数量以及分词的切分方式，均可以根据实际词语的组成方式确定。对于预设的词库，其可以是预先设定好的分词与编码符号之间的对应关系，该对应关系可以通过预先收集不同的分词，并将各个分词与其对应的编码符号绑定起来获得；这里的编码符号可以是数字符号，当然也可以是其他符号，这里将分词编码成编码符号，可以便于后续快速获得文本向量。对于将编码符号映射至高维空间，可以是采用现有的词嵌入处理等方式，只要可以将编码符号转换至高维空间即可。

示例地，参见图5所示的向量转换示例图，以历史描述文本是“大脑灰白质分界清晰”为例，可以对该历史描述文本进行切词处理，获得“大脑、灰白质、分界、清晰”这几个分词，然后将各分词输入至词库中，获得每个分词对应的编码符号，比如获得编码符号“78、1487、371、112”，之后可以将各编码符号转换至高维空间，获得文本向量，即获得该历史描述文本对应的历史描述文本向量。

通过上述的向量转换方式对全部的历史描述文本均进行向量转换处理，即可获得各历史描述文本对应的历史描述文本向量。

当然，如果对于英文的描述文本，则可以将英文的描述文本先转换为中文的描述文本，之后再继续执行本步骤的向量转换等过程。

步骤A2，根据各历史影像及相应的历史描述文本向量对初始图像描述生成网络进行训练，确定图像描述生成网络。

在本步骤中，在获得各历史描述文本对应的历史描述文本向量之后，就可以据此对初始图像描述生成网络进行训练。具体训练时，基于上述提到的，图像描述生成网络包括残差网络和循环神经网络，那么这里在训练初始图像描述生成网络时，实质上也就是训练初始图像描述生成网络中的初始残差网络和初始循环神经网络。在训练时，可以将各历史影像输入至初始残差网络中进行特征提取，获得各历史影像对应的预测多维特征(也可以记为预测特征向量)，然后将各预测多维特征和相应的历史描述文本向量进行拼接之后，输入至初始循环神经网络中进行文本生成处理，获得每个历史影像对应的预测描述文本向量；之后可以基于各预测描述文本向量与对应的历史描述文本向量之间的损失，对初始残差网络以及初始循环神经网络进行训，即对初始图像描述生成网络进行训练，获得训练好的图像描述生成网络。

本实施例中，通过获取现有的海量历史影像和相应的历史报告，并从历史报告中提取出相应的历史描述文本后，基于各历史描述文本以及历史影像对初始图像描述生成网络进行训练，这样通过现有的历史数据对网络进行训练，而无需大量标注数据，因此可以降低数据标注成本；同时采用海量历史数据训练网络，也可以提升训练的网络的准确性。另外，通过将历史描述文本转化为向量进行网络训练，这样可以降低计算机设备训练网络的难度。进一步地，通过对历史描述文本进行切词以及编码并映射处理以获得历史描述文本向量，这样可以细化向量转化过程，提升获得的文本向量的准确性和效率。

上述实施例中提到了可以通过语言模型对描述文本进行分析以获得分析结果，以下实施例就对该过程的一种可能的实现方式进行说明。

在另一个实施例中，提供了另一种图像分析方法，在上述实施例的基础上，如图6所示，上述S206可以包括以下步骤：

S502，根据描述文本确定相关的提示词；上述提示词用于表征基于描述文本所需执行的分析任务。

在本步骤中，上述待分析医学图像输入至图像描述生成网络中生成描述文本时，该图像描述网络也可以基于描述文本生成与描述文本关联的提示词，或者可以是图像描述生成网络生成的描述文本中携带相关的提示词。

该提示词可以是几个分词，或者可以是一句话，或者还可以是多个句子等，这里的提示词主要是针对描述文本做出的指示语言模型需要执行的分析任务，这样可以便于语言模型获知具体执行何种任务。

示例地，这里的提示词例如可以是“请根据上述影像所见或描述文本，列出感兴趣区域可能的候选类别”，那么后续语言模型就可以知道是需要根据描述文本进行感兴趣区域类别的选择处理。

S504，将提示词以及描述文本输入至语言模型中进行分析处理，确定待分析医学图像对应的分析结果。

在本步骤中，在获得待分析医学图像对应的描述文本以及相应的提示词之后，可以将描述文本和提示词均输入至语言模型中，通过提示词可以指导语言模型具体执行的分析任务是什么，这样语言模型就可以按照提示词对描述文本进行相应的分析处理，最终获得待分析医学图像对应的分析结果。

本实施例中，通过根据描述文本确定提示词以及将描述文本和提示词均输入至语言模型进行分析处理，获得分析结果，其中提示词可以指导语言模型基于描述文本所需执行的任务，这样可以便于语言模型基于提示词有针对性地对描述文本进行相应的分析处理，获得较为准确的分析结果，同时也可以提升分析效率。

上述实施例中提到了语言模型可以基于大量训练文本对进行训练，以获得较为稳定的语言模型，对常见的文本可以有较为准确地识别和分析能力；同时该语言模型还可以基于特殊类别的大量医学资料进行训练，这样该语言模型在针对包括特殊类别的描述文本时会对其中的特殊类别也具有优越的识别和分析能力。那么针对实际过程中如何训练该语言模型，以下实施例就对此进行说明。

在另一个实施例中，提供了另一种图像分析方法，在上述实施例的基础上，如图7所示，上述语言模型的训练方式可以包括以下步骤：

S602，获取预训练的初始语言模型。

在本步骤中，由于语言模型的训练过程难度较大，因此一般对语言模型的训练基本都是对目前预训练过的初始语言模型进行微调，这里预训练好的初始语言模型可以是目前采用其他数据集(比如大量的文本数据)训练好的语言模型。

以中文为例，这里的初始语言模型基本都是采用中文数据优化过的模型，可以很好地适应中文问答、对话等任务。即这里的初始语言模型在文本处理分析方面已经有了较好的基础，可以进行文本分析处理，那么为了适应本申请实施例中的医学图像场景，可以基于本申请实施例的医学图像再对初始语言模型进行进一步训练，即将初始语言模型在预训练过程中学到的知识迁移到特定任务中，使得模型在特定任务中具有较好的分析结果。

S604，将各训练描述文本输入至初始语言模型中，对各训练描述文本进行分析处理，确定各训练描述文本对应的预测分析结果。

在本步骤中，如上述实施例S206中提到的，初始语言模型可以基于两个不同的训练集进行训练，那么这里先采用第一训练集进行训练，具体可以是将第一训练集中的各训练描述文本输入至初始语言模型中，其中各训练描述文本中也可以包括相应的提示词，以指示初始语言模型执行何种分析操作。然后初始语言模型可以按照各提示词对相应的训练描述文本进行相应的分析处理，获得每个训练描述文本对应的预测分析结果。

S606，将特殊类别对应的医学资料输入至初始语言模型中，对医学资料进行分析处理，确定医学资料对应的预测类别。

在本步骤中，如上述实施例S206中提到的，由于目前特殊类别的图像较少且很难获取到(因为很难碰到特殊类别，所以也就没有相应的特殊类别的图像)，所以语言模型对特殊类别的识别和分析能力较弱，而特殊类别的医学资料相对于特殊类别的医学图像而言占比还是较多的，其可以从医学文献、网络平台以及医学影像报告等多个渠道中获取到。考虑到特殊类别的医学资料相对图像较多一点，因此本实施例中可以从不同渠道收集特殊类别的医学资料，然后将该特殊类别的医学资料也对语言模型进行训练，以使得训练的语言模型在针对包括特殊类别的描述文本进行识别和分析时，也会对其中的特殊类别也具有优越的识别和分析能力。

具体通过特殊类别的医学资料进行语言模型的训练时，如上提到的，该特殊类别及其医学资料为第二训练集，那么这里可以继续采用第二训练集进行训练，具体可以是将第二训练集中特殊类别对应的医学资料作为训练描述文本，输入至初始语言模型中，当然，也可以基于特殊类别的医学资料再设置相应的提示词一并输入至初始语言模型中，指导语言模型基于进行特定的分析任务；然后通过语言模型对医学资料进行分析处理，获得每个医学资料对应的特殊类别。需要说明的是，这里的医学资料对应的特殊类别，其可以认为是医学资料对应的训练标签。

由于特殊类别的医学资料可以来源于各种场景，比如从医学文献、网络论坛知识、历史医学影像报告等中获得，均属于描述文本，该特殊类别的描述文本占比远大于特殊类别对应的图像占比，因此从网络训练的角度来说，更容易让语言模型在特殊类别上得到理想的结果，即或较为准确的分析结果，因此本申请实施例中对语言模型训练时加入了特殊类别的医学资料的训练集，以提升网络对特殊类别的分析结果的准确性。

S608，根据各预测分析结果和相应的训练分析结果以及根据预测类别及相应的特殊类别，对初始语言模型进行训练，确定语言模型。

在本步骤中，在获得每个训练描述文本及其对应的预测分析结果之后，可以通过各预测分析结果与其对应的训练分析结果之间的损失对初始语言模型先进行微调，之后再采用预测类别及相应的特殊类别之间的损失对微调后的语言模型进行再次微调，最终获得训练好的语言模型。或者，也可以是通过各预测分析结果与其对应的训练分析结果之间的损失，联合预测类别及相应的特殊类别之间的损失，通过这两部分损失统一对初始语言模型进行微调，获得训练好的语言模型。

对于上述在对初始语言模型进行微调的过程，由于初始语言模型的模型参数量较大，训练成本较高，因此为了降低成本以及加快训练速度，可以对初始语言模型中的局部进行微调，其他未调整的部分可以采用一个小型的仿真器来模拟，该仿真器训练的参数也可以替换到完整的初始语言模型中，达到近似完整模型上微调的效果。

具体上述在对初始语言模型的局部进行微调时，作为可选的实施例，可以是确定初始语言模型中与分析任务相关的目标网络模块；根据各预测分析结果和相应的训练分析结果以及根据预测类别及相应的特殊类别，对目标网络模块进行微调，确定语言模型。

也就是说，可以在初始语言模型中确定出与所需执行的分析任务关联性较高的网络层或网络模块，记为目标网络层或目标网络模块，这里的目标网络层或目标网络模块例如可以是初始语言模型中的输出层，然后将其它层(比如输出层前的若干层)冻结，即在模型训练过程中不进行参数更新的层。然后可以基于上述计算的损失对目标网络层或目标网络模块的参数进行调整或更新，实现对初始语言模型的训练，直至收敛，最终获得训练好的语言模型。

本实施例中，通过各训练描述文本以及特殊类别的医学资料输入至初始语言模型中获得预测分析结果以及预测类别，并结合训练描述文本以及特殊类别对初始语言模型进行训练，获得训练好的语言模型，这样通过多种预测结果对初始语言模型进行训练，可以提升语言模型对各类数据进行分析的准确性，同时采用特殊类别样本对语言模型进行训练，可以提升语言模型对特殊类别的医学影像进行分析的准确性。另外，通过确定语言模型与分析任务相关的目标网络模块，并对目标网络模块进行微调，而不是对语言模型的全部模块进行调整，因此可以降低模型训练的计算量，提升训练效率，同时可以降低语言模型的训练难度。

在实际应用过程中，上述获得的待分析医学图像的分析结果可能只是一个中间结果，后续还可以在该分析结果的基础上进行下一步处理，以下实施例对基于分析结果还可以进行下一步处理的过程进行说明。

在另一个实施例中，提供了另一种图像分析方法，在上述实施例的基础上，上述方法还可以包括以下步骤：

在本步骤中，在获得待分析医学图像对应的分析结果之后，可以基于该分析结果向用户输出建议消息；比如该分析结果中包括感兴趣域的至少一个候选类别，那么可以通过建议消息告知用户对该至少一个候选类别进行进一步图像分析处理，比如从中选择出目标类别；或者还可以通过建议消息告知用户基于至少一个候选类别，通过类别与用药量之间的对应关系，确定出各候选类别对应的用药量；或者还可以进行其他的操作，这里不作具体限定。

本实施例中，通过基于分析结果输出建议消息，指示基于至少一个候选类别进行再次处理或用药量估计处理，这样可以便于用户及时进行下一步处理，进一步提升处理效率。

以下给出一个详细实施例来对本申请实施例的方案进行说明，在上述实施例的基础上，该方法可以包括以下步骤：

一、模型训练过程

1、图像描述生成网络的训练过程：

D11，获取历史医学影像报告集；上述历史医学影像报告集中包括多个历史影像报告对，每个历史影像报告对均包括历史影像和相应的历史报告；

D12，对各历史报告中的历史描述文本进行提取处理，确定各历史报告对应的历史描述文本；

D13，对各历史描述文本分别进行切词处理，确定每个历史描述文本对应的至少一个分词；

D14，根据预设的词库对各分词进行编码，确定各分词对应的编码符号；上述词库中包括多个分词及每个分词对应的编码符号；

D15，将每个历史描述文本的各编码符号分别映射至高维空间，确定各历史描述文本对应的历史描述文本向量；

D16，根据各历史影像及相应的历史描述文本向量对初始图像描述生成网络进行训练，确定图像描述生成网络。

2、语言模型的训练过程：

D21，获取特殊类别以及特殊类别对应的医学资料，特殊类别对应的医学资料的占比大于特殊类别对应的图像占比；

D22，获取预训练的初始语言模型；

D23，将各训练描述文本输入至初始语言模型中，对各训练描述文本进行分析处理，确定各训练描述文本对应的预测分析结果；

D24，将特殊类别对应的医学资料输入至初始语言模型中，对医学资料进行分析处理，确定医学资料对应的预测类别；

D25，确定初始语言模型中与分析任务相关的目标网络模块；

D26，根据各预测分析结果和相应的训练分析结果以及根据预测类别及相应的特殊类别，对目标网络模块进行微调，确定语言模型。

二、模型应用过程

S1，获取待分析医学图像；上述待分析医学图像中包括感兴趣区域；

S2，将待分析医学图像输入至残差网络中进行特征提取处理，确定待分析医学图像对应的多维特征；

S3，将多维特征输入至循环神经网络中进行文本生成处理，确定待分析医学图像对应的描述文本；上述描述文本表示待分析医学图像的影像特征；

S4，根据描述文本确定相关的提示词；上述提示词用于表征基于描述文本所需执行的分析任务；

S5，将提示词以及描述文本输入至语言模型中进行分析处理，确定待分析医学图像对应的分析结果；

S6，根据分析结果输出建议信息；上述建议信息用于指示基于至少一个候选类别再次进行图像分析处理或进行用药量估计处理。

示例地，参见图8所示的整体流程图，待分析医学图像可以是头部CT平扫影像，可以将该头部CT平扫影像输入至图像描述生成网络中进行文本生成处理，确定该头部CT平扫影像对应的描述文本。这里的描述文本可以是图中的“提示文本”，其中可以包括影像相关的描述文本，比如“右侧大脑中动脉支配区灰白质分界模糊...”，也可以包括相关的提示词，比如“请根据上述影像所见，列出可能的病症”。然后可以将该描述文本输入至微调后的语言模型中(即图中的微调过的LLM)，在语言模型中通过提示词对描述文本中的内容进行分析处理，获得头部CT平扫影像对应的分析结果，比如图中的“诊断提示”中的文本内容。图中的微调后的LLM可以基于大量文本对进行微调，也可以基于特殊类别的医学资料/医学材料进行微调，这里的特殊类别的医学资料/医学材料比如可以是图中的“用于微调的医学材料”中的文本内容，但是并不局限于此。

由此可见，本申请实施例中采用的图像描述生成网络的识别任务严格控制在“征象描述”，而非“疾病诊断”。该改动的原因在于，“疾病诊断”等结论存在较多的分布不均衡问题(如一些罕见病)，训练网络时分布的不均衡会极大地影响网络预测的准确性；而“征象描述”则是较为通用且低级的任务，网络训练更容易，对目标的描述也更为准确，无需做进一步的诊断。而微调后的LLM则可以很好地发挥其文本维度的能力，在协助医生做出初步分析的同时，也可以对一些罕见病例有一定的分辨能力，即可以获得初步的分析结果。

进一步地，对于上述获得的分析结果，其一般属于中间结果，通常还需要进行进一步数据处理或图像处理等后处理手段，才能获得最终的图像分析结果。

由上述描述可知，图像描述生成网络侧重于图像到特征的文本描述，微调后的语言模型侧重于文本描述到分析结果的生成，两个网络仅需少量的处理和审核成本即可训练获得，因此可以降低训练成本。另外，由于中间的隐含特征是图像的特征描述文本，图像描述生成网络可以很好地完成任务，而微调后的语言模型则可以很好地发挥其文本维度的能力，在辅助医生分析图像的同时，也可以对特殊类别的医学图像有一定的分辨能力/分析能力。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的图像分析方法的图像分析装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个图像分析装置实施例中的具体限定可以参见上文中对于图像分析方法的限定，在此不再赘述。

在一个实施例中，如图9所示，提供了一种图像分析装置，包括：图像获取模块、描述文本生成模块和分析模块，其中：

在另一个实施例中，提供了另一种图像分析装置，上述图像描述生成网络包括相互连接的残差网络和循环神经网络，在上述实施例的基础上，上述描述文本生成模块，可以包括：

特征提取单元，用于将待分析医学图像输入至残差网络中进行特征提取处理，确定待分析医学图像对应的多维特征；

文本生成单元，用于将多维特征输入至循环神经网络中进行文本生成处理，确定待分析医学图像对应的描述文本。

在另一个实施例中，提供了另一种图像分析装置，在上述实施例的基础上，上述装置还可以包括第一训练模块，该第一训练模块可以包括：

历史数据集获取单元，用于获取历史医学影像报告集；上述历史医学影像报告集中包括多个历史影像报告对，每个历史影像报告对均包括历史影像和相应的历史报告；

文本提取单元，用于对各历史报告中的历史描述文本进行提取处理，确定各历史报告对应的历史描述文本；

图像网络训练单元，用于根据各历史影像及相应的历史描述文本对初始图像描述生成网络进行训练，确定图像描述生成网络。

可选的，上述图像网络训练单元，可以包括：

向量转换子单元，用于对各历史描述文本进行向量转换处理，确定各历史描述文本对应的历史描述文本向量；

图像网络训练子单元，用于根据各历史影像及相应的历史描述文本向量对初始图像描述生成网络进行训练，确定图像描述生成网络。

可选的，上述向量转换子单元，具体用于对各历史描述文本分别进行切词处理，确定每个历史描述文本对应的至少一个分词；根据预设的词库对各分词进行编码，确定各分词对应的编码符号；上述词库中包括多个分词及每个分词对应的编码符号；将每个历史描述文本的各编码符号分别映射至高维空间，确定各历史描述文本对应的历史描述文本向量。

在另一个实施例中，提供了另一种图像分析装置，在上述实施例的基础上，上述分析模块，可以包括：

提示词确定单元，用于根据描述文本确定相关的提示词；上述提示词用于表征基于描述文本所需执行的分析任务；

分析单元，用于将提示词以及描述文本输入至语言模型中进行分析处理，确定待分析医学图像对应的分析结果。

在另一个实施例中，提供了另一种图像分析装置，在上述实施例的基础上，上述装置还可以包括第二训练模块，该第二训练模块可以包括：

初始模型获取单元，用于获取预训练的初始语言模型；

预测分析单元，用于将各训练描述文本输入至初始语言模型中，对各训练描述文本进行分析处理，确定各训练描述文本对应的预测分析结果；

预测类别确定单元，用于将特殊类别对应的医学资料输入至初始语言模型中，对医学资料进行分析处理，确定医学资料对应的预测类别；

语言模型训练单元，用于根据各预测分析结果和相应的训练分析结果以及根据预测类别及相应的特殊类别，对初始语言模型进行训练，确定语言模型。

可选的，上述语言模型训练单元，具体用于确定初始语言模型中与分析任务相关的目标网络模块；根据各预测分析结果和相应的训练分析结果以及根据预测类别及相应的特殊类别，对目标网络模块进行微调，确定语言模型。

在另一个实施例中，提供了另一种图像分析装置，在上述实施例的基础上，上述装置还可以包括：

输出模块，用于根据分析结果输出建议信息；上述建议信息用于指示基于至少一个候选类别再次进行图像分析处理或进行用药量估计处理。

上述图像分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待分析医学图像；上述待分析医学图像中包括感兴趣区域；采用预设的图像描述生成网络对待分析医学图像进行文本生成处理，确定待分析医学图像对应的描述文本；上述描述文本表示待分析医学图像的影像特征；采用预设的语言模型对描述文本进行分析处理，确定待分析医学图像对应的分析结果；其中，上述分析结果用于表征感兴趣区域对应的至少一个候选类别；上述语言模型是基于第一训练集和第二训练集进行训练得到的，第一训练集包括多组训练描述文本以及相应的训练分析结果，第二训练集包括特殊类别以及特殊类别对应的医学资料，特殊类别对应的医学资料的占比大于特殊类别对应的图像占比。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

将待分析医学图像输入至残差网络中进行特征提取处理，确定待分析医学图像对应的多维特征；将多维特征输入至循环神经网络中进行文本生成处理，确定待分析医学图像对应的描述文本。

获取历史医学影像报告集；上述历史医学影像报告集中包括多个历史影像报告对，每个历史影像报告对均包括历史影像和相应的历史报告；对各历史报告中的历史描述文本进行提取处理，确定各历史报告对应的历史描述文本；根据各历史影像及相应的历史描述文本对初始图像描述生成网络进行训练，确定图像描述生成网络。

对各历史描述文本进行向量转换处理，确定各历史描述文本对应的历史描述文本向量；根据各历史影像及相应的历史描述文本向量对初始图像描述生成网络进行训练，确定图像描述生成网络。

对各历史描述文本分别进行切词处理，确定每个历史描述文本对应的至少一个分词；根据预设的词库对各分词进行编码，确定各分词对应的编码符号；上述词库中包括多个分词及每个分词对应的编码符号；将每个历史描述文本的各编码符号分别映射至高维空间，确定各历史描述文本对应的历史描述文本向量。

根据描述文本确定相关的提示词；上述提示词用于表征基于描述文本所需执行的分析任务；将提示词以及描述文本输入至语言模型中进行分析处理，确定待分析医学图像对应的分析结果。

获取预训练的初始语言模型；将各训练描述文本输入至初始语言模型中，对各训练描述文本进行分析处理，确定各训练描述文本对应的预测分析结果；将特殊类别对应的医学资料输入至初始语言模型中，对医学资料进行分析处理，确定医学资料对应的预测类别；根据各预测分析结果和相应的训练分析结果以及根据预测类别及相应的特殊类别，对初始语言模型进行训练，确定语言模型。

确定初始语言模型中与分析任务相关的目标网络模块；根据各预测分析结果和相应的训练分析结果以及根据预测类别及相应的特殊类别，对目标网络模块进行微调，确定语言模型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

需要说明的是，本申请所涉及的数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经过各方充分授权的数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种图像分析方法，其特征在于，所述方法包括：

获取待分析医学图像；所述待分析医学图像中包括感兴趣区域；

采用预设的图像描述生成网络对所述待分析医学图像进行文本生成处理，确定所述待分析医学图像对应的描述文本；所述描述文本表示所述待分析医学图像的影像特征；

采用预设的语言模型对所述描述文本进行分析处理，确定所述待分析医学图像对应的分析结果；

其中，所述分析结果用于表征所述感兴趣区域对应的至少一个候选类别；所述语言模型是基于第一训练集和第二训练集进行训练得到的，所述第一训练集包括多组训练描述文本以及相应的训练分析结果，所述第二训练集包括特殊类别以及所述特殊类别对应的医学资料，所述特殊类别对应的医学资料的占比大于所述特殊类别对应的图像占比。

2.根据权利要求1所述的方法，其特征在于，所述图像描述生成网络包括相互连接的残差网络和循环神经网络；所述采用预设的图像描述生成网络对所述待分析医学图像进行文本生成处理，确定所述待分析医学图像对应的描述文本，包括：

将所述待分析医学图像输入至所述残差网络中进行特征提取处理，确定所述待分析医学图像对应的多维特征；

将所述多维特征输入至所述循环神经网络中进行文本生成处理，确定所述待分析医学图像对应的描述文本。

3.根据权利要求1或2所述的方法，其特征在于，所述图像描述生成网络的训练方式包括：

获取历史医学影像报告集；所述历史医学影像报告集中包括多个历史影像报告对，每个所述历史影像报告对均包括历史影像和相应的历史报告；

对各所述历史报告中的历史描述文本进行提取处理，确定各所述历史报告对应的历史描述文本；

根据各所述历史影像及相应的历史描述文本对初始图像描述生成网络进行训练，确定所述图像描述生成网络。

4.根据权利要求1所述的方法，其特征在于，所述采用预设的语言模型对所述描述文本进行分析处理，确定所述待分析医学图像对应的分析结果，包括：

根据所述描述文本确定相关的提示词；所述提示词用于表征基于所述描述文本所需执行的分析任务；

将所述提示词以及所述描述文本输入至所述语言模型中进行分析处理，确定所述待分析医学图像对应的分析结果。

5.根据权利要求1所述的方法，其特征在于，所述语言模型的训练方式包括：

获取预训练的初始语言模型；

将各所述训练描述文本输入至所述初始语言模型中，对各所述训练描述文本进行分析处理，确定各所述训练描述文本对应的预测分析结果；

将所述特殊类别对应的医学资料输入至所述初始语言模型中，对所述医学资料进行分析处理，确定所述医学资料对应的预测类别；

根据各所述预测分析结果和相应的训练分析结果以及根据所述预测类别及相应的特殊类别，对所述初始语言模型进行训练，确定所述语言模型。

6.根据权利要求5所述的方法，其特征在于，所述根据各所述预测分析结果和相应的训练分析结果以及根据所述预测类别及相应的特殊类别，对所述初始语言模型进行训练，确定所述语言模型，包括：

确定所述初始语言模型中与分析任务相关的目标网络模块；

根据各所述预测分析结果和相应的训练分析结果以及根据所述预测类别及相应的特殊类别，对所述目标网络模块进行微调，确定所述语言模型。

7.一种图像分析装置，其特征在于，所述装置包括：

图像获取模块，用于获取待分析医学图像；所述待分析医学图像中包括感兴趣区域；

描述文本生成模块，用于采用预设的图像描述生成网络对所述待分析医学图像进行特征提取及文本生成处理，确定所述待分析医学图像对应的描述文本；所述描述文本表示所述待分析医学图像的影像特征；

分析模块，用于采用预设的语言模型对所述描述文本进行分析处理，确定所述待分析医学图像对应的分析结果；其中，所述分析结果用于表征所述感兴趣区域对应的至少一个候选类别；所述语言模型是基于医学资料中与候选类别相关的知识文本进行训练得到的；所述医学资料包括医学文献、历史医学影像报告以及网络论坛知识中的至少一个。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。