CN114663372A

CN114663372A - 一种基于视频的病灶分类方法、装置、电子设备及介质

Info

Publication number: CN114663372A
Application number: CN202210237564.1A
Authority: CN
Inventors: 丁佳; 李小星; 马璐; 吕晨翀
Original assignee: Beijing Yizhun Medical AI Co Ltd
Current assignee: Zhejiang Yizhun Intelligent Technology Co ltd
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2022-06-24
Anticipated expiration: 2042-03-11
Also published as: CN114663372B

Abstract

本公开提供了一种基于视频的病灶分类方法、装置、电子设备及介质，通过从多个样本超声视频中获取视频片段集合和图像集合，对视频片段集合和图像集合进行多层特征提取，并在特征提取过程中将特征提取结果合并，将合并的结果作为下一层视频特征提取的输入，最终得到训练视频特征图集；基于训练视频特征图集进行训练得到病灶分类模型。通过训练好的病灶分类模型对待识别的视频特征图集进行识别，得到病灶的分类结果。通过视频片段和样本图像对模型进行训练，既关注了病灶在时间维度的特征，也关注了样本图像中病灶的空间维度的特征，且通过将不同尺度的特征图拼接传递，更好的将特征融合，使病灶分类模型对病灶的分类结果更加准确。

Description

一种基于视频的病灶分类方法、装置、电子设备及介质

技术领域

本公开涉及医学影像处理领域，尤其涉及一种基于视频的病灶分类方法、装置、电子设备及介质。

背景技术

目前，在对视频中的特征进行识别和分类的视频分类方法上，一般采用基于现有的卷积模型，将2D卷积模型改编成3D卷积网络模型(如I3D、C3D等)用来提取视频的时间特征，或采用SlowFast等双流网络模型来提取视频中的特征，最终依据提取到的特征进行分类。

上述视频分类方法中的现有模型，应用在医学病灶分类场景中，仅能通过待分类病灶对应的超声视频样本或超声图像对模型进行训练，当应用在分类任务比较复杂的的病灶识别和分类上时，仅通过视频样本训练的模型容易丢失影响病灶判别的静态特征，而仅通过图像样本训练的模型，则无法对病灶超声视频中的病灶特征的时间维度进行关注，影响对病灶的分类准确性。

发明内容

本公开提供了一种病灶分类方法、装置、设备及存储介质，以至少解决现有技术中存在的以上技术问题。

根据本公开的第一方面，提供了一种基于视频的病灶分类方法，所述方法包括：采集病灶的多个样本超声视频，从所述多个样本超声视频中获取视频片段集合和图像集合；所述视频片段集合中的每个视频片段对应一组样本图像，所述图像集合包括每个视频片段对应的样本图像，所述样本图像包括病灶的最大横切面图像和最大纵切面图像；对所述样本超声视频进行多层特征提取，每层特征提取包括视频特征提取和图像特征提取，将当前层视频特征提取结果和图像特征提取结果进行合并的结果作为下一层视频特征提取的输入，将当前层图像特征提取结果作为下一层图像特征提取的输入；第一层视频特征提取的输入为所述视频片段集合，第一层图像特征提取的输入为所述图像集合；所述视频特征提取和图像特征提取的结果分别为特征图的集合；将最后一层视频特征提取结果和图像特征提取结果进行合并，得到训练视频特征图集；基于所述训练视频特征图集进行训练得到病灶分类模型；对待识别的病灶的超声视频进行所述多层特征提取，得到待识别的视频特征图集；通过所述病灶分类模型对所述待识别的视频特征图集进行识别，得到待识别的病灶的分类结果。

在一可实施方式中，所述从所述多个样本超声视频中获取视频片段集合，包括：每次从任一所述样本超声视频中随机抽取指定帧数的图像，得到视频片段；重复多次随机抽取所述视频片段，得到视频片段集合。

在一可实施方式中，所述从所述多个样本超声视频中获取图像集合，包括：从所述视频片段所属的样本超声视频中截取病灶的最大横切面图像和最大纵切面的图像，组成所述视频片段对应的一组样本图像；所述视频片段集合中每个视频片段对应的一组样本图像组成所述图像集合。

在一可实施方式中，所述将当前层视频特征提取结果和图像特征提取结果进行合并的结果作为下一层视频特征提取的输入，包括：将所述图像特征提取结果基于所述视频特征提取结果的时间维度拼接至所述视频特征提取结果中。

在一可实施方式中，所述多层视频特征提取包括五层，其中：第一层视频特征提取过程依次包括：一层卷积层和一层最大池化层；第二层视频特征提取过程依次包括三层瓶颈层：Bottleneck1、Bottleneck2和Bottleneck2；第三层视频特征提取过程依次包括四层瓶颈层：Bottleneck1、Bottleneck2、Bottleneck2和Bottleneck2；第四层视频特征提取过程依次包括六层瓶颈层：Bottleneck1、Bottleneck2、Bottleneck2、Bottleneck2、Bottleneck2和Bottleneck2；第五层视频特征提取过程依次包括三层瓶颈层：Bottleneck1、Bottleneck2和Bottleneck2。

在一可实施方式中，所述多层图像特征提取包括五层，其中：第一层图像特征提取过程依次包括：一层卷积层和一层最大池化层；第二层图像特征提取过程依次包括：两层卷积层和一层最大池化层；第三层图像特征提取过程依次包括：三层卷积层和一层最大池化层；第四层图像特征提取过程依次包括：四层卷积层和一层最大池化层；第五层图像特征提取过程依次包括：两层卷积层和一层最大池化层。

在一可实施方式中，所述通过所述病灶分类模型对待识别的视频特征图集进行识别，得到待识别的病灶的分类结果，包括：对待识别的视频特征图集进行特征融合和降维，得到最终特征图集；对最终特征图集进行分类预测，得到特征加权值；基于特征加权值，得到每一病灶分类级别对应的概率数据；基于概率数据，选取所有分级的最大概率值对应的分级作为所述待识别的病灶的分类结果。

根据本公开的第二方面，提供了一种基于视频的病灶分类装置，所述装置包括：采集模块，用于采集病灶的多个样本超声视频，从所述多个样本超声视频中获取视频片段集合和图像集合；特征提取模块，用于对所述样本超声视频进行多层特征提取，每层特征提取包括视频特征提取和图像特征提取，所述每层视频特征提取和图像特征提取的结果为特征图的集合；将当前层视频特征提取结果和图像特征提取结果进行合并的结果作为下一次视频特征提取的输入，将当前层图像特征提取结果作为下一次图像特征提取的输入；将最后一层视频特征提取结果和图像特征提取结果进行合并，得到训练视频特征图集；对待识别的病灶的超声视频进行所述多层特征提取，得到待识别的视频特征图集；训练模块，用于基于所述训练视频特征图集进行训练得到病灶分类模型；分类预测模块，用于对得到待识别的视频特征图集进行识别，得到待识别的病灶的分类结果。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开所述的方法。

本公开的基于视频的病灶分类方法、装置、设备及存储介质，通过从若干样本超声视频中随机获取若干视频片段和与视频片段出自同一样本超声视频的病灶最大横切面图像和最大纵切面图像，并通过视频片段和最大横切面图像与最大纵切面图像组成的样本图像对模型进行训练，在对视频片段特征提取的过程中，关注了视频片段中病灶在时间维度的特征，同时也在对样本图像特征提取的过程中，关注了样本图像中病灶的空间维度的特征，且在多层特征提取的过程中，将每一层对应视频片段输出的特征图集与对应样本图像输出的特征图集均进行合并操作，将不同尺度的特征图拼接传递，从而更好的将特征融合，使训练出的病灶分类模型在对待识别的视频特征图集进行识别时，对待识别的病灶的分类结果更加准确。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本公开实施例病灶分类方法的实现流程示意图一；

图2示出了本公开实施例基于视频的病灶分类方法的实现流程示意图二；

图3示出了本公开实施例基于视频的病灶分类方法的实现流程示意图三；

图4示出了本公开实施例基于视频的病灶分类方法的实现流程示意图四；

图5示出了本公开实施例基于视频的病灶分类方法的实现流程示意图五；

图6示出了本公开实施例基于视频的病灶分类装置的组成结构示意图；

图7示出了本公开实施例一种电子设备的组成结构示意图。

具体实施方式

为使本公开的目的、特征、优点能够更加的明显和易懂，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而非全部实施例。基于本公开中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

为了提高对病灶分类的准确性，如图1所示，本公开的实施例提供一种基于视频的病灶分类方法，该方法包括：

步骤101，采集病灶的多个样本超声视频，从多个样本超声视频中获取视频片段集合和图像集合；视频片段集合中的每个视频片段对应一组样本图像，图像集合包括每个视频片段对应的样本图像，样本图像包括病灶的最大横切面图像和最大纵切面图像。

采集多个样本超声视频，每个样本超声视频均为由包含病灶特征的连续图像组成。例如，当该病灶分类方法用于对乳腺病灶进行分类时，样本超声视频内即包含乳腺病灶特征。

视频片段集合中的每一视频片段均对应一个样本超声视频，每个视频片段对应一组样本图像，视频片段与其对应的样本图像的来源为同一样本超声视频。图像集合包括若干组样本图像，样本图像的组数与视频片段的数量相同。当存在一定数量的视频片段的来源为同一样本超声视频，此时，这些视频片段对应的样本图像相同，即该样本图像中的最大横切面图像和最大纵切面图像均相同。

在一个示例中，在采集的多个样本超声视频中，每次从任一样本超声视频中随机抽取指定帧数的图像，将这些图像组成一个视频片段，重复多次随机抽取视频片段，得到视频片段集合。

在一个示例中，从视频片段所属的样本超声视频中截取病灶的最大横切面图像和最大纵切面的图像，组成该视频片段对应的一组样本图像；视频片段集合中每个视频片段对应的一组样本图像组成图像集合。

例如，从样本超声视频中(假设视频的通道数为3)，每多帧(例如，2帧、3帧等)抽取1帧图像，抽取16帧图像组成一个视频片段，为了符合特征提取要求的视频片段的尺寸，还可将视频片段的宽高缩放至合适的尺寸(本实施例以512*512为例进行举例说明)，重复随机抽取多次(本实施例以32次为例进行举例说明)，使得获得的视频片段集合的大小为32*16*3*512*512，其中32为视频片段集合中的视频片段数量，16为每一视频片段的帧数，3为通道数，512*512为视频片段尺寸；获得的图像集合的大小为32*2*3*512*512，其中32为图像集合中样本图像的组数，2为每一组样本图像中的图像张数，3为通道数，512*512为图像尺寸。本公开对视频片段集合和图像集合的大小不做限制，在本实施例中，以上述大小为例进行解释说明。

步骤102，对视频片段集合和图像集合分别进行多层特征提取，每层特征提取包括视频特征提取和图像特征提取，将当前层视频特征提取结果和图像特征提取结果进行合并的结果作为下一层视频特征提取的输入，将当前层图像特征提取结果作为下一层图像特征提取的输入；第一层视频特征提取的输入为视频片段集合，第一层图像特征提取的输入为图像集合；视频特征提取和图像特征提取的结果分别为特征图的集合；将最后一层视频特征提取结果和图像特征提取结果进行合并，得到训练视频特征图集。

在本公开的一个示例中，对视频片段集合进行的多层视频特征提取，包括五层，其中：

第一层视频特征提取过程依次包括：一层卷积层和一层最大池化层；

第二层视频特征提取过程依次包括三层瓶颈层：Bottleneck1、Bottleneck2和Bottleneck2；

第三层视频特征提取过程依次包括四层瓶颈层：Bottleneck1、Bottleneck2、Bottleneck2和Bottleneck2；

第四层视频特征提取过程依次包括六层瓶颈层：Bottleneck1、Bottleneck2、Bottleneck2、Bottleneck2、Bottleneck2和Bottleneck2；

第五层视频特征提取过程依次包括三层瓶颈层：Bottleneck1、Bottleneck2和Bottleneck2。

其中，bottleneck1和bottleneck2的结构在后文进行解释说明。

对图像集合进行的多层图像特征提取也可包括五层，其中：

第一层图像特征提取过程依次包括：一层卷积层和一层最大池化层；

第二层图像特征提取过程依次包括：两层卷积层和一层最大池化层；

第三层图像特征提取过程依次包括：三层卷积层和一层最大池化层；

第四层图像特征提取过程依次包括：四层卷积层和一层最大池化层；

第五层图像特征提取过程依次包括：两层卷积层和一层最大池化层。

本公开对于上述多层特征提取的层数并不做具体限制，可根据需要进行层数的调整，重点在于，除了第一层视频特征提取的输入以外，其他层的视频特征提取的输入均为上一层视频特征提取的结果和上一层图像特征提取的结果的合并，如此，本公开的方法可以同时利用视频数据和图像数据的时间特征和空间特性对病灶进行分类，增加了病灶的分类准确性。

下面通过图2来具体说明该多层特征提取的过程：

1、第一层(stage0)包括视频特征提取和图像特征提取，其中：

1.1、Stage0视频特征提取：输入为视频片段集合，对视频片段集合中每一个视频片段分别进行特征提取得到对应的特征图，每个视频片段对应的特征图组成第一层输出视频特征图集。

针对每个视频片段，其视频特征提取的过程依次包括：一层卷积层和一层最大池化层，其中：

卷积层包括：3D卷积核、批标准化(batch normalization，后文简称BN)、ReLU激活函数(后文简称ReLU)。首先通过3D卷积核对视频片段进行卷积处理，提取视频片段时间维度的特征，然后通过批标准化进行归一化处理，最后通过ReLU激活函数进行激活。

最大池化层：通过池化窗口对卷积层的输出执行一次最大池化(Max-Pooling)处理。

视频片段在经过一层卷积层和一层最大池化层后，得到对应的视频特征图。

1.2、Stage0图像特征提取：输入为图像集合，对图像集合中的每一组样本图像中的最大横切面图像和最大纵切面图像分别进行图像特征提取。其中，最大横切面图像和最大纵切面图像的图像特征提取过程相同，下面以图像来指代最大横切面图像或最大纵切面图像，描述图像特征提取过程：图像依次经过一层卷积层和一层最大池化层进行特征提取，得到特征图，其中：

卷积层依次包括：2D卷积核、BN和ReLU激活函数。首先通过2D卷积核对图像进行卷积操作，提取图像的空间维度特征，然后通过BN进行归一化处理，最后通过ReLU激活函数进行激活。

最大池化层：通过池化窗口对卷积层的输出执行一次最大池化。

图像经过一层卷积层和一层最大池化层后，得到该图像对应的图像特征图。

图像集合中所有的图像对应的图像特征图组成第一层输出图像特征图集。

2、第二层(stage1)：包括视频特征提取和图像特征提取，其中：

2.1、stage1视频特征提取：输入为stage0输出视频特征图集和stage0输出图像特征图集的合并，为了后续描述方便，将该合并结果称为第二层输入视频特征图集。

在合并时，根据视频特征图的时间维度，将第一层输出图像特征图集中的特征图拼接到第一层输出视频特征图集中，得到第二层输入视频特征图集。

假设，视频片段集合和图像集合在经过第一层特征提取后，获得的第一层输出视频特征图集的大小为32*8*64*128*128，其中32为第一层输出视频特征图集中的视频特征图组数(对应于视频片段的数量)，8为每一组视频特征图的数量(即每个视频片段对应的视频特征图数量，与视频片段包含的帧数相同，每帧提取到1个视频特征图)，64为通道数，128*128为特征图尺寸。第一层输出图像特征图集的大小为32*2*64*128*128，其中32为第一层输出图像特征图集中的特征图组数(对应于样本图像的组数，与视频片段的数量相同)，2为每一组特征图的数量(一组样本图像包含两张图像，每张图像提取到一个图像特征图)，64为通道数，128*128为特征图尺寸。

进行合并时，对于第一层输出图像特征图集中的任一组图像特征图，确定其对应的第一层输出视频特征图集中的一组视频特征图(即属于同一个样本超声视频)，将视频特征图和图像特征图按照视频特征图的时间维度进行拼接。对于每组图像特征图和每组视频特征图均进行上述合并处理，即可得到第二层输入视频特征图集，承接上述的例子，第二层输入视频特征图集大小为32*10*64*128*128，其中32为第二层输入视频特征图集中的特征图组数，10为每一组视频特征图的数量(8+2)，64为通道数，128*128为特征图尺寸。

将第二层输入视频特征图集经过三个瓶颈层(Bottleneck layer)进行特征提取。

其中，瓶颈层结构分为两种：

(1)Bottleneck2：输入特征图与输出特征图通道数相同。

例如，形状为(C，W，W)的输入特征图，其中，C为通道数，W为特征图的宽或高。将该输入特征图依次经过3个卷积层进行处理：

第一层卷积层包括：步长为1的1*1卷积核、BN和ReLU，对输入的(C，W，W)的输入特征图处理，得到的特征图形状为(C/4，W，W)，输入第二层卷积层；

第二层卷积层包括：步长为1的3*3卷积核、BN和ReLU，对输入的(C/4，W，W)的输入特征图处理，得到的特征图的形状为(C/4，W，W)，输入第三层卷积层；

第三层卷积层包括：步长为1的1*1卷积核、BN和ReLU，对输入的(C/4，W，W)的输入特征图处理，得到的特征图形状为(C，W，W)。

最后将经过三个卷积层处理得到的特征图与输入特征图相加后再经过1个ReLU激活函数，就得到了Bottleneck2的输出特征图，输出特征图的形状仍为(C，W，W)。

(2)Bottleneck1：输入特征图与输出特征图通道数不同。

与Bottleneck2相比多了位于另一条处理分支的一个卷积层。例如，形状为(C，W，W)的输入特征图，在第一条处理分支中，依次经过3个卷积层处理：

第一层卷积层依次包括：步长为S的1*1卷积核、BN和ReLU，对输入的(C，W，W)的输入特征图处理，得到的特征图的形状为(C1，W/S，W/S)，输入第二层卷积层；

第二层卷积层依次包括：步长为1的3*3卷积核、BN和ReLU，对输入的(C1，W/S，W/S)的输入特征图处理，得到的特征图的形状为(C1，W/S，W/S)，输入第三层卷积层；

第三层卷积层依次包括：步长为1的1*1卷积核、BN和ReLU，对输入的(C1，W/S，W/S)的输入特征图处理，得到的特征图的形状为(C1*4，W/S，W/S)。

在第二条处理分支，输入特征图(C，W，W)经过一层卷积层进行处理，该层卷积层包括：步长为S的1*1卷积核和BN，得到的特征图形状为(C1*4，W/S，W/S)。

将第一条处理分支得到的特征图(C1*4，W/S，W/S)与第二条处理分支得到的特征图(C1*4，W/S，W/S)相加后再经过1个ReLU激活函数，就得到了Bottleneck1的输出特征图，形状为(C1*4，W/S，W/S)。

该示例中，第二层(stage1)的视频特征提取所采用的三个瓶颈层依次为Bottleneck1(S＝1，C1＝C)、Bottleneck2、Bottleneck2，得到第二层输出视频特征图集。

2.2、stage1图像特征提取：输入为stage0图像特征提取结果，即第一层输出图像特征图集作为stage1图像特征提取的输入，为了与stage0图像特征提取的过程进行区分，这里将stage1图像特征提取的输入称为第二层输入图像特征图集。

第二层输入图像特征图集经过两层卷积层和一层最大池化层进行特征提取，得到第二层输出图像特征图集，其中：每层卷积层依次包括：2D卷积核、BN和ReLU激活函数。最大池化层：通过池化窗口对卷积层的输出执行一次最大池化，得到第二层输出图像特征图集。

3、第三层(stage2)：包括视频特征提取和图像特征提取，其中：

3.1、stage2视频特征提取：输入为stage1输出视频特征图集和stage1输出图像特征图集的合并，合并方式与步骤102中2.1所述的合并方式相同，此处不再赘述。为了后续描述方便，将该合并结果称为第三层输入视频特征图集。

将第三层输入视频特征图集经过四个瓶颈层(Bottleneck layer)进行特征提取，得到第三层输出视频特征图集。其中，四个瓶颈层依次采用Bottleneck1(S＝2，C1＝C/2)、Bottleneck2、Bottleneck2、Bottleneck2。

3.2、stage2图像特征提取：输入为stage1图像特征提取结果，为了与stage1图像特征提取的过程进行区分，这里将stage2图像特征提取的输入称为第三层输入图像特征图集。

将第三层输入图像特征图集经过三层卷积层和一层最大池化层进行特征提取，得到第三层输出图像特征图集，其中：每层卷积层依次包括：2D卷积核、BN和ReLU激活函数。最大池化层：通过池化窗口对卷积层的输出执行一次最大池化。

4、第四层(stage3)：包括视频特征提取和图像特征提取，其中：

4.1、stage3视频特征提取：输入为stage2输出视频特征图集和stage2输出图像特征图集的合并，合并方式与步骤102中2.1所述的合并方式相同，此处不再赘述。为了后续描述方便，将该合并结果称为第四层输入视频特征图集。

将第四层输入视频特征图集经过六个瓶颈层(Bottleneck layer)进行特征提取，得到第四层输出视频特征图集。其中，六个瓶颈层依次采用Bottleneck1(S＝2，C1＝C/2)、Bottleneck2、Bottleneck2、Bottleneck2、Bottleneck2、Bottleneck2。

4.2、stage3图像特征提取：输入为stage2图像特征提取结果，为了与stage2图像特征提取的过程进行区分，这里将stage3图像特征提取的输入称为第四层输入图像特征图集。

将第四层输入图像特征图集经过四层卷积层和一层最大池化层进行特征提取，得到第四层输出图像特征图集，其中：每层卷积层依次包括：2D卷积核、BN和ReLU激活函数。最大池化层：通过池化窗口对卷积层的输出执行一次最大池化。

5、第五层(stage4)：包括视频特征提取和图像特征提取，其中：

5.1、stage4视频特征提取：输入为stage3输出视频特征图集和stage3输出图像特征图集的合并，合并方式与步骤102中2.1所述的合并方式相同，此处不再赘述。为了后续描述方便，将该合并结果称为第五层输入视频特征图集。

将第五层输入视频特征图集经过三个瓶颈层(Bottleneck layer)进行特征提取，得到第五层输出视频特征图集。其中，第五层的三个瓶颈层依次采用Bottleneck1(S＝2，C1＝C/2)、Bottleneck2、Bottleneck2。

5.2、stage4图像特征提取：输入为stage3图像特征提取结果，为了与stage3图像特征提取的过程进行区分，这里将stage4图像特征提取的输入称为第五层输入图像特征图集。

将第五层输入图像特征图集经过两层卷积层和一层最大池化层进行特征提取，得到第五层输出图像特征图集，其中：每层卷积层依次包括：2D卷积核、BN和ReLU激活函数。最大池化层：通过池化窗口对卷积层的输出执行一次最大池化。

经过上述五层的特征提取，将第五层输出图像特征图集合并至第五层输出视频特征图集，得到训练视频特征图集。其合并方式与步骤102中2.1所述的合并方式相同，此处不再赘述。

步骤103，基于训练视频特征图集进行训练，得到病灶分类模型。

在一示例中，基于训练视频特征图集进行训练，如图3所示，包括：

步骤1031，对训练视频特征图集进行特征融合和降维，得到最终视频特征图集。

对训练视频特征图集通过一个卷积层进行卷积操作，对训练视频特征图集进行特征融合和降维。其中，卷积层依次包括：2D卷积核、BN和ReLU激活函数。对卷积层的输出再通过一层平均池化层进行平均池化(average-pooling)，得到最终视频特征图集。

步骤1032，对最终视频特征图集进行分类预测，得到特征加权值。

在一示例中，对最终视频特征图集的分类预测采用全连接层，将最终视频特征图集输入指定层数的全连接层处理，得到特征加权值。其中，全连接层，是每一个结点都与上一层(即步骤1031中的平均池化层)的所有结点相连，用来把前述步骤中提取到的特征综合起来，以整合池化层中具有类别区分性的局部信息。在一可实施方式中，全连接层的层数设置为三层。

步骤1033，基于特征加权值，得到每一病灶分类级别对应的概率数据。

将特征加权值使用softmax函数进行概率分布计算，得到概率数据p。针对不同疾病的病灶分类，可采用相应的的病灶分类级别，例如，基于乳腺病灶BI-RADS分级，主要分类为六级。概率数据中包括每一分级对应的概率值，即为针对样本超声视频中的病灶信息，预测该病灶属于每一分级的概率值。

步骤1034，基于概率数据，结合金标准标签进行计算，得到损失值。

BI-RADS与金标准标签y一一对应为：{2:0、3:1、4A:2、4B:3、4C:4、5:5}，其中，2、3、4A、4B、4C、5是BI-RADS分级，0、1、2、3、4、5是训练时对应的类别标签。在计算损失值时，通过引入基于乳腺病灶BI-RADS分级的金标准标签计算交叉熵损失，根据以下公式进行计算：

其中，Loss为损失值，N代表样本个数(例如，以前述数据为例，N＝32)，c代表要预测的类别数，在本公开中，c＝{0,1,2,3...5}，yⁱ代表BI-RADS金标准，pⁱ代表视频和图像的BI-RADS预测概率。

步骤1035，对损失值进行求导，得到梯度，将梯度反向传播并结合梯度优化算法Adam更新模型参数，得到病灶分类模型。其中，Adam算法即自适应时刻估计方法(AdaptiveMoment Estimation)，用于计算每个参数的自适应学习率，通过使用动量和自适应学习率来加快模型的收敛速度。

需要指出的是，这里所更新的参考包括步骤102中多层特征提取方案中模型的参数，也包括步骤103中分类模型的参数。

参数更新之后，重新执行步骤101-103，直至模型收敛。

步骤104，对待识别的病灶的超声视频进行多层特征提取，每层特征提取包括视频特征提取和图像特征提取，将当前层视频特征提取结果和图像特征提取结果进行合并的结果作为下一层视频特征提取的输入，将当前层图像特征提取结果作为下一层图像特征提取的输入，将最后一层视频特征提取结果和图像特征提取结果进行合并，得到待识别的视频特征图集。

本公开示例中，对待识别的病灶的超声视频进行多层特征提取前，先从待识别的病灶的超声视频中获取视频片段和图像，其中，视频片段的获取为，从待识别的病灶的超声视频中随机抽取指定帧数的图像，组成一个视频片段，视频片段的抽取步骤与步骤101中的抽取步骤相同，本示例不再展开赘述。图像即为待识别的病灶的超声视频中最大横切面图像和最大纵切面图像各一张。第一层视频特征提取的输入为该视频片段，第一层图像特征提取的输入为图像，将当前层视频特征提取结果和图像特征提取结果进行合并的结果作为下一层视频特征提取的输入，将当前层图像特征提取结果作为下一层图像特征提取的输入；视频特征提取结果为视频特征图的集合，图像特征提取结果为图像特征图的集合。

而这里的多层特征提取模型与上述步骤102中的多层特征提取模型相同，均包括视频特征提取和图像特征提取，具体如图4所示，该多层特征提取过程包括：

步骤1041，在第一层(stage0)视频特征提取中，将超声视频得到的视频片段经过一层卷积层和一层最大池化层进行特征提取，得到第一层输出视频特征图集，其中：

卷积层包括：3D卷积核、BN和ReLU。在特征提取时，首先通过3D卷积核对超声视频进行卷积，然后通过批标准化进行归一化处理，最后通过ReLU激活函数进行激活。

超声视频在经过一层卷积层和一层最大池化层后，得到对应的第一层输出视频特征图集。

在第一层(stage0)图像特征提取中，将超声视频得到的图像经过一层卷积层和一层最大池化层进行特征提取，得到第一层输出图像特征图集，其中：

步骤1042，在第二层(stage1)视频特征提取中，输入为stage0输出视频特征图集和stage0输出图像特征图集的合并，合并方式与步骤102中2.1所述的合并方式相同，此处不再赘述。其中，为了后续描述方便，将该合并结果称为第二层输入视频特征图集。

将第二层输入视频特征图集经过三个瓶颈层(Bottleneck layer)进行特征提取，得到第二层输出视频特征图集。

其中，三个瓶颈层依次采用Bottleneck1(S＝1，C1＝C)、Bottleneck2、Bottleneck2，得到第二层输出视频特征图集。

在第二层(stage1)图像特征提取中，将第一层输出图像特征图集作为stage1图像特征提取的输入，为了与stage0图像特征提取的过程进行区分，这里将stage1图像特征提取的输入称为第二层输入图像特征图集。

步骤1043，在第三层(stage2)视频特征提取中，输入为stage1输出视频特征图集和stage1输出图像特征图集的合并，合并方式与步骤102中2.1所述的合并方式相同，此处不再赘述。为了后续描述方便，将该合并结果称为第三层输入视频特征图集。

将第三层输入视频特征图集经过四个瓶颈层(Bottleneck layer)进行特征提取，得到第三层输出视频特征图集。

其中，第三层的四个瓶颈层依次采用Bottleneck1(S＝2，C1＝C/2)、Bottleneck2、Bottleneck2、Bottleneck2。

在第三层(stage2)图像特征提取中，输入为stage1图像特征提取结果，为了与stage1图像特征提取的过程进行区分，这里将stage2图像特征提取的输入称为第三层输入图像特征图集。

步骤1044，在第四层(stage3)视频特征提取中，输入为stage2输出视频特征图集和stage2输出图像特征图集的合并，合并方式与步骤102中2.1所述的合并方式相同，此处不再赘述。为了后续描述方便，将该合并结果称为第四层输入视频特征图集。

将第四层输入视频特征图集经过六个瓶颈层(Bottleneck layer)进行特征提取，得到第四层输出视频特征图集。

其中，第四层的六个瓶颈层依次采用Bottleneck1(S＝2，C1＝C/2)、Bottleneck2、Bottleneck2、Bottleneck2、Bottleneck2、Bottleneck2。

在第四层(stage3)图像特征提取中，输入为stage2图像特征提取结果，为了与stage2图像特征提取的过程进行区分，这里将stage3图像特征提取的输入称为第四层输入图像特征图集。

步骤1045，在第五层(stage4)视频特征提取中，输入为stage3输出视频特征图集和stage3输出图像特征图集的合并，合并方式与步骤102中2.1所述的合并方式相同，此处不再赘述。为了后续描述方便，将该合并结果称为第五层输入视频特征图集。

将第五层输入视频特征图集经过三个瓶颈层(Bottleneck layer)进行特征提取，得到第五层输出视频特征图集。

其中，第五层的三个瓶颈层依次采用Bottleneck1(S＝2，C1＝C/2)、Bottleneck2、Bottleneck2。

在第五层(stage4)图像特征提取中，输入为stage3图像特征提取结果，为了与stage3图像特征提取的过程进行区分，这里将stage4图像特征提取的输入称为第五层输入图像特征图集。

经过上述五层的特征提取，将第五层输出图像特征图集合并至第五层输出视频特征图集，得到待识别的视频特征图集。其合并方式与步骤102中2.1所述的合并方式相同，此处不再赘述。

需要指出的是，本公开中如无特殊说明，通过多层视频特征提取的特征图均为视频特征图；通过多层图像特征提取的特征图均为图像特征图。

步骤105，通过病灶分类模型对待识别的视频特征图集进行识别，得到待识别的病灶的分类结果。

在一示例中，通过病灶分类模型对得到待识别的视频特征图集进行处理，如图5所示，包括：

步骤1051，对待识别的视频特征图集进行特征融合和降维，得到最终特征图集。

对待识别的视频特征图集通过一个卷积层进行卷积操作，对待识别的视频特征图集进行降维。其中，卷积层依次包括：2D卷积核、BN和ReLU激活函数。对卷积层的输出再通过一层平均池化层进行平均池化(average-pooling)，得到最终特征图集。

步骤1052，对最终特征图集进行分类预测，得到特征加权值。

在一示例中，对最终特征图集的分类预测采用全连接层，将最终特征图集输入指定层数的全连接层处理，得到特征加权值。

步骤1053，基于特征加权值，得到每一病灶分类级别对应的概率数据。

将特征加权值使用softmax函数进行概率分布计算，得到概率数据p。

步骤1054，基于概率数据，选取最大概率值对应的分级，作为分类结果。

通过从若干样本超声视频中随机获取若干视频片段和与视频片段出自同一样本超声视频的病灶最大横切面图像和最大纵切面图像，并通过视频片段和最大横切面图像与最大纵切面图像组成的样本图像对模型进行训练，在对视频片段特征提取的过程中，关注了视频片段中病灶在时间维度的特征，同时也在对样本图像特征提取的过程中，关注了样本图像中病灶的空间维度的特征，且在多层特征提取的过程中，将每一层对应视频片段输出的特征图集与对应样本图像输出的特征图集均进行合并操作，将不同尺度的特征图拼接传递，从而更好的将特征融合，使训练出的病灶分类模型在对待识别的视频特征图集进行识别时，对待识别的病灶的分类结果更加准确。

根据本公开的实施例，本公开还提供了一种基于视频的病灶分类装置，如图6所示，装置包括：

采集模块，用于采集病灶的多个样本超声视频，从多个样本超声视频中获取视频片段集合和图像集合；

特征提取模块，用于对样本超声视频进行多层特征提取，每层特征提取包括视频特征提取和图像特征提取，每层视频特征提取和图像特征提取的结果为特征图的集合；将当前层视频特征提取结果和图像特征提取结果进行合并的结果作为下一次视频特征提取的输入，将当前层图像特征提取结果作为下一次图像特征提取的输入；将最后一层视频特征提取结果和图像特征提取结果进行合并，得到训练视频特征图集；对待识别的病灶的超声视频进行所述多层特征提取，得到待识别的视频特征图集；

训练模块，用于基于训练视频特征图集进行训练得到病灶分类模型；

分类预测模块，用于对得到待识别的视频特征图集进行识别，得到待识别的病灶的分类结果。

在一实施例中，采集模块，还用于每次从任一样本超声视频中随机抽取指定帧数的图像，得到视频片段；重复多次随机抽取视频片段，得到视频片段集合。

在一实施例中，采集模块，还用于从视频片段所属的样本超声视频中截取病灶的最大横切面图像和最大纵切面的图像，组成视频片段对应的一组样本图像；视频片段集合中每个视频片段对应的一组样本图像组成图像集合。

在一实施例中，特征提取模块，还用于将图像特征提取结果基于视频特征提取结果的时间维度拼接至视频特征提取结果中。

在一实施例中，特征提取模块，对待识别的病灶的超声视频进行多层视频特征提取均包括五层，其中：第一层视频特征提取过程依次包括：一层卷积层和一层最大池化层；第二层视频特征提取过程依次包括三层瓶颈层：Bottleneck1、Bottleneck2和Bottleneck2；第三层视频特征提取过程依次包括四层瓶颈层：Bottleneck1、Bottleneck2、Bottleneck2和Bottleneck2；第四层视频特征提取过程依次包括六层瓶颈层：Bottleneck1、Bottleneck2、Bottleneck2、Bottleneck2、Bottleneck2和Bottleneck2；第五层视频特征提取过程依次包括三层瓶颈层：Bottleneck1、Bottleneck2和Bottleneck2。

在一实施例中，特征提取模块，对样本超声视频进行的多层图像特征提取包括五层，其中：第一层图像特征提取过程依次包括：一层卷积层和一层最大池化层；第二层图像特征提取过程依次包括：两层卷积层和一层最大池化层；第三层图像特征提取过程依次包括：三层卷积层和一层最大池化层；第四层图像特征提取过程依次包括：四层卷积层和一层最大池化层；第五层图像特征提取过程依次包括：两层卷积层和一层最大池化层。

在一实施例中，分类预测模块，还用于对待识别的视频特征图集进行特征融合和降维，得到最终特征图集；对最终特征图集进行分类预测，得到特征加权值；基于特征加权值，得到每一病灶分类级别对应的概率数据；基于概率数据，选取所有分级的最大概率值对应的分级作为待识别的病灶的分类结果。

根据本公开的实施例，本公开还提供了一种电子设备和一种可读存储介质。

图7示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如病灶分类方法。例如，在一些实施例中，基于视频的病灶分类方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的病灶分类方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行病灶分类方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于视频的病灶分类方法，其特征在于，所述方法包括：

采集病灶的多个样本超声视频，从所述多个样本超声视频中获取视频片段集合和图像集合；所述视频片段集合中的每个视频片段对应一组样本图像，所述图像集合包括每个视频片段对应的样本图像，所述样本图像包括病灶的最大横切面图像和最大纵切面图像；

对所述样本超声视频进行多层特征提取，每层特征提取包括视频特征提取和图像特征提取，将当前层视频特征提取结果和图像特征提取结果进行合并的结果作为下一层视频特征提取的输入，将当前层图像特征提取结果作为下一层图像特征提取的输入；第一层视频特征提取的输入为所述视频片段集合，第一层图像特征提取的输入为所述图像集合；所述视频特征提取和图像特征提取的结果分别为特征图的集合；将最后一层视频特征提取结果和图像特征提取结果进行合并，得到训练视频特征图集；

基于所述训练视频特征图集进行训练得到病灶分类模型；

对待识别的病灶的超声视频进行所述多层特征提取，得到待识别的视频特征图集；

通过所述病灶分类模型对所述待识别的视频特征图集进行识别，得到待识别的病灶的分类结果。

2.根据权利要求1所述的方法，其特征在于，所述从所述多个样本超声视频中获取视频片段集合，包括：

每次从任一所述样本超声视频中随机抽取指定帧数的图像，得到视频片段；

重复多次随机抽取所述视频片段，得到视频片段集合。

3.根据权利要求2所述的方法，其特征在于，所述从所述多个样本超声视频中获取图像集合，包括：

从所述视频片段所属的样本超声视频中截取病灶的最大横切面图像和最大纵切面的图像，组成所述视频片段对应的一组样本图像；

所述视频片段集合中每个视频片段对应的一组样本图像组成所述图像集合。

4.根据权利要求1所述的方法，其特征在于，所述将当前层视频特征提取结果和图像特征提取结果进行合并的结果作为下一层视频特征提取的输入，包括：

将所述图像特征提取结果基于所述视频特征提取结果的时间维度拼接至所述视频特征提取结果中。

5.根据权利要求1所述的方法，其特征在于，所述多层视频特征提取包括五层，其中：

6.根据权利要求1所述的方法，其特征在于，所述多层图像特征提取包括五层，其中：

7.根据权利要求1所述的方法，其特征在于，所述通过所述病灶分类模型对待识别的视频特征图集进行识别，得到待识别的病灶的分类结果，包括：

对待识别的视频特征图集进行特征融合和降维，得到最终特征图集；

对最终特征图集进行分类预测，得到特征加权值；

基于特征加权值，得到每一病灶分类级别对应的概率数据；

基于概率数据，选取所有分级的最大概率值对应的分级作为所述待识别的病灶的分类结果。

8.一种基于视频的病灶分类装置，其特征在于，所述装置包括：

采集模块，用于采集病灶的多个样本超声视频，从所述多个样本超声视频中获取视频片段集合和图像集合；

特征提取模块，用于对所述样本超声视频进行多层特征提取，每层特征提取包括视频特征提取和图像特征提取，所述每层视频特征提取和图像特征提取的结果为特征图的集合；将当前层视频特征提取结果和图像特征提取结果进行合并的结果作为下一次视频特征提取的输入，将当前层图像特征提取结果作为下一次图像特征提取的输入；将最后一层视频特征提取结果和图像特征提取结果进行合并，得到训练视频特征图集；对待识别的病灶的超声视频进行所述多层特征提取，得到待识别的视频特征图集；

训练模块，用于基于所述训练视频特征图集进行训练得到病灶分类模型；

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。