CN113115054B

CN113115054B - 视频流编码方法、装置、系统、电子设备及存储介质

Info

Publication number: CN113115054B
Application number: CN202110348222.2A
Authority: CN
Inventors: 张超; 谭立强
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2022-05-06
Anticipated expiration: 2041-03-31
Also published as: CN113115054A

Abstract

本申请实施例提供了视频流编码方法、装置、系统、电子设备及存储介质，分别确定待编码视频流中每帧视频帧的帧场景类别，然后将视频流划分为多个视频段，并根据每帧视频帧的帧场景类别得到每个视频段的段场景类别，按照段场景类别所对应的编码参数对相应的视频段进行编码，段场景类别重要的视频段采用高图像质量的编码参数，能够保证视频流中重要信息的质量，段场景类别不重要的视频段采用低图像质量的编码参数，从而降低编码后的数据量，能够在保证视频流中重要信息的质量的前提下减少视频占用空间，便于视频流的存储和传输。

Description

视频流编码方法、装置、系统、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及视频流编码方法、装置、系统、电子设备及存储介质。

背景技术

内窥镜(Endoscopes)是一种常用的医疗器械，由导光束结构及一组镜头组成，经人体的天然孔道或经小切口进入人体内，采集体内视频并通过外部显示设备进行显示，用于人体器官或组织的检查及手术治疗。内窥镜手术相对于开放性手术，具有创口小、恢复快等优势，在临床上受到患者和医生的青睐。

内窥镜采集的视频流除了实时显示以外，还需要存储下来以方便后续的手术过程追溯、病例研究与分享及规培等。当前大多数内窥镜采集的视频图像的分辨率均超过1080P，而随着技术和需求的发展，内窥镜采集的视频流的分辨率和帧率也变得很高，各个厂商陆续推出了4K分辨率的内窥镜，然而高分辨率的视频流即使编码后仍会占用较大的存储空间，如何节约内窥镜视频流的存储空间成为亟待解决的问题。

发明内容

本申请实施例的目的在于提供一种视频流编码方法、装置、系统、电子设备及存储介质，以实现减少编码后视频流的数据量，从而节约视频流的存储空间。具体技术方案如下：

第一方面，本申请实施例提供了一种视频流编码方法，所述方法包括：

获取待编码的视频流；

利用预先训练的深度学习模型，分别确定所述视频流中每帧视频帧的帧场景类别；

将所述视频流划分为多个视频段，并根据各帧视频帧的帧场景类别分别得到每个所述视频段的段场景类别，其中，针对任一视频段，该视频段的段场景类别至少与该视频段中一帧视频帧的帧场景类别相同；

针对每一视频段，按照该视频段的段场景类别所对应的编码参数，对该视频段进行编码。

在一种可能的实施方式中，所述将所述视频流划分为多个视频段，并根据各帧视频帧的帧场景类别分别得到每个所述视频段的段场景类别，包括：

根据第一预设帧数阈值N，将接收到的所述视频流按照时序每N帧划分为一个视频段，得到多个视频段；

针对每一视频段，根据该视频段中各帧视频帧的帧场景类别，确定该视频段的段场景类别。

在一种可能的实施方式中，所述针对每一视频段，根据该视频段中各帧视频帧的帧场景类别，确定该视频段的段场景类别，包括：

针对任一视频段，若该视频段中的各视频帧的帧场景类别中包括重要场景类别，则选取该视频段中视频帧数量最多的重要场景类别，作为该视频段的段场景类别；

针对任一视频段，若该视频段中的各视频帧的帧场景类别中不包括重要场景类别，则选取该视频段中视频帧数量最多的帧场景类别，作为该视频段的段场景类别。

根据各帧视频帧的帧场景类别，将所述视频流中帧场景类别相同、且时序上连续的视频帧划分到为一视频段，得到多个视频段；

针对每一视频段，将该视频段的帧场景类别作为该视频段的段场景类别。

在一种可能的实施方式中，在针对每一视频段，将该视频段的帧场景类别作为该视频段的段场景类别之后，所述方法还包括：

若在各视频段中存在视频帧数量小于第二预设帧数阈值的短视频段，针对任一短视频段，在该短视频段的段场景类别为重要场景类别、且该短视频段存在重要相邻视频段的情况下，将该短视频段与该短视频段的一重要相邻视频段合并为一个视频段，并将与该短视频段合并的重要相邻视频段的段场景类别作为合并后的视频段的段场景类别；其中，针对任一短视频段，该短视频段的重要相邻视频段为与该短视频段相邻的、且场景类别为重要场景类别的视频段；

针对任一短视频段，在该短视频段的段场景类别不为重要场景类别、且该短视频段前后相邻的视频段中存在非重要相邻视频段的情况下的情况下，将该短视频段与该短视频段的一非重要相邻视频段合并为一个视频段，并将与该短视频段合并的非重要相邻视频段的段场景类别作为合并后的视频段的段场景类别；其中，针对任一短视频段，该短视频段的非重要相邻视频段为与该短视频段相邻的、且场景类别不为重要场景类别的视频段；

针对任一短视频段，在该短视频段的段场景类别不为重要场景类别、且该短视频段前后相邻的视频段均为重要相邻视频段的情况下，将该短视频段与该短视频段的一重要相邻视频段合并为一个视频段，并将与该短视频段合并的重要相邻视频段的段场景类别作为合并后的视频段的段场景类别。

在一种可能的实施方式中，所述针对每一视频段，按照该视频段的段场景类别所对应的编码参数，对该视频段进行编码，包括：针对每一视频段，按照预设的段场景类别与编码参数的对应关系，确定该视频段的段场景类别所对应的编码参数，并案件该视频段的段场景类别所对应的编码参数，对该视频段进行编码。

在一种可能的实施方式中，所述视频流为内窥镜视频流，所述帧场景类别包括体外、喉内、喉外、耳内、耳外、腹腔内、腹腔外、管道内、鼻内、鼻外中的至少一种，所述喉内、耳内、腹腔内、管道内、鼻内为重要场景类别。

第二方面，本申请实施例提供了一种视频流编码装置，所述装置包括：

视频流获取模块，用于获取待编码的视频流；

帧场景类别确定模块，用于利用预先训练的深度学习模型，分别确定所述视频流中每帧视频帧的帧场景类别；

段场景类别确定模块，用于将所述视频流划分为多个视频段，并根据各帧视频帧的帧场景类别分别得到每个所述视频段的段场景类别，其中，针对任一视频段，该视频段的段场景类别至少与该视频段中一帧视频帧的帧场景类别相同；

视频段编码模块，用于针对每一视频段，按照该视频段的段场景类别所对应的编码参数，对该视频段进行编码。

在一种可能的实施方式中，所述段场景类别确定模块，包括：

视频段划分子模块，用于根据第一预设帧数阈值N，将接收到的所述视频流按照时序每N帧划分为一个视频段，得到多个视频段；

段场景类别确定子模块，用于针对每一视频段，根据该视频段中各帧视频帧的帧场景类别，确定该视频段的段场景类别。

在一种可能的实施方式中，所述段场景类别确定子模块，具体用于：

在一种可能的实施方式中，所述段场景类别确定模块，具体用于：

在一种可能的实施方式中，所述装置还包括短视频段合并模块，用于：

在一种可能的实施方式中，所述视频段编码模块，具体用于：针对每一视频段，按照预设的段场景类别与编码参数的对应关系，确定该视频段的段场景类别所对应的编码参数，并案件该视频段的段场景类别所对应的编码参数，对该视频段进行编码。

第三方面，本申请实施例提供了一种电子设备，包括处理器及存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现本申请中任一所述的视频流编码方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现本申请中任一所述的视频流编码方法。

第五方面，本申请实施例提供了一种内窥镜系统，其特征在于，所述内窥镜系统包括：

内窥镜、光源设备及摄像系统主机；

所述内窥镜用于采集图像数据；

所述光源设备用于为所述内窥镜提供拍摄光源；

所述摄像系统主机用于在运行时实现本申请中任一所述的视频流编码方法。

在一种可能的实施方式中，所述内窥镜系统还包括：显示设备及存储设备；

所述摄像系统主机还用于将所述内窥镜采集的图像数据发送给所述显示设备进行显示，并将编码后的图像段存储到所述存储设备中；

所述显示设备用于显示所述图像数据；

所述存储设备用于存储所述编码后的图像数据。

本申请实施例有益效果：

本申请实施例提供的视频流编码方法、装置、系统、电子设备及存储介质，获取待编码的视频流；利用预先训练的深度学习模型，分别确定上述视频流中每帧视频帧的帧场景类别；将上述视频流划分为多个视频段，并根据各帧视频帧的帧场景类别分别得到每个上述视频段的段场景类别；针对每一视频段，按照该视频段的段场景类别所对应的编码参数，对该视频段进行编码。分别确定待编码视频流中每帧视频帧的帧场景类别，然后将视频流划分为多个视频段，并根据每帧视频帧的帧场景类别得到每个视频段的段场景类别，按照段场景类别所对应的编码参数对相应的视频段进行编码，段场景类别重要的视频段采用高图像质量的编码参数，能够保证视频流中重要信息的质量，段场景类别不重要的视频段采用低图像质量的编码参数，从而降低编码后的数据量，能够在保证视频流中重要信息的质量的前提下减少视频占用空间，便于视频流的存储和传输。当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的视频流存储系统的运行过程的一种示意图；

图2为本申请实施例的训练模块的运行过程的一种示意图；

图3为本申请实施例的单帧场景分类模块的运行过程的一种示意图；

图4为本申请实施例的视频段场景分类模块的运行过程的一种示意图；

图5为本申请实施例的视频段场景分类模块的运行过程的另一种示意图；

图6为本申请实施例的编码和存储模块的运行过程的一种示意图；

图7为本申请实施例的视频流编码方法的一种示意图；

图8为本申请实施例的视频流编码装置的一种示意图；

图9为本申请实施例的电子设备的一种示意图；

图10为本申请实施例的内窥镜系统的第一种示意图；

图11为本申请实施例的内窥镜系统的第二种示意图；

图12为本申请实施例的内窥镜系统的第三种示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本申请保护的范围。

内窥镜采集的视频流除了实时显示以外，还需要存储下来以方便后续的手术过程追溯、病例研究与分享及规培等。随着技术和需求的发展，内窥镜采集的视频流的分辨率和帧率也变得很高，然而高分辨率的视频流即使编码后仍会占用较大的存储空间，如何高效的编码和存储是目前需要解决的问题。

有鉴于此，本申请实施例提供了一种视频流存储系统，包括单帧场景分类模块、视频段场景分类模块、编码和存储模块，单帧场景分类模块提取内窥镜视频帧中的语义信息，得到场景类别，其中场景分类过程中使用的场景分类模型由预训练模块生成；视频段场景分类模块根据单帧场景的分类结果，进行结果统计和融合，得到视频段的场景类别；编码和存储模块首先根据视频段的场景类别在预设的编码表中查找对应的编码参数，然后对该段视频进行编码并存储。

一个例子中，视频流存储系统还可以包括预训练模块，训练模块用于训练深度学习模型。例如图1所示，在内窥镜采集视频流时，单帧场景分类模块使用深度学习模型对视频流的原始视频流中的每一视频帧进行场景分类，区分出当前所处的场景类别，如体外、喉内、耳内等场景；然后视频段场景分类模块在一段视频序列上进行统计，得到该段视频所处的场景类别；再然后编码和存储模块根据场景在预设的编码方案中查找该场景对应的编码方法，并根据查询得到的编码方案对该段视频进行编码和存储。上述过程为自动化处理，达到的效果是对视频流自动编码和存储的效果，使得编码后的视频在保证了重要场景下图像高质量的同时又减少了存储空间的占用。其中，语义信息包括：场景类别信息，主要描述图像、视频的全局特征，包括体外、喉内、喉外、耳内、耳外、腹腔内、腹腔外等场景类别信息。

下面进行具体说明：

预训练模块用于训练深度学习模型。深度学习模型的训练过程可以如图2所示，其中，深度学习卷积神经网络输入的样本数据的形式不同，其使用的深度学习模型也不同。一个例子中，以标签为场景类别的视频帧为样本数据为例，深度学习模型的训练过程主要包括：

获取样本数据，包括数据和标签，其中，数据为内窥镜采集的视频流的视频帧；标签：视频帧对应的场景类别，包括体外、喉内、喉外、耳内、耳外、腹腔内、腹腔外等场景类别信息，可以人工标定。

既定网络结构，包括的信息有：神经网络层类型、神经网络层数、层的连接方式、损失函数等。本申请中并不对训练获得的参数类型、个数等进行限定。

训练的步骤如下：

步骤(1)：采集内窥镜的视频帧，对其中的每一帧进行场景类别标定，形成一个训练样本，所有训练样本组成训练集Ω。

步骤(2)：初始化卷积神经网络CN的网络参数为Θ₀，对训练相关的高层参数如学习率、梯度下降算法等进行合理的设置。

步骤(3)：对训练集Ω进行参数为Θ_i的卷积神经网络CN的前向计算，获取卷积神经网络的输出F(Y)，设计损失函数，得到损失值L(Θ_i)，损失值由F(Y)及步骤1中所属标签信息计算得到。

步骤(4)：利用反向传播算法对Θ进行调整，获得Θ_i。

步骤(5)：重复步骤(3)至步骤(4)，直至网络收敛，输出参数Θ_final。

单帧场景分类模块的输入视频流的原始视频流，输出为各视频的场景类别。例如图3所示，将待编码的视频流的视频帧直接作为深度学习模型(具体可以为深度神经网络模块)的输入，进行前向推理，从而得到视频帧的场景类别。

视频段场景分类模块的输入单帧视频帧的场景类别，输出为视频段的场景类别。

一个例子中，如图4所示，将单帧场景分类模块的结果作为视频段场景分类的输入，以N帧作为一个视频段的帧数，对N帧中出现的场景进行统计，选取出现次数最多的场景作为该段的结果，得到视频段场景类别。

视频段截取：从原始视频帧中截取连续的N帧作为一个视频段。

视频段场景分类：统计视频段共N帧中出现频率最多的场景类别，若不重要场景的类别(如体外)出现的最多，且出现次数为N，则不重要的场景类别作为视频段的场景类别；若不重要的场景类别出现的最多，但出现的次数小于N，为了防止降低视频段中重要场景的编码质量，需要取出现次数最多的重要场景类别作为视频段的场景类别。

一个例子中，如图5所示，将单帧场景分类模块的结果作为视频段场景分类的输入，以N帧作为一个视频段的最大帧数，对原始视频帧中出现的场景进行统计，进行视频自动分段，并赋予视频段场景类别。

视频帧自动分段：根据单帧场景分类结果，将原始视频流在分类结果变化的位置进行第一次分段，每段不长于N帧。

视频段场景分类：分析各视频段的场景类别，若出现了视频段小于M的视频段，则认为可能出现了一段误判，则与前后场景进行合并。若出现误判的视频段的类别为重要场景类别，则在前后段中查找重要场景类别的段，与其合并，如果前后段都为不重要的类别，则该段保留原类别信息；若出现误判的视频段为不重要的场景类别，但其前后段均为重要场景类别，则更改其场景类别与前后段合并。

编码和存储模块以带场景类别的视频段为输入，输出编码后的视频流并存储。

例如图6所示，对于输入的视频段，根据该视频段的场景类别在编码列表中查找其对应的预设编码参数，然后使用该编码参数对该视频段编码，然后将编码后的视频进行存储。

编码参数选择：根据视频段场景类别，在预设的编码列表中选取视频段对应的编码参数。一个例子中，一种可能的编码列表可以如表1所示。

表1

视频段场景类别	Profile	Level	QPRange	ROI_nQPoffset	...
						体外	Baseline	10	40～50	0
喉内	High	50	5～10	5
						喉外	Main	30	20～30	10
...

编码并存储：根据选择得到的参数对视频段进行编码，并存储、

本申请实施例中，提出使用深度学习技术来判断内窥镜视频帧的场景类别，然后自适应地根据场景类别对视频流进行编码和存储操作。自动分类视频流的场景，自动切换编码模式，调用不同的编码模式编码不同的场景，在保证视频中重要信息保留高质量的同时，降低非重要场景视频的质量，减少视频占用空间，便于存储和传输。

本申请实施例还提供了一种视频流编码方法，参见图7，该方法包括：

S101，获取待编码的视频流。

本申请实施例的视频流编码方法可以通过电子设备实现，具体的，该电子设备可以为内窥镜、硬盘录像机或智能摄像机等设备。本申请中的待编码的视频流为任意需要编码的视频流，例如交通摄像头采集的视频流、内窥镜采集的视频流、小区监控采集的视频流等，均在本申请的保护范围内。

S102，利用预先训练的深度学习模型，分别确定上述视频流中每帧视频帧的帧场景类别。

利用深度学习模型对视频流中的各视频帧进行分析，分别得到每帧视频帧的帧场景类别，视频帧的帧场景类别表示该视频帧所属的场景，帧场景类别具体可以根据实际情况自定义设置，例如，针对交通摄像头采集的视频流，帧场景类别可以包括无目标(例如，车辆或行人等)、有目标及发生指定交通事件(例如，闯红灯或追尾等)等；例如，针对内窥镜采集的视频流，帧场景类别可以包括体外、喉内、喉外、耳内、耳外、腹腔内、腹腔外等。

深度学习模型可以预先利用标记有帧场景类别的样本视频帧训练得到，例如，将样本视频帧输入到深度学习模型中，得到该样本视频帧的预测帧场景类别，根据标记的帧场景类别及预测场景类别计算模型损失，根据模型损失调整深度学习模型的训练参数，选取样本视频帧继续进行训练，直至模型损失收敛，得到预先训练的深度学习模型。

S103，将上述视频流划分为多个视频段，并根据各帧视频帧的帧场景类别分别得到每个上述视频段的段场景类别，其中，针对任一视频段，该视频段的段场景类别至少与该视频段中一帧视频帧的帧场景类别相同。

例如，可以按照固定的步长将视频流划分为多个视频段，针对每个视频段，将该视频段中视频帧数量最多的帧场景类别作为该视频段的段场景类别。例如，根据各帧视频帧的帧场景类别，将在视频流中帧场景类别变化的位置进行分段，得到多个视频段，针对每个视频段，将该视频段中视频帧的帧场景类别作为该视频段的段场景类别。

S104，针对每一视频段，按照该视频段的段场景类别所对应的编码参数，对该视频段进行编码。

每种段场景类别均对应有相应的编码参数，段场景类别与编码参数的对应关系可以自定义设置，在一种可能的实施方式中，上述针对每一视频段，按照该视频段的段场景类别所对应的编码参数，对该视频段进行编码，包括：针对每一视频段，按照预设的段场景类别与编码参数的对应关系，确定该视频段的段场景类别所对应的编码参数，并案件该视频段的段场景类别所对应的编码参数，对该视频段进行编码。

一个例子中，段场景类别的重要度越高，其对应的编码参数的图像质量也越高。例如，针对交通摄像头采集的视频流，段场景类别可以包括无目标、有目标及发生指定交通事件，则发生指定交通事件对应的编码参数的图像质量高于有目标对应的编码参数的图像质量，有目标对应的编码参数的图像质量高于无目标对应的编码参数的图像质量。一个例子中，段场景类别与编码参数的对应关系可以如表1所示。

在本申请实施例中，分别确定待编码视频流中每帧视频帧的帧场景类别，然后将视频流划分为多个视频段，并根据每帧视频帧的帧场景类别得到每个视频段的段场景类别，按照段场景类别所对应的编码参数对相应的视频段进行编码，段场景类别重要的视频段采用高图像质量的编码参数，能够保证视频流中重要信息的质量，段场景类别不重要的视频段采用低图像质量的编码参数，从而降低编码后的数据量，能够在保证视频流中重要信息的质量的前提下减少视频占用空间，便于视频流的存储和传输。

在一种可能的实施方式中，上述S103，将上述视频流划分为多个视频段，并根据各帧视频帧的帧场景类别分别得到每个上述视频段的段场景类别，包括：

步骤一，根据第一预设帧数阈值N，将接收到的上述视频流按照时序每N帧划分为一个视频段，得到多个视频段。

N可以根据实际情况自定义设置，例如可以设置为60、120、150或300等。可以实时接收图像采集设备采集的视频流，并以N为周期，每当新接收到的视频流中的视频帧达到N帧时，便划分一个视频段。

步骤二，针对每一视频段，根据该视频段中各帧视频帧的帧场景类别，确定该视频段的段场景类别。

例如，针对每一视频段，可以将该视频段中视频帧数最多的帧场景类别作为该视频段的段场景类别。例如，针对每一视频段，可以将该视频段中最重要的帧场景类别作为该视频段的段场景类别等。

在一种可能的实施方式中，上述针对每一视频段，根据该视频段中各帧视频帧的帧场景类别，确定该视频段的段场景类别，包括：

步骤a，针对任一视频段，若该视频段中的各视频帧的帧场景类别中包括重要场景类别，则选取该视频段中视频帧数量最多的重要场景类别，作为该视频段的段场景类别。

重要场景类别可以根据实际情况自定义设置，例如，针对帧场景类别：无目标、有目标及发生指定交通事件，重要场景类别可以为指定交通事件。例如，针对帧场景类别：体外、喉内、喉外、耳内、耳外、腹腔内、腹腔外、管道内、鼻内、鼻外，重要场景类别可以为喉外、耳内、腹腔内、管道内、鼻内。

在一种可能的实施方式中，上述视频流为内窥镜视频流，上述帧场景类别包括体外、喉内、喉外、耳内、耳外、腹腔内、腹腔外、管道内、鼻内、鼻外中的至少一种，上述喉内、耳内、腹腔内、管道内、鼻内为重要场景类别。

步骤b，针对任一视频段，若该视频段中的各视频帧的帧场景类别中不包括重要场景类别，则选取该视频段中视频帧数量最多的帧场景类别，作为该视频段的段场景类别。

在本申请实施例中，能够保证在视频段的各视频帧的帧场景类别中包括重要场景类别的情况下，该视频段的段场景类别为重要场景类别，从而能够保证该视频段的图像质量，能够减少重要的图像内容不清楚或丢失的情况。

步骤一，根据各帧视频帧的帧场景类别，将上述视频流中帧场景类别相同、且时序上连续的视频帧划分到为一视频段，得到多个视频段。

根据各帧视频帧的帧场景类别，在视频流帧场景类别变化的视频帧出进行分段，从而得到多个视频段。例如，视频流中的各视频帧的帧场景类别分别为：AAABBBBBCCCCDDDD，则将第一至第三帧视频帧划分为一个视频段，将第四至第八帧划分为一个视频段，将第九至第十二帧视频帧划分为一个视频段，将第十三至第十六帧视频帧划分为一个视频段，

步骤二，针对每一视频段，将该视频段的帧场景类别作为该视频段的段场景类别。

本申请实施例中，每个视频段中各帧场景类别均相同，因此针对每一视频段，可以直接将该视频段中视频帧的帧场景类别作为该视频段的段场景类别。

在一种可能的实施方式中，在针对每一视频段，将该视频段的帧场景类别作为该视频段的段场景类别之后，上述方法还包括：

第二预设帧数阈值可以根据实际情况自定义设置，第二预设帧数阈值应当小于第一预设帧数阈值，例如，可以设置为60、50、40或20等。若在各视频段中存在视频帧数量小于第二预设帧数阈值的视频段(以下称为短视频段)，针对任一短视频段，判断该短视频段的段场景类别是否为重要场景类别，有两种情况：

第一种是该短视频段的段场景类别为重要场景类别。

在该短视频段的段场景类别为重要场景类别的情况下，判断时序上与该短视频段相邻的两个视频段中是否存在段场景类别为重要场景类别的视频段，即该短视频段是否存在重要相邻视频段。若该短视频段不存在重要相邻视频段，则保留该视频段，不进行合并；若该短视频段存在一个重要相邻视频段，则将该短视频段与该一个重要相邻视频段合并为一个视频段，并将该一个重要相邻视频段的段场景类别作为合并后的视频段的段场景类别；若该短视频段存在两个重要相邻视频段，则在这两个重要相邻视频段中选取一个重要相邻视频段(例如，可以选取视频帧数量较多的一个重要相邻视频段，或选取段场景类别更重要的重要相邻视频段等)，将该短视频段与选取的重要相邻视频段合并为一个视频段，并将选取的重要相邻视频段的段场景类别作为合并后的视频段的段场景类别。

第二种是该短视频段的段场景类别不为重要场景类别。

在该短视频段的段场景类别不为重要场景类别的情况下，判断时序上与该短视频段相邻的两个视频段中是否存在段场景类别不为重要场景类别的视频段，即该短视频段是否存在非重要相邻视频段。若该短视频段不存在非重要相邻视频段，即该短视频段存在两个重要相邻视频段，则在这两个重要相邻视频段中选取一个重要相邻视频段(例如，可以选取视频帧数量较多的一个重要相邻视频段，或选取段场景类别更重要的重要相邻视频段等)，将该短视频段与选取的重要相邻视频段合并为一个视频段，并将选取的重要相邻视频段的段场景类别作为合并后的视频段的段场景类别。

若该短视频段存在一个非重要相邻视频段，则将该短视频段与该一个非重要相邻视频段合并为一个视频段，并将该一个非重要相邻视频段的段场景类别作为合并后的视频段的段场景类别；若该短视频段存在两个非重要相邻视频段，则在这两个非重要相邻视频段中选取一个非重要相邻视频段(例如，可以选取视频帧数量较多的一个非重要相邻视频段，或选取段场景类别更重要的非重要相邻视频段等)，将该短视频段与选取的非重要相邻视频段合并为一个视频段，并将选取的非重要相邻视频段的段场景类别作为合并后的视频段的段场景类别。

在本申请实施例中，通过将视频帧数量小于第二预设帧数阈值的短视频段与其相邻的视频段进行合并，可以减少短视频段的段场景类别错误的情况。

在一种可能的实施方式中，针对任一视频段，若该视频段中视频帧的数量大于第一预设帧数阈值N，则将该视频段中的各视频帧按照时序每N帧划分为一个视频段，得到划分后的视频段，其中，划分后的视频段的段场景类别为划分前视频段的段场景类别。

本申请实施例还提供了一种视频流编码装置，参见图8，该装置包括：

视频流获取模块11，用于获取待编码的视频流；

帧场景类别确定模块12，用于利用预先训练的深度学习模型，分别确定所述视频流中每帧视频帧的帧场景类别；

段场景类别确定模块13，用于将所述视频流划分为多个视频段，并根据各帧视频帧的帧场景类别分别得到每个所述视频段的段场景类别；

视频段编码模块14，用于针对每一视频段，按照该视频段的段场景类别所对应的编码参数，对该视频段进行编码。

在一种可能的实施方式中，所述段场景类别确定子模块，具体用于：针对任一视频段，若该视频段中的各视频帧的帧场景类别中包括重要场景类别，则选取该视频段中视频帧数量最多的重要场景类别，作为该视频段的段场景类别；针对任一视频段，若该视频段中的各视频帧的帧场景类别中不包括重要场景类别，则选取该视频段中视频帧数量最多的帧场景类别，作为该视频段的段场景类别。

在一种可能的实施方式中，所述段场景类别确定模块，具体用于：根据各帧视频帧的帧场景类别，将所述视频流中帧场景类别相同、且时序上连续的视频帧划分到为一视频段，得到多个视频段；针对每一视频段，将该视频段的帧场景类别作为该视频段的段场景类别。

本申请实施例还提供了一种电子设备，包括：处理器及存储器；

上述存储器，用于存放计算机程序；

上述处理器用于执行上述存储器存放的计算机程序时，实现本申请中任一所述的视频流编码方法。

可选的，参见图9，除了处理器及存储器外，本申请实施例的电子设备还包括通信接口22和通信总线24，其中，处理器21，通信接口22，存储器23通过通信总线24完成相互间的通信。

上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储设备。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例提供的视频流编码方法可以应用于基于内窥镜系统采集图像的场景中。本申请实施还提供了一种内窥镜系统，参见图10，该内窥镜系统包括：内窥镜31、光源设备32及摄像系统主机33；上述内窥镜31用于采集图像数据；上述光源设备32用于为上述内窥镜提供拍摄光源；上述摄像系统主机33用于在运行时实现本申请中任一视频流编码方法。

在一种可能的实施方式中，上述内窥镜系统还包括：显示设备及存储设备；上述摄像系统主机还用于将上述内窥镜采集的图像数据发送给上述显示设备进行显示，并将编码后的图像段存储到上述存储设备中；上述显示设备用于显示上述图像数据；上述存储设备用于存储上述编码后的图像数据。

一个例子中，如图11所示，内窥镜系统包括内窥镜、光源设备、摄像系统主机、显示设备以及存储设备。

其中，内窥镜用于将长管插入患者体内，拍摄患者体内需要被观察的部位，采集该部位的图像，并将采集的图像发送给摄像系统主机。光源设备用于从内窥镜的长管前端射出的照明光，以便于内窥镜拍摄出清晰的图像。摄像系统主机用于接收内窥镜发送的图像，对该图像进行处理，然后将处理后的图像发送给显示设备和存储设备。摄像系统主机还用于统一控制整个内窥镜系统，并执行本申请中任一视频流编码方法。显示设备用于接收摄像系统主机发送的处理后的图像，然后将处理的图像显示在显示设备上。存储设备用于接收摄像系统主机发送的处理后的图像，并将该处理后的图像进行存储。

通过图11所示的内窥镜系统，医生通过观察由显示设备显示的处理后的图像，来观测图像中有无出血部位、肿瘤部位和异常部位等。在手术时，通过图11所示的内窥镜系统可以提供手术过程中的实时影像。此外，医生还可以获取存储设备中的图像，根据多个图像组成的手术视频，进行术后回顾和手术培训。

为了更加清楚的了解内窥镜系统的原理，在此对内窥镜系统组成部分进行解释说明。如图12所示，图12是本申请实施例提供的一种内窥镜系统的详细结构示意图。

在图12中，内窥镜系统中的摄像系统主机包括图像输入单元、图像处理单元、智能处理单元、视频编码单元、控制单元和第二操作单元。

其中，图像输入单元接收内窥镜发送过来的图像，并将接受到的图像传输给图像处理单元。

图像处理单元接收图像输入单元发送的图像，对接收到的图像进行处理，也即是对图像进行ISP(image signal processor，图像信号处理)操作，ISP操作包括对图像进行亮度变换、锐化、去摩尔纹、缩放等操作。图像处理单元处理完图像之后，将处理后的图像发送给智能处理单元、视频编码单元或显示设备。此外，图像处理单元还用于接收智能处理单元智能分析后的图像，并对智能分析后的图像再一次进行ISP操作。

智能处理单元接收到图像处理单元发送的处理后的图像，并对处理后的图像进行智能分析，智能分析包括帧场景类别的识别、视频段分段、段场景类别的识别以及各视频段编码参数的选取，其具体过程可以参见上述实施例中的描述，此处不再赘述。

视频编码单元用于接收图像处理单元处理后的图像及智能处理单元发送的视频段分段情况及各视频段的编码参数。针对每一视频段，按照该视频段的段场景类别所对应的编码参数，对该视频段进行编码，并将编码后的图像发送给存储设备。

控制单元用于向内窥镜系统的各个单元发送不同的功能指令，用于控制内窥镜系统的各个模块来执行某些功能，比如控制光源设备的照明、图像处理单元的图像处理方式、智能处理单元的智能分析方式和视频编码单元的编码压缩方式等。此外，控制单元还用于接收操作单元发送的触发指令，并响应于该触发指令，以便于开启摄像系统主机。当用户对摄像系统主机上的开关、按钮或触摸面板进行触发操作时，操作单元用于接收用户的触发指令，并向控制单元发送该触发指令。

在图12中，内窥镜系统中的光源设备包括照明控制单元和照明单元。其中，照明控制单元接收摄像系统主机中控制单元发送的功能指令后，并向照明单元发送照明指令，用于控制照明单元向内窥镜提供照明光。照明单元接收到明控制单元发送的照明指令，并向内窥镜提供照明光。

在图12中，内窥镜系统中的内窥镜包括摄像光学系统、成像单元、处理单元和第一操作单元。其中，摄像光学系统由一个或多个透镜构成，对来自患者体内需要被观测部位的光进行聚光，以便观测部位可以被清晰的拍摄下来。成像单元由CMOS(complementarymetal oxide semiconductor，互补金属氧化物半导体)或CCD(charge coupled device，电荷耦合器件)等图像传感器组成，用于将各个像素点所接收的光进行光电转换来生成图像。成像单元将生成的图像发送给处理单元。处理单元接收成像单元发送的图像，将该图像转换成数字信号图像，并将转换后的图像发送到摄像系统主机的图像输入单元。当用户对内窥镜上的开关、按钮或触摸面板进行触发操作时，操作单元用于接收用户的触发指令，并向摄像系统主机的控制单元发送该触发指令。

本申请实施例提供的视频流编码方法应用于基于内窥镜系统采集图像的场景中，例如在采集视频流的过程中实时进行视频流编码。可选的，本申请实施例提供的视频流编码方法也可以应用在其他对图像进行处理的场景中。在此就不再一一举例说明。

需要说明的是，本申请实施例提供的视频流编码方法的执行主体并不限定，例如，在手术过程中该方法可以由摄像系统主机执行，也可以由外接设备执行，在非手术过程的任意时间，该方法可以由任一计算机设备执行。其中，在由摄像系统主机执行的情况下，主要通过智能处理单元进行视频段分段及编码参数的选取，也即本方案对智能处理单元改进后能够视频段分段及编码参数的选取。

本申请实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质内存储有计算机程序，上述计算机程序被处理器执行时实现本申请中任一所述的视频流编码方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本申请中任一所述的视频流编码方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

需要说明的是，在本文中，各个可选方案中的技术特征只要不矛盾均可组合来形成方案，这些方案均在本申请公开的范围内。诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机程序产品及存储介质的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种视频流编码方法，其特征在于，所述方法包括：

获取待编码的视频流；

其中，所述将所述视频流划分为多个视频段，并根据各帧视频帧的帧场景类别分别得到每个所述视频段的段场景类别，包括：根据各帧视频帧的帧场景类别，将所述视频流中帧场景类别相同、且时序上连续的视频帧划分到为一视频段，得到多个视频段；针对每一视频段，将该视频段的帧场景类别作为该视频段的段场景类别；

针对任一短视频段，在该短视频段的段场景类别不为重要场景类别、且该短视频段前后相邻的视频段均为重要相邻视频段的情况下，将该短视频段与该短视频段的一重要相邻视频段合并为一个视频段，并将与该短视频段合并的重要相邻视频段的段场景类别作为合并后的视频段的段场景类别；

2.根据权利要求1所述的方法，其特征在于，所述将所述视频流划分为多个视频段，并根据各帧视频帧的帧场景类别分别得到每个所述视频段的段场景类别，包括：

3.根据权利要求2所述的方法，其特征在于，所述针对每一视频段，根据该视频段中各帧视频帧的帧场景类别，确定该视频段的段场景类别，包括：

4.根据权利要求1所述的方法，其特征在于，所述针对每一视频段，按照该视频段的段场景类别所对应的编码参数，对该视频段进行编码，包括：

针对每一视频段，按照预设的段场景类别与编码参数的对应关系，确定该视频段的段场景类别所对应的编码参数，并案件该视频段的段场景类别所对应的编码参数，对该视频段进行编码。

5.根据权利要求1-4任一所述的方法，其特征在于，所述视频流为内窥镜视频流，所述帧场景类别包括体外、喉内、喉外、耳内、耳外、腹腔内、腹腔外、管道内、鼻内、鼻外中的至少一种，所述喉内、耳内、腹腔内、管道内、鼻内为重要场景类别。

6.一种视频流编码装置，其特征在于，所述装置包括：

视频流获取模块，用于获取待编码的视频流；

段场景类别确定模块，用于根据各帧视频帧的帧场景类别，将所述视频流中帧场景类别相同、且时序上连续的视频帧划分到为一视频段，得到多个视频段；针对每一视频段，将该视频段的帧场景类别作为该视频段的段场景类别，其中，针对任一视频段，该视频段的段场景类别至少与该视频段中一帧视频帧的帧场景类别相同；

短视频段合并模块，用于：若在各视频段中存在视频帧数量小于第二预设帧数阈值的短视频段，针对任一短视频段，在该短视频段的段场景类别为重要场景类别、且该短视频段存在重要相邻视频段的情况下，将该短视频段与该短视频段的一重要相邻视频段合并为一个视频段，并将与该短视频段合并的重要相邻视频段的段场景类别作为合并后的视频段的段场景类别；其中，针对任一短视频段，该短视频段的重要相邻视频段为与该短视频段相邻的、且场景类别为重要场景类别的视频段；针对任一短视频段，在该短视频段的段场景类别不为重要场景类别、且该短视频段前后相邻的视频段中存在非重要相邻视频段的情况下的情况下，将该短视频段与该短视频段的一非重要相邻视频段合并为一个视频段，并将与该短视频段合并的非重要相邻视频段的段场景类别作为合并后的视频段的段场景类别；其中，针对任一短视频段，该短视频段的非重要相邻视频段为与该短视频段相邻的、且场景类别不为重要场景类别的视频段；针对任一短视频段，在该短视频段的段场景类别不为重要场景类别、且该短视频段前后相邻的视频段均为重要相邻视频段的情况下，将该短视频段与该短视频段的一重要相邻视频段合并为一个视频段，并将与该短视频段合并的重要相邻视频段的段场景类别作为合并后的视频段的段场景类别；

7.根据权利要求6所述的装置，其特征在于，所述段场景类别确定模块，包括：

8.根据权利要求7所述的装置，其特征在于，所述段场景类别确定子模块，具体用于：

9.根据权利要求6所述的装置，其特征在于，所述视频段编码模块，具体用于：针对每一视频段，按照预设的段场景类别与编码参数的对应关系，确定该视频段的段场景类别所对应的编码参数，并案件该视频段的段场景类别所对应的编码参数，对该视频段进行编码。

10.根据权利要求6-9任一所述的装置，其特征在于，所述视频流为内窥镜视频流，所述帧场景类别包括体外、喉内、喉外、耳内、耳外、腹腔内、腹腔外、管道内、鼻内、鼻外中的至少一种，所述喉内、耳内、腹腔内、管道内、鼻内为重要场景类别。

11.一种内窥镜系统，其特征在于，所述内窥镜系统包括：

内窥镜、光源设备及摄像系统主机；

所述内窥镜用于采集图像数据；

所述光源设备用于为所述内窥镜提供拍摄光源；

所述摄像系统主机用于在运行时实现上述权利要求1-5中任一所述的视频流编码方法。

12.根据权利要求11所述的系统，其特征在于，所述内窥镜系统还包括：显示设备及存储设备；

所述显示设备用于显示所述图像数据；

所述存储设备用于存储所述编码后的图像数据。

13.一种电子设备，其特征在于，包括处理器及存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-5任一所述的视频流编码方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的视频流编码方法。