CN114640860A

CN114640860A - 一种网络数据处理与传输方法及系统

Info

Publication number: CN114640860A
Application number: CN202210489630.4A
Authority: CN
Inventors: 张鹏涛
Original assignee: Shenzhen Warm Life Technology Co ltd
Current assignee: Shenzhen Warm Life Technology Co ltd
Priority date: 2022-05-07
Filing date: 2022-05-07
Publication date: 2022-06-17
Anticipated expiration: 2042-05-07
Also published as: CN114640860B

Abstract

本发明提供了一种网络数据处理与传输方法及系统；通过获取判断网络传输的数据为直播视频时，通过在执行复杂的视频编码之前我们通过基于镜头切换帧的判断以及视频光流的获取，并基于至第一卷积神经网络模型生成镜头切换帧的特征矩阵，若为非镜头切换帧，则获取当前视频帧的光流场；按照第一预定尺寸模板对当前视频帧进行划分为多个统一大小的第一子块，根据每个第一子块的运动状态信息生成当前视频帧的运动状态图；将当前视频帧的运动状态图输入至第二卷积神经网络模型，以获取第二矩阵；基于第二卷积神经网络模型来对光流场的运动状态特征进行输出特征矩阵，从而预先判断视频的数据等级情况，选择好传输通道数量而降低编码传输的延时。

Description

一种网络数据处理与传输方法及系统

技术领域

本发明涉及电数字数据处理技术领域，具体而言，涉及一种网络数据处理与传输方法及系统。

背景技术

随着移动互联网技术的发展，尤其是视频直播技术的发展，对于网络传输的要求越来越高，而一般对于直播的视频一般都是采用H.264或者H.265执行的视频编码，而对于视频序列的数量量级的大小，一般都是需要编码后才能估算，而视频编码尤其是软编码的算法复杂度较高（尤其是运动估计以及运动补偿过程），如果编码后计算数据量再进行网络资源的选择，就会大大增加网络延时，这严重影响了用户的使用体验，亟需改进。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供了一种网络数据处理与传输方法及系统。

本发明的第一方面提供了一种网络数据处理与传输方法, 应用于视频直播，包括如下步骤：

获取待传输的网络数据，并判断所述网络数据类型；其中，所述网络数据类型包括直播视频和/或音频和/或文本；

若所述网络数据包括直播视频，在执行视频编码之前，按照时间戳截取视频序列，所述视频序列首帧为镜头切换帧；对所述视频序列进行分帧处理，并判断当前视频帧是否为镜头切换帧；若为镜头切换帧，则将当前视频帧输入至第一卷积神经网络模型，以获取第一矩阵；

若为非镜头切换帧，则获取当前视频帧的光流场；按照第一预定尺寸模板对当前视频帧进行划分为多个统一大小的第一子块，基于每个第一子块内的光流信息确定第一子块的运动状态信息，并根据每个第一子块的运动状态信息生成当前视频帧的运动状态图；将当前视频帧的运动状态图输入至第二卷积神经网络模型，以获取第二矩阵；

分别计算第一矩阵、第二矩阵的模值，并基于所述模值以及预先设定的镜头切换帧与非镜头切换帧的权重，确定当前视频序列的数据等级，并根据网络传输通道数量确定用于当前视频序列的通道数，以进行数据传输。

优选的，所述基于每个第一子块内的光流信息确定第一子块的运动状态信息，包括：

按照第二预定尺寸模块将当前视频帧划分为不同大小的第二子块；所述第二子块尺寸小于第一子块；根据所述第二子块内所有像素的光流确定第二子块的光流信息，并根据第二子块占据第一子块大小的比例，确定第二子块的权重系数；根据第二子块的权重系数以及第二子块对应的光流信息，加权获取第一子块的运动状态信息。

优选的，所述第一卷积神经网络的隐含层在前向传播中对输入数据执行基于二维卷积核的卷积处理、激活、沿所述镜头切换帧像素的均值池化处理，以由所述第一卷积神经网络的输出层输出所述第一矩阵。

优选的，所述第二卷积神经网络的隐含层在前向传播中对输入数据进行基于三维卷积核的卷积处理、激活、沿所述第一子块的运动状态信息的均值池化处理，以由所述第二卷积神经网络的输出层输出所述第二矩阵。

优选的，所述根据每个第一子块的运动状态信息生成当前视频帧的运动状态图，包括：

根据第一子块的运动状态信息以及每个第一子块所在的视频帧的坐标关系，建立视频帧的运动状态图。

本发明的第二方面，提供一种网络数据处理与传输系统,应用于视频直播，包括：

获取模块，获取待传输的网络数据，并判断所述网络数据类型；其中，所述网络数据类型包括直播视频和/或音频和/或文本；

处理模块，若所述网络数据包括直播视频，在执行视频编码之前，按照时间戳截取视频序列，所述视频序列首帧为镜头切换帧；对所述视频序列进行分帧处理，并判断当前视频帧是否为镜头切换帧；若为镜头切换帧，则将当前视频帧输入至第一卷积神经网络模型，以获取第一矩阵；若为非镜头切换帧，则获取当前视频帧的光流场；按照第一预定尺寸模板对当前视频帧进行划分为多个统一大小的第一子块，基于每个第一子块内的光流信息确定第一子块的运动状态信息，并根据每个第一子块的运动状态信息生成当前视频帧的运动状态图；将当前视频帧的运动状态图输入至第二卷积神经网络模型，以获取第二矩阵；

计算与传输模块，分别计算第一矩阵、第二矩阵的模值，并基于所述模值以及预先设定的镜头切换帧与非镜头切换帧的权重，确定当前视频序列的数据等级，并根据网络传输通道数量确定用于当前视频序列的通道数，以进行数据传输。

优选的，所述第一卷积神经网络的隐含层在前向传播中对输入数据执行基于二维卷积核的卷积处理、激活、沿所述镜头切换帧像素的均值池化处理，以由所述第一卷积神经网络的输出层输出所述第一矩阵；

所述第二卷积神经网络的隐含层在前向传播中对输入数据进行基于三维卷积核的卷积处理、激活、沿所述第一子块的运动状态信息的均值池化处理，以由所述第二卷积神经网络的输出层输出所述第二矩阵。

本发明的方案中，通过获取判断网络传输的数据为直播视频时，通过在执行复杂的视频编码之前我们通过基于镜头切换帧的判断以及视频光流的获取，并基于第一卷积神经网络模型生成镜头切换帧的特征矩阵，若为非镜头切换帧，则获取当前视频帧的光流场；按照第一预定尺寸模板对当前视频帧进行划分为多个统一大小的第一子块，根据每个第一子块的运动状态信息生成当前视频帧的运动状态图；将当前视频帧的运动状态图输入至第二卷积神经网络模型，以获取第二矩阵；基于第二卷积神经网络模型来对光流场的运动状态特征进行输出特征矩阵，从而预先判断视频的数据等级情况，实现选择好传输通道数量从而降低编码传输的延时性，提高了视频边编码边传输的实时性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例公开的一种网络数据处理与传输方法的流程示意图；

图2是本发明实施例公开的一种网络数据处理与传输系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

需要说明的是：在本文中提及的“多个”是指两个或两个以上。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

请参阅图1，图1是本发明实施例公开的一种网络数据处理与传输方法的流程示意图。如图1所示，本发明实施例的一种网络数据处理与传输方法, 应用于视频直播，包括如下步骤：

在本发明实施例中，一般对于直播的视频一般都是采用H.264或者H.265执行的视频编码，而对于视频序列的数量量级的大小，一般都是需要编码后才能估算，而视频编码。而视频编码尤其是软编码的算法复杂度较高（尤其是运动估计以及运动补偿过程），且针对目前的高清以及超高清的视频，编码计算量更为大，如果在直播时进行等待编码后再评估数据量再进行网络资源的选择，就会大大增加网络延时。需要说明的是，本实施例主要针对视频进行分析，而音频和文本的处理可以参见现有技术，因为其对于视频数据量的影响不会特别大，因此，音频和文本不会额外增加太多传输资源。

本实施例，通过在执行视频编码之前，按照时间戳截取视频序列，所述视频序列首帧为镜头切换帧。这里，一般镜头切换帧，是通过在编码之前，进行视频采集的过程中判断当前帧与前一帧的相似度确定是否为镜头切换帧，若相似度低于一定阈值，确定当前帧为镜头切换帧。而若为非镜头切换帧，则获取当前视频帧的光流场，这里光流场也是在视频采集时获取的，因为光流场近似于运动矢量场，因此，我们不需要进行编码，可以采用视频像素级的光流，并基于光流信息来计算非镜头切换帧的运动状态。其中，镜头切换帧一般后续编码都会编码为I帧，而非镜头切换帧会被编码为帧间帧，即B帧或P帧。

需要进行说明的是，通过事先确定按照第一预定尺寸模板对当前视频帧进行划分为多个统一大小的第一子块，比如对于1080P的视频帧，可以事先选择64*64亦或者128*128的块大小作为第一子块的大小，而将当前怎划分为由多个统一大小的第一子块形成的视频帧数据。

根据分别计算第一矩阵、第二矩阵的模值，基于所述模值以及预先设定的镜头切换帧与非镜头切换帧的权重，进行加权计算视频序列的数据量，并对应设定等级关系，确定所处的数据量等级。其中，这里会预先设定帧数，图像尺寸，以及数据量大小，来确定数据量的等级，亦或者一个GOP数据量的数据等级。通过获取当前传输通道的总量，以及每个通道承载的最大数据量，并根据网络传输通道数量确定用于当前视频序列的通道数，以进行数据传输。

本发明的方案的执行上述处理的方案可以设置于终端设备上，也可以设置于专门的服务器上，例如，终端设备的开发商可以在终端设备的操作系统内预设对应的功能插件来检测并收集用户的登陆验证历史数据，然后将其传送至对应的服务器，再由服务器向建立了合作关系的本次登陆目标服务器发送验证次数请求信号。其中，终端设备可以为手机（mobile phone）、智能电视、穿戴式设备、平板电脑（Pad）、带无线收发功能的电脑、虚拟现实（virtual reality，VR）移动终端、增强现实（augmented reality，AR）移动终端、工业控制（industrial control）中的无线终端、无人驾驶（self-driving）中的无线终端、远程手术（remote medical surgery）中的无线终端、智能电网（smart grid）中的无线终端、运输安全（transportation safety）中的无线终端、智慧城市（smart city）中的无线终端、智慧家庭（smart home）中的无线终端等等；以及，服务器可以为分布式系统的服务器，或者是结合了区块链的服务器。服务器也可以是云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。服务器可以为分布式系统的服务器，或者是结合了区块链的服务器。服务器也可以是云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。

另外，终端设备和服务器之间可以通过多种方式实现通信连接，例如：码分多址（code division multiple access，CDMA）系统、宽带码分多址（wideband code divisionmultiple access，WCDMA）系统、通用分组无线业务（general packet radio service，GPRS）、长期演进（long term evolution，LTE）系统、LTE频分双工（frequency divisionduplex，FDD）系统、LTE时分双工（time division duplex，TDD）系统、先进的长期演进（advanced long term evolution，LTE-A）系统、新无线（New Radio，NR）系统、NR系统的演进系统、非授权频段上的LTE（LTE-based access to unlicensed spectrum，LTE-U）系统、非授权频段上的NR（NR-based access to unlicensed spectrum，NR-U）系统、通用移动通信系统（universal mobile telecommunication system，UMTS）、全球互联微波接入（worldwide interoperability for microwave access，WiMAX）通信系统、无线局域网（wireless local area networks，WLAN）、无线保真（wireless fidelity，WiFi）、第五代（5th generation，5G）移动通信系统、下一代通信系统或其他通信系统等。其中，5G移动通信系统可以包括非独立组网（non-standalone，NSA）和/或独立组网（standalone，SA）。

进一步地，所述基于每个第一子块内的光流信息确定第一子块的运动状态信息，包括：按照第二预定尺寸模块将当前视频帧划分为不同大小的第二子块；所述第二子块尺寸小于第一子块；根据所述第二子块内所有像素的光流确定第二子块的光流信息，并根据第二子块占据第一子块大小的比例，确定第二子块的权重系数；根据第二子块的权重系数以及第二子块对应的光流信息，加权获取第一子块的运动状态信息。

本实施例，对于非镜头切换帧图像，可以进一步根据像素的前后上下左右的平坦情况，确定比第一子块更小的第二子块进一步准确评估第一子块的光流大小以及方向，从而也是为了更为准确确定整个图像的运动状态信息。其中，对于1080P的视频帧，事先选择64*64亦或者128*128的块大小作为第一子块的大小，可以选择16*16或者8*8或32*32像素大小作为第二子块。而并不是每一个第一子块都需要分为多个第二子块，可以根据邻间像素的变化确定平坦性来选择性是否确定第二子块，比如更为简洁的方案，对于主播直播，可以划分前景部分和背景，尤其对于主播边缘的区域进行划分为第二子块，而背景区域或部分前景区域则不需要划分。根据所述第二子块内所有像素的光流确定第二子块的光流信息，这里可以根据第二子块内所有像素的光流的平均值来确定第二子块的光流信息。并根据第二子块占据第一子块大小的比例，确定第二子块的权重系数；根据第二子块的权重系数以及第二子块对应的光流信息，加权获取第一子块的运动状态信息。

进一步地，所述第一卷积神经网络的隐含层在前向传播中对输入数据执行基于二维卷积核的卷积处理、激活、沿所述镜头切换帧像素的均值池化处理，以由所述第一卷积神经网络的输出层输出所述第一矩阵。

需要进行说明的是，实现通过训练模型以及样本视频的镜头切换帧（或者I帧）进行模型训练，从而得到神经网络的参数，使得便于在模型运用计算过程中输出能表征帧帧内复杂度情况的第一矩阵。由于对于镜头切换帧，一般采用帧内编码，因此我们实现训练神经网络模型，通过分析计算帧内像素的大小以及帧内像素波动，平坦情况来确定帧内的复杂度，并基于沿所述镜头切换帧像素的均值池化处理，保证输出的第一矩阵有效。

进一步地，所述第二卷积神经网络的隐含层在前向传播中对输入数据进行基于三维卷积核的卷积处理、激活、沿所述第一子块的运动状态信息的均值池化处理，以由所述第二卷积神经网络的输出层输出所述第二矩阵。

本实施例，使用作为3D卷积神经网络的第二卷积神经网络以如下公式。分别将当前视频帧的运动状态图输入至第二卷积神经网络模型，以获取第二矩阵；其中，所述公式为：

其中，H_j、W_j和R_j分别表示三维卷积核的长度、宽度和高度，m表示第（l-1）层特征图的个数，

是与（l-1）层的第m个特征图相连的卷积核，b_lj为偏置，f表示激活函数。

需要进行说明的是，实现通过训练模型以及样本视频的运动状态图进行模型训练，从而得到神经网络的参数，使得便于在模型运用计算过程中输出能表征帧光流运动幅度变化的第二矩阵。

进一步地，所述根据每个第一子块的运动状态信息生成当前视频帧的运动状态图，包括：

在本发明实施例中，选择性的根据第一子块的运动状态信息以及每个第一子块所在的视频帧的坐标关系，比如（0,0）、（0，1）、（0,2）………(1,0)、（1,1）……，建立视频帧的运动状态图。

本实施例，用户在使用视频直播时，在编码之前进行视频采集过程中，通过根据第一卷积神经网络模型生成镜头切换帧的特征矩阵，若为非镜头切换帧，则获取当前视频帧的光流场；按照第一预定尺寸模板对当前视频帧进行划分为多个统一大小的第一子块，根据每个第一子块的运动状态信息生成当前视频帧的运动状态图；将当前视频帧的运动状态图输入至第二卷积神经网络模型，以获取第二矩阵；基于第二卷积神经网络模型来对光流场的运动状态特征进行输出特征矩阵，并根据第一矩阵第二矩阵，从而预先判断视频的数据等级情况，实现选择好传输通道数量从而降低编码传输的延时性，提高了视频边编码边传输的实时性。

请参阅图2，图2是本发明实施例公开的一种网络数据处理与传输系统的结构示意图。如图2所示，本发明实施例的一种网络数据处理与传输系统，应用于视频直播，包括：

获取模块10，获取待传输的网络数据，并判断所述网络数据类型；其中，所述网络数据类型包括直播视频和/或音频和/或文本；

处理模块20，若所述网络数据包括直播视频，在执行视频编码之前，按照时间戳截取视频序列，所述视频序列首帧为镜头切换帧；对所述视频序列进行分帧处理，并判断当前视频帧是否为镜头切换帧；若为镜头切换帧，则将当前视频帧输入至第一卷积神经网络模型，以获取第一矩阵；若为非镜头切换帧，则获取当前视频帧的光流场；按照第一预定尺寸模板对当前视频帧进行划分为多个统一大小的第一子块，基于每个第一子块内的光流信息确定第一子块的运动状态信息，并根据每个第一子块的运动状态信息生成当前视频帧的运动状态图；将当前视频帧的运动状态图输入至第二卷积神经网络模型，以获取第二矩阵；

计算与传输模块30，分别计算第一矩阵、第二矩阵的模值，并基于所述模值以及预先设定的镜头切换帧与非镜头切换帧的权重，确定当前视频序列的数据等级，并根据网络传输通道数量确定用于当前视频序列的通道数，以进行数据传输。

本发明实施例还公开了一种计算机存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如前所述的方法。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中描述的方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网格设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网络数据处理与传输方法,其特征在于，应用于视频直播，包括如下步骤：

2.根据权利要求1所述的一种网络数据处理与传输方法,其特征在于：所述基于每个第一子块内的光流信息确定第一子块的运动状态信息，包括：

3.根据权利要求1所述的一种网络数据处理与传输方法,其特征在于：所述第一卷积神经网络的隐含层在前向传播中对输入数据执行基于二维卷积核的卷积处理、激活、沿所述镜头切换帧像素的均值池化处理，以由所述第一卷积神经网络的输出层输出所述第一矩阵。

4.根据权利要求2所述的一种网络数据处理与传输方法,其特征在于：所述第二卷积神经网络的隐含层在前向传播中对输入数据进行基于三维卷积核的卷积处理、激活、沿所述第一子块的运动状态信息的均值池化处理，以由所述第二卷积神经网络的输出层输出所述第二矩阵。

5.根据权利要求2所述的一种网络数据处理与传输方法,其特征在于：所述根据每个第一子块的运动状态信息生成当前视频帧的运动状态图，包括：

6.一种网络数据处理与传输系统,其特征在于，应用于视频直播，包括：

7.根据权利要求6所述的一种网络数据处理与传输系统,其特征在于：所述基于每个第一子块内的光流信息确定第一子块的运动状态信息，包括：

8.根据权利要求7所述的一种网络数据处理与传输系统,其特征在于：所述第一卷积神经网络的隐含层在前向传播中对输入数据执行基于二维卷积核的卷积处理、激活、沿所述镜头切换帧像素的均值池化处理，以由所述第一卷积神经网络的输出层输出所述第一矩阵；

9.根据权利要求7所述的一种网络数据处理与传输系统,其特征在于：所述根据每个第一子块的运动状态信息生成当前视频帧的运动状态图，包括：