CN113242469B

CN113242469B - 一种自适应视频传输配置方法和系统

Info

Publication number: CN113242469B
Application number: CN202110429780.1A
Authority: CN
Inventors: 陈力军; 刘佳; 马扬; 汪付星
Original assignee: Jiangsu Tuke Robot Co ltd; Nanjing University
Current assignee: Jiangsu Tuke Robot Co ltd; Nanjing University
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2022-07-12
Anticipated expiration: 2041-04-21
Also published as: CN113242469A

Abstract

本发明提供了一种自适应视频传输配置方法和系统，本发明能够在不使用任何预先编程的模型或者特定假设的情况下，从没有任何先验知识开始，逐渐通过强化学习方法自适应地学习选择视频传输配置，让面向目标检测的实时视频系统实现保持较低传输时延，增强检测准确度性能的多任务目标。本发明使用神经网络来代表视频编码的决策选择过程，神经网络通过将系统的观测值(估计带宽、历史配置)结合视频画面变化的快慢作为输入，以动态可伸缩的方式将丰富多样的观测值映射到下一个时隙的视频编码配置决策中去。经过多次迭代训练后，可以做出高效的视频配置决策，在保持系统较低传输时延的同时，增强系统目标检测性能，具有较好的泛化性能。

Description

一种自适应视频传输配置方法和系统

技术领域

本发明涉及计算机视觉领域，具体涉及一种自适应视频传输配置方法和系统。

背景技术

近年来，随着计算机技术和互联网技术的飞速发展，视频信息的处理和传输技术不断进步，视频应用在人们工作、学习和生活的各方面迅速普及。

随着计算机技术、通信技术和人工智能技术的快速进步，视频传输系统不断向网络化和智能化的方向发展，当前视频网络传输的方式主要包括专用网络和公用网络两种。因为专网建设的成本高昂，所以日常生活中常见的视频应用大多基于一般无线通信网络进行视频流传输。常见基于无线通信网络的视频流传输又可以分为基于LTE的移动蜂窝网络和基于WiFi的无线局域网两种。

在视频网络传输的过程中，传统自适应视频传输算法(ABR)能够根据网络带宽的变化自适应调整视频的传输配置，达到降低视频数据网络传输延迟的目的，然而忽视了降低视频画质对视频目标检测性能的影响。比如，智能视频监控系统需要对监控视频进行目标检测，而传统ABR算法在根据网络状况调整监控视频传输配置的过程中，牺牲了监控视频的目标检测性能，无法满足系统对监控实时智能分析的需要。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种自适应视频传输配置方法，面向目标检测的视频传输任务，以视频的目标检测效果和传输延迟性能为依据自适应调整视频配置，所述视频配置包括视频的分辨率和帧率，所述自适应调整视频传输配置包括如下步骤：

步骤1，构建一个用于解决视频传输延迟和目标检测性能之间配置冲突问题的深度强化学习决策器；

步骤2，根据深度强化学习决策器定时检测网络带宽，推测下一时刻的可用带宽预测值，再结合当前视频画面变化速度选取的历史视频传输配置，自适应地调整下一时刻视频编码采取的视频配置。

步骤1中，所述深度强化学习决策器称为RL决策代理，RL决策代理中包含一个深度神经网络π_θ，RL决策代理通过深度神经网络π_θ给出下一时隙的视频配置，将RL决策代理通过深度神经网络π_θ给出下一时刻视频配置决策的过程建模成一个马尔可夫决策过程模型，马尔可夫决策过程模型把总时间T划分成两个以上等长的决策时隙，每个决策时隙的时长为1秒，在每个时隙t中，马尔可夫决策过程模型进行以下步骤：

步骤1-1：RL决策代理获取当前时隙的状态信息S_t，所述状态信息S_t包括估计带宽

历史视频配置的分辨率序列和帧率值序列；

步骤1-2：将状态信息S_t通过深度神经网络π_θ映射得到对下一时刻选择的配置动作A_t；

步骤1-3：当动作A_t执行完毕之后，RL决策代理计算奖励回报，然后使用Adam优化器动态调整深度神经网络π_θ的网络参数θ；

步骤1-4：进入下一个时隙；

步骤1-5，在学习过程中不断重复步骤1-1～步骤1-4，通过不断调整深度神经网络的网络参数θ得到训练好的深度神经网络π_θ。

所述马尔可夫决策过程模型用于设定状态空间、设定动作空间和定义奖赏评价。

所述设定状态空间包括如下步骤：

步骤a1，以时隙

为状态参考，产生第t个时隙的视频配置，在选取参考时隙滑动窗口大小

的过程中，通过计算深度强化学习决策器需要传输的原始视频图像中当前画面待检测目标物体们的移动速度，来表示视频的画面变化速度，设定画面中包含的目标对象集为A＝{1，2，…，n}，把包含目标对象集的视频流上传到服务器端，然后进行目标检测，对于第j帧画面中检测得到的第i个目标，i∈A，生成目标检测边界框，令边界框的几何中心的坐标为

采用曼哈顿距离来度量过去k个时隙中目标的运动距离，通过公式(1)计算第t-k个时隙到第t个时隙画面的变化速度V_t-k，t：

其中，k表示时隙数，a表示每个时隙的时长；n表示视频当前画面中待检测目标物体的数量；

设定参考时隙的画面变化速度不能超过阈值V_threshold，在满足这个要求的前提下，按照降序把k的值从10降低到2，每次调整k后计算V_t-k，t，如果V_t-k，t的值不超过V_threshold，则停止调整k，并令

等于此时的k值，如果V_t-2，t仍然大于V_threshold，则令

确定好时隙t的参考时隙数量

后，读取与时隙t相邻的

个历史时隙视频的分辨率和帧率配置序列，将它们作为状态输入深度神经网络π_θ的输入层；

步骤a2，使用公式(2)计算过去k个相邻的时隙带宽值的平均值来估计下一时隙的网络带宽

然后将

作为状态输入深度神经网络π_θ的输入层：

其中，B_i表示第i个时隙的网络带宽值。

所述定义动作空间包括：动作空间是RL决策代理利用深度神经网络π_θ从输入的状态映射得到的动作决策，每次接收到一个新的状态S_t，RL决策代理会根据学习到的策略神经网络π_θ映射选择一个动作a_t执行，其中深度神经网络π_θ的参数是θ，将视频分辨率res_t和帧率fps_t联合表示为动作空间a_t＝(resx，fps_t)。

所述定义奖赏评价包括：

步骤b1，在执行动作空间a_t＝(fps_t，res_t)对第t个时隙视频帧进行配置之后，用公式(3)表示第t个时隙中第i个帧的目标检测准确度F1_i：

其中，Sⁱ表示使用分辨率res_t配置的第i个视频帧的目标检测框面积区域，

表示使用最高分辨率配置的第i个视频帧的目标检测框面积区域；

在计算得到时隙t中每个视频帧的目标检测准确度后，用公式(4)计算时隙t中目标检测性能合格的视频帧占时隙总帧数的比例，来表示执行动作空间a_t＝(res_t，fps_t)后，时隙t的目标检测准确度高低ACC_t：

其中，δ是衡量时隙中每个帧的检测精度是否合格的检测精度阈值，帧率fps_t表示时隙t中包含帧的数量；所述目标检测性能合格的视频帧是指满足F1_i＞δ；

步骤b2，利用公式(5)计算得到时隙t总共传输的视频数据量DataSize_t：

DataSize_t＝fps_t×res_t×8 (5)

用公式(6)表示时隙t在当前配置对应的单位时间内上传数据量相比最高配置的压缩比值DAT_t：

其中，

表示的是在采用最高配置的情况下，时隙t中总共需要传输的数据量；

步骤b3，通过计算公式(7)计算时隙t中传输视频需要的传输时延

其中，Bandwidth_t表示的是视频传输网络在时隙t时的实际可用带宽；

用公式(8)表示时隙t在当前配置对应的单位时间内数据传输以及目标检测用时相比最高配置的压缩比值DLY_t：

其中，

表示的是时隙t中每一帧画面在采用最高配置的情况下的情况下，系统传输检测该时隙t中的所有帧产生的平均延迟；

表示目标检测延迟；

步骤b4，计算执行步骤b1动作空间a_t的奖励回报：通过如下公式计算时隙t的视频配置的奖赏回报r_t：

其中a，b，c分别是平衡检测准确性、上传数据量和延迟奖励回报的三个权重因子，且a+b+c＝1；

是所有不同a_t对应ACC_t值的平均值，

是所有不同at对应DAT_t值的平均值，

是所有不同a_t对应DLY_t的平均值。

使用A3C算法训练深度神经网络π_θ，利用公式(10)计算长期累积奖赏J(θ)：

其中γ∈(0，1]表示奖赏折扣因子，r_t表示第t步获得的奖赏，E表示对随机变量求期望，t₀表示当前时刻，

表示长期累计奖赏包括的时隙数量，γ^t表示γ的t次幂；

基于策略梯度方法更新深度神经网络π_θ：利用公式(11)计算长期累积奖赏J(θ)关于网络参数θ的策略梯度

其中

是优势函数，表示在状态s_t下按照策略π_θ选择执行动作a_t所得到的累计期望奖励Q(s_t，a_t)与策略π_θ中动作空间中所有动作产生的期望奖励的均值

之间的差异；

是高等数学中求偏导的一种表示方法；

A3C算法将深度神经网络π_θ分为行为策略网络和评论家网络两部分，行为策略网络用于生成下一时刻的视频配置，评论家网络用于稳定地调整行为策略网络的参数；

在训练过程中，RL代理会提取得到一条决策轨迹，计算决策轨迹优势函数A(s_t，a_t)，将其作为策略π_θ的优势函数

的无偏估计，然后如公式(12)所示，利用无偏估计来计算策略梯度，更新深度神经网络π_θ中行为策略网络的参数θ：

其中，α是学习率，梯度方向

决定如何修改网络中的参数θ来提高π_θ(s_t，a_t)；每次更新就根据公式(11)沿着梯度上升的方向走一步，步长取决于优势函数

的大小；

使用基于时序差分方法对深度神经网络π_θ中评论家网络的参数θ_v进行更新：

其中，α′表示学习率，状态值函数

表示评论家网络产生的估计值；把优势函数值A(s_t，a_t)表示为

的形式；

把公式(12)修改为：

其中β是策略熵H(·)的权重；

最后使用A3C算法中异步并发的训练框架来训练深度神经网络π_θ。

步骤1＝3中，RL决策代理根据步骤b4中定义的公式(9)计算奖励回报，然后根据公式(14)使用Adam优化器动态调整深度神经网络π_θ的网络参数θ。

本发明还提供了一种自适应视频传输配置系统，包括媒体采集与视频编码模块、通信服务与数据传输模块、视频目标检测功能模块和视频传输配置决策模块；

其中，所述媒体采集与视频编码模块用于，根据视频传输配置决策模块发出的视频配置(包括视频分辨率、帧率配置指令)，按照H.264编码标准修改视频编码；

所述通信服务与数据传输模块用于实现媒体采集与视频编码模块和视频目标检测功能模块之间的视频数据的网络传输；

所述视频目标检测功能模块负责接收媒体采集与视频编码模块传输发送过来的视频，并对接收到的视频进行目标检测。众所周知，目标检测是计算机视觉和数字图像处理技术，被广泛应用于如机器人导航、智能监控等实时视频领域。本发明方法目标是改善实时视频系统的目标检测性能；例如，在本文实用例中智能监控通过目标检测识别监控场景中的行人和车辆，本发明设计的视频传输方法能够增强智能监控这一实用例目标检测的准确率。

所述视频目标检测功能模块用于反馈不同视频配置的目标检测性能。

所述视频传输配置决策模块负责定时检测网络带宽，推测下一时刻的可用带宽预测值，而后再结合历史视频传输配置，自适应地选取下一时刻视频编码采取的视频配置。所述视频配置包括分辨率和帧率。

视频配置的分辨率和帧率会影响目标检测的性能，本发明方法能够自适应地选取视频配置，增强目标检测性能。

历史视频配置的分辨率序列和帧率值序列是视频传输配置决策模块之前选取的视频配置。

所述视频传输配置决策模块构建一个用于解决视频传输延迟和目标检测性能之间配置冲突问题的深度强化学习决策器，称为RL决策代理，RL决策代理中包含一个深度神经网络π_θ，RL决策代理通过深度神经网络π_θ给出下一时隙的视频配置，将RL决策代理通过深度神经网络π_θ给出下一时刻视频配置决策的过程建模成一个马尔可夫决策过程模型，马尔可夫决策过程模型把总时间T划分成两个以上等长的决策时隙，每个决策时隙的时长为1秒，在每个时隙t中，马尔可夫决策过程模型进行以下步骤：

步骤1：RL决策代理观察通信服务与数据传输模块和视频目标检测功能模块反馈的当前时隙的状态信息S_t，所述状态信息S_t包括通信服务与数据传输模块反馈的下一时刻的估计带宽

视频目标检测功能模块反馈的历史视频配置的分辨率序列和帧率值序列；

步骤2：将状态信息S_t通过深度神经网络π_θ映射得到对下一时刻选择的配置动作A_t；

步骤3：当动作A_t执行完毕之后，RL决策代理计算奖励回报，然后使用Adam优化器动态调整深度神经网络π_θ的网络参数θ；

步骤4：进入下一个时隙；

步骤5，在学习过程中不断重复步骤1～步骤4，通过不断调整深度神经网络的网络参数θ得到训练好的深度神经网络π_θ。

所述设定状态空间包括如下步骤：

步骤a1，以时隙

设定参考时隙的画面变化速度不能超过阈值V_threshold，V_threshold一般取画面对角线的长度的二分之一，即分辨率1920×1080的画面对角线长度的一半，在满足这个要求的前提下，按照降序把k的值从10降低到2，每次调整k后计算V_t-k，t，如果V_t-k，t的值不超过V_threshold，则停止调整k，并令

等于此时的k值，如果V_t-2，t仍然大于V_threshold，则令

确定好时隙t的参考时隙数量

后，读取与时隙t相邻的

然后将

作为状态输入深度神经网络π_θ的输入层：

其中，B_i表示第i个时隙的网络带宽值。

所述定义动作空间包括：动作空间是RL决策代理利用深度神经网络π_θ从输入的状态映射得到的动作决策，每次接收到一个新的状态S_t，RL决策代理会根据学习到的策略神经网络π_θ映射选择一个动作a_t执行，其中深度神经网络π_θ的参数是θ，将视频分辨率res_t和帧率fps_t联合表示为动作空间a_t＝(res_t，fps_t)。

所述定义奖赏评价包括：

步骤b1，在视频编码模块执行视频传输配置决策模块给出的动作空间a_t＝(fps_t，res_t)对第t个时隙视频帧进行配置之后，用公式(3)表示第t个时隙中第i个帧的目标检测准确度F1_i：

其中，δ是衡量时隙中每个帧的检测精度是否合格的检测精度阈值，该阈值一般取值为0.7，帧率fps_t表示时隙t中包含帧的数量；所述目标检测性能合格的视频帧是指满足F1_i＞δ；

DataSize_t＝fps_t×res_t×8 (5)

其中，

其中，Bandwidtht表示的是通信服务与数据传输模块的视频传输网络(这里的视频传输网络就是互联网)在时隙t时的实际可用带宽；

其中，

表示目标检测延迟；

是所有不同a_t对应ACC_t值的平均值，

是所有不同a_t对应DAT_t值的平均值，

是所有不同a_t对应DLY_t的平均值。

表示长期累计奖赏包括的时隙数量，γ^t表示γ的t次幂；

其中

之间的差异；

是高等数学中求偏导的一种表示方法；

其中，α是学习率，梯度方向

决定如何修改网络中的参数θ来提高π_θ(a_t，a_t)；每次更新就根据公式(11)沿着梯度上升下降的方向走一步，步长取决于优势函数

的大小；

其中，α′表示学习率，状态值函数

的形式；

把公式(12)修改为：

其中β是策略熵H(·)的权重；

步骤3中，RL决策代理根据步骤b4中定义的公式(9)计算奖励回报，然后根据公式(14)使用Adam优化器动态调整深度神经网络π_θ的网络参数θ。

历史视频传输配置就是视频传输配置决策模块之前选取的视频配置，历史视频传输配置会在训练过程中由视频传输配置决策模块生成。

有益效果：针对在带宽资源有限的条件下，基于预测可用网络带宽的自适应比特流传输(ABR)算法不能满足最新智能视频监控系统增强目标检测性能需求的问题。受到Alpha-go、播放器视频流配置和作业调度决策等强化学习应用的启发，本发明提出一种面向目标检测的自适应视频传输方法，本发明能够在不使用任何预先编程的模型或者特定假设的情况下，从没有任何先验知识开始，逐渐通过强化学习方法自适应地学习选择视频传输配置，让智能视频监控系统实现保持较低传输时延，增强检测准确度性能的多任务目标。本发明使用一个神经网络来代表视频编码的决策选择过程，该神经网络通过将系统的观测值(估计带宽、历史配置)结合视频画面变化的快慢作为输入，以一种动态可伸缩的方式将丰富多样的观测值映射到下一个时隙的视频编码配置决策中去。在这个过程中，使用当前最先进的异步优势行为者-评论家网络模型A3C设计实现该配置决策模型。经过多次迭代训练之后，该决策系统可以做出高效的视频配置决策，在保持系统较低传输时延的同时，增强系统目标检测性能，并且具有较好的泛化性能。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明架构图。

图2是RL代理视频决策系统学习流程图。

图3是选取参考时隙的滑动窗口控制示意图。

图4是LTE上行网络带宽波动示意图。

图5是用相邻历史时隙带宽的平均值预测下一时刻带宽示意图。

图6是A3C模型并行训练示意图。

图7训练过程中的累计奖励和策略熵示意图。

图8a是行人示意图。

图8b是车辆示意图。

图9是结果比较示意图。

图10是三种算法在目标检测精度和系统延迟性能上的对比示意图。

具体实施方式

如图3所示，本发明提供了一种自适应视频传输配置系统，包括：

模块一：媒体采集与视频编码模块。该模块实现图像数据测采集和编码。

模块二：通信服务与数据传输模块。该模块实现监控系统前端、后端的网络连接和视频数据传输。

模块三：监控视频目标检测功能模块。该模块对接收到的视频图像进行目标检测分析，用于评价编码决策的目标检测功能的性能。

模块四：视频传输配置决策模块(视频传输配置决策模块构建一个深度强化学习决策器，简称RL决策代理)。该模块是本发明的核心，通过基于训练得到的深度强化学习神经网络，对模块一中视频的编码决策进行自适应调整。

视频传输配置决策模块通过参考历史相邻配置的反馈性能来动态调整下一时隙的配置，可以将这个视频配置决策的过程建模成一个深度强化学习模型(DRL)。下面先简述该决策模型DRL的基本学习机制。然后再给出模型具体的设计细节。

1.系统基本学习机制

如图2所示，本系统的视频传输配置决策模块(图1模块四)会构建一个深度强化学习决策器，称为RL决策代理，这个RL决策代理不断与其他系统模块(图1模块一、二、三)进行信息交互，根据环境的反馈信息不断调整模型的深度神经网络π_θ策略神经网络。其中，RL代理是系统视频传输的决策者，而环境是对智能视频监控系统环境中历史编码配置信息以及服务器目标检测性能等信息的高度抽象。

把总时间T划分成许多个等长的时隙。在每个时隙t中，马尔可夫决策过程模型进行以下步骤：

步骤1：RL决策代理观察通信服务与数据传输模块和视频目标检测功能模块反馈的状态信息S_t，所述状态信息S_t包括通信服务与数据传输模块反馈的下一时刻的估计带宽

视频目标检测功能模块反馈的历史视频配置的分辨率序列和帧率值序列；；

步骤4：观察环境，更新状态信息为S_t+1；

如图2所示，本方法设计的面向目标检测的自适应视频传输配置黑盒决策模型(DRL)的强化学习框架可以进一步抽象为状态空间、动作空间以及奖赏评价这三个模块。接下来，详细介绍该强化学习模型中状态空间、动作空间以及奖赏评价三个模块的具体设计。

2.定义状态空间

状态空间就是RL代理在环境中通过观察获得信息的抽象。在本方法的强化学习框架中，状态空间的选取对产生决策的效率非常重要。对于状态空间，考虑两个关键状态因素：

(1)参考历史配置的决策信息，包括帧率fps_t和分辨率res_t

把总时间T切分成许多个等长的时隙。规定系统以一个时隙作为每次配置决策的最小单位。换句话说，每次配置决定下一个时隙视频编码对应的分辨率和帧率。在实际情况中，因为两个相邻的时隙时间间隔非常小，导致两个时隙之间视频的画面内容变化非常小，所以认为相邻连续时隙的视频内容不会发生非常大的变化。因此，相邻的时隙视频流配置的决策有助于下一时隙的配置决策的选择。

基于这个前提，如图3所示设计选取参考时隙的滑动窗口控制算法，以时隙

为状态参考，产生第t个时隙的视频配置。该算法的基本思想是根据视频画面变化快慢(取决于视频内容)自适应为时隙t的视频配置选取待参考时隙数量

该算法中选取参考时隙的滑动窗口大小

取决于监控视频画面的变化速度。画面变化越快，当前时隙和过去最小参考价值时隙之间间隔越小，窗口

的取值越小；画面变化越慢，当前时隙和过去最小参考价值时隙的间隔越大，窗口

的取值越大。举个例子，如果监控视频拍摄于高速公路场景，由于车辆移动较快，监控画面变化相对较快，那么参考时隙的数量应该比较少。相反，如果监控视频拍摄于公园人行道场景，由于行人移动较慢，监控视频画面变化相对较慢，那么参考的相邻历史配置时隙应该比较多。

具体地说，在选取参考时隙滑动窗口大小

的过程中，通过计算画面中目标物体们的移动速度，来表示视频的画面变化速度。设定画面中包含的目标对象集为A＝{1，2，…，n}，把这些包含目标对象集的视频流上传到服务器端，然后对其进行目标检测。对于第j帧画面中检测得到的第i个目标(i∈Z)，目标检测算法生成目标检测边界框，令边界框的几何中心的坐标为

考虑到目标在画面中位置的变化趋势是无规则的，采用曼哈顿距离来度量过去k个时隙中目标的运动距离。因此，通过公式(1)计算视频画面k个时隙的变化速度：

其中，k表示时隙数，a表示每个时隙的时长，A表示视频画面中包含的目标对象集。

在计算得到视频k个时隙中的画面变化速度后，规定参考时隙的画面变化速度不能超过阈值V_threhold。在满足这个要求的前提下，尽可能大地选取参考时隙数量

算法实现如下：

按照降序把k的值从10降低到2，每次调整k后计算V_t-k，t，

如果V_t-k，t的值不超过V_threshold，则停止调整k，并令

等于此时的k值，如果V_t-2，t仍然大于V_threshold，那么令

接下来，确定好时隙t的参考时隙数量

后，读取与时隙t相邻的

个历史时隙视频的分辨率和帧率配置，将它们作为状态输入策略神经网络的输入层。

(2)估计下一时刻带宽

如前所述，因为专网建设的成本高昂，所以日常生活中常见的视频监控设备一般基于无线通信网络进行视频流传输。常见基于无线通信网络的视频流传输又可以分为基于LTE的移动蜂窝网络和基于WiFi的无线局域网两种。使用LTE技术和WiFi技术的视频流传输方式具备全天候全时段传输，传输速率高，使用成本低，部署维护方便的优点。所以，选用基于移动互联网的LTE蜂窝网络通信技术以及基于WiFi的无线局域网通信技术作为视频数据传输方式。

在监控视频数据上传的过程中，网络带宽状态的波动是视频编码过程中需要考虑的重要因素。换句话说，视频编码器选择的视频帧率fps_t和分辨率res_t应当与网络带宽相互匹配。如果视频帧率和分辨率的选择过高，则会导致视频传输的时延过大，而如果帧率和分辨率的选择过低，则会导致视频传输到服务器端进行目标检测时性能降低。这对精准预测下一时刻的网络带宽提出了要求。

如图4所示，为了验证参考相邻时隙带宽预测下一时刻网络带宽可行性，分析了来自Mahimahi项目的ATT-LTE上传线路网络带宽重放记录。如图4中所示，尽管LTE移动蜂窝网络的带宽吞吐量存在频繁波动，但观察到网络带宽吞吐量出现极值的时隙(单位/秒)数量很少。经过统计，发现只有14.5％的时间里，网络带宽值是小于0.5Mbps或是大于6Mbps。这说明网络带宽在短时间内，只在某个值的附近波动，很少发生跳变。因此，可以利用短时间内相邻时隙的带宽值估计下一时刻的网络带宽。

接下来，验证使用相邻参考时隙的带宽平均值估计下一时隙的带宽值的可行性，统计不同参考时隙数量的估计值与真实值之间的误差。如图5所示，在LTE上行链路的网络吞吐量记录中，当参考相邻时隙数量在区间[2，6]上时，观察到超过80％的时隙的带宽估计值与真实值之间的误差小于20％。这说明在短时间内，连续时隙的网络带宽的波动是很小，验证了利用相邻历史时隙来估计下一时刻网络带宽方法的可行性。因此，使用公式(2)计算过去k个相邻的时隙带宽值的平均值来估计下一时隙的网络带宽，然后将该带宽估计作为策略神经网络输入层的状态输入。

其中，B_i表示第i个时隙的网络带宽值。

3.定义动作空间

动作空间就是RL代理利用策略神经网络从输入的状态映射得到的动作决策。每次接收到一个新的状态S_t，RL代理会根据学习到的策略神经网络π_θ(s，a)映射选择一个动作a_t执行。其中策略神经网络的参数是θ。与状态空间一样，动作空间a_t的选取同样对产生决策的效率非常重要。

因此，主要考虑能够影响视频目标检测性能以及传输时延性能的两个关键参数：视频分辨率res_t和帧率fps_t。将这两个参数联合表示为动作空间a_t＝(res_t，fps_t)。为了保证一般性，本发明方案分辨率res的编码配置集合R＝{360P，480P，720P，900P，1080P}，而帧率fps的编码配置集合F＝{15fps，30fps}，动作空间的大小为|R|×|F|＝5×2＝10种。需要注意的是，因为有界的动作空间可以大大节约模型策略神经网络的训练时间，所以把动作空间中的分辨率和帧率设定为离散值集合，而非连续值区间。当然，也可以根据需要，把分辨率和帧率的设置成其他离散值。

4.定义奖赏回报

RL代理根据状态s_t选择一个动作a_t执行，会返回一个即时奖赏r_t。在本发明面向目标检测的智能视频监控应用中，系统既需要保证较高的检测精度，又需要保证较好的延迟性能，因此在奖赏中考虑以下三项指标。

(1)目标检测准确度高低

如前所述，面向目标检测的视频系统要求保证服务器端接受到的视频具有较高的检测精度。在执行动作a_t之后，对于这一特定配置，利用检测F1分数的方法评价该时隙中每一帧画面的检测精度，换句话说，检查编码后画面中每个目标生成的目标检测框与原始视频(最高配置1080P)对应目标检测框的重叠程度。具体地，在视频编码器执行动作a_t＝(fps_t，res_t)对第t个时隙视频帧进行配置之后，用公式(3)表示该时隙中第i个帧的目标检测准确度F1_i：

其中，Sⁱ表示使用分辨率res_t配置的第i个视频帧的目标检测框面积区域，而

表示使用最高分辨率配置的第i个视频帧的目标检测框面积区域。

因此，在计算得到时隙t中每个视频帧的目标检测准确度之后，就可以用公式(4)，计算该时隙中目标检测性能合格(F1_i＞δ)视频帧占时隙总帧数的比例，来表示执行配置a_t＝(fps_t，res_t)后，时隙t的目标检测准确度高低ACC_t：

其中，δ是衡量时隙中每个帧的检测精度是否合格的检测精度阈值，帧率fps_t表示时隙t中包含帧的数量。

(2)单位时间内上传数据量高低

如前所述，智能视频监控系统在传输视频的过程中，需要降低数据传输延迟，保证系统的实时性。因为在相同网络条件下，越低的数据量传输需要的时间就越短，所以需要通过视频编码降低单位时间内上传的视频数据总量。已知视频传输时隙t的配置，即时隙t的帧率fps_t和分辨率res_t，所以利用公式(5)计算得到时隙t总共传输的视频数据量：

DataSize_t＝fps_t×res_t×8(bit) (5)

下面，对其标准化，用公式(6)表示时隙t在单位时间内上传数据量的高低DAT_t：

其中，

表示的是在采用最高配置(1080P|30fps)的情况下，时隙t中总共需要传输的数据量大小。

(3)传输延迟高低

如前所述，智能视频监控系统在传输视频的过程中，需要进行实时传输以及实时的目标检测识别，这就要求本发明系统的时延保持在较低水平。因此，需要在评价传输数据量大小的基础上，进一步将系统工作延迟的高低作为本发明系统的评价标准。如图3所示，智能视频监控系统将拍摄采集得到的视频上传至服务器端并进行目标检测，这个过程产生的系统延迟包括上传延迟

以及目标检测延迟

其中上传延迟

取决于上传数据量DataSizet和实际可用带宽Bandwidtht，通过计算公式(7)计算时隙t中传输视频需要的传输时延

其中，DataSizet表示时隙t需要传输的视频数据量大小，而Bandwidth_t表示的是网络在时隙t时的实际可用带宽。

服务器目标检测的工作时间

取决于服务器的计算机能力。需要说明的是，在得到系统在每个时隙中的工作时延之后，对其进行标准化，用公式(8)表示时隙t中帧的延迟高低DLY_t：

其中，fps_t表示时隙t的帧率，而

表示的是时隙t中每一帧画面在采用最高配置的情况下(1080p|30fps)的情况下，系统传输检测该时隙t中的所有帧产生的平均延迟。

最后，综合考虑以上三项指标计算视频配置决策系统的奖励回报。因为针对不同目标检测应用，系统奖赏对应的三个奖赏分量侧重不同，所以通过对上述三个分量进行加权来定义时隙t的视频配置的奖赏回报r_t：

其中a，b，c分别是平衡检测准确性、上传数据量和延迟奖励回报的三个权重因子，且a+b+c＝1。在实际中，分别设置

为检测准确度，数据量和系统延迟三个奖赏高低的平均指标，这三个指标平均值是在大量的视频得出的经验数值，这么做的目的是进一步平衡三个奖励分量的权重。

5.基于A3C框架设计深度强化学习模型的训练算法

(1)选择强化学习训练算法

如前所述，因为该强化学习模型的动作空间(视频配置决策的种类)是有限的，而产生的状态空间(包括历史配置以及下一时刻的估计带宽的组合)是无穷的，所以状态与动作两者构成的策略二元组(s_t，a_t)也会有无穷多个，并且由于状态动作转移的概率未知，所以本发明的强化学习模型属于无模型学习。因此选择使用最先进高效的A3C模型进行训练。

(2)选择γ折扣长期累积奖励回报

本发明训练该强化学习的目标是为了找到长期累积奖励最高的策略。一般来说，随着不断学习，越往后学到的策略越重要，所以选择γ折扣累积奖赏，利用公式(10)计算长期累积奖赏J(θ)：

其中γ∈(0，1]表示奖赏折扣因子，r_t表示第t步获得的奖赏，E表示对随机变量求期望。

(3)基于策略梯度方法更新深度神经网络π_θ

如前所示，选用的A3C模型是一种Actor-Critic算法，选取的训练深度神经网络π_θ的方法是策略梯度法。策略梯度法的核心思想是通过观察策略执行的轨迹来估计期望总奖赏的梯度，不断强化高奖赏的动作，得到更高的长期模型的累计奖励。在训练算法中，利用公式(11)表示长期累积奖赏J(θ)关于网络参数θ的策略梯度：

其中

是优势函数，表示在状态s_t下按照策略π_θ选择执行动作a_t所得到的累计期望奖励Q(s_t，a_t)(状态动作值函数)与策略π_θ中动作空间中所有动作产生的期望奖励的均值

之间的差异。换句话说，优势函数反映了当前采取某个动作产生的期望奖励，与基于动作空间中所有不同动作产生奖励的平均期望相比，是更好还是更坏。优势函数为正值表示采取这个动作好，而负值表示该动作不好。因此，在策略中强化那些优势函数为正值的动作，同时削弱优势函数为负值的动作。这样就能不断提高策略的累计期望奖励值。

在训练过程中，RL代理会提取得到一条决策轨迹，计算该决策轨迹优势函数A(s_t，a_t)，将其作为策略π_θ的优势函数

的无偏估计，然后如公式(12)所示，利用这个无偏估计来计算策略梯度，更新行为策略网络(actor)参数θ：

其中，α是学习率，梯度方向

决定如何修改网络中的参数θ来提高π_θ(s_t，a_t)(在状态s_t情况下采取动作a_t这个动作的概率)。每次更新就根据公式(11)沿着梯度上升的方向走一步，这个步长取决于优势函数

的大小。因此，每次更新目标都可以强化那些具有更好奖励回报的动作。

为了计算给定样本的优势函数A(s_t，a_t)，需要先想办法计算状态期望奖励估计值

也就是从状态s开始基于策略π_θ能够得到的累计奖励的期望值。如图2所示，评论家(Critic)网络就是用来是将状态s按照策略π_θ映射得到这个状态期望奖励估计值

接下来如公式(13)所示，使用基于时序差分方法(TD-error)对评论家网络中的参数θ_v进行更新：

其中，α′表示学习率，状态值函数

表示有评论家网络产生的估计值

因为基于时序差分方法(TD-error)计算优势函数，所以可以把优势函数值A(s_t，a_t)表示为

的形式。需要说明的是，评论家网络仅仅被用来评估行为者网络，帮助稳定地更新行为者网络的策略参数，不参与实际的策略决策过程。

在训练期间，为了RL代理能够通过充分探索找到更好的策略，降低陷入局部最优的风险，增加一个策略熵正则项来鼓励探索。这个策略熵正则项有助于解决强化学习策略中可能面临的“探索-利用窘境”，保证Actions的多样性，增加环境的探索能力。换句话说，就是让RL代理在训练一开始进行充分探索，随着时间的推移再逐渐减少探索，让探索的路径收敛到精准的决策策略上去，最终获得最大的累计奖励回报。因此，把公式(12)修改为：

其中β是策略熵H(·)的权重，在训练开始时β被设为一个较大的值，然后随着时间的推移权重逐步减小。这样做的目的是为了实现在一开始时对策略空间进行充分探索以避免陷入局部最优结果；然后随着学习时间的推移，再逐步将策略集中到学习最优的动作上去，最终目的是使获得的累计奖赏最大。

(4)并行训练

使用异步并发的训练框架来训练模型，这样能够启动多个代理线程，在不同的网络带宽记录和视频数据上进行并行学习。这种异步并发的训练框架能够大大加快模型训练速度。

实施例

智能监控系统是本发明自适应传输方法的应用。

首先，对本发明提出的马尔可夫决策过程模型进行离线训练的收敛性验证

在线学习的过程中，深度强化学习模型不可避免地会出现冷启动的问题，为了避免这一问题，需要通过离线监督学习的方法训练得到一个收敛的策略模型，然后再把这个通过离线训练好的策略模型应用到线上实时智能监控视频传输系统中去。换句话说，因为深度强化学习模型是从零开始学习策略的，在学习开始阶段，模型的决策效果很差。只有经过不断探索，不断试错，本发明的深度强化学习模型才能收敛到所期望的策略网络上去。因此，为了避免在线上应用阶段出现的冷启动问题，保证智能视频监控系统的实时视频配置决策性能，需要事先通过监督学习的方式来训练策略网络。策略神经网络离线训练的过程的具体步骤如下所示：

(1)准备训练数据集

首先，准备训练强化学习策略模型所需要的训练数据集，本发明的训练数据集主要包括两部分：网络带宽记录训练数据和监控视频训练数据。训练数据集准备共计四个步骤：

步骤一，构建网络带宽记录训练数据集。在智能监控系统中，监控设备是通过局域网将实时拍摄的视频数据经过配置之后上传到服务器端的。但是，因为在实际场景中大规模采集网络带宽的时变数据不容易，所以利用网上已有的FCC网络宽带时变数据库以及网络仿真工具Mahimahi，共同构建一个网络带宽记录的时变数据语料库，来模拟真实情况下视频传输局域网的网络带宽变化。

其中，FCC数据集记录了不同网络条件下的网络可用带宽记录，该数据库是由超过100万条记录组成，每条记录都以1秒为粒度记录了2100秒以上的网络平均吞吐量。先从FCC数据库2016年8月在美国收集的“网络浏览记录”的项目中随机抽取网络带宽。需要注意的是，因为智能监控系统的工作条件是一般无线通信网络，而非专用网络，所以需要模拟的是基于LTE的无线蜂窝网络以及基于WiFi的无线局域网通信环境，而非基于专用网络的通讯环境。这样做符合所要解决问题的实际场景，同时可以避免选取的网络带宽数值过高导致算法每次决策只选择最高配置的问题。在实际操作中，只选取那些数值大于0.2Mbps且小于6.5Mbps的网络带宽记录，然后把这些随机抽取的网络带宽数据段拼接起来。通过这种方法，从FCC数据集中为网络带宽记录语料构造了100条网络记录，每条记录持续时间为200秒(总时长2万秒)。

网络仿真工具Mahimahi是一个用于记录来自基于HTTP应用程序流量，并模拟在不同网络条件下重放时网络状态的仿真工具。利用Mahimahi仿真工具分别模拟生成了在美国移动蜂窝网络条件下(LTE)和WiFi网络条件下的网络带宽时变数据，数据格式与从FCC中选取的网络带宽记录相同。通过这种方式，利用Mahimahi工具为网络带宽记录语料库生成了100条网络仿真记录，每条记录持续时间为200秒(总时长2万秒)。

接下来，将获得的网络带宽记录语料库分成两部分，80％的随机样本用于离线训练，剩下的20％部分用于后续的在线测试。在训练过程中，每次从网络带宽语料库的训练部分中随机选取一条网络带宽记录作为上传视频数据的网络带宽，以模拟智能监控系统通信服务与数据传输模块中遇到的真实网络状态。综上所述，步骤一模拟了智能监控系统通信服务与数据传输模块定时检测网络带宽状态的过程。

步骤二，构建监控视频训练数据集，为了保证获得足够多具有代表性的训练样本，从YouTube上离线下载分辨率为1080P，帧率为30帧的城市公路和步行街的监控视频，然后再从中挑选包括行人和车辆的视频片段作为视频训练集(总时长2万秒)，需要注意的是，每次选取的视频训练片段的时长与从网络带宽记录语料库中随机抽取的网络带宽记录时长相同(即200s)。综上所述，步骤二模拟了智能监控系统媒体采集模块从现实世界采集视频图像的过程。

步骤三，在第一步和第二步完成构建训练数据集之后，利用OpenCV对训练视频进行预处理，将原始视频转编码转换成不同版本，每个版本对应不同的分辨率。经过OpenCV的预处理，获得了基于H.264标准的不同编码的视频版本。在训练过程中，可以通过选取视频帧对应的不同的视频编码版本，来模拟实现视频编码器对视频传输分辨率的控制。按照动作空间规定，视频分辨率编码配置包括360P、480P、720P、900P和1080P五个版本；然后，再通过对每个时隙中帧进行等差抽样，模拟实现视频编码器对视频传输过程中时隙的帧率控制。同样按照动作空间规定，视频的帧率编码配置包括15fps和30fps两个版本。综上所述，步骤三模拟了智能监控系统视频编码模块基于H.264视频编码协议对每个时隙传输的视频进行编码配置的功能。

步骤四，在配置有NVIDIA GeForce GTX 1080GPU的电脑上利用YOLOv3算法实现智能视频监控系统中智能目标检测功能。通过对不同分辨率编码视频的目标检测，识别出每帧图像中的行人和车辆，并且按照前面检测精度定义，计算不同分辨率视频帧的检测精度。综上所述，步骤四模拟了智能监控系统模块的监控视频目标检测功能。

(2)构建异步优势行为者-评论家网络

接下来，使用Pytorch库构造异步优势行为者-评论家A3C训练框架，其中行为者网络和评论家网络在输入层和中间隐藏层的网络参数相同，而行为者网络的输出层负责输出配置决策动作的概率分布，而评价者网络负责输出状态累计奖励期望值，用于评价当前状态下策略概率分布的的好坏。网络架构的详细设计如下表1所示。

表1：训练网络架构

然后，创建多个线程通过并行的方式来训练行为者-评论家网络。如图6中所示，在本发明的A3C框架中，每个线程独立完成参数更新值的计算，并异步完成全局模型参数的同步操作。具体地说，每个线程都可以被视为一个RL代理。每个线程每一轮学习都会选取没有参与训练的视频和网络带宽数据进行训练，它们的学习过程中只更新自己的模型网络，等这轮学习完成之后再将自己学习得到的参数更新到全局模型中去，下一次学习的时候再拉取全局模型的参数，继续下一轮学习。

最后，在训练过程中，使用Adam优化器更新长期累积奖赏J(θ)关于策略参数θ的策略梯度，这里设定固定学习率为0.0001，每个线程的mini-batch值为32个样本更新一次参数，奖赏折扣γ＝0.9，策略熵值β＝0.01。

(3)验证模型收敛性

在训练过程中，通过观察两个损失函数的变化来验证深度策略神经网络的收敛性，即累计奖励值J(θ)和策略熵值H(π_θ(s_t))。其中，累计奖励值表示该策略网络的决策效果，这个值越高说明效果越好。而策略熵值用来衡量训练过程中策略的探索程度，保证模型对不同策略进行充分的探索。

如图7所示，记录了模型训练1000个episodes过程中累计奖励值和策略熵值的变化情况。每个episode对应着从训练数据集中随机选取一对网络带宽记录和视频数据片段的训练数据组合，这里每个episode包括200个时隙，每个时隙时长为1秒，且这1000个episodes所选取的训练数据组合各不同。

一方面，通过观察训练过程发现，策略熵值一开始比较大，这是因为策略熵值是用来表示当前策略概率分布的不确定性的，将策略熵值初始化2为较大的值，这样的初始化设置可以帮助模型在开始阶段对状态-动作策略空间进行充分探索，有助于之后探索发现更好的策略，增加模型学习的多样性。然后，随着训练次数的增加，策略熵值逐渐减小，并趋于收敛，这表明通过一段时间训练学习得到的策略网络趋于稳定。同时可以观察到策略熵值无法下降到0。这是因为在训练的过程中不断更新训练数据，状态动作空间不可能被穷尽，模型的策略会需要不断地与训练集生成的新状态进行兼容。

另一方面，也可以相应地观察发现模型的累计奖励值在不断地螺旋式上升，且经过大约700个episodes的学习后，模型趋于收敛并基本稳定。这个过程说明，在学习开始阶段，模型探索学会的策略，在累计回报奖励和稳定性方面表现不好。然后，随着不断地深入探索迭代学习，模型策略的累计期望奖励逐渐增大，最终在最大值附近波动。这个过程说明，模型在通过不断探索学习提升学到策略的性能，并最终找到了一个累计回报最高的策略神经网络。

下面，对之前离线训练过程中学习得到的策略模型进行性能评估测试。测试过程包括四个步骤。

步骤一，收集行人和车辆视频测试数据。首先，分别从视频网站Youtube上下载如图8a使用街道固定监控摄像头拍摄的行人监控记录，以及图8b使用车载行车记录仪拍摄的行车视频记录，作为本发明智能监控传输系统的测试视频样本。其中，行车视频记录拍摄的是城市公路上行驶的车辆，行车视频的画面变化速度较快；而街道行人记录拍摄的是商业步行街上行走的路人，行人视频画面变化速度相对比较慢。

步骤二，收集LTE移动蜂窝网络和WiFi无线局域网络的网络带宽测试数据。将之前构建网络带宽记录语料库中的测试数据进一步分为基于LTE移动蜂窝网络和基于WiFi无线局域网络的两组，然后分别从这两种网络的带宽数据中随机选取后续测试用到的网络带宽样本。

步骤三，构造多组测试样本。利用这两种类型的测试视频与两种网络带宽测试数据进行组合，分别设置了四组测试样本(行人-LTE、车辆-LTE、行人-WiFi和车辆-WiFi)，每组测试样本都包含了200个episodes的视频和网络带宽记录的测试样本。其中构造行人视频测试样本的过程中，对于每个行人-LTE测试episode，分别从网络带宽记录语料库的LTE测试数据部分，随机选取一条200秒的LTE网络带宽记录，然后再从下载得到的行人监控视频数据集中选取一段200秒的行人视频片段与之组合，构成可以用于测试的行人-LTE视频测试样本。同理，可以使用相同的组合方法，构造用于车辆-LTE、行人-WiFi和车辆-WiFi测试样本。这里需要说明的是，准备测试样本使用的网络带宽和视频数据与离线策略学习过程中使用的训练数据不重叠，用来评估模型的泛化能力。

步骤四，设置对照实验，进行测试评估。这里为了说明技术的效果，设置了两个对照算法，然后分别采用行人测试样本和车辆测试样本比较这三种算法的效果：

对照算法1(基准算法Base)：对于每个时隙t，设置基准对照算法Base。因为Base算法在自适应调整编码决策的过程中，既不参考网络带宽变化，也不参考视频内容对目标检测性能的影响，所以令视频编码器从动作空间F×R中随机选择一种配置(res_t，fps_t)即可。

对照算法2(基于网络带宽的自适应编码算法ABR)：根据ABR算法流程，对于第t个时隙，需要参考过去k个相邻时隙的历史网络可用带宽记录值，来估计出第t个时隙的网络可用带宽平均吞吐量

作为对照实验，省去ABR算法中预测带宽的步骤，直接用对应测试样本中对应的网络可用带宽记录的真实值Bandwidth_t代替利用ABR算法中的估计值

然后，让视频编码器根据网络可用带宽值Bandwidth_t，从动作空间F×R中找出匹配该可用带宽值的所有分辨率res_t和帧率fps_t的组合集合P，让分辨率和帧率组合得到的视频配置能够大致匹配当前网络的可用带宽值，这个配置组合P的数学定义可以表示为：

P＝{(res_t，fps_t)|res_t×fps_t≈Bandwidth_t，res_t∈R，fps_t∈F}

其中，R表示动作空间中分辨率res_t的定义域，F表示动作空间帧率fps_t的定义域，且

接下来，因为该对照算法ABR在自适应调整编码决策的过程中，只考虑网络带宽变化，不考虑视频内容对目标检测性能的影响，所以令视频编码器从匹配网络带宽的配置集合P中随机地选择一种配置(res_t，fps_t)即可。

对之前离线训练过程中学习得到的策略模型进行性能评估测试。测试过程包括四个步骤。

一段时间内的长期累计奖励是综合评价一个视频编码配置决策系统性能最重要的指标。因此，分别在两种网络(LTE和WiFi)中评估带指标，通过实验观察智能监控视频配置策略模型DRL与对照算法Base和ABR分别在行人-LTE、车辆-LTE、行人-WiFi和车辆-WiFi四种测试样本上的累计奖励表现。具体累计奖励表现如图9所示。

图9中左上和左下部分描述了在LTE网络条件下(右上和右下部分描述了在WiFi网络条件下)，三种算法配置在行人与车辆视频测试样本的累计奖励表现。可以观察到：

(1)基准对照算法Base的性能很差，这是因为Base既不参考网络带宽变化，也不参考视频内容对目标检测性能的影响，而是随机选取视频配置进行上传，这不可避免会导致随机给出的视频配置决策不能匹配视频内容以及网络带宽变化，从而产生较高的传输延迟，并降低服务器对配置后视频的目标检测性能。

(2)对照算法ABR充分考虑了网络带宽变化情况，有效地降低了系统的传输延迟，但因为该算法没有同时考虑视频配置后对其目标检测性能的影响，所以算法ABR比基准算法Base综合累计奖励表现更好。

(3)本发明DRL算法同时考虑网络带宽变化情况以及视频配置对其目标检测性能的影响，综合累计奖励性能比算法ABR高出20.5％-45.7％。

(4)本发明DRL算法在行人样本上的表现性能比车辆样本的表现稍好，这是因为画面变化速度较快的视频，在状态空间更新时，DRL模型参考的历史配置时隙数量

减少，给模型学习-决策带来难度，最终转化成奖励的损失。

图9中左上和右上部分描述了在行人测试样本上(左下和右下部分描述了在车辆测试样本上)，三种算法配置在LTE与WiFi条件下的累计奖励表现。可以发现累计奖励有相同的规律，但在WiFi条件下的累计奖励的数值波动更加显著，主要原因是由于在WiFi条件下，不稳定的网络带宽导致传输延迟产生较大波动。

接下来，进一步比较三种算法在目标检测精度和系统延迟两方面的性能表现。具体表现如图10所示。

为了方便评价，定义积极决策率PAR(positive action rate)：(a)对于视频目标检测准确度，将其PAR定义为目标检测准确度高于阈值(0.7)的时隙所占比例；(b)对于系统时延，将其PAR定义为，传输一个时隙所有帧的总延迟(包括传输延迟和目标检测延迟)小于时隙时长的时隙所占比例。观察图10，可以发现：

(1)基准对照算法Base在检测精度和系统延时两方面表现都比较差；

(2)对照算法ABR在三种算法中系统延迟性能是最好的，这是因为充分考虑了网络带宽变化情况，但与此同时，它在检测精度性能上的表现最差，这是因为该算法没有同时考虑视频配置后对其目标检测性能的影响。

(3)本发明提出的算法DRL在系统延迟和检测精度两方面都取得了较高的性能水平(PAR均大于70％)，这是因为本发明的DRL综合考虑了网络带宽变化以及视频配置后对其目标检测性能的影响，通过牺牲一部分系统延迟性能提增强了目标检测性能，模型策略能够很好地在两种性能的冲突中实现了性能平衡。

(4)同时算法DRL在LTE和WiFi两种不同网络条件下都取得了不错的性能，这也验证了该模型不错的泛化性。

本发明提供了一种自适应视频传输配置方法和系统，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种自适应视频传输配置方法，其特征在于，面向目标检测的视频传输任务，以视频的目标检测效果和传输延迟性能为依据自适应调整视频配置，所述视频配置包括视频的分辨率和帧率，所述自适应调整视频传输配置包括如下步骤：

步骤2，根据深度强化学习决策器定时检测网络带宽，再结合当前视频画面变化速度选取的历史视频传输配置，自适应地调整下一时刻视频编码采取的视频配置；

历史视频配置的分辨率序列和帧率值序列；

步骤1-2：将状态信息S_t通过深度神经网络π_θ映射得到对下一时刻选择的动作a_t；

步骤1-4：进入下一个时隙；

步骤1-5，在学习过程中不断重复步骤1-1～步骤1-4，通过不断调整深度神经网络的网络参数θ得到训练好的深度神经网络π_θ；

所述马尔可夫决策过程模型用于设定状态空间、设定动作和定义奖赏评价；

所述设定状态空间包括如下步骤：

步骤a1，以时隙

等于此时的k值，如果V_t-2，t仍然大于V_threshold，则令

确定好时隙t的参考时隙数量

后，读取与时隙t相邻的

然后将

作为状态输入深度神经网络π_θ的输入层：

其中，B_i表示第i个时隙的网络带宽值。

2.根据权利要求1所述的方法，其特征在于，所述定义动作包括：动作是RL决策代理利用深度神经网络π_θ从输入的状态映射得到的决策，每次接收到一个新的状态S_t，RL决策代理会根据学习到的策略神经网络π_θ选择一个动作a_t执行，其中深度神经网络π_θ的参数是θ，将视频分辨率res_t和帧率fps_t联合表示为动作a_t＝(res_t，fps_t)。

3.根据权利要求2所述的方法，其特征在于，所述定义奖赏评价包括：

步骤b1，在执行动作a_t＝(fps_t，res_t)对第t个时隙视频帧进行配置之后，用公式(3)表示第t个时隙中第i个帧的目标检测准确度F1_i：

在计算得到时隙t中每个视频帧的目标检测准确度后，用公式(4)计算时隙t中目标检测性能合格的视频帧占时隙总帧数的比例，来表示执行动作a_t＝(res_t，fps_t)后，时隙t的目标检测准确度高低ACC_t：

对满足条件的帧集合取模，即分子用来计算目标检测性能合格帧的数量，该帧集合中条件的第i个帧的目标检测准确度F1_i的计算公式见公式(3)；其中，δ是衡量时隙中每个帧的检测精度是否合格的检测精度阈值，帧率fps_t表示时隙t中包含帧的数量；所述目标检测性能合格的视频帧是指满足F1_i>δ；分子部分表示的是对集合取模操作，

DataSize_t＝fps_t×res_t×8 (5)

其中，

其中，

见公式(7)，表示时隙t中传输视频需要的传输时延；

表示目标检测延迟；

步骤b4，计算执行步骤b1动作a_t的奖励回报：通过如下公式计算时隙t的视频配置的奖赏回报r_t：

是所有不同a_t对应ACC_t值的平均值，

是所有不同a_t对应DAT_t值的平均值，

是所有不同a_t对应DLY_t的平均值。

4.根据权利要求3所述的方法，其特征在于，使用A3C算法训练深度神经网络π_θ，利用公式(10)计算长期累积奖赏J(θ)：

表示长期累计奖赏包括的时隙数量，γ^t表示γ的t次幂；

π_θ(s_t，a_t)即更新深度神经网络π_θ，是状态表示s_t到动作a_t映射关系的机器学习算法常用表示方法，公式(11)是神经网络对参数求期望的数学表示，均为机器学习算法常用表示方法；其中

是优势函数，表示在状态s_t下按照策略π_θ选择执行动作a_t所得到的累计期望奖励Q(s_t，a_t)与策略π_θ中动作中所有动作产生的期望奖励的均值

之间的差异；

是高等数学中求偏导的一种表示方法；

其中，α是学习率，梯度方向

的大小；

其中，α′表示学习率，状态值函数

的形式；

把公式(12)修改为：

机器学习算法中常用的神经网络参数迭代更新表达方式，其中β是策略熵H(·)的权重；

5.根据权利要求4所述的方法，其特征在于，步骤1-3中，RL决策代理根据步骤b4中定义的公式(9)计算奖励回报，然后根据公式(14)使用Adam优化器动态调整深度神经网络π_θ的网络参数θ。

6.一种自适应视频传输配置系统，其特征在于，包括媒体采集与视频编码模块、通信服务与数据传输模块、视频目标检测功能模块和视频传输配置决策模块；

其中，所述媒体采集与视频编码模块用于，根据视频传输配置决策模块发出的视频配置，按照H.264编码标准修改视频编码；

所述视频目标检测功能模块负责接收媒体采集与视频编码模块传输发送过来的视频，并对接收到的视频进行目标检测；

所述视频传输配置决策模块负责定时检测网络带宽，推测下一时刻的可用带宽预测值，而后再结合历史视频传输配置，自适应地选取下一时刻视频编码采取的视频配置；

步骤2：将状态信息S_t通过深度神经网络π_θ映射得到对下一时刻选择的动作a_t；

步骤4：进入下一个时隙；

步骤5，在学习过程中不断重复步骤1～步骤4，通过不断调整深度神经网络的网络参数θ得到训练好的深度神经网络π_θ；

所述设定状态空间包括如下步骤：

步骤a1，以时隙

等于此时的k值，如果V_t-2，t仍然大于V_threshold，则令

确定好时隙t的参考时隙数量

后，读取与时隙t相邻的

然后将

作为状态输入深度神经网络π_θ的输入层：

其中，B_i表示第i个时隙的网络带宽值；

所述定义动作包括：动作是RL决策代理利用深度神经网络π_θ从输入的状态映射得到的动作决策，每次接收到一个新的状态S_t，RL决策代理会根据学习到的策略神经网络π_θ映射选择一个动作a_t执行，其中深度神经网络π_θ的参数是θ，将视频分辨率res_t和帧率fps_t联合表示为动作a_t＝(res_t，fps_t)；

所述定义奖赏评价包括：

步骤b1，在视频编码模块执行视频传输配置决策模块给出的动作a_t＝(fps_t，res_t)对第t个时隙视频帧进行配置之后，用公式(3)表示第t个时隙中第i个帧的目标检测准确度F1_i：