CN114257880A

CN114257880A - 一种码率策略选择方法、装置、电子设备及存储介质

Info

Publication number: CN114257880A
Application number: CN202210021836.4A
Authority: CN
Inventors: 胡文阳; 王汉超
Original assignee: Bigo Technology Pte Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2022-01-10
Filing date: 2022-01-10
Publication date: 2022-03-29
Anticipated expiration: 2042-01-10
Also published as: CN114257880B

Abstract

本发明公开了一种码率策略选择方法、装置、电子设备及存储介质，本发明实施例通过更新通话时长基线值，并且根据当前通话时长与更新后的通话时长基线值的第一差值，确定目标通话时长，进而根据目标通话时长更新历史通话时长。从而消除了周期趋势的影响，解决了相关技术中在有周期性音视频通话场景中，直接对不同码率策略对应的通话时长进行采样导致算法收敛错误，导致最终选择的码率策略并非是最佳策略的问题，提高了码率策略选择的准确性。

Description

一种码率策略选择方法、装置、电子设备及存储介质

技术领域

本发明涉及技术领域，尤其涉及一种码率策略选择方法、装置、电子设备及存储介质。

背景技术

在音视频通话场景中，往往需要通过调整码率策略实现通话时长的最大化。MAB算法，即多臂老虎机算法(Multi-Armed Bandit Algorithm)是一种通过去探索不同策略，获取经验，并通过现有经验优化其决策的算法模型。其基本概念是在未知策略收益的环境下，通过对不同策略的探索与利用，实现收益最大化的目标。其中，MAB算法对静态环境的假设是：奖励信号服从均值稳定的随机分布。近年来MAB算法在优化任务中得到了广泛的应用，例如参数调优、广告推荐、医药临床测试。在音视频通话场景中，也应用MAB算法来选取码率策略进而实现通话时长的最大化。

在随机分布的场景中，MAB算法往往能有效的找到最优解，但是音视频通话场景是具有周期性的环境，即音视频通话场景存在固定时间段的通话高峰期和低峰期。在音视频通话场景中，现有的MAB算法直接对不同码率策略对应的通话时长进行采样会导致算法收敛错误，导致最终选择的码率策略并非是最佳策略。

发明内容

本发明实施例提供了一种码率策略选择方法、装置、电子设备及存储介质，用以解决现有的MAB算法直接对不同码率策略对应的通话时长进行采样会导致算法收敛错误，导致最终选择的码率策略并非是最佳策略的问题。

本发明实施例提供了一种码率策略选择方法，所述方法包括：

根据音视频通话场景的周期时长，确定音视频通话场景对应的基线数组，其中，所述基线数组中的每一个元素用于记录对应时间段的通话时长基线值；

获取并根据每个候选码率策略对应的历史通话时长，选择目标码率策略；获取执行所述目标码率策略后对应的当前通话时长，根据所述当前通话时长对所述基线数组中对应时间段的通话时长基线值进行更新；

根据所述当前通话时长与更新后的通话时长基线值的第一差值，确定目标通话时长，并根据所述目标通话时长对所述目标码率策略对应的历史通话时长进行更新；将所述目标码率策略作为候选码率策略，以根据每个候选码率策略对应的历史通话时长，进行下次目标码率策略的选择。

另一方面，本发明实施例提供了一种码率策略选择装置，所述装置包括：

确定模块，用于根据音视频通话场景的周期时长，确定音视频通话场景对应的基线数组，其中，所述基线数组中的每一个元素用于记录对应时间段的通话时长基线值；

更新模块，用于获取并根据每个候选码率策略对应的历史通话时长，选择目标码率策略；获取执行所述目标码率策略后对应的当前通话时长，根据所述当前通话时长对所述基线数组中对应时间段的通话时长基线值进行更新；

选择模块，用于根据所述当前通话时长与更新后的通话时长基线值的第一差值，确定目标通话时长，并根据所述目标通话时长对所述目标码率策略对应的历史通话时长进行更新；将所述目标码率策略作为候选码率策略，以根据每个候选码率策略对应的历史通话时长，进行下次目标码率策略的选择。

再一方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一项所述的方法步骤。

再一方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法步骤。

本发明实施例提供了一种码率策略选择方法、装置、电子设备及存储介质，所述方法包括：根据音视频通话场景的周期时长，确定音视频通话场景对应的基线数组，其中，所述基线数组中的每一个元素用于记录对应时间段的通话时长基线值；获取并根据每个候选码率策略对应的历史通话时长，选择目标码率策略；获取执行所述目标码率策略后对应的当前通话时长，根据所述当前通话时长对所述基线数组中对应时间段的通话时长基线值进行更新；根据所述当前通话时长与更新后的通话时长基线值的第一差值，确定目标通话时长，并根据所述目标通话时长对所述目标码率策略对应的历史通话时长进行更新；将所述目标码率策略作为候选码率策略，以根据每个候选码率策略对应的历史通话时长，进行下次目标码率策略的选择。

上述的技术方案具有如下优点或有益效果：

由于本发明实施例中，根据音视频通话场景的周期时长，确定音视频通话场景对应的基线数组，基线数组中包括对应时间段的通话时长基线值。根据每个候选码率策略对应的历史通话时长，选择目标码率策略。其中，根据目标码率策略对应的当前通话时长对基线数组中对应时间段的通话时长基线值进行更新，然后根据当前通话时长与更新后的通话时长基线值的第一差值，确定目标通话时长，根据目标通话时长对目标码率策略对应的历史通话时长进行更新。以便进行下次的目标码流选择。本发明实施例通过更新通话时长基线值，并且根据当前通话时长与更新后的通话时长基线值的第一差值，确定目标通话时长，进而根据目标通话时长更新历史通话时长。从而消除了周期趋势的影响，解决了相关技术中在有周期性音视频通话场景中，直接对不同码率策略对应的通话时长进行采样导致算法收敛错误，导致最终选择的码率策略并非是最佳策略的问题，提高了码率策略选择的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的码率策略选择过程示意图；

图2为本发明实施例提供的归一化处理函数示意图；

图3为本发明实施例提供的奖励信号均值随时间变化示意图；

图4为本发明实施例提供的码率策略选择流程框架图；

图5为本发明实施例提供的基线数组示意图；

图6为本发明实施例提供的码率策略选择装置结构示意图；

图7为本发明实施例提供的电子设备结构示意图。

具体实施方式

下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1：

图1为本发明实施例提供的码率策略选择过程示意图，该过程包括以下步骤：

S101：根据音视频通话场景的周期时长，确定音视频通话场景对应的基线数组，其中，所述基线数组中的每一个元素用于记录对应时间段的通话时长基线值。

S102：获取并根据每个候选码率策略对应的历史通话时长，选择目标码率策略；获取执行所述目标码率策略后对应的当前通话时长，根据所述当前通话时长对所述基线数组中对应时间段的通话时长基线值进行更新。

S103：根据所述当前通话时长与更新后的通话时长基线值的第一差值，确定目标通话时长，并根据所述目标通话时长对所述目标码率策略对应的历史通话时长进行更新；将所述目标码率策略作为候选码率策略，以根据每个候选码率策略对应的历史通话时长，进行下次目标码率策略的选择。

本发明实施例提供的码率策略选择方法应用于电子设备，该电子设备可以是PC、平板电脑等设备。

电子设备根据音视频通话场景的周期时长，确定音视频通话场景对应的基线数组，其中，基线数组对应的时长即为音视频通话场景的周期时长。例如音视频通话场景的周期时长为24小时，基线数组对应的时长为24小时。将基线数组分为多个时间段，基线数组中每个时间段对应一个元素，该元素用于记录对应时间段的通话时长基线值。基线数组中每个时间段对应的元素的初始值可以设定为相同的数值，也可以根据经验进行设定，时间段对应的元素的初始值可以不同。

针对每个候选码率策略，将该候选码率策略下发至用户端，用户端使用该候选码率策略进行音视频通话，获取用户端使用该候选码率策略进行音视频通话的历史通话时长。历史通话时长是指历史时间段内，用户端每次使用该候选码率策略进行音视频通话的通话时长的累计值。历史时间段可以是预设的起始日至截止日的时间段，例如1月1日至1月10日。也可以是距当前时间的历史时间长度，例如历史时间段可以是距当前时间的10天内、20天内等。

这样可以获取每个候选码率策略对应的历史通话时长，然后根据每个候选码率策略对应的历史通话时长，选择目标码率策略。其中，可以选择历史通话时长最长的候选码率策略作为目标码率策略，或者获取每个候选码率策略对应的选取次数，根据每个候选码率策略对应的历史通话时长和选取次数，针对每个候选码率策略，确定该候选码率策略对应的平均历史通话时长。然后选取平均历史通话时长最长的候选码率策略作为目标码率策略。

针对选择的目标码率策略，将目标码率策略下发至用户端，用户端使用目标码率策略进行音视频通话，获取用户端使用目标码率策略进行音视频通话的当前通话时长。根据当前通话时长对基线数组中对应时间段的通话时长基线值进行更新。根据当前通话时长对基线数组中对应时间段的通话时长基线值进行更新包括：根据当前通话时长和基线数组中对应时间段的通话时长基线值的第二差值，以及预设的调整参数，确定基线调整值；将通话时长基线值与基线调整值的和值，作为更新后的通话时长基线值。

根据获取用户端使用目标码率策略进行音视频通话的当前通话时长所对应的时间段，获得基线数组中对应时间段的通话时长基线值，计算当前通话时长和基线数组中对应时间段的通话时长基线值的第二差值。将第二差值与预设的调整参数的乘积作为基线调整值。预设的调整参数例如是0.4、0.5等。将通话时长基线值与基线调整值的和值，作为更新后的通话时长基线值。即B[t]^{^}＝B[t]+w*(P_k，t-B[t])；式中，B[t]为更新前的通话时长基线值，w为预设的调整参数，P_k，t为当前通话时长，B[t]^{^}为更新后的通话时长基线值。

根据当前通话时长与更新后的通话时长基线值的第一差值，确定目标通话时长，例如将当前通话时长与更新后的通话时长基线值的第一差值作为目标通话时长。较佳的，根据所述当前通话时长与更新后的通话时长基线值的第一差值，确定目标通话时长包括：确定所述当前通话时长与更新后的通话时长基线值的第一差值；对所述第一差值进行归一化处理，得到目标通话时长。其中，归一化处理函数如图2所示，需要说明的是，图2所示的归一化处理函数仅为举例说明，还可以采用Sigmid函数进行归一化处理。

根据目标通话时长对目标码率策略对应的历史通话时长进行更新。将目标通话时长与目标码率策略对应的历史通话时长的和值，作为更新后的目标码率策略对应的历史通话时长。将目标码率策略作为候选码率策略，以根据每个候选码率策略对应的历史通话时长，进行下次目标码率策略的选择。

实施例2：

在上述实施例的基础上，在本发明实施例中，所述获取并根据每个候选码率策略对应的历史通话时长，选择目标码率策略包括：

针对每个候选码率策略，获取该候选码率策略对应的历史通话时长和选取次数；根据所述选取次数和所述每个候选码率策略的选取总次数，确定该候选码率策略对应的置信区间上界值；根据该候选码率策略对应的历史通话时长、选取次数和所述置信区间上界值，确定该候选码率策略对应的选取价值；

将选取价值最高的候选码率策略，作为目标码率策略。

针对每个候选码率策略，获取该候选码率策略对应的历史通话时长和选取次数，根据选取次数和每个候选码率策略的选取总次数，确定该候选码率策略对应的置信区间上界值，其中，

式中，i表示候选码率策略i，t为每个候选码率策略的选取总次数，N_t(i)为候选码率策略i的选取次数，C_t(i)为候选码率策略i对应的置信区间上界值。根据该候选码率策略对应的历史通话时长、选取次数和所述置信区间上界值，确定该候选码率策略对应的选取价值。其中，Q＝X_t(i)/N_t(i)+C_t(i)；式中，X_t(i)为候选码率策略i对应的历史通话时长，Q为候选码率策略i对应的选取价值。将选取价值最高的候选码率策略，作为目标码率策略。

本发明实施例基于MAB算法的思想进行码率策略选择，下面对本发明实施例提供的码率策略选择过程进行详细说明。

本发明实施例提供的码率策略选择方案可应用在直播连麦、PK和多人房，以及imo音视频通话业务等社交网络的参数优化中，通过MAB算法优化码率参数，实现通话时长最大化的目标。

方案实现原理如下：

本发明实施例实现描述以优化码率参数为例，实现通话时长最大化。本发明实施例通过维护一个对不同时间点奖励信号(通话时长)趋势进行记录的基线数组，建立对奖励信号周期性的感知，各码率策略的奖励反馈会基于此基线数组进行计算，从而实现MAB算法对各码率策略回报的正确估计。

本发明实施例通过基础MAB算法中的一种通用模型UCB模型，实现码率策略选择。

算法环境中存在K种候选码率策略，算法一共与环境进行T轮交互。每轮交互中，算法选择一种码率策略与环境进行交互，然后算法会观测到对应策略的奖励信号(通话时长)。

本发明实施例中的MAB算法使用UCB模型，每次算法选取码率策略i，使得候选码率策略i对应的选取价值Q＝X_t(i)/N_t(i)+C_t(i)最大。其中，X_t(i)代表候选码率策略i对应的历史通话时长，即历史累加值，c_t(i)代表候选码率策略i对应的置信区间上界值，t代表每个候选码率策略的选取总次数，N_t(i)代表候选码率策略i的选取次数，

相关技术下，UCB模型更新方式如下：

X_t+1(i)＝X_t(i)+reward；reward代表当前通话时长；

N_t+1(i)＝N_t(i)+1；

相关技术下的更新方式，直接对不同码率策略对应的通话时长进行采样会导致算法收敛错误，导致最终选择的码率策略并非是最佳策略。

以图3为例进行说明，图3为某策略的奖励信号均值随时间变化的图像，展示了一种典型具有周期性奖励信号的环境；其中“action:1/action:2”分别代表了两种不同策略，策略2的期望较高。使用UCB模型在这种环境中进行探索时，如果正好在图中虚线处模型多使用策略1进行探索，那么模型就会错误地估计奖励信号，误认为策略1为较好策略。实际上策略2为较好策略，因此具有周期性奖励信号的环境中，直接使用环境中的奖励信号不利于模型正确收敛。

为了解决上述问题，本发明实施例提出了对历史通话时长进行更新的技术方案。

在音视频通话场景中，多数参数优化的直观目标是实现通话时长最大化。而在以通话时长为奖励信号的环境中，其往往呈现出周期性分布，存在固定时间段的通话高峰期和低峰期。

本发明实施例通过图4中的流程对码率策略进行优化。通过MAB算法中的UCB模型进行码率策略的选择，并通过服务器将码率策略发送至用户端，反馈的奖励信号对MAB算法中的极限数组进行更新，并进行下一轮的码率策略选择。模型通过尝试不同的码率策略，并统计各码率策略影响下用户所反馈的通话时长。本发明实施例使用基线数组对周期性环境进行适应，计算出实际的奖励反馈并更新UCB模型参数，从而建立起对不同码率策略下平均通话时长的准确评估。本框架使得模型能够尽可能多的选取最优码率策略，最终实现通话时长最大化的目标。

举例说明如下：

已知奖励信号的波动周期为D(24小时)，本发明实施例创建一个长度为D的基线数组，如图5所示，基线数组每一个元素用于记录对应1/D时间段(每分钟或者每小时)的奖励信号基线。本发明实施例使用奖励信号与基线之差作为实际奖励，从而消除了周期趋势影响；此差值经过归一化处理函数f(x)进行数值变换，映射到[0,1]区间，归一化处理函数如图2所示。

结合UCB模型，具体算法的实现描述如下：

初始化基线数组B[t],

初始化UCB模型；初始化超参数w(e.g.0.5)。

循环执行如下步骤：

A、选择策略k_t＝argmax_i X_t(i)/N_t(i)+c_t(i)；

B、观测到执行策略k_t后对应的奖励信号p_k,t；

C、更新基线数组B[t]^{^}＝B[t]+w*(P_k，t-B[t])；

D、计算实际奖励反馈：r_k，t＝f(P_k,t-B[t]^{^})；

E、更新UCB模型：X_t+1(i)＝X_t(i)+r_k,t；N_t+1(i)＝N_t(i)+1。

本发明实施例通过更新通话时长基线值，并且根据当前通话时长与更新后的通话时长基线值的第一差值，确定目标通话时长，进而根据目标通话时长更新历史通话时长。从而消除了周期趋势的影响，解决了相关技术中在有周期性音视频通话场景中，直接对不同码率策略对应的通话时长进行采样导致算法收敛错误，导致最终选择的码率策略并非是最佳策略的问题，提高了码率策略选择的准确性。

实施例3：

图6为本发明实施例提供的码率策略选择装置结构示意图，所述装置包括：

确定模块61，用于根据音视频通话场景的周期时长，确定音视频通话场景对应的基线数组，其中，所述基线数组中的每一个元素用于记录对应时间段的通话时长基线值；

更新模块62，用于获取并根据每个候选码率策略对应的历史通话时长，选择目标码率策略；获取执行所述目标码率策略后对应的当前通话时长，根据所述当前通话时长对所述基线数组中对应时间段的通话时长基线值进行更新；

选择模块63，用于根据所述当前通话时长与更新后的通话时长基线值的第一差值，确定目标通话时长，并根据所述目标通话时长对所述目标码率策略对应的历史通话时长进行更新；将所述目标码率策略作为候选码率策略，以根据每个候选码率策略对应的历史通话时长，进行下次目标码率策略的选择。

所述更新模块62，具体用于针对每个候选码率策略，获取该候选码率策略对应的历史通话时长和选取次数；根据所述选取次数和所述每个候选码率策略的选取总次数，确定该候选码率策略对应的置信区间上界值；根据该候选码率策略对应的历史通话时长、选取次数和所述置信区间上界值，确定该候选码率策略对应的选取价值；将选取价值最高的候选码率策略，作为目标码率策略。

所述更新模块62，具体用于根据所述当前通话时长和所述基线数组中对应时间段的通话时长基线值的第二差值，以及预设的调整参数，确定基线调整值；将所述通话时长基线值与所述基线调整值的和值，作为更新后的通话时长基线值。

所述选择模块63，具体用于确定所述当前通话时长与更新后的通话时长基线值的第一差值；对所述第一差值进行归一化处理，得到目标通话时长。

所述选择模块63，具体用于将所述目标通话时长与所述目标码率策略对应的历史通话时长的和值，作为更新后的所述目标码率策略对应的历史通话时长。

实施例4：

在上述各实施例的基础上，本发明实施例中还提供了一种电子设备，如图7所示，包括：处理器301、通信接口302、存储器303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信；

所述存储器303中存储有计算机程序，当所述程序被所述处理器301执行时，使得所述处理器301执行如下步骤：

首先，根据音视频通话场景的周期时长，确定音视频通话场景对应的基线数组，基线数组中的每一个元素用于记录对应时间段的通话时长基线值。

然后针对每个候选码率策略，获取该候选码率策略对应的历史通话时长和选取次数；根据所述选取次数和所述每个候选码率策略的选取总次数，确定该候选码率策略对应的置信区间上界值；根据该候选码率策略对应的历史通话时长、选取次数和所述置信区间上界值，确定该候选码率策略对应的选取价值；将选取价值最高的候选码率策略，作为目标码率策略。

获取执行目标码率策略后对应的当前通话时长，根据当前通话时长和基线数组中对应时间段的通话时长基线值的第二差值，以及预设的调整参数，确定基线调整值；将通话时长基线值与所述基线调整值的和值，作为更新后的通话时长基线值。

确定当前通话时长与更新后的通话时长基线值的第一差值；对所述第一差值进行归一化处理，得到目标通话时长。根据目标通话时长对目标码率策略对应的历史通话时长进行更新；将目标码率策略作为候选码率策略，以根据每个候选码率策略对应的历史通话时长，进行下次目标码率策略的选择。

本发明实施例提供的一种电子设备可用于执行上述任意实施例提供的码率策略选择方法，具备相应的功能和有益效果。

实施例5：

在上述各实施例的基础上，本发明实施例还提供了一种计算机存储可读存储介质，所述计算机可读存储介质内存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行时实现如下步骤：

本发明实施例还提供的计算机存储可读存储介质，内存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，可用于执行上述任意实施例提供的接口调用时序检测方法，具备相应的功能和有益效果。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种码率策略选择方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述获取并根据每个候选码率策略对应的历史通话时长，选择目标码率策略包括：

将选取价值最高的候选码率策略，作为目标码率策略。

3.如权利要求1所述的方法，其特征在于，所述根据所述当前通话时长对所述基线数组中对应时间段的通话时长基线值进行更新包括：

根据所述当前通话时长和所述基线数组中对应时间段的通话时长基线值的第二差值，以及预设的调整参数，确定基线调整值；

将所述通话时长基线值与所述基线调整值的和值，作为更新后的通话时长基线值。

4.如权利要求1所述的方法，其特征在于，所述根据所述当前通话时长与更新后的通话时长基线值的第一差值，确定目标通话时长包括：

确定所述当前通话时长与更新后的通话时长基线值的第一差值；

对所述第一差值进行归一化处理，得到目标通话时长。

5.如权利要求1所述的方法，其特征在于，所述根据所述目标通话时长对所述目标码率策略对应的历史通话时长进行更新包括：

将所述目标通话时长与所述目标码率策略对应的历史通话时长的和值，作为更新后的所述目标码率策略对应的历史通话时长。

6.一种码率策略选择装置，其特征在于，所述装置包括：

7.如权利要求6所述的装置，其特征在于，所述更新模块，具体用于针对每个候选码率策略，获取该候选码率策略对应的历史通话时长和选取次数；根据所述选取次数和所述每个候选码率策略的选取总次数，确定该候选码率策略对应的置信区间上界值；根据该候选码率策略对应的历史通话时长、选取次数和所述置信区间上界值，确定该候选码率策略对应的选取价值；将选取价值最高的候选码率策略，作为目标码率策略。

8.如权利要求6所述的装置，其特征在于，所述更新模块，具体用于根据所述当前通话时长和所述基线数组中对应时间段的通话时长基线值的第二差值，以及预设的调整参数，确定基线调整值；将所述通话时长基线值与所述基线调整值的和值，作为更新后的通话时长基线值。

9.如权利要求6所述的装置，其特征在于，所述选择模块，具体用于确定所述当前通话时长与更新后的通话时长基线值的第一差值；对所述第一差值进行归一化处理，得到目标通话时长。

10.如权利要求6所述的装置，其特征在于，所述选择模块，具体用于将所述目标通话时长与所述目标码率策略对应的历史通话时长的和值，作为更新后的所述目标码率策略对应的历史通话时长。

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一项所述的方法步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一项所述的方法步骤。