CN113329344B

CN113329344B - 一种用于通讯网络的文件推荐的方法

Info

Publication number: CN113329344B
Application number: CN202110543378.6A
Authority: CN
Inventors: 邢旺; 刘玲; 周一青; 石晶林
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2022-08-30
Anticipated expiration: 2041-05-19
Also published as: CN113329344A

Abstract

本发明提供一种用于通讯网络的文件推荐的方法和一种用于通讯网络的编码多播的方法，包括：服务器将推荐文件集合

中的文件推荐给对应用户u；服务器为每个用户u生成缓存文件集合C_u，将C_u推送至用户；用户向服务器发送文件请求；服务器接收时间窗内用户的请求，生成该时间窗的请求向量和请求用户队列；服务器对存在被多个用户所请求的文件时，将对应文件以传统多播的方式发出；服务器对编码多播用户对，将各编码多播用户对中的受请求文件进行按位异或编码并多播；对于剩余的请求文件以单播的方式发送给对应的请求用户。基于本发明的实施例，可以在降低计算资源的需求的同时降低带宽需求。

Description

一种用于通讯网络的文件推荐的方法

技术领域

本发明涉及移动通信，尤其涉及编码与多播通信。

背景技术

随着近几年移动通信设备的快速发展和普及以及用户业务类型的多样化，移动互联网获得了空前发展，话音、短信等小流量业务不再是互联网业务的主流，取而代之的是以图片、视频等为代表的大流量多媒体业务。大流量多媒体业务具有对QoS(Quality ofService，服务质量)要求更高、对通信带宽需求更大的特点，因此对网络容量提出了更高的要求。但在热点区域和请求高峰期，用户对大流量文件的高密度请求会造移动通信网络的负载压力激增，甚至可能造成网络堵塞，严重影响用户体验。由于4G、5G采用的编码、调制技术已经使得信道容量逼近香农理论极限，并且适合通信的电磁波频段基本已经分配完毕。传统的解决思路如扩充可用频谱(毫米波、太赫兹等)来提升信道容量的应用条件十分苛刻。

在这一背景下，编码多播技术应运而生。编码多播技术通过向移动通信系统中引入计算资源和存储资源。在可分配带宽资源十分丰富的网络负载低谷期，服务器将部分热点文件推送、缓存到用户设备，通过一种联合优化设计的缓存方案，大量多播机会被创造出来，在用户请求密集发出的高峰请求时期，网络负载压力被大大缓解。

编码多播技术的基本系统模型如附图1所示。假设K个用户共用一条文件传输链路与同一个服务器相连，该服务器下存有N个大小相等为F bits的待请求文件(F足够大)，且每个用户设备都具有一个大小相同为M的存储器。编码多播技术的实施分为两个阶段：网络流量低谷期执行的文件放置阶段和网络流量高峰期执行的文件交付阶段。现有技术提出了两个编码多播算法，包括中心化编码多播算法和去中心化编码多播算法。中心化编码多播算法中，在文件放置阶段，每一个文件均被划分为大小相等的

个子文件，然后服务器以一种精心设计的方式向不同用户推送特定的子文件包，完成文件在用户的缓存。在请求响应阶段，假设所有用户的请求同时发出，服务器结合用户的文件缓存情况和用户实际请求情况提取待发送的子文件，并按规则进行子文件之间的“按位异或”编码，构造编码子文件。编码子文件以多播的形式发送至用户，各用户设备通过接收包含其请求数据的子文件，与其存储设备中的特定缓存文件再次进行“按位异或”运算即可解码恢复出其所需的子文件。最后用户设备对恢复所得到的子文件进行排序、重组后即可重构请求文件。中心化编码多播算法的优势在于通过严格的文件分割和缓存策略，将待传输码字量降到最低，具有非常好的性能，但要求服务器提前知晓系统内的总用户数，且要求算法执行过程中用户不会迁出、迁入系统，避免用户侧的缓存的完整性被破坏。用户的移动性是移动通信系统最重要的特征之一，因此这种要求大大限制了中心化编码多播算法的应用，为此，提出了去中心化编码多播算法。去中心化编码多播算法中，各用户独立随机缓存每个文件

比特。在文件交付阶段，服务器依次检查大小为K，K-1，......，2的所有用户子集，并面向每个大小为k的用户子集，搜索由一个用户请求且仅被其他(k-1)个用户所缓存的子片段并形成编码文件，最终共有

个编码子文件。完成面向所有用户子集的编码文件构造后，再依次检查单个用户未接收到的比特进行单播响应即可，最终共有K个单播文件。各用户可以通过接收到的编码子文件和单播文件、缓存文件恢复出其请求文件。显然，由于在去中心化算法中，各用户之间缓存过程相互独立且随机，因此用户的迁入迁出不会影响算法的执行，在移动通信系统中具备更强的实际应用价值。

相较于传统的缓存技术，编码多播更高效率地利用了分布于网络中的存储资源，通过各用户之间的协作存储和文件编码，大幅度减少了响应用户请求时的总传输带宽需求。在N＝K＝30的网络中，性能增益如附图2所示。然而，最初的编码多播算法由于较多地采用了理想化假设，导致其应用价值比较低。为了提高编码多播技术的实用性，同时进一步优化算法性能，需要在现有算法的基础之上考虑一些必要的现实条件。其中，用户偏好分布差异因素的引入有助于进一步优化用户的文件存储结构，进而创造出更多的编码多播机会。另外，由于用户偏好分布是基于历史请求、社交关系等数据进行统计分析得出的，因此存在较强的时变性和较大的用户间差异性，推荐技术有助于弱化这种时变性和差异性，通过将推荐技术融合进编码多播算法中，使用户偏好分布对网络更加友好。

面向编码多播中的用户偏好差异问题，已有解决方法主要分为两个方向，一类是通过设计优化的缓存方案和请求响应方案来进一步降低无线带宽需求，另一类是通过引入推荐使用户偏好分布来提升命中率、多播率以降低无线带宽需求。已有算法UPAF(UncodedPlacement Absolutely Fair，无编码放置绝对公平)通过改进文件缓存方案和编码文件构造策略，通过遍历用户可能构造的所有用户组以确定有效的编码多播组，从而极大降低无线带宽需求，这也是目前针对用户偏好差异问题性能最佳的算法。还可以通过引入推荐系统来对用户的偏好分布作定向改变，个性化推荐方案的设计有助于大大提升缓存命中率。

编码多播算法中，各用户按规则缓存大量子文件，为达到带宽需求最小化，需要在构造编码文件时穷举所有可编码片段。这一穷举过程会引入指数级的算法复杂度，从而极大占用服务器的计算资源，导致严重的处理时延；另外，在请求高峰期，穷举搜索次数增多，计算量大大增加，可能造成服务器资源不足，计算任务拥堵，使得部分请求处理中断，严重影响用户体验。另外，其算法能够达到理论性能的前提是文件足够大(即单个文件的比特量足够大)，如果文件比较小，则无法分割为满足数量要求的

个子文件，这时原有算法无法应用在这一场景中，从而无法获得相应的缓存增益。

UPAF算法遍历过程的算法复杂度与用户总数呈指数关系，对服务器的计算能力提出了较高要求，尤其在系统中用户数量较大时，如果服务器无法满足计算需求，用户的响应时延会增大，服务质量大幅下降，严重降低了算法的实际应用价值。另外，UPAF算法同样建立在“最糟糕”的前提之下，即用户请求各不相同，不存在重复的情况，当实际请求中出现用户请求同一文件的情况时，UPAF算法会从逻辑上将其作为不同文件进行传输，从而导致同一文件的部分比特存在多次传输的问题，算法性能有一定程度的损失。因此，实际系统中用户请求相同热点文件时，可以通过对算法进行优化以进一步降低无线带宽需求。已经有算法提出将推荐技术引入编码多播系统中，利用推荐技术对用户偏好分布进行定向改变，使其更加网络友好，但这类算法在进行个性化推荐方案的设计以及多播组构造时，同样采用了穷举或遍历算法，引入了高达指数级别的算法复杂度。

发明内容

本发明针对上述问题，根据本发明的第一方面，提出一种用于通讯网络的文件推荐的方法，包括：

步骤100：服务器获取用户流派喜好分布向量和文件流派特征向量，计算得出用户对各文件偏好分布P_pre；

步骤200：基于用户偏好分布P_pre，服务器将推荐文件集合

中的文件推荐给对应用户u。

在本发明的一个实施例中，其中，步骤100包括：

利用余弦相似度方法计算得出用户u对文件f的喜好程度L_u，f，通过归一化处理，获得用户u对文件f的原始请求概率p_u(f)，所有用户对所有文件的原始请求概率的分布构成矩阵P_pre

其中，N为文件个数，N为正整数，K为用户个数，K为正整数。

在本发明的一个实施例中，其中，利用以下公式计算用户u对文件f的喜好程度L_u，f：

其中，其中L_u(i)为用户u对流派i的喜好程度，L_f(i)为文件f的流派特征。

在本发明的一个实施例中，其中，通过归一化处理，获得用户u对文件f的原始请求概率p_u(f)为：

其中，f_i为文件，i＝1，2，...N，N为文件个数，N为正整数。

在本发明的一个实施例中，其中步骤200中，推荐文件集合

为

其中，P_pre(u，1：r)表示矩阵P_pre的第u行中最大的r个元素，r为正整数，U为用户向量。

根据本发明的第二方面，提供一种用于通讯网络的编码多播的方法，其中，服务器根据本发明的用于通讯网络的文件推荐的方法为每个用户u生成缓存文件集合

将

推送至用户u以缓存，所述方法包括：

步骤400：用户向服务器发送文件请求；

步骤500：服务器接收时间窗内用户的请求，生成该时间窗的请求向量和请求用户队列；

步骤600：服务器从请求用户队列中移出缓存命中请求的用户，并将命中请求移出请求向量。

在本发明的一个实施例中，还包括：

步骤700：服务器在请求向量中检查存在被多个用户所请求的文件时，将请求同一文件的用户移出请求用户队列，将对应文件以传统多播的方式发出，同时将其移出请求向量。

在本发明的一个实施例中，还包括：

步骤800：服务器确定在请求向量中存在编码多播用户对时，将各编码多播用户对中的用户移出用户队列，并将这两个用户对应的请求都移出请求向量，将各编码多播用户对中的受请求文件进行按位异或编码并多播。

在本发明的一个实施例中，还包括：

步骤900：对请求向量中剩余的请求文件以单播的方式发送给对应的请求用户。

在本发明的一个实施例中，其中，为每个用户u生成缓存文件集合

包括：根据P_pre和β计算实际请求概率分布矩阵P_act中的元素

其中，

β表示了P_act相对于P_pre的畸变百分比，

表示用户u对文件f的实际请求概率，并为每个用户u生成缓存文件集合

为

其中P_act(u，1：M)表示矩阵P_act中第u行中最大的M个元素，U为用户向量。

在本发明的一个实施例中，还包括：在网络流量低谷期将缓存文件集合

中的文件推送至对应用户u。

根据本发明的第三方面，提供一种计算机可读存储介质，其中存储有一个或者多个计算机程序，所述计算机程序在被处理器执行时用于实现本发明的用于通讯网络的文件推荐的方法和用于通讯网络的编码多播的方法。

根据本发明的第四方面，提供一种计算系统，包括：存储装置、以及一个或者多个处理器；其中，所述存储装置用于存储一个或者多个计算机程序，所述计算机程序在被所述处理器执行时用于实现本发明的用于通讯网络的文件推荐的方法和用于通讯网络的编码多播的方法。

与现有技术相比，本发明的优点在于本发明由于采用了缓存完整文件的方法，无需穷举搜索子片段，也突破了算法对文件大小的要求。本发明针对上述提到的用户请求重复时的算法优化和已有算法复杂度过高的问题，分析了编码多播增益的来源分布，采取仅搜索由两个用户构成的编码多播组以及引入传统无编码多播的方式来进一步优化用户请求响应算法，将用户偏好感知的编码多播算法从指数级别降低到了平方级别，大大提升其实际应用价值；当多用户请求相同时，本发明采用传统无编码多播的方式将受请求文件发送给用户，从而避免因用户请求重复使得部分子文件多次传输而造成的部分性能损失，进一步增强算法的实际应用价值。本发明所提算法的算法复杂度为平方级别，即使是流量高峰期也不会过度占用计算资源，在本专利提出的一个具体用例中，对无线带宽的需求相较现有技术有5％左右的降低，因此算法得到了进一步优化。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了文件分发系统(编码缓存系统)模型图；

图2示出了K＝N＝30文件分发系统的性能曲线；

图3示出了根据本发明实施例的请求响应流程图；

图4示出了本发明实施例与UPAF的复杂度对比图；

图5示出了本发明实施例与UPAF的文件传输率对比图。

具体实施方式

针对背景技术中提出的问题，发明人进行了研究，提出了基于推荐的编码多播方法，其主要思想是利用计算资源、存储资源实现对通信资源的置换，通过合理的文件缓存策略和多播策略，减少文件请求高峰期的无线通信带宽需求，缓解负载压力，系统模型如图1所示。

服务器可利用余弦相似度方法对用户的文件流派喜好分布数据、文件的流派属性进行处理，得到用户对不同文件的偏好分布。用户偏好即体现在其对不同文件流派的喜好分布上，从而反映在其对不同文件的请求概率差异上。在用户发出请求之前，服务器基于计算好的用户偏好分布数据可以分析得出各用户潜在请求概率最高的M个文件，并将之进一步推荐给用户，以强化对应文件的受请求概率，提高缓存命中率。由于实际系统中用户的请求发送并不是严格时间一致的，一般会采用时间窗的机制，请求响应时的操作对象为单个时间窗内接收到的全部请求。由于单个用户在一个时间窗内若发起第二次请求，则相当于默认取消了之前的请求，因此假设单个用户在一个时间窗内仅发起一次请求。

本申请提出一种基于推荐的编码多播方法(Recommendation-based CodedCaching，RCC)。RCC的目标是通过放弃一定的编码多播机会来减少算法中的用户组判定次数，以降低算法复杂度。同时引入传统多播，使传统多播的方式优先响应存在重复的请求，将执行传统多播的优先级置于执行编码多播之前，使得算法的总带宽需求在UPAF编码多播算法的水平上进一步降低5％左右。

在图1示出的系统模型中，包括含N个待请求文件的服务器、K个均配有大小为M的存储器的用户和共享无差错信道。其中服务器负责统计用户的偏好分布、文件推荐以及请求响应阶段的多播组搜索、编码文件构造等，用户作为请求发出的主体，其存储器负责文件内容的缓存，共享无差错信道承载文件码流的传输。由于文件可以划分为大小相同的子文件进行操作，因此这里假设所有文件大小相同。文件向量和用户向量分别表示为F＝[f₁，f₂，......，f_N]和U＝[u₁，u₂，......，u_K]，其中f_i为文件，i＝1，2，...N，N为文件个数，N为正整数，u_j为用户，j＝1，2，...K，K为用户个数，K为正整数。这里考虑C个文件流派，各文件都具有一定的流派特征，在这里表示为文件流派特征向量L_f＝[L_f(1)，......，L_f(C)]，L_f满足L_f(i)∈[0，1]，i∈[C]以及

其中，L_f(i)为文件f的流派特征。考虑到用户偏好，本发明认为不同用户对各流派的喜好程度存在差异，表示为用户流派喜好分布向量L_u＝[L_u(1)，......，L_u(C)]，L_u满足L_u(i)∈[0，1]，i∈[C]以及

其中L_u(i)为用户u对流派i的喜好程度。

根据本发明的一个实施例，以余弦相似度来构建不同用户对不同文件之间的喜好程度，表示为L＝(L_u，f)_K×N，其中用户u对文件f的喜好程度L_u，f为

进行归一化处理，即可获得用户u对文件f的原始请求概率(即偏好)p_u(f)，如以下公式2所示：

则所有用户对所有文件的偏好分布矩阵为

采用

表示用户u对文件f的实际请求概率，则所有用户对所有文件的实际请求概率分布矩阵为

由于用户对推荐的敏感程度存在差异，本发明引入参数β表征推荐作用于系统时，用户对推荐内容的敏感程度，满足β∈[0，1]。当β＝0时，用户不会对推荐产生反应，即请求概率分布不会被推荐所改变；当β＝1时，用户对推荐内容兴趣极高，即经推荐，请求概率被集中于受推荐的内容，受推荐内容的请求概率之和为1，未受推荐内容的请求概率之和为0。数学公式角度来看，β表示了P_act相对于P_pre的畸变百分比。在本发明中，β的值根据经验预先确定。令

表示系统推荐给用户u的文件集合，对于给定的β，则用户对各文件的实际请求概率分布矩阵P_act中的元素可以由下式确定：

其中，

表示集合F与集合

的差集，即

本发明引入推荐的目的是来提升各用户缓存命中率，系统选取受请求概率最高的r(≤M)个文件推荐给用户，从而降低用户与缓存文件之间的不透明度，r为正整数。因此，推荐文件集合

可以表示为

其中，P_pre(u，1：r)表示矩阵P_pre的第u行中最大的r个元素。

令

表示用户u的缓存文件集合，在本发明的缓存方案中，为了增大缓存命中率，各用户缓存请求概率最高的M个文件，且用户均缓存完整的文件，即

其中P_act(u，1：M)表示矩阵P_act中第u行中最大的M个元素。

由上可见，

是缓存文件集合

的子集，即满足

u∈U，因此推荐能够通过提高被缓存内容的请求概率之和来提升系统的缓存命中率。

根据以上所建立的系统模型，本发明提出了基于推荐的编码多播方法请求响应流程如图3所示，具体执行过程如下：

步骤1：服务器根据用户历史请求数据和/或用户间社交关系数据获取用户流派喜好分布向量，并利用余弦相似度方法计算得出用户对各文件偏好分布P_pre。

步骤2：基于用户偏好分布P_pre，服务器生成个性化推荐方案，并将推荐文件集合

中的文件推荐给对应用户u。

步骤3：基于用户偏好分布P_act，服务器为每个用户u生成缓存文件集合

并在网络流量低谷期将缓存文件集合

中的文件推送至对应用户u，完成文件缓存。

步骤4：用户向服务器发送文件请求。

步骤5：服务器收到该时间窗内用户的请求，并初始化生成该时间窗内的请求向量

(这里假设所有用户均发出一个请求，实际系统下可能某时间窗内发出请求的用户数量小于K)和该时间窗的请求用户队列

步骤6：服务器结合已有的D₀、

数据搜索判定缓存命中的用户，并将这类用户移出

将其请求移出D₀。该步骤结束后，

D₀更新为

D₁。

步骤7：服务器检查是否存在同时被多个用户所请求的文件，即

f：|D₁|-|D₁/{f}|≥2

如果存在，服务器将请求同一文件的用户移出请求用户队列，并将对应文件以传统多播的方式发出，同时将其移出请求向量。

为方便进行过程描述，这里定义符号

和

为集合

的子集，其中

由

中仅出现过一次的元素组成，即

是由集合

中出现过的所有元素共同构成，但集合

中各元素仅出现一次，即：

定义：

①

②

因此本步骤可以简述为基于D₁得到

并且此步骤结束后，

D₁更新为

D₂。

此步骤中被传统多播的文件集合为：

步骤8：定义编码多播用户对为

即某两个缓存未命中自身请求的用户，均命中了对方的请求。此步骤中，服务器检查是否存在编码多播用户对，当检查到某个编码多播用户对时，服务器将该用户对中的用户移出用户队列

并将这两个用户对应的请求都移出请求向量D₂，即

这样可以避免后续对已经得到响应的用户进行重复搜索，造成不必要的计算复杂度和无效编码多播。各编码多播用户对中的受请求文件进行按位异或编码并多播，即

全部搜索结束后，

D₂更新为

D₃，即

D₃←D₂

步骤9：此时请求向量D_a中剩余请求文件以单播的方式发送给对应的请求用户，即单播{f：f∈D₃}。

接下介绍对本发明的上述实施例的系统仿真和性能验证，这一部分主要分两个方面，一是验证新方案相对于原有方案的算法复杂度大大降低，二是验证新方案的无线带宽需求相对于原有方案有进一步降低。

仿真参数设置。系统文件总数N＝40，用户总数K＝20，用户端存储空间M＝5，文件流派数量C＝4，以随机生成、归一化的方式产生数据集L_u和L_f。这里仿真时假设在一个时间窗内每个用户都发起且仅发起一次文件请求。特别说明，这里仿真将UPAF算法作为对比算法，同时也会对比采用推荐和不采用推荐时的结果，证明本发明所提算法相较于原有算法性能有提升，且推荐能够进一步提升性能。

算法复杂度测试结果如图4所示，其中Γ_RCC表示RCC算法理论搜索次数的上界，Γ_rcc表示RCC算法实际仿真时的搜索次数均值，Γ_upaf表示UPAF算法实际仿真时的搜索次数均值，由于UPAF算法用遍历的方式判定多播组，被搜索到的用户组中的用户不会即时移出待响应用户序列，因此实际搜索次数与理论搜索次数一定相等。而本发明的算法在执行过程中会即时移出缓存命中、传统多播、编码多播的用户，各步骤移出的用户数受数据集L_u和L_f的影响且影响着后续搜索次数，因此仿真时的总搜索量受数据集影响，实际值小于等于理论复杂度上限，但随着仿真次数的增加，均值趋于稳定。

文件传输率R测试结果如图5所示。文件传输率R是系统待传输码字总数对文件大小的归一化结果，R越大，意味着实际传输过程中的带宽需求越高。由于在本发明中推荐是一个相对独立的部分，因此测试文件传输率R时，对于不使用推荐的方法也进行了测试，并与UPAF进行比较，对UPAF的测试时也分别测试了使用推荐与不使用推荐两种方式，以方便与本发明对比。从图5可以看出，就文件传输率R来说，本发明优于UPAF，使用推荐优于不使用推荐。

为使本领域任何普通技术人员能够实现或者使用本公开内容，上面围绕本公开内容进行了描述。对于本领域普通技术人员来说，对本公开内容进行各种修改是显而易见的，并且，本文定义的通用原理也可以在不脱离本公开内容的精神或保护范围的基础上适用于其它变型。此外，除非另外说明，否则任何方面和/或实施例的所有部分或一部分可以与任何其它方面和/或实施例的所有部分或一部分一起使用。因此，本公开内容并不限于本文所描述的例子和设计方案，而是与本文公开的原理和新颖性特征的最广范围相一致。