CN115878841B

CN115878841B - 一种基于改进秃鹰搜索算法的短视频推荐方法及系统

Info

Publication number: CN115878841B
Application number: CN202310195468.XA
Authority: CN
Inventors: 赵学健; 陈昊; 孙知信; 孙哲; 曹亚东; 宫婧; 汪胡青; 胡冰; 徐玉华
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2023-05-16
Anticipated expiration: 2043-03-03
Also published as: CN115878841A

Abstract

本发明公开了一种基于改进秃鹰搜索算法的短视频推荐方法包括：记录采集用户行为历史、用户日志记录和其他交互内容；通过Flume和Kafka对采集的用户相关信息进行提取并预处理，获取用户的显性兴趣和潜在兴趣，结合静态子画像和行为子画像生成用户个性化画像；输入所述用户个性化画像，使用改进后的秃鹰搜索算法生成用户画像群组，最终获得更加准确的推荐方法；将所述推荐方法结合短视频数据，生成短视频推荐器，收集用户对被推荐短视频的评价反馈，进而对所述短视频推荐器进行优化。能够根据用户行为变化及时对用户当前浏览短视频的类型进行及时调整，推荐短视频信息快速，系统模块之间耦合度低，且推荐准确。

Description

一种基于改进秃鹰搜索算法的短视频推荐方法及系统

技术领域

本发明涉及短视频推荐领域，具体为一种基于改进秃鹰搜索算法的短视频推荐方法及系统。

背景技术

短视频在社会过程中的快速发展一方面得益于技术，另一方面社会环境也发挥着重要作用。互联网的快速发展聚集了大量的用户。用户不再满足于单调的图形信息。查看图形信息消耗用户的时间和注意力，图形信息的表达是单调的。短视频内容更加丰富形象，并使用音乐和动画给人一种更沉浸的感觉。

但是现有的短视频推荐方法仍存在缺陷：一方面现有的短视频推荐系统基本都是根据用户浏览历史记录进行短视频推荐，无法挖掘用户更加深层次的特征，进一步而言现在有的短视频推荐系统中存在的推荐的方法不够精确；

另一方面，现有的短视频推荐系统无法根据用户行为变化及时对用户当前浏览短视频的类型进行及时调整，导致推荐短视频存在信息滞后性、延时性的问题，无法满足用户的实时浏览需求，使得短视频推荐系统中短视频推荐水平受到影响。

现有技术对短视频上的推荐不够精确，有鉴于此，因此设计一个全面的、能够精确推荐、能挖掘用户潜在兴趣、模块之间耦合度低的短视频推荐方法和系统是很有必要的。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述存在的问题，提出了本发明。

因此，本发明解决的技术问题是：现有的短视频推荐系统无法根据用户行为变化及时对用户当前浏览短视频的类型进行及时调整，导致推荐短视频存在信息滞后性、延时性；无法挖掘用户更加深层次的特征，对短视频上的推荐不够精确。

为解决上述技术问题，本发明提供如下技术方案：一种基于改进秃鹰搜索算法的短视频推荐方法，包括：

记录采集用户行为历史、用户日志记录和其他交互内容；

通过Flume和Kafka对采集的用户相关信息进行提取并预处理，获取用户的显性兴趣和潜在兴趣，结合静态子画像和行为子画像生成用户个性化画像；

输入所述用户个性化画像，使用改进后的秃鹰搜索算法生成用户画像群组，最终获得更加准确的推荐方法；

将所述推荐方法结合短视频数据，生成短视频推荐器，收集用户对被推荐短视频的评价反馈，进而对所述短视频推荐器进行优化。

作为本发明所述的基于改进秃鹰搜索算法的短视频推荐方法的一种优选方案，其中：所述用户行为历史包括用户基本信息、短视频数据、时间位置和用户浏览历史，所述用户基本信息来自用户注册以及相关平台系统中的信息完善功能，所述短视频数据通过公开的数据集或通过自行抓取的方式获取，所述时间位置由设备时间、GPS 获取，所述用户浏览历史从系统的cookies相关日志中获取。

作为本发明所述的基于改进秃鹰搜索算法的短视频推荐方法的一种优选方案，其中：所述预处理包括浅层处理和深层处理，

所述浅层处理利用用户直观数据，进行等级化表示、自行规定评分、阈值比对和分布式表示得到量化的结果，所述深层处理针对用户复杂数据，利用相关主题获取或挖掘技术，得到可扩展的数据特征或表示。

作为本发明所述的基于改进秃鹰搜索算法的短视频推荐方法的一种优选方案，其中：所述显性兴趣通过用户在注册或日常使用APP时进行添加的信息喜好分类来确定，或者是通过文本挖掘用户在评论区和搜索框中的关键词进行语义识别并归类；

所述潜在兴趣通过在短视频平台的操作行为简单归为浏览、点赞、评论、分享和搜索五种进行收集，采取加权赋值的方法，当赋予的某一标签的累计加权数值达到一定的阈值，系统就给该用户生成相对应标签。

作为本发明所述的基于改进秃鹰搜索算法的短视频推荐方法的一种优选方案，其中：所述秃鹰搜索算法的改进包括选择阶段的改进、搜索阶段位置的改进和俯冲阶段的改进；

所述选择阶段的改进包括，将樽海鞘算法中樽海鞘距离食物的距离考虑进去对秃鹰搜索阶段的公式进行改进，改进后的公式为：

；

其中，是控制位置变化的参数，r是[0，1]之间的一个随机数，是当前最优位置，表示利用前面所有点的信息，为第i只秃鹰的位置，表示第j维度的秃鹰全局距离食物的最优位置，为秃鹰的更新位置，是(0，1)之间的一个随机数。

作为本发明所述的基于改进秃鹰搜索算法的短视频推荐方法的一种优选方案，其中：所述搜索阶段位置的改进包括，对种群进行分类后，将樽海鞘算法的局部搜索能力的精确性与秃鹰搜索算法的全局搜索相结合；

搜索的最佳位置的公式表示为：

；

其中，与分别为螺旋方程的极角与极径， a与R是控制螺旋轨迹的参数，rand为(0，1)内随机数，和表示极坐标中秃鹰位置，和表示当前种群最佳的秃鹰位置，与表示最终极坐标中秃鹰位置，表示秃鹰下一个的位置；

改进后的领导鹰位置更新公式为：；

改进后的追随鹰位置更新公式为：；

作为本发明所述的基于改进秃鹰搜索算法的短视频推荐方法的一种优选方案，其中：所述更新参数与粒子位置，表示为：

在改进秃鹰搜索算法中采用非线性惯性权重因子，定义非线性惯性权重为：

；

其中，t为迭代次数，为最大迭代次数，exp为以自然常数e为底的指数函数；

改进后的领导鹰位置更新公式为：

；

改进后的追随鹰位置更新公式为：

；

其中，表示第一个樽海鞘的第j+1个维度，表示第i个樽海鞘的第j+1个维度；

通过添加自适应的惯性权重不断对领导鹰和追随鹰的位置更新，进而在解的搜索空间中不断计算新的适应度值并与旧的适应度值比较，每次迭代比较取最优的适应度值。

作为本发明所述的基于改进秃鹰搜索算法的短视频推荐方法的一种优选方案，其中：所述俯冲阶段的改进包括，

秃鹰从搜索空间的最佳位置快速俯冲飞向目标猎物，种群其他个体也同时向最佳位置移动并攻击猎物，运动状态仍用极坐标方程描述，公式表示为：

；

其中，表示第i次迭代中的t时刻总功耗，表示迭代精度；

俯冲中秃鹰位置更新公式为:；

；

为秃鹰的更新位置，是秃鹰种群搜寻选择的最优位置，、分别表示秃鹰向最佳位置与中心位置的运动强度，表示为秃鹰在极坐标中 x(i)方向上俯冲更新的位置，表示为秃鹰在 y(i)方向上俯冲更新的位置；

；

其中，为当前个体的函数适应度值，为均值，为最小值，为ω的最小值，为ω的最大值；

改进后的秃鹰俯冲阶段公式为：。

作为本发明所述的基于改进秃鹰搜索算法的短视频推荐方法的一种优选方案，其中：改进后的所述秃鹰搜索算法步骤包括，

确定聚类中心，随机选择初始化c个聚类中心，完成聚类中心初始化后，将其编码成秃鹰搜索算法中秃鹰个体的位置，生成最佳个体位置；

采用改进的秃鹰搜索算法对用户画像集合进行寻优，生成最佳秃鹰位置，把改进的秃鹰搜索算法输出的最佳位置作为模糊C均值聚类算法在进行初始聚类时的中心点，模糊C均值算法对用户画像集合进行聚类，输出最终的隶属度矩阵和聚类中心。

本发明还提供如下技术方案：一种基于改进秃鹰搜索算法的短视频推荐系统，包括：

展示模块，由PC端、手机端途径的短视频显示设备组成，用于记录用户行为历史、用户日志记录和其他交互内容，通过短视频显示设备将其输出到准备模块，并通过推荐生成的短视频显示给用户，并生成用户反馈；

准备模块，用于收集所述展示模块传递来的用户相关采集信息、用户在相关网站产生的用户行为日志和短视频源采集的短视频数据，并将这些信息源进行合并输入到用户兴趣获取模块；

用户兴趣获取模块，用于对准备模块传来的用户相关信息进行提取并预处理；

用户画像生成模块，用于生成用户个性化画像；

个性化推荐模块，用于生成用户画像群组，为目标用户生成最近邻集合，并为目标用户产生项目预测评分，产生更加准确的推荐方法。

本发明的有益效果：本发明在秃鹰搜索算法思想基础上，使用樽海鞘算法对该算法进行改进，并将其应用于模糊C均值聚类算法中，结合用户画像来生成推荐方法，以此来提升短视频推荐系统的准确率。能够根据用户行为变化及时对用户当前浏览短视频的类型进行及时调整，推荐短视频信息快速，能够挖掘用户更加深层次的特征，系统模块之间耦合度低，且推荐准确。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明一个实施例提供的一种基于改进秃鹰搜索算法的短视频推荐方法的基于用户画像的改进秃鹰搜索算法的模糊C均值聚类推荐算法流程图；

图2为本发明第一个实施例提供的一种基于改进秃鹰搜索算法的短视频推荐方法的改进流程图；

图3为本发明第一个实施例提供的一种基于改进秃鹰搜索算法的短视频推荐方法的对基于改进秃鹰搜索算法的模糊C均值聚类算法流程图；

图4为本发明第一个实施例提供的一种基于改进秃鹰搜索算法的短视频推荐系统的结构示意图；

图5为本发明第一个实施例提供的一种基于改进秃鹰搜索算法的短视频推荐系统的模块功能说明示意图；

图6为本发明第二个实施例提供的一种基于改进秃鹰搜索算法的短视频推荐方法的三种算法的 MAE对比分析图；

图7为本发明第二个实施例提供的一种基于改进秃鹰搜索算法的短视频推荐方法的三种算法的 Precision对比分析图；

图8为本发明第二个实施例提供的一种基于改进秃鹰搜索算法的短视频推荐方法的三种算法的 Recall对比分析图；

图9为本发明第二个实施例提供的一种基于改进秃鹰搜索算法的短视频推荐方法的三种算法的对比分析图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1-5，为本发明的一个实施例，提供了一种基于改进秃鹰搜索算法的短视频推荐方法，包括：

S1：记录采集用户行为历史、用户日志记录和其他交互内容；

更进一步的，个性化短视频推荐系统需要采集的相关数据主要包括用户基本信息、短视频数据、时间位置等上下文信息、用户评论等交互行为信息、用户浏览历史等信息，其中用户基本信息主要来自用户注册以及相关平台系统中的信息完善功能。短视频数据可以通过一些公司机构公开的数据集获取，也可以通过自行抓取的方式获取，时间位置等上下文信息由设备时间、GPS 等获取，用户评论等交互信息以及用户浏览历史等需要从系统的cookies等相关日志中获取。

需要说明的是，上述数据采集阶段获取的数据可能存在数据噪声、数据缺失等情况，对用户兴趣获取以及后续的推荐过程的效果产生影响。因此，为了规范短视频推荐系统的输入数据，需要进一步对获取的数据进行预处理，例如计算、量化等。

更进一步的，根据数据处理的复杂程度和处理结果的直观程度，分为浅层处理和深层处理。浅层处理多利用用户直观数据，通过相对简单的标准和方法，得到量化程度较高的结果。例如，根据用户对短视频的行为模式(搜索﹑浏览等)，对用户的兴趣进行等级化(1～5级)表示，或者自行规定对项目的评分，缓解数据缺失影响；对用户浏览历史进行分布式表示，进而得到用户的向量表示；通过与设定的阈值进行比较，达到筛选数据噪声的目的；为不同的时间段设置不同的量化值进行区分，例如将工作日和休息日赋予不同的值进行表示；将数据集中的旧状态整合为单个历史状态，保留有限数量的最新状态等。另外，为了能够对研究成果有一个全面的评价，可以改变数据集的划分标准，例如修改用于筛选数据集的阈值，或者修改训练集与测试集的划分比例等。

应说明的是，上述内容通过对浅层方式进行数据处理或扩展，对推荐过程的帮助有限，难以应对复杂场景，需要考虑对数据进行深度处理，而深层处理多针对用户复杂数据，利用相关挖掘或获取技术，得到潜在的可扩展的数据特征或表示等。例如，使用主题获取或挖掘技术，将用户历史发文、转发等行为映射到潜在主题空间当中，帮助获取用户兴趣；根据点击等行为数据和短视频信息，参数化潜在空间通过用户对投放短视频的评论和反馈，获取关键词，并分析用户对相关主题的态度；通过处理数据，得到用户的情感数据等。

S2：通过Flume和Kafka对采集的用户相关信息进行提取并预处理，获取用户的显性兴趣和潜在兴趣，结合静态子画像和行为子画像生成用户个性化画像；

更进一步的，Flume是一个大规模日志采集、聚合和传输的系统，能够将数据送往制定接收方，而Kafka是一种提供发布式发布和消息订阅队列的服务，然后利用用户兴趣获取技术对传递来的用户相关采集信息、用户在相关网站产生的用户行为日志和短视频源采集的短视频数据进行处理从而获取用户的显性兴趣和潜在兴趣，将显性兴趣和潜在兴趣通过相加方式生成用户兴趣子画像。

应说明的是，用户的显性兴趣是指较容易被系统捕捉用户表现出来的兴趣。显性兴趣一般可以通过用户在注册或日常使用APP时进行添加的信息喜好分类来确定，或者是通过文本挖掘用户在评论区和搜索框中的关键词进行语义识别并归类；

而用户的潜在兴趣是指系统需要经过对用户行为数据进行收集和处理之后分析出来的用户的兴趣。用户潜在兴趣标签的构建更需要系统对用户行为的细致分析。用户在短视频平台的操作行为可以简单归为浏览、点赞、评论、分享和搜索五种。系统在分析用户行为的时候主要收集这五类行为数据信息，可以采取加权赋值的方法，当赋予的某一标签的累计加权数值越高达到一定的阈值K，系统就应给该用户生成相对应标签。

更进一步的，浏览行为是用户在短视频平台上最基础、最广泛的操作。用户在对浏览行为进行分析时，需要注重浏览行为的几个数据方面，比如浏览次数、时长等。浏览的循环播放次数越多、浏览时间越长，系统对应的赋值就越高。点赞行为是用户对所浏览到的视频的一种认可行为，也应当进行赋值。同时，系统应当对用户的点赞视频进行归纳分析，生成相对应的标签。另外，用户取消点赞的行为的权重要设为负值，视为用户对某一类视频信息的兴趣开始衰减。评论行为是用户在平台的一种社交行为，通过用文字或表情来表达对该视频的看法以及和其他平台用户的沟通交流。系统在分析用户评论行为时，需要着重分析用户的评论内容，通过对文字和表情的语义分析来判断用户对该视频的情感，值得注意的是高兴和愤怒的情感都应当被赋予为高数值，从而得到一个整体的潜在兴趣用户画像。随后聚合各个用户和项目的固有特性，进一步细化用户画像。

更进一步的，用户画像由静态子画像、兴趣子画像和行为子画像合成表示用户画像。

静态子画像由人口统计学方面决定，其中包括用户性别、出生日期、地址、学历、职业等个人信息。

兴趣子画像由步骤C中显性兴趣和潜在兴趣组成。

行为子画像由用户对短视频的评分均值和用户对短视频评论时的情感均值决定；

由于用户的性格特征不同，相同的打分值代表的用户对于产品的态度也存在一定区别。所以，单一的使用用户评分反映用户对于短视频所表现出的情感状况不能很好的反映出用户更深层次的情感差异。因此，此处将同时考虑用户评分sc和用户评论情感值se作为用户反馈属性的指标。其反馈值计算公式为:，0<<1；

用户评分sc是指单个用户所有评分的均值，即:

；

其中表示用户评分过的短视频数量。

用户情感值se是指单个用户所有评论的情感值均值，由于用户发表的评论数量不一致，因此，需将评论整体情感与评论数量相除后得到用户情感值。即:

；

其中表示用户评论过的短视频数量。

S3：输入用户个性化画像，使用改进后的秃鹰搜索算法生成用户画像群组，最终获得更加准确的推荐方法；

针对秃鹰搜索算法存在的收敛速度较慢、收敛精度较低和容易陷入局部最优的不足，提出一种改进的秃鹰搜索算法。模糊C均值聚类同样存在收敛速度快、收敛精度低、聚类性能较低的问题，将改进后的秃鹰搜索算法应用于模糊C均值聚类中改善其问题。

（1）增加种群初始化阶段

秃鹰搜索算法只有选择、搜索、俯冲三个阶段，没有考虑一开始的种群初始化阶段，秃鹰搜索算法采用随机法初始化种群，使得秃鹰个体在搜索空间内分布不均匀，从而导致算法在解空间的遍历性低，降低收敛速度和求解精度。将樽海鞘的初始化阶段引入到秃鹰搜索算法中，提高算法的收敛速度并提升算法在全局范围内的寻优能力，而更好的起始数据更有利于提升算法的搜索表现。

；

其中，X是一个n * d的矩阵(n代表种群规模，即有多少个候选解；d代表问题的维度)，ub表示问题的上界，lb表示问题的下界，rand表示随机生成的一个0到1的随机数。

在n维的搜索空间中，将每一只秃鹰的位置定义为x，n即为优化问题中决策变量的个数，d为秃鹰整个种群的数量。

（2）增加种群分类

对于初始化中秃鹰种群，在搜索空间内初始化的种群具有随机性，针对所有个体进行最优搜索，在此单一种群中进行求解，容易使算法初始收敛速度慢，且容易陷入局部最优。因此将樽海鞘中的领导者和追随者思想对秃鹰种群进行分类，将种群按照适应度进行排序，适应度种群前一半的秃鹰定义为领导鹰，适应度种群后一半的是追随鹰。

（3）秃鹰搜索算法选择阶段的改进

在秃鹰搜索算法的选择阶段，秃鹰是根据食物的数量来在搜索空间中识别和选择最佳的区域，并没有考虑到秃鹰距离食物的位置，将樽海鞘算法中樽海鞘距离食物的距离考虑进去对秃鹰搜索阶段的公式进行改进，改进后的公式为：

；

这里是控制位置变化的参数，取值在[1.5，2]之间。r是[0，1]之间的一个随机数，是当前最优位置，表示利用前面所有点的信息，为第i只秃鹰的位置，表示第j维度的秃鹰全局距离食物的最优位置，为秃鹰的更新位置，是(0，1)之间的一个随机数。

(4)秃鹰搜索算法在搜索阶段位置的改进

对种群进行分类后，将樽海鞘算法的局部搜索能力的精确性与秃鹰搜索算法的全局搜索相结合，提高了算法整体的收敛能力

樽海鞘领导者更新公式：

；

其中，j表示问题的维度，表示第一个樽海鞘的第j个维度，表示第j维度的全局最优位置（食物的位置)，是一个随着算法迭代逐渐变小的值(动态更新步长)，t表示当前迭代次数，T表示最大迭代次数；是一个0~1的随数，也是一个0~1的随机数，用于控制领导者的在两种更新方式中进行选择。

樽海鞘追随者更新公式：；

这个公式表示，跟随者樽海鞘会向自己前一个樽海鞘移动，移动的距离是自己到对方距离的一半。

在搜索阶段，秃鹰在选定的搜索空间内搜索猎物，并在螺旋形空间内以不同的方向移动，以加快搜索速度。搜索的最佳位置的公式为：

；

其中，与分别为螺旋方程的极角与极径， a与R是控制螺旋轨迹的参数，rand为(0，1)内随机数，变化范围分别为(5，10)、(0.5，2)，和表示极坐标中秃鹰位置，考虑到秃鹰的搜索点都在向中心点移动所以对秃鹰位置进行处理，和表示当前种群最佳的秃鹰位置，与表示最终极坐标中秃鹰位置，表示秃鹰下一个的位置。

改进后的领导鹰位置更新公式为：；

改进后的追随鹰位置更新公式为：；

(5)惯性权重因子对解的搜索精度和收敛次数有着良好的指导性作用，较大的惯性权重因子有良好的全局搜索能力，较小的惯性权重开发能力较强。因此，在改进秃鹰搜索算法中采用一种非线性惯性权重因子，使秃鹰个体在迭代初期惯性权重缓慢减小使秃鹰个体有很好的全局搜索能力，更快达到一定的收敛精度；在迭代后期，其解容易陷入局部最优，此时较小惯性权重能够有较好的局部搜索能力使之达到最优解。这里，定义非线性惯性权重为：

；

其中：t为迭代次数，为最大迭代次数；

改进后的领导鹰位置更新公式为：

；

改进后的追随鹰位置更新公式为：

；

其中，表示第一个樽海鞘的第j+1个维度，表示第i个樽海鞘的第j+1个维度，通过添加自适应的惯性权重不断对领导鹰和追随鹰的位置更新，使得在解的搜索空间中不断计算新的适应度值与旧的适应度值比较，每次迭代比较取最优的适应度值。

（6）为了提升秃鹰在俯冲阶段的性能，使用速度权重因子对其在俯冲阶段进行改进。

秃鹰从搜索空间的最佳位置快速俯冲飞向目标猎物，种群其他个体也同时向最佳位置移动并攻击猎物，运动状态仍用极坐标方程描述，如下：

；

改进后的秃鹰俯冲阶段公式为：。

（7）近距离搜索更新秃鹰种群

基本的秃鹰搜索算法是在原有种群的位置上进行位置更新，种群数量没有变化，参考一些智能算法，比如遗传算法，在迭代期间产生超过种群规模的个体，并通过选择操作维持原有种群规模。这将有效提高种群的多样性和算法的全局搜索能力。近距离搜索算子模拟自然界中种群繁殖的随机性，其中种群大小在一定间隔内变化。由于搜索接近原始位置，而搜索移动范围为为整个种群上限和下限之间差值的五分之一。而每个位置生成的新个体的数量与其适应度值相关，适应度值越高，生成的新解决方案越多。从单个解决方案生成的新解决方案的数量范围指定为至少一个。并对新生成的位置进行校正，以确保其不超过指定范围。对于由原始种群和新生成的个体组成的临时种群，保留当前最优位置，并选择剩余部分进行选择操作。选拔操作采用竞争方式，随机选择两个位置进行适合度值比较，留下更好的个体。而比较优劣的方式，需要考虑该个体适应度值大小，还需要考虑与其它个体的距离远近，离其它位置越远，则该位置的选择价值越大，这样可以很好的保持种群多样性。距离计算公式如下:

；

式中表示第i只秃鹰与其它秃鹰距离平方和，Sum_D表示所有距离平方和之和。N表示新秃鹰种群个数，表示第i位秃鹰被选中概率，表示第i只秃鹰，表示剩余的秃鹰。如果适应度值越大越优，就将与适应度值相乘，否则将适应度值除以，得到的值为新的适应度值，作为比较两只秃鹰位置优劣的标准。

近距离搜索算子对秃鹰种群的局部搜索能力有很大的补充。在迭代过程中，生成更多可能的解，根据秃鹰个体的不同适应度值生成不同数量的新秃鹰个体，这有助于在更好的秃鹰个体附近进行更多的尝试。最终秃鹰种群的选择是综合考虑适应度值和种群多样性的结果，秃鹰种群的搜索精度和全局搜索能力得到了很好的平衡。

基于改进秃鹰搜索算法的模糊C均值聚类算法的基本思想:确定聚类中心。随机选择初始化c个聚类中心，完成聚类中心初始化后，将其编码成秃鹰搜索算法中秃鹰个体的位置，生成最佳个体位置。

采用改进的秃鹰搜索算法对用户画像集合进行寻优，生成最佳秃鹰位置，把改进的秃鹰搜索算法输出的最佳位置作为模糊C均值聚类算法在进行初始聚类时的中心点，然后模糊C均值算法对用户画像集合进行聚类，输出最终的隶属度矩阵和聚类中心。

将改进后的秃鹰搜索算法应用于模糊C均值聚类当中，步骤具体包括：

步骤1-1：对原始数据进行预处理，随后构建用户画像集，并对其进行归一化处理。

步骤1-2：初始化FCM算法参数，包括迭代时的最小阈值E、聚类中心个数c、以及最大迭代次数T等；

步骤1-3：使用樽海鞘算法初始化秃鹰种群数并定义相关参数；

步骤1-4：初始化种群，计算秃鹰种群中每个秃鹰个体位置，及其对应的适应度值f，根据适应度值生成领导鹰和跟随鹰秃鹰种群位置，适应度在前N/2的秃鹰分为领导鹰，其余分为追随鹰。

步骤1-5：根据改进后的选择空间公式选取领导鹰和追随鹰的搜索空间；

步骤1-6：使用改进后的公式进行领导鹰和追随鹰的空间搜索；

步骤1-7：在规定空间内螺旋飞行搜索食物位置，根据改进后的秃鹰位置公式不断更新秃鹰位置及其新适应度值f；

步骤1-8：比较领导鹰和追随鹰的适应度值，选择适应度值最高的秃鹰；

步骤1-9：获取最佳位置并根据速度权重因子改进后的俯冲方式获取猎物；

步骤1-10：使用近距离搜索更新秃鹰种群；

步骤1-11：寻找到最优位置，并获取该位置的最佳适应度；

步骤1-12：判断算法是否满足迭代停止条件，若是，则迭代结束；否则返回步骤1-5；

步骤1-13：更新隶属度矩阵；

步骤1-14：更新聚类中心；

步骤1-15：计算两个相邻的聚类中心之间的距离，并判断是否满足迭代的停止条件。迭代停止的条件包括(1)迭代次数也达到设定的最大值；(2)两个聚类中心的距离小于设定的阈值。如果满足条件就停止迭代，输出聚类结果；反之跳转至步骤1-13。

S4：将推荐方法结合短视频数据，生成短视频推荐器，收集用户对被推荐短视频的评价反馈，进而对短视频推荐器进行优化。

反馈模块用于衡量个性化短视频推荐系统的性能并直观反映其中存在的优势和不足，是个性化短视频推荐过程中不可缺少的环节。

该部分一方面使用Precision、Recall等指标进行准确性的评价。当准确性评价不能满足要求，可以使用MAE、MSE、RMSE等指标进行反馈当前短视频推荐的准确性。

另一方面，反馈模块收集用户对被推荐短视频的评价反馈，而反馈包含查看用户是否对推荐的短视频产生正向反馈和负向反馈，正向反馈包含用户对该短视频的点赞、收藏、转发等，而负向反馈包含用户对推荐的短视频不喜欢或者观看时间短来衡量，从而达到提升短视频推荐器性能并且根据用户的及时反馈对短视频推荐器进行优化从而达到精准推荐的目的。

本发明还提供一种基于改进秃鹰搜索算法的短视频推荐系统，包括：

准备模块，用于收集展示模块传递来的用户相关采集信息、用户在相关网站产生的用户行为日志和短视频源采集的短视频数据，并将这些信息源进行合并输入到用户兴趣获取模块；

用户画像生成模块，用于生成用户个性化画像；

展示模块由PC端、手机端等途径的短视频显示设备组成，一方面，它记录用户行为历史、用户日志记录和其他交互内容，通过短视频显示设备将其输出到准备模块，另一方面，通过推荐生成的短视频显示给用户，并生成用户反馈；

准备模块负责收集展示模块传递来的用户相关采集信息、用户在相关网站产生的用户行为日志和短视频源采集的短视频数据等相关信息，并这些信息源进行合并并输入到用户兴趣获取模块；

用户兴趣获取模块通过Flume和Kafka对准备模块传来的用户相关信息进行提取并预处理；

用户画像生成模块根据生成的用户兴趣子画像，结合静态子画像和行为子画像生成用户个性化画像，静态子画像由人口统计学方面决定，其中包括用户性别、出生日期、地址、学历、职业等个人信息，行为子画像由用户对短视频的评分均值和用户对短视频评论时的情感均值决定；

个性化推荐模块主要利用包含樽海鞘算法的混合策略方法对秃鹰搜索算法的选择、搜索、俯冲三个阶段进行改进，并且利用改进秃鹰搜索算法对模糊C均值聚类算法进行改进，结合生成的用户画像生成用户画像群组，为目标用户生成最近邻集合，并为目标用户产生项目预测评分，产生更加准确推荐方法；

将推荐方法结合准备模块传来的短视频数据,生成短视频推荐器，利用短视频推荐器为用户推送产生的推荐短视频，

反馈模块，该部分一方面使用Precision、Recall等指标进行准确性的评价。当准确性评价不能满足要求，可以使用MAE、MSE、RMSE、进行反馈当前短视频推荐的准确性。另一方面，反馈模块收集用户对被推荐短视频的评价反馈,而反馈包含查看用户是否对推荐的短视频产生正向反馈和负向反馈，正向反馈包含用户对该短视频的点赞、收藏、转发等，而负向反馈包含用户对推荐的短视频不喜欢或者观看时间短来衡量，从而达到提升短视频推荐器性能并且根据用户的及时反馈对短视频推荐器进行优化从而达到精准推荐的目的。

实施例2

参照图6-9，为本发明的一个实施例，提供了一种基于改进秃鹰搜索算法的短视频推荐方法，为了验证本发明的有益效果，通过经济效益计算和仿真实验进行科学论证。

为了评价本发明所提供的的基于改进秃鹰搜索算法的模糊C均值聚类推荐算法能有效提升推荐效果，接下来将采用平均绝对误差（MAE）、准确率（Precision）、召回率（Recall）以及四个指标对算法的性能进行分析。

常见的用户相似度计算方法有Jaccard相似度、余弦相似度、Pearson相关系数、修正的余弦相似度等。由于余弦相似度在用户评分数据稀缺时有很好的效果，因此本文使用余弦相似度计算用户u、v的相似度，如式所示:

；

其中，、分别代表用户u、v对项目c的评分，若用户未对目标项目评分则认为评分值为0。

如图6，MAE是衡量预测评分的准确性的重要指标，可以通过计算系统对项目的预测评分和用户对项目的真实评分之间的平均绝对误差得出。MAE越小，则表示系统对项目的预测评分与用户的真实评分之间差距越小，因此算法精度也就越高。MAE的大小可以通过公式进行计算：

；

其中，表示用户u对项目i的系统预测评分，则表示用户u对项目i的真实评分，n则表示用户u所评分的项目的数量。

如图7，准确率Precision用来衡量推荐算法产生的推荐结果的准确程度，Precision的值越大，说明算法的推荐精度越高。Precision可以通过公式进行计算：

；

如图8，召回率Re call是表示推荐算法对系统中用户实际感兴趣的项目被推荐的概率，Re call的值越大，说明算法的推荐精度越高。其值可以通过如下公式进行计算：

；

其中， U表示所有项目的集合， R(u)表示系统根据分析训练集的数据给用户 u生成的推荐列表， T(u)则表示用户 u在测试集中真实喜爱的项目集合。

但在某些情况下会出现Precision和Re call两种评价指标冲突的情况，此时就无法衡量哪一种算法更为有效。如图9，也是推荐领域常用的一种评价标准，其计算方法如公式所示：

；

本实施例实验采用MovieLens 1M数据集。该数据集含有来自4000名用户对2000部电影的50万条评分数据，分为评分、用户信息和电影信息三个数据库表。本实验把80%的数据作为训练数据，20%的数据作为测试数据。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于改进秃鹰搜索算法的短视频推荐方法，其特征在于，包括：

记录采集用户行为历史、用户日志记录和其他交互内容；

所述秃鹰搜索算法的改进包括选择阶段的改进、搜索阶段位置的改进和俯冲阶段的改进；

P_i,new＝P_best+α*r*β(P_mean-P_i)+(1-β)*F_j

其中，α是控制位置变化的参数，r是[0，1]之间的一个随机数，P_best是当前最优位置，P_mean表示利用前面所有点的信息，P_i为第i只秃鹰的位置，F_j表示第j维度的秃鹰全局距离食物的最优位置，P_i,new为秃鹰的更新位置，β是(0，1)之间的一个随机数；

所述搜索阶段位置的改进包括，对种群进行分类后，将樽海鞘算法的局部搜索能力的精确性与秃鹰搜索算法的全局搜索相结合；

搜索的最佳位置的公式表示为：

P_i,new＝P_i+y(i)*(P_i-P_i+1)*x(i)*(P_i-P_mean)

x_r(i)＝r(i)*sin(θ(i)) y_r(i)＝r(i)*cos(θ(i))

θ(i)＝a*π*rand,r(i)＝θ(i)+R*rand

其中，θ(i)与r(i)分别为螺旋方程的极角与极径，a与R是控制螺旋轨迹的参数，rand为(0，1)内随机数，x_r(i)和y_r(i)表示极坐标中秃鹰位置，max(|x_r|)和max(|y_r|)表示当前种群最佳的秃鹰位置，x(i)与y(i)表示最终极坐标中秃鹰位置，P_i+1表示秃鹰下一个的位置；

改进后的领导鹰位置更新公式为：

改进后的追随鹰位置更新公式为：

其中，

表示第一个樽海鞘的第j+1个维度，

表示第i个樽海鞘的第j+1个维度；

其中，t为迭代次数，T_max为最大迭代次数，exp为以自然常数e为底的指数函数；

改进后的领导鹰位置更新公式为：

改进后的追随鹰位置更新公式为：

其中，

表示第一个樽海鞘的第j+1个维度，

表示第i个樽海鞘的第j+1个维度；

通过添加自适应的惯性权重不断对领导鹰和追随鹰的位置更新，进而在解的搜索空间中不断计算新的适应度值并与旧的适应度值比较，每次迭代比较取最优的适应度值；

所述俯冲阶段的改进包括，秃鹰从搜索空间的最佳位置快速俯冲飞向目标猎物，种群其他个体也同时向最佳位置移动并攻击猎物，运动状态仍用极坐标方程描述，公式表示为：

θ(i)＝a*π*rand r(i)＝θ(i)

x_r(i)＝r(i)*sinh(θ(i)) y_r(i)＝r(i)*cosh(θ(i))

x(i)＝x_r(i)/max(|x_r|) y(i)＝y_r(i)/max(|y_r|)

俯冲中秃鹰位置更新公式为:

P_i,new＝rand*P_best+δ_x+δ_y

P_i,new为秃鹰的更新位置，P_best是秃鹰种群搜寻选择的最优位置，c₁、c₂分别表示秃鹰向最佳位置与中心位置的运动强度，δ_x表示为秃鹰在极坐标中x(i)方向上俯冲更新的位置，δ_y表示为秃鹰在y(i)方向上俯冲更新的位置；

其中，F_i为当前个体的函数适应度值，F_avg为F_i均值，F_min为F_i最小值，ω_min为ω的最小值，ω_max为ω的最大值；

改进后的秃鹰俯冲阶段公式为：P_i,new＝rand*P_best*ω+δ_x+δ_y；

改进后的所述秃鹰搜索算法步骤包括，确定聚类中心，随机选择初始化c个聚类中心，完成聚类中心初始化后，将其编码成秃鹰搜索算法中秃鹰个体的位置，生成最佳个体位置；

采用改进的秃鹰搜索算法对用户画像集合U＝{u₁,u₂,...,u_m}进行寻优，生成最佳秃鹰位置，把改进的秃鹰搜索算法输出的最佳位置作为模糊C均值聚类算法在进行初始聚类时的中心点，模糊C均值算法对用户画像集合进行聚类，输出最终的隶属度矩阵和聚类中心；

2.如权利要求1所述的基于改进秃鹰搜索算法的短视频推荐方法，其特征在于：所述用户行为历史包括用户基本信息、短视频数据、时间位置和用户浏览历史，所述用户基本信息来自用户注册以及相关平台系统中的信息完善功能，所述短视频数据通过公开的数据集或通过自行抓取的方式获取，所述时间位置由设备时间、GPS获取，所述用户浏览历史从系统的cookies相关日志中获取。

3.如权利要求2所述的基于改进秃鹰搜索算法的短视频推荐方法，其特征在于：所述预处理包括浅层处理和深层处理，

4.如权利要求1～3任一所述的基于改进秃鹰搜索算法的短视频推荐方法，其特征在于：所述显性兴趣通过用户在注册或日常使用APP时进行添加的信息喜好分类来确定，或者是通过文本挖掘用户在评论区和搜索框中的关键词进行语义识别并归类；

5.一种实现如权利要求1～4任一所述基于改进秃鹰搜索算法的短视频推荐方法的系统，其特征在于，包括：

用户画像生成模块，用于生成用户个性化画像；