CN108833933A

CN108833933A - 一种使用支持向量机推荐视频流量的方法及系统

Info

Publication number: CN108833933A
Application number: CN201810615634.6A
Authority: CN
Inventors: 刘宇
Original assignee: Guangdong Interoperability Broadband Network Service Co Ltd
Current assignee: Guangdong Interoperability Broadband Network Service Co Ltd
Priority date: 2018-06-14
Filing date: 2018-06-14
Publication date: 2018-11-16

Abstract

本发明公开了一种使用支持向量机推荐视频流量的方法及系统，其方法包括：基于爬虫技术获取各用户端的视频属性数据；基于分词技术对所述视频属性数据进行数据整理和加工；基于支持向量机对数据整理和加工后的视频属性数据预测用户所喜好的视频对象；基于视频流量策略将用户所喜好的视频对象发送至用户端的缓存单元。通过实施本发明提供的方法及系统，实现对用户端所需要的视频数据推送，可为用户的访问加速，并节约了本地网络对外的带宽流量。

Description

一种使用支持向量机推荐视频流量的方法及系统

技术领域

本发明涉及计算机技术领域，具体涉及一种使用支持向量机推荐视频流量的方法及系统。

背景技术

随着计算机软件、互联网、数据存储技术的发展，计算机子学科与技术之间的联系越来越紧密。当今的计算机软件凭借互联网的优势，积累了大量数据，而高级数据库技术日趋成熟，支持大量数据的存储，支持高效的检索数据和处理数据。这为人工智能的分支—机器学习打下基础。机器学习通过统计大量累积的数据而找到某些潜在的规则或方法，大规模地应用于计算机各种数据挖掘领域，如购物行为分析、社交行为分析、金融数据分析等等。当一个应用领域积累到足够的数据时，就通过机器学习的智能技术与之相结合，可优化这一领域的行为。

由于资源的限制，现代人们访问互联网的方式很多都不是直接以公网IP的方式访问。局域网、校园网、驻地网(驻地网是架设在电信运营商和用户之间的一层网络，具备机房、布线、监控设备等设施，通过向电信运营商租赁带宽，通过ADSL，LAN等方式让用户接入互联网)等是典型的架设在用户与互联网之间的桥梁。在高峰时期，用户访问互联网流量增加，往往会对出口网络造成压力，典型的是大文件下载、视频语音的通讯都会造成巨大的压力。目前有些中间网络层一般有智能流量缓存系统，当用户访问某一个大容量资源达到一定次数的时候，就会自动缓存在本地机房的存储设备中，下次再访问这个资源的时候，就会从本地存储中直接返回给用户，无需再到外部网络下载。

目前的智能缓存产品通过用户的访问次数判断这个视频是否需要缓存，是一种先访问后缓存的方式，能缓解了高峰期的网络压力。如果是能够在用户未访问该资源之前就已经有缓存了，即先缓存后访问，可进一步缓解网络压力。但是目前的产品尚未把机器学习的模型应用于智能缓存中。它们基本上都是主要是先访问后缓存，在用户没有任何访问视频次数的前提下，是不会对未知的资源进行智能缓存的，是被动式的智能缓存。在智能缓存领域中使用机器学习预测未来的访问缓存，目前尚没有较好的实现。

机器学习统计过往历史数据，不使用显式的编程即能具备一定的智能，是比较依赖于过往的经验。其思想类似于“人类是如何学习”。机器学习有多种学习的模型，有模仿生物的神经元网络，有基于概率框架的贝叶斯分类学习模型，有使用基尼指数和熵值计算的决策树等。不同的学习模型都是其擅长的处理领域。如图像分类，语音识别则适合使用神经元网络学习模型，而如何实现对用户端的视频对象属性的研究，而实现一种支持向量机的视频流量推送的方法，目前还未较好的实现，需要本发明基于现有的网络架构来研究并实现。

发明内容

本发明的目的是提供一种使用支持向量机推荐视频流量的方法及系统，通过网络爬虫技术实现对视频属性数据采集过程，针对性实现预测分析之后，实现对用户端所需要的视频数据推送，可为用户的访问加速，并节约了本地网络对外的带宽流量。

为此，本发明提供了一种使用支持向量机推荐视频流量的方法，包括如下步骤：

基于爬虫技术获取各用户端的视频属性数据，所述视频属性数据包括：视频加载页URI、视频访问总数、视频访问加权分值、视频标题、热词数、视频类型、视频评论总数、视频总体浏览量、视频所属专辑、视频频道、视频频道粉丝数；

基于分词技术对所述视频属性数据进行数据整理和加工；

基于支持向量机对数据整理和加工后的视频属性数据预测用户所喜好的视频对象；

基于视频流量策略将用户所喜好的视频对象发送至用户端的缓存单元。

所述基于爬虫技术获取各用户端的各视频属性数据包括：

获取各用户端所对应的URI列表；

对用户端所对应的URI列表进行随机排序；

从排序后的用户端列表中按照顺序提取用户端所在的视频属性数据，再按照顺序提取下一个用户端的视频属性数据；

对所获取的各用户端所在的视频属性数据赋予相应的权重值，所述权重值用于表示该用户端在各用户端的重要性。

所述基于分词技术对所述各视频属性数据进行数据整理和加工包括：

判断各用户端的视频属性数据的权重值是否小于权重预设值；

若判断出所述各用户端中的第一用户端的视频属性数据的权重值小于预设值，则不对所述第一用户端的视频属性数据进行分词处理；

若判断出所述各用户端中的第二用户端的视频属性数据的权重值大于等于预设值，则基于分词技术对所述第二用户端的视频属性数据进行数据整理和加工。

所述基于支持向量机对数据整理和加工后的视频属性数据预测用户所喜好的视频对象包括：

基于并行遗传算法对支持向量机中的核函数参数进行优化处理；

并基于优化处理后的核函数对数据整理和加工后的视频属性数据进行分析处理。

对所述数据整理和加工后的视频属性数据形成多维特征向量，填充为项目矩阵；

基于视频属性数据中各参数的重要性对支持向量机中的核函数相应的分量赋予相应的权重来完成支持向量机的数据分析过程。

所述基于视频流量策略将用户所喜好的视频对象发送至用户端的缓存单元包括：

获取用户端观看视频流量的大小、时段、视频分类和视频长短数据，并生成视频流量策略；

基于所生成的视频流量策略将用户所喜好的视频对象发送至用户端的缓存单元。

所述基于所生成的视频流量策略将用户所喜好的视频对象发送至用户端的缓存单元包括：

在视频系统中挑选出目前最符合用户的视频对象；

根据所生成的视频流量策略中用户端当前上报的带宽将视频对象转码为最优的视频码流，并将所述视频码流发送至用户端的缓存单元。

所述基于所生成的视频流量策略将用户所喜好的视频对象发送至用户端的缓存单元还包括：

根据视频对象的静态原信息和视频流量信息对视频系统中的各视频对象进行聚类，并进行推荐排序；

根据视频对象的访问量变化采用一预定时间间隔方式对各视频对象进行二次推荐排序；

每个视频对象根据视频动态信息和视频流量信息进行加权排序；

根据加权排序优先的视频对象发送至用户端的缓存单元；

所述静态原信息包括视频的标签、标题、分类及简介，所述视频流量信息包括视频的码率、大小以及编码格式；所述动态信息是视频的点击量和访问次数。

相应的，本发明还提供了一种使用支持向量机推荐视频流量的系统，所述用于执行如权利要求1至8任一项所述的方法。

与现有技术相比，其通过爬虫技术获取各用户端的视频属性数据，然后针对这些视频属性数据进行分词处理，便于支持向量机实现流量预测，而针对性实现预测分析之后，实现对用户端所需要的视频数据推送缓冲内容，可为用户的访问加速，并节约了本地网络对外的带宽流量。结合爬虫技术在爬取万视频属性数据之后，基于视频属性数据赋予相应的权重值，从而可以减少相应的用户端分析，这些权重值与视频熟悉数据相匹配，从而赋予相应的权重值表示用户端的重要性，从而针对性的实现最终的分析处理并推送缓冲数据等。针对权重值小于权重预设值，直接不考虑进入分词处理，该用户端为非必要分析的对象，这些用户端本身所涉及的视频属性数据量比较小，也不是相关后续推送的关注对象，排除无用用户端，也减少后续推送的流量负荷增加。在基于支持向量机的模式下，基于遗传算法对支持向量机中的核函数参数进行优化处理，使整个SVM较好的视频项目支持预测性分析。其采用视频流量策略方式向用户端推送视频流量，对流量预测结果提供资源预读，优化服务质量，降低网络负载。针对用户端提供个性化推送，其提前分析用户端的行为，加强了对用户端个性需求及其行为分析，提前基于预测性结果推送喜好的视频对象至用户端缓存单元，也可以根据整个视频系统中各视频对象采用自适应调节的方法，实时进行流量监控和流量分析，监控网络状态从而调节推送视频对象的相应码流，减少视频流量损耗等。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例的使用支持向量机推荐视频流量的方法流程图；

图2是本发明实施例的使用支持向量机推荐视频流量的系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明所涉及的使用支持向量机推荐视频流量的方法，其方法包括：基于爬虫技术获取各用户端的视频属性数据，所述视频属性数据包括：视频加载页URI、视频访问总数、视频访问加权分值、视频标题、热词数、视频类型、视频评论总数、视频总体浏览量、视频所属专辑、视频频道、视频频道粉丝数；基于分词技术对所述视频属性数据进行数据整理和加工；基于支持向量机对数据整理和加工后的视频属性数据预测用户所喜好的视频对象；基于视频流量策略将用户所喜好的视频对象发送至用户端的缓存单元。

具体的，图1示出了本发明实施例中的支持向量机进行智能流量缓存预测的方法，包括如下步骤：

S101、获取各用户端所对应的URI列表；

网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，爬虫系统一个海量数据处理系统，其所要面对的是整个互联网的网页，即便是一个小型的，垂直类的爬虫，一般也需要抓取上十亿或者上百亿的网页；其次，它也是一个对性能要求很好的系统，可能需要同时下载成千上万的网页，快速的提取网页中的url，对海量的url进行去重，即整个网络爬虫根据URL将对应的网页下载下来，然后提取出网页中包含的URL，再根据这些新的URL下载对应的网页，周而复始。

本发明实施例针对用户端的资源进行爬虫处理。爬虫系统对待爬取网站进行内容爬取过程时，首先需要获取爬取网站所对应的URI列表，URI列表中为一系列URI组合，由于在爬取过程中，可以随机提取这些URI表格，然后针对用户端数据进行数据爬取过程。

S102、对用户端所对应的URI列表进行随机排序；

S103、从排序后的用户端列表中按照顺序提取用户端所在的视频属性数据，再按照顺序提取下一个用户端的视频属性数据；

整个URI所涉及的各个字段包括：

源访问IP：地址是相对固定的，可以用判断是否同一个用户所发出的请求。

所涉及的完整URL和请求方法：用于标识一个视频资源，是比较重要的字段。

User Agent：用于判断用户的浏览器情况，进一步判断出用户的设备(如部分移动端App的User Agent都特别设置的)。

根据源IP地址，完整URL继续生成统计信息，统计信息以采集到的用户行为为基础，网页爬虫为辅助继续获取视频URL的其他属性信息。统计信息将直接参与到机器学习之中。生成统计信息前需要整理数据，部分数据属性需要计算才能最终得出。

这里的视频属性数据包括：视频加载页URI、视频访问总数、视频访问加权分值、视频标题、热词数、视频类型、视频评论总数、视频总体浏览量、视频所属专辑、视频频道、视频频道粉丝数。

S104、对所获取的各用户端所在的视频属性数据赋予相应的权重值，所述权重值用于表示该用户端在各用户端的重要性；

若本身用户端所涉及的视频属性数据都是零星的，没有基于SVM下的各种评断值，其表示该客户端本身不涉及到视频端的内容关注，比如某些客户端基本上很少浏览页面或者视频内容，其所涉及的视频属性数据基本为零，这些权重值比较小，不需要引起特别关注推送，而对于视频属性数据比较丰富的用户端，其所赋予权重值高，保障可以顺利进入到SVM预测机制中，实现智能流量缓存预测过程。

S105、判断各用户端的视频属性数据的权重值是否小于权重预设值，若小于则进入S106；

S106、若判断出所述各用户端中的第一用户端的视频属性数据的权重值小于预设值，则不对所述第一用户端的视频属性数据进行分词处理；

具体实施过程中，若这些用户端所对应的视频属性数据本身权重值较小，不合适后续数据缓存推送预测过程，其可以采用其他一般性的预测性方法来实现视频缓存推送机制比较合适。

S107、若判断出所述各用户端中的第二用户端的视频属性数据的权重值大于等于预设值，则基于分词技术对所述第二用户端的视频属性数据进行数据整理和加工；

数据采集中的标题在很多类型的大资源都会存在的属性，例如视频电影的名称，音频音乐的歌名等。标题是一个长文本，重复概率极低，使用这样的属性分类，用决策树的术语描述的话，其信息熵值较大，信息纯度较低，因此使用标题进行学习是无意义的。虽然标题重复率极低，但标题里包含的信息却是可以转换为有学习价值的信息。标题的字符串是由多个词组成，人们对一个视频感兴趣，往往是因为视频标题里的词语引起用户的注意。本发明实施例中使用分词技术拆分标题，分析组成标题的多个词语。分词是基于字符串的匹配，一般最大正向或反向长度的匹配，或者长词语有限。分词算法大量应用于搜索引擎，人工智能当中。世界各地有很多不同的语言，如英语有空格分隔，是不需要分词的，但汉语各个词语是相连的，必须运用一定的规则算法将其分隔。目前分词是相对比较成熟的技术，有基于字符串匹配、分词理解的，有基于启发式策略、有使用统计学和机器学习的策略。

S108、基于支持向量机对数据整理和加工后的视频属性数据预测用户所喜好的视频对象；

具体实施过程中，基于并行遗传算法对支持向量机中的核函数参数进行优化处理；并基于优化处理后的核函数对数据整理和加工后的视频属性数据进行分析处理。

整个SVM预测分析包括：对所述数据整理和加工后的视频属性数据形成多维特征向量，填充为项目矩阵；基于视频属性数据中各参数的重要性对支持向量机中的核函数相应的分量赋予相应的权重来完成支持向量机的数据分析过程。

SVM(支持向量机，Support Vector Machine)是对数据在一定维度下，寻求超平面能够对数据进行有效划分，并使超平面间隔最大的方法。离散数值的分类是SVM分类，而数值型的回归则使用支持向量回归(SVR)。本实施例中使用普通的SVM分类作为分类方法。

SVM使用线性模型把训练样本划分，假设在训练样本的维度下是线性可分的，但实际上往往并非如此。即使有了软间隔参数的调整，样本很多时候不能被线性不可分的。这时候需要映射到更高的维度以使SVM继续划分样本。

核函数是为了计算高维度下的向量内积，满足Mercer条件的函数才可用作核函数。使用核函数避免了计算高维度下向量内积，而直接使用低维度下的变量计算。此时低维度到高维度的映射函数Φ往往不能给出显示的表达式，而且也不需要显式地明确映射函数。SVM所涉及的核函数包括：线性核、多项式核、高斯核(RBF)、Sigmoid核。

RBF核函数涉及到一个参数gamma，gamma可取的值数量巨大，从0开始的小数都有可能，使用穷举法获取最优参数的时间复杂度太高。本实施例中使用并行的遗传算法获取核函数参数的较优值。

S109、基于视频流量策略将用户所喜好的视频对象发送至用户端的缓存单元。

具体实施过程中，可以获取用户端观看视频流量的大小、时段、视频分类和视频长短数据，并生成视频流量策略；基于所生成的视频流量策略将用户所喜好的视频对象发送至用户端的缓存单元。相应的，在视频系统中挑选出目前最符合用户的视频对象；根据所生成的视频流量策略中用户端当前上报的带宽将视频对象转码为最优的视频码流，并将所述视频码流发送至用户端的缓存单元。

在整个动态的过程中，根据视频对象的静态原信息和视频流量信息对视频系统中的各视频对象进行聚类，并进行推荐排序；根据视频对象的访问量变化采用一预定时间间隔方式对各视频对象进行二次推荐排序；每个视频对象根据视频动态信息和视频流量信息进行加权排序；根据加权排序优先的视频对象发送至用户端的缓存单元；所述静态原信息包括视频的标签、标题、分类及简介，所述视频流量信息包括视频的码率、大小以及编码格式；所述动态信息是视频的点击量和访问次数。

相应的，图2示出了本发明实施例中的支持向量机进行智能流量缓存预测的系统结构示意图，其可以执行图1所示的方法流程图，其具体包括：

爬虫模块，用于基于爬虫技术获取各用户端的视频属性数据，所述视频属性数据包括：视频加载页URI、视频访问总数、视频访问加权分值、视频标题、热词数、视频类型、视频评论总数、视频总体浏览量、视频所属专辑、视频频道、视频频道粉丝数；

分词模块，用于基于分词技术对所述视频属性数据进行数据整理和加工；

SVM模块，用于基于支持向量机对数据整理和加工后的视频属性数据预测用户所喜好的视频对象；

视频推送模块，基于视频流量策略将用户所喜好的视频对象发送至用户端的缓存单元。

需要说明的是，这里的爬虫模块获取各用户端所对应的URI列表；对用户端所对应的URI列表进行随机排序；从排序后的用户端列表中按照顺序提取用户端所在的视频属性数据，再按照顺序提取下一个用户端的视频属性数据；对所获取的各用户端所在的视频属性数据赋予相应的权重值，所述权重值用于表示该用户端在各用户端的重要性。

这里的分词模块判断各用户端的视频属性数据的权重值是否小于权重预设值；若判断出所述各用户端中的第一用户端的视频属性数据的权重值小于预设值，则不对所述第一用户端的视频属性数据进行分词处理；若判断出所述各用户端中的第二用户端的视频属性数据的权重值大于等于预设值，则基于分词技术对所述第二用户端的视频属性数据进行数据整理和加工。

这里的SVM模块基于并行遗传算法对支持向量机中的核函数参数进行优化处理；并基于优化处理后的核函数对数据整理和加工后的视频属性数据进行分析处理。SVM模块还涉及对所述数据整理和加工后的视频属性数据形成多维特征向量，填充为项目矩阵；基于视频属性数据中各参数的重要性对支持向量机中的核函数相应的分量赋予相应的权重来完成支持向量机的数据分析过程。

这里的视频推送模块可以获取用户端观看视频流量的大小、时段、视频分类和视频长短数据，并生成视频流量策略；基于所生成的视频流量策略将用户所喜好的视频对象发送至用户端的缓存单元。视频推送模块在视频系统中挑选出目前最符合用户的视频对象；根据所生成的视频流量策略中用户端当前上报的带宽将视频对象转码为最优的视频码流，并将所述视频码流发送至用户端的缓存单元。视频推送模块根据视频对象的静态原信息和视频流量信息对视频系统中的各视频对象进行聚类，并进行推荐排序；根据视频对象的访问量变化采用一预定时间间隔方式对各视频对象进行二次推荐排序；每个视频对象根据视频动态信息和视频流量信息进行加权排序；根据加权排序优先的视频对象发送至用户端的缓存单元；所述静态原信息包括视频的标签、标题、分类及简介，所述视频流量信息包括视频的码率、大小以及编码格式；所述动态信息是视频的点击量和访问次数。

通过实施本发明提供的方法及系统，其通过爬虫技术获取各用户端的视频属性数据，然后针对这些视频属性数据进行分词处理，便于支持向量机实现流量预测，而针对性实现预测分析之后，实现对用户端所需要的视频数据推送缓冲内容，可为用户的访问加速，并节约了本地网络对外的带宽流量。结合爬虫技术在爬取万视频属性数据之后，基于视频属性数据赋予相应的权重值，从而可以减少相应的用户端分析，这些权重值与视频熟悉数据相匹配，从而赋予相应的权重值表示用户端的重要性，从而针对性的实现最终的分析处理并推送缓冲数据等。针对权重值小于权重预设值，直接不考虑进入分词处理，该用户端为非必要分析的对象，这些用户端本身所涉及的视频属性数据量比较小，也不是相关后续推送的关注对象，排除无用用户端，也减少后续推送的流量负荷增加。在基于支持向量机的模式下，基于遗传算法对支持向量机中的核函数参数进行优化处理，使整个SVM较好的视频项目支持预测性分析。其采用视频流量策略方式向用户端推送视频流量，对流量预测结果提供资源预读，优化服务质量，降低网络负载。针对用户端提供个性化推送，其提前分析用户端的行为，加强了对用户端个性需求及其行为分析，提前基于预测性结果推送喜好的视频对象至用户端缓存单元，也可以根据整个视频系统中各视频对象采用自适应调节的方法，实时进行流量监控和流量分析，监控网络状态从而调节推送视频对象的相应码流，减少视频流量损耗等。

以上对本发明实施例所提供的使用支持向量机推荐视频流量的方法及系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种使用支持向量机推荐视频流量的方法，其特征在于，包括如下步骤：

基于分词技术对所述视频属性数据进行数据整理和加工；

2.如权利要求1所述的使用支持向量机推荐视频流量的方法，其特征在于，所述基于爬虫技术获取各用户端的各视频属性数据包括：

获取各用户端所对应的URI列表；

对用户端所对应的URI列表进行随机排序；

3.如权利要求2所述的使用支持向量机推荐视频流量的方法，其特征在于，所述基于分词技术对所述各视频属性数据进行数据整理和加工包括：

4.如权利要求3所述的使用支持向量机推荐视频流量的方法，其特征在于，所述基于支持向量机对数据整理和加工后的视频属性数据预测用户所喜好的视频对象包括：

5.如权利要求4所述的使用支持向量机推荐视频流量的方法，其特征在于，所述基于支持向量机对数据整理和加工后的视频属性数据预测用户所喜好的视频对象包括：

6.如权利要求5所述的使用支持向量机推荐视频流量的方法，其特征在于，所述基于视频流量策略将用户所喜好的视频对象发送至用户端的缓存单元包括：

7.如权利要求6所述的使用支持向量机推荐视频流量的方法，其特征在于，所述基于所生成的视频流量策略将用户所喜好的视频对象发送至用户端的缓存单元包括：

在视频系统中挑选出目前最符合用户的视频对象；

8.如权利要求7所述的使用支持向量机推荐视频流量的方法，其特征在于，所述基于所生成的视频流量策略将用户所喜好的视频对象发送至用户端的缓存单元还包括：

根据加权排序优先的视频对象发送至用户端的缓存单元；

9.一种使用支持向量机推荐视频流量的系统，其特征在于，所述用于执行如权利要求1至8任一项所述的方法。