CN111625681A

CN111625681A - 一种基于大数据的视频信息推荐方法、系统和可读存储介质

Info

Publication number: CN111625681A
Application number: CN202010460378.5A
Authority: CN
Inventors: 赵亚军; 王伟
Original assignee: Shenzhen E Chain Information Technology Co ltd
Current assignee: Shenzhen E Chain Information Technology Co ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-09-04

Abstract

本发明公开了一种基于大数据的视频信息推荐方法，包括：根据历史数据进行数据特征预处理，构建用户操作模型；用户操作模型挖掘用户行为特征，生成行为特征信息；根据特征预处理所得的用户行为特征输入神经网络进行学习，得到结果信息；根据神经网络所得的结果信息进行信息推荐。本发明公开的一种基于大数据的视频信息推荐方法、系统和可读存储介质，将用户操作时间进行区分，通过根据用户行为判断不同时间槽内的用户偏好，使得视频信息推荐更加准确。

Description

一种基于大数据的视频信息推荐方法、系统和可读存储介质

技术领域

本发明涉及视频推荐领域，更具体的，涉及一种基于大数据的视频信息推荐方法、系统和可读存储介质。

背景技术

互联网的出现和发展给普通用户带来了大量的信息，同时会带来信息过载的问题。引入推荐系统是解决信息过载问题的一种常见方法，推荐系统可以根据用户的个人信息、物品元数据、用户与物品的交互信息等数据，计算用户的个人偏好并给用户推荐个性化的物品。

与搜索引擎相比，推荐系统可以主动地给用户提供个性化的候选物品，而不是像搜索引擎那样需要用户主动发起请求，在这种模式下，推荐系统更能提高商业系统的用户使用的满意度以及忠诚度。

互联网的急速发展有很大一部分原因是互联网上存在着大量的音视频资源，用户可以轻易地获取到这些娱乐服务。目前面向网络电视盒子的视频点播服务，能够为拥有机顶盒的人群提供点播视频推荐。在这种场景下，需要考虑机顶盒的使用者可能存在多人共享一台机顶盒的场景，例如一家人共享一个机顶盒，那么小孩和大人使用机顶盒的时间以及他们喜欢的电视节目很有可能是不一样的。因此将历史纪录从时间上进行区分，以及将不同时间段可能拥有不同的兴趣爱好的特征考虑进算法模型，那么推荐系统将能获得更强的推荐能力。

综上所述，从网络电视盒子的点播服务使用者的角度出发，基于用户随时间的偏好变化特征，结合传统的协同过滤推荐模型，本发明设计出一种时间感知的面向网络盒子点播视频的推荐方法，方法能够充分地挖掘时间信息并提供更优质的推荐服务。

发明内容

为了解决上述至少一个技术问题，本发明提出了一种基于大数据的视频信息推荐方法、系统和可读存储介质。

为了解决上述的技术问题，本发明第一方面公开了一种基于大数据的视频信息推荐方法，包括：

根据历史数据进行数据特征预处理，构建用户操作模型；

用户操作模型挖掘用户行为特征，生成行为特征信息；

根据特征预处理所得的用户行为特征输入神经网络进行学习，得到结果信息；

根据神经网络所得的结果信息进行信息推荐。

本方案中，所述的历史数据包括观看视频的时间、各时间段观看视频的主题词集合、每个视频的点击量。

本方案中，所述的根据历史数据进行数据特征预处理，构建用户操作模型的具体步骤如下：

将用户的操作时间划分为{上午，下午，晚上，凌晨}×{工作日，周末}的时间槽；

将上述时间槽内用户观看的视频的主题词组合成主题词集合；

计算主题词集合的主题词在一个时间槽的所有主题词中的权重；

输出与所述时间槽对应的集合及其权重。

本方案中，所述的用户操作模型挖掘用户行为特征，生成行为特征信息的具体步骤如下：

构建用户偏好矩阵P和视频特征矩阵Q，使用独热编码进行编码，获得A*C和B*C的矩阵，其中C为时间槽的数量、A为用户的数量、B为视频的数量；

和

分别表示用户u和物品i的独热编码向量，可以使用以下公式获得对应的特征向量，也就是矩阵P的第u行和Q的第i行：

本方案中，处所述的根据特征预处理所得的用户行为特征输入神经网络进行学习，得到结果信息的具体步骤如下

输入矩阵P和矩阵Q，根据视频的点击量，使用神经协同过滤算法进行数据处理并输出

其中

为关于特征向量的函数表示，σ是把输出转换成概率的sigmoid函数，所述的

包括3种常用的函数表示方法，分别是通用矩阵分解方法(GMF)，多层感知机方法(MLP)和神经矩阵分解方法(NeuMF)，这三种表示方法的介绍如下，

通用矩阵分解方法(GMF)是在矩阵分解的结果上，为每个项增加权重：

其中h表示权重向量。

多层感知机方法(MLP)是通过非线性的方法进行学习：

z_L＝ReLU(W_Lz_L-1+b_L)

其中L表示多层感知机中隐含层的数量，W_x和b_x分别表示第x层的权重和偏置项，激活函数默认使用线性整流函数；

神经矩阵分解方法(NeuMF)是将GMF和MLP两种按照预设的权重结合起来：

其中h表示权重向量，z_L为通过MLP学习得到的隐含层最后一层的结果。

本方案中，所述的根据特征预处理所得的用户行为特征输入神经网络进行学习，得到结果信息还包括：

使用jieba分词对所有视频资源的主题词进行分词操作；

比较所有资源中的主题词与某时间段内用户偏好的视频主题词的特征差别率；

将主题词小于特征差别率的归为用户偏好视频。

本发明第二发明公开了一种基于大数据的视频信息推荐系统，包括存储器和处理器，所述的存储器中包括基于大数据的视频信息推荐方法程序，所述的基于大数据的视频信息推荐方法程序被所述的处理器执行时，实现如下步骤：

根据历史数据进行数据特征预处理，构建用户操作模型；

用户操作模型挖掘用户行为特征，生成行为特征信息；

根据神经网络所得的结果信息进行信息推荐。

输出与所述时间槽对应的集合及其权重。

构建用户偏好矩阵和视频特征矩阵，使用独热编码进行编码，获得A*C和B*C的矩阵，其中C为时间槽的数量、A为用户的数量、B为视频的数量；

和

其中

其中h表示权重向量。

多层感知机方法(MLP)是通过非线性的方法进行学习：

z_L＝ReLU(W_Lz_L-1+b_L)

使用jieba分词对所有视频资源的主题词进行分词操作；

将主题词小于特征差别率的归为用户偏好视频。

本发明第三方面公开了一种计算机可读存储介质，所述计算机可读存储介质中包括机器的一种基于大数据的视频信息推荐方法程序，所述一种基于大数据的视频信息推荐方法程序被处理器执行时，实现上述任一项所述的一种基于大数据的视频信息推荐方法的步骤，实现如下步骤：

根据历史数据进行数据特征预处理，构建用户操作模型；

用户操作模型挖掘用户行为特征，生成行为特征信息；

根据神经网络所得的结果信息进行信息推荐。

输出与所述时间槽对应的集合及其权重。

和

其中

其中h表示权重向量。

多层感知机方法(MLP)是通过非线性的方法进行学习：

z_L＝ReLU(W_Lz_L-1+b_L)

使用jieba分词对所有视频资源的主题词进行分词操作；

将主题词小于特征差别率的归为用户偏好视频。

本发明公开的一种基于大数据的视频信息推荐方法、系统和可读存储介质，将用户操作时间进行区分，通过根据用户行为判断不同时间槽内的用户偏好，使得视频信息推荐更加准确。

附图说明

图1示出了本发明一种基于大数据的视频信息推荐方法流程示意图；

图2示出了本发明一种基于大数据的视频信息推荐方法系统的框图。

具体实施方法

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本发明一种基于大数据的视频信息推荐方法的流程图。

如图1所示，本发明公开了一种基于大数据的视频信息推荐方法，包括：

根据历史数据进行数据特征预处理，构建用户操作模型；

用户操作模型挖掘用户行为特征，生成行为特征信息；

根据神经网络所得的结果信息进行信息推荐。

需要进一步说明的是，视频的主题词一般其字数不超过10个字。例如，可以为4个字或2个字的词语，甚至一些名言哲理的短句。这些词语或者短句都是出自于字典和网络中新兴的词语。数据库中的词语是可以定期或者不定期更新的，目的是获取跟新新兴的词语或短句，实现迭代更新。数据库中的词语或者短语都经过人为加工，标记了词语褒义信息、字数信息、拼音信息、对应人群信息中的一种或几种。本领域技术人员可根据实际需要标注词语或者短语的信息种类，并不限于以上信息种类。

输出与所述时间槽对应的集合及其权重。

和

在计算机内部，英文字符采用的是编码标准，而中文字符是采用国标码进行编码的，一个汉字在计算机的国标码中以两个字节位二进制数存储，前一个字节前八位是区码，后一个字节后八位是位码。所有的国标汉字与符号组成一个的方阵。即汉字字符集是一个有个区，每个区有个位的方阵构成。此方阵中，每一行代表一个“区”，每一列代表一个“位”。每个汉字的区号和位号都是从到,将区码和位码简单地组合在一起就构成了汉字的“区位码”。因此，在汉字的区位码中,用高两位表示区号,低两位表示位号。如“王”的区位码为“4585”，“艳”和“燕”的区位码分别为“4962”和“4964”。

区位码是与汉字一一对应的编码，用四位十进制数字表示，前两位为区码，后两位为位码，所以一个汉字的区码可以用国标码的前八位减160得到，位码用国标码的后八位减160得到。

其中

包括3种常用的函数表示方法，分别是通用矩阵分解方法，多层感知机方法和神经矩阵分解方法，这三种表示方法的介绍如下，

通用矩阵分解方法是在矩阵分解的结果上，为每个项增加权重：

其中h表示权重向量。

多层感知机方法是通过非线性的方法进行学习：

z_L＝ReLU(W_Lz_L-1+b_L)

神经矩阵分解方法是将GMF和MLP两种按照预设的权重结合起来：

使用jieba分词对所有视频资源的主题词进行分词操作；

将主题词小于特征差别率的归为用户偏好视频。

需要进一步说明的是，根据本发明的实施例，得到推荐的主题词信息还将进行相关度优先级的排序，将优先级靠前的主题词的视频信息筛选出，发送至客户端进行显示。

图2示出本发明的一种基于大数据的视频信息推荐系统的框图。

根据历史数据进行数据特征预处理，构建用户操作模型；

用户操作模型挖掘用户行为特征，生成行为特征信息；

根据神经网络所得的结果信息进行信息推荐。

输出与所述时间槽对应的集合及其权重。

和

其中

其中h表示权重向量。

多层感知机方法是通过非线性的方法进行学习：

z_L＝ReLU(W_Lz_L-1+b_L)

使用jieba分词对所有视频资源的主题词进行分词操作；

将主题词小于特征差别率的归为用户偏好视频。

根据历史数据进行数据特征预处理，构建用户操作模型；

用户操作模型挖掘用户行为特征，生成行为特征信息；

根据神经网络所得的结果信息进行信息推荐。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。