CN111225282B - 一种基于大数据的视频信息推荐方法、系统和可读存储介质 - Google Patents

一种基于大数据的视频信息推荐方法、系统和可读存储介质 Download PDF

Info

Publication number
CN111225282B
CN111225282B CN201911399174.9A CN201911399174A CN111225282B CN 111225282 B CN111225282 B CN 111225282B CN 201911399174 A CN201911399174 A CN 201911399174A CN 111225282 B CN111225282 B CN 111225282B
Authority
CN
China
Prior art keywords
user
video
subject
data
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911399174.9A
Other languages
English (en)
Other versions
CN111225282A (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Terminus Technology Co Ltd
Original Assignee
Chongqing Terminus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Terminus Technology Co Ltd filed Critical Chongqing Terminus Technology Co Ltd
Priority to CN201911399174.9A priority Critical patent/CN111225282B/zh
Publication of CN111225282A publication Critical patent/CN111225282A/zh
Application granted granted Critical
Publication of CN111225282B publication Critical patent/CN111225282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44204Monitoring of content usage, e.g. the number of times a movie has been viewed, copied or the amount which has been watched
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44222Analytics of user selections, e.g. selection of programs or purchase activity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4666Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4667Processing of monitored end-user data, e.g. trend analysis based on the log file of viewer selections

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种基于大数据的视频信息推荐方法,包括:根据历史数据进行数据特征预处理,构建用户操作模型;用户操作模型挖掘用户行为特征,生成行为特征信息;根据特征预处理所得的用户行为特征输入神经网络进行学习,得到结果信息;根据神经网络所得的结果信息进行信息推荐。本发明公开的一种基于大数据的视频信息推荐方法、系统和可读存储介质,将用户操作时间进行区分,通过根据用户行为判断不同时间槽内的用户偏好,使得视频信息推荐更加准确。

Description

一种基于大数据的视频信息推荐方法、系统和可读存储介质
技术领域
本发明涉及视频推荐领域,更具体的,涉及一种基于大数据的视频信息推荐方法、系统和可读存储介质。
背景技术
互联网的出现和发展给普通用户带来了大量的信息,同时会带来信息过载的问题。引入推荐系统是解决信息过载问题的一种常见方法,推荐系统可以根据用户的个人信息、物品元数据、用户与物品的交互信息等数据,计算用户的个人偏好并给用户推荐个性化的物品。
与搜索引擎相比,推荐系统可以主动地给用户提供个性化的候选物品,而不是像搜索引擎那样需要用户主动发起请求,在这种模式下,推荐系统更能提高商业系统的用户使用的满意度以及忠诚度。
互联网的急速发展有很大一部分原因是互联网上存在着大量的音视频资源,用户可以轻易地获取到这些娱乐服务。目前面向网络电视盒子的视频点播服务,能够为拥有机顶盒的人群提供点播视频推荐。在这种场景下,需要考虑机顶盒的使用者可能存在多人共享一台机顶盒的场景,例如一家人共享一个机顶盒,那么小孩和大人使用机顶盒的时间以及他们喜欢的电视节目很有可能是不一样的。因此将历史纪录从时间上进行区分,以及将不同时间段可能拥有不同的兴趣爱好的特征考虑进算法模型,那么推荐系统将能获得更强的推荐能力。
综上所述,从网络电视盒子的点播服务使用者的角度出发,基于用户随时间的偏好变化特征,结合传统的协同过滤推荐模型,本发明设计出一种时间感知的面向网络盒子点播视频的推荐方法,方法能够充分地挖掘时间信息并提供更优质的推荐服务。
发明内容
为了解决上述至少一个技术问题,本发明提出了一种基于大数据的视频信息推荐方法、系统和可读存储介质。
为了解决上述的技术问题,本发明第一方面公开了一种基于大数据的视频信息推荐方法,包括:
根据历史数据进行数据特征预处理,构建用户操作模型;
用户操作模型挖掘用户行为特征,生成行为特征信息;
根据特征预处理所得的用户行为特征输入神经网络进行学习,得到结果信息;
根据神经网络所得的结果信息进行信息推荐。
本方案中,所述的历史数据包括观看视频的时间、各时间段观看视频的主题词集合、每个视频的点击量。
本方案中,所述的根据历史数据进行数据特征预处理,构建用户操作模型的具体步骤如下:
将用户的操作时间划分为{上午,下午,晚上,凌晨}×{工作日,周末}的时间槽;
将上述时间槽内用户观看的视频的主题词组合成主题词集合;
计算主题词集合的主题词在一个时间槽的所有主题词中的权重;
输出与所述时间槽对应的集合及其权重。
本方案中,所述的用户操作模型挖掘用户行为特征,生成行为特征信息的具体步骤如下:
构建用户偏好矩阵P和视频特征矩阵Q,使用独热编码进行编码,获得A*C和B*C的矩阵,其中C为时间槽的数量、A为用户的数量、B为视频的数量;
Figure BDA0002347070430000031
Figure BDA0002347070430000032
分别表示用户u和物品i的独热编码向量,可以使用以下公式获得对应的特征向量,也就是矩阵P的第u行和Q的第i行:
Figure BDA0002347070430000033
Figure BDA0002347070430000034
本方案中,处所述的根据特征预处理所得的用户行为特征输入神经网络进行学习,得到结果信息的具体步骤如下
输入矩阵P和矩阵Q,根据视频的点击量,使用神经协同过滤算法进行数据处理并输出
Figure BDA0002347070430000035
其中
Figure BDA0002347070430000036
为关于特征向量的函数表示,σ是把输出转换成概率的sigmoid函数,所述的
Figure BDA0002347070430000037
包括3种常用的函数表示方法,分别是通用矩阵分解方法(GMF),多层感知机方法(MLP)和神经矩阵分解方法(NeuMF),这三种表示方法的介绍如下,
通用矩阵分解方法(GMF)是在矩阵分解的结果上,为每个项增加权重:
Figure BDA0002347070430000038
其中h表示权重向量。
多层感知机方法(MLP)是通过非线性的方法进行学习:
Figure BDA0002347070430000041
ZL=ReLU(WLzL-1+bL)
Figure BDA0002347070430000042
其中L表示多层感知机中隐含层的数量,Wx和bx分别表示第x层的权重和偏置项,激活函数默认使用线性整流函数;
神经矩阵分解方法(NeuMF)是将GMF和MLP两种按照预设的权重结合起来:
Figure BDA0002347070430000043
其中h表示权重向量,zL为通过MLP学习得到的隐含层最后一层的结果。
本方案中,所述的根据特征预处理所得的用户行为特征输入神经网络进行学习,得到结果信息还包括:
使用jieba分词对所有视频资源的主题词进行分词操作;
比较所有资源中的主题词与某时间段内用户偏好的视频主题词的特征差别率;
将主题词小于特征差别率的归为用户偏好视频。
本发明第二发明公开了一种基于大数据的视频信息推荐系统,包括存储器和处理器,所述的存储器中包括基于大数据的视频信息推荐方法程序,所述的基于大数据的视频信息推荐方法程序被所述的处理器执行时,实现如下步骤:
根据历史数据进行数据特征预处理,构建用户操作模型;
用户操作模型挖掘用户行为特征,生成行为特征信息;
根据特征预处理所得的用户行为特征输入神经网络进行学习,得到结果信息;
根据神经网络所得的结果信息进行信息推荐。
本方案中,所述的历史数据包括观看视频的时间、各时间段观看视频的主题词集合、每个视频的点击量。
本方案中,所述的根据历史数据进行数据特征预处理,构建用户操作模型的具体步骤如下:
将用户的操作时间划分为{上午,下午,晚上,凌晨}×{工作日,周末}的时间槽;
将上述时间槽内用户观看的视频的主题词组合成主题词集合;
计算主题词集合的主题词在一个时间槽的所有主题词中的权重;
输出与所述时间槽对应的集合及其权重。
本方案中,所述的用户操作模型挖掘用户行为特征,生成行为特征信息的具体步骤如下:
构建用户偏好矩阵和视频特征矩阵,使用独热编码进行编码,获得A*C和B*C的矩阵,其中C为时间槽的数量、A为用户的数量、B为视频的数量;
Figure BDA0002347070430000051
Figure BDA0002347070430000052
分别表示用户u和物品i的独热编码向量,可以使用以下公式获得对应的特征向量,也就是矩阵P的第u行和Q的第i行:
Figure BDA0002347070430000053
Figure BDA0002347070430000054
本方案中,处所述的根据特征预处理所得的用户行为特征输入神经网络进行学习,得到结果信息的具体步骤如下
输入矩阵P和矩阵Q,根据视频的点击量,使用神经协同过滤算法进行数据处理并输出
Figure BDA0002347070430000061
其中
Figure BDA0002347070430000062
为关于特征向量的函数表示,σ是把输出转换成概率的sigmoid函数,所述的
Figure BDA0002347070430000063
包括3种常用的函数表示方法,分别是通用矩阵分解方法(GMF),多层感知机方法(MLP)和神经矩阵分解方法(NeuMF),这三种表示方法的介绍如下,
通用矩阵分解方法(GMF)是在矩阵分解的结果上,为每个项增加权重:
Figure BDA0002347070430000064
其中h表示权重向量。
多层感知机方法(MLP)是通过非线性的方法进行学习:
Figure BDA0002347070430000065
ZL=ReLU(WLzL-1+bL)
Figure BDA0002347070430000066
其中L表示多层感知机中隐含层的数量,Wx和bx分别表示第x层的权重和偏置项,激活函数默认使用线性整流函数;
神经矩阵分解方法(NeuMF)是将GMF和MLP两种按照预设的权重结合起来:
Figure BDA0002347070430000067
其中h表示权重向量,zL为通过MLP学习得到的隐含层最后一层的结果。
本方案中,所述的根据特征预处理所得的用户行为特征输入神经网络进行学习,得到结果信息还包括:
使用jieba分词对所有视频资源的主题词进行分词操作;
比较所有资源中的主题词与某时间段内用户偏好的视频主题词的特征差别率;
将主题词小于特征差别率的归为用户偏好视频。
本发明第三方面公开了一种计算机可读存储介质,所述计算机可读存储介质中包括机器的一种基于大数据的视频信息推荐方法程序,所述一种基于大数据的视频信息推荐方法程序被处理器执行时,实现上述任一项所述的一种基于大数据的视频信息推荐方法的步骤,实现如下步骤:
根据历史数据进行数据特征预处理,构建用户操作模型;
用户操作模型挖掘用户行为特征,生成行为特征信息;
根据特征预处理所得的用户行为特征输入神经网络进行学习,得到结果信息;
根据神经网络所得的结果信息进行信息推荐。
本方案中,所述的历史数据包括观看视频的时间、各时间段观看视频的主题词集合、每个视频的点击量。
本方案中,所述的根据历史数据进行数据特征预处理,构建用户操作模型的具体步骤如下:
将用户的操作时间划分为{上午,下午,晚上,凌晨}×{工作日,周末}的时间槽;
将上述时间槽内用户观看的视频的主题词组合成主题词集合;
计算主题词集合的主题词在一个时间槽的所有主题词中的权重;
输出与所述时间槽对应的集合及其权重。
本方案中,所述的用户操作模型挖掘用户行为特征,生成行为特征信息的具体步骤如下:
构建用户偏好矩阵和视频特征矩阵,使用独热编码进行编码,获得A*C和B*C的矩阵,其中C为时间槽的数量、A为用户的数量、B为视频的数量;
Figure BDA0002347070430000081
Figure BDA0002347070430000082
分别表示用户u和物品i的独热编码向量,可以使用以下公式获得对应的特征向量,也就是矩阵P的第u行和Q的第i行:
Figure BDA0002347070430000083
Figure BDA0002347070430000084
本方案中,处所述的根据特征预处理所得的用户行为特征输入神经网络进行学习,得到结果信息的具体步骤如下
输入矩阵P和矩阵Q,根据视频的点击量,使用神经协同过滤算法进行数据处理并输出
Figure BDA0002347070430000085
其中
Figure BDA0002347070430000086
为关于特征向量的函数表示,σ是把输出转换成概率的sigmoid函数,所述的
Figure BDA0002347070430000087
包括3种常用的函数表示方法,分别是通用矩阵分解方法(GMF),多层感知机方法(MLP)和神经矩阵分解方法(NeuMF),这三种表示方法的介绍如下,
通用矩阵分解方法(GMF)是在矩阵分解的结果上,为每个项增加权重:
Figure BDA0002347070430000088
其中h表示权重向量。
多层感知机方法(MLP)是通过非线性的方法进行学习:
Figure BDA0002347070430000089
ZL=ReLU(WLzL-1+bL)
Figure BDA0002347070430000091
其中L表示多层感知机中隐含层的数量,Wx和bx分别表示第x层的权重和偏置项,激活函数默认使用线性整流函数;
神经矩阵分解方法(NeuMF)是将GMF和MLP两种按照预设的权重结合起来:
Figure BDA0002347070430000092
其中h表示权重向量,zL为通过MLP学习得到的隐含层最后一层的结果。
本方案中,所述的根据特征预处理所得的用户行为特征输入神经网络进行学习,得到结果信息还包括:
使用jieba分词对所有视频资源的主题词进行分词操作;
比较所有资源中的主题词与某时间段内用户偏好的视频主题词的特征差别率;
将主题词小于特征差别率的归为用户偏好视频。
本发明公开的一种基于大数据的视频信息推荐方法、系统和可读存储介质,将用户操作时间进行区分,通过根据用户行为判断不同时间槽内的用户偏好,使得视频信息推荐更加准确。
附图说明
图1示出了本发明一种基于大数据的视频信息推荐方法流程示意图;
图2示出了本发明一种基于大数据的视频信息推荐方法系统的框图。
具体实施方法
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种基于大数据的视频信息推荐方法的流程图。
如图1所示,本发明公开了一种基于大数据的视频信息推荐方法,包括:
根据历史数据进行数据特征预处理,构建用户操作模型;
用户操作模型挖掘用户行为特征,生成行为特征信息;
根据特征预处理所得的用户行为特征输入神经网络进行学习,得到结果信息;
根据神经网络所得的结果信息进行信息推荐。
本方案中,所述的历史数据包括观看视频的时间、各时间段观看视频的主题词集合、每个视频的点击量。
需要进一步说明的是,视频的主题词一般其字数不超过10个字。例如,可以为4个字或2个字的词语,甚至一些名言哲理的短句。这些词语或者短句都是出自于字典和网络中新兴的词语。数据库中的词语是可以定期或者不定期更新的,目的是获取跟新新兴的词语或短句,实现迭代更新。数据库中的词语或者短语都经过人为加工,标记了词语褒义信息、字数信息、拼音信息、对应人群信息中的一种或几种。本领域技术人员可根据实际需要标注词语或者短语的信息种类,并不限于以上信息种类。
本方案中,所述的根据历史数据进行数据特征预处理,构建用户操作模型的具体步骤如下:
将用户的操作时间划分为{上午,下午,晚上,凌晨}×{工作日,周末}的时间槽;
将上述时间槽内用户观看的视频的主题词组合成主题词集合;
计算主题词集合的主题词在一个时间槽的所有主题词中的权重;
输出与所述时间槽对应的集合及其权重。
本方案中,所述的用户操作模型挖掘用户行为特征,生成行为特征信息的具体步骤如下:
构建用户偏好矩阵和视频特征矩阵,使用独热编码进行编码,获得A*C和B*C的矩阵,其中C为时间槽的数量、A为用户的数量、B为视频的数量;
Figure BDA0002347070430000111
Figure BDA0002347070430000112
分别表示用户u和物品i的独热编码向量,可以使用以下公式获得对应的特征向量,也就是矩阵P的第u行和Q的第i行:
Figure BDA0002347070430000113
Figure BDA0002347070430000114
在计算机内部,英文字符采用的是编码标准,而中文字符是采用国标码进行编码的,一个汉字在计算机的国标码中以两个字节位二进制数存储,前一个字节前八位是区码,后一个字节后八位是位码。所有的国标汉字与符号组成一个的方阵。即汉字字符集是一个有个区,每个区有个位的方阵构成。此方阵中,每一行代表一个“区”,每一列代表一个“位”。每个汉字的区号和位号都是从到,将区码和位码简单地组合在一起就构成了汉字的“区位码”。因此,在汉字的区位码中,用高两位表示区号,低两位表示位号。如“王”的区位码为“4585”,“艳”和“燕”的区位码分别为“4962”和“4964”。
区位码是与汉字一一对应的编码,用四位十进制数字表示,前两位为区码,后两位为位码,所以一个汉字的区码可以用国标码的前八位减160得到,位码用国标码的后八位减160得到。
本方案中,处所述的根据特征预处理所得的用户行为特征输入神经网络进行学习,得到结果信息的具体步骤如下
输入矩阵P和矩阵Q,根据视频的点击量,使用神经协同过滤算法进行数据处理并输出
Figure BDA0002347070430000121
其中
Figure BDA0002347070430000122
为关于特征向量的函数表示,σ是把输出转换成概率的sigmoid函数,所述的
Figure BDA0002347070430000123
包括3种常用的函数表示方法,分别是通用矩阵分解方法,多层感知机方法和神经矩阵分解方法,这三种表示方法的介绍如下,
通用矩阵分解方法是在矩阵分解的结果上,为每个项增加权重:
Figure BDA0002347070430000124
其中h表示权重向量。
多层感知机方法是通过非线性的方法进行学习:
Figure BDA0002347070430000125
ZL=ReLU(WLzL-1+bL)
Figure BDA0002347070430000126
其中L表示多层感知机中隐含层的数量,Wx和bx分别表示第x层的权重和偏置项,激活函数默认使用线性整流函数;
神经矩阵分解方法是将GMF和MLP两种按照预设的权重结合起来:
Figure BDA0002347070430000131
其中h表示权重向量,zL为通过MLP学习得到的隐含层最后一层的结果。
本方案中,所述的根据特征预处理所得的用户行为特征输入神经网络进行学习,得到结果信息还包括:
使用jieba分词对所有视频资源的主题词进行分词操作;
比较所有资源中的主题词与某时间段内用户偏好的视频主题词的特征差别率;
将主题词小于特征差别率的归为用户偏好视频。
需要进一步说明的是,根据本发明的实施例,得到推荐的主题词信息还将进行相关度优先级的排序,将优先级靠前的主题词的视频信息筛选出,发送至客户端进行显示。
图2示出本发明的一种基于大数据的视频信息推荐系统的框图。
本发明第二发明公开了一种基于大数据的视频信息推荐系统,包括存储器和处理器,所述的存储器中包括基于大数据的视频信息推荐方法程序,所述的基于大数据的视频信息推荐方法程序被所述的处理器执行时,实现如下步骤:
根据历史数据进行数据特征预处理,构建用户操作模型;
用户操作模型挖掘用户行为特征,生成行为特征信息;
根据特征预处理所得的用户行为特征输入神经网络进行学习,得到结果信息;
根据神经网络所得的结果信息进行信息推荐。
本方案中,所述的历史数据包括观看视频的时间、各时间段观看视频的主题词集合、每个视频的点击量。
需要进一步说明的是,视频的主题词一般其字数不超过10个字。例如,可以为4个字或2个字的词语,甚至一些名言哲理的短句。这些词语或者短句都是出自于字典和网络中新兴的词语。数据库中的词语是可以定期或者不定期更新的,目的是获取跟新新兴的词语或短句,实现迭代更新。数据库中的词语或者短语都经过人为加工,标记了词语褒义信息、字数信息、拼音信息、对应人群信息中的一种或几种。本领域技术人员可根据实际需要标注词语或者短语的信息种类,并不限于以上信息种类。
本方案中,所述的根据历史数据进行数据特征预处理,构建用户操作模型的具体步骤如下:
将用户的操作时间划分为{上午,下午,晚上,凌晨}×{工作日,周末}的时间槽;
将上述时间槽内用户观看的视频的主题词组合成主题词集合;
计算主题词集合的主题词在一个时间槽的所有主题词中的权重;
输出与所述时间槽对应的集合及其权重。
本方案中,所述的用户操作模型挖掘用户行为特征,生成行为特征信息的具体步骤如下:
构建用户偏好矩阵和视频特征矩阵,使用独热编码进行编码,获得A*C和B*C的矩阵,其中C为时间槽的数量、A为用户的数量、B为视频的数量;
Figure BDA0002347070430000141
Figure BDA0002347070430000142
分别表示用户u和物品i的独热编码向量,可以使用以下公式获得对应的特征向量,也就是矩阵P的第u行和Q的第i行:
Figure BDA0002347070430000143
Figure BDA0002347070430000151
在计算机内部,英文字符采用的是编码标准,而中文字符是采用国标码进行编码的,一个汉字在计算机的国标码中以两个字节位二进制数存储,前一个字节前八位是区码,后一个字节后八位是位码。所有的国标汉字与符号组成一个的方阵。即汉字字符集是一个有个区,每个区有个位的方阵构成。此方阵中,每一行代表一个“区”,每一列代表一个“位”。每个汉字的区号和位号都是从到,将区码和位码简单地组合在一起就构成了汉字的“区位码”。因此,在汉字的区位码中,用高两位表示区号,低两位表示位号。如“王”的区位码为“4585”,“艳”和“燕”的区位码分别为“4962”和“4964”。
区位码是与汉字一一对应的编码,用四位十进制数字表示,前两位为区码,后两位为位码,所以一个汉字的区码可以用国标码的前八位减160得到,位码用国标码的后八位减160得到。
本方案中,处所述的根据特征预处理所得的用户行为特征输入神经网络进行学习,得到结果信息的具体步骤如下
输入矩阵P和矩阵Q,根据视频的点击量,使用神经协同过滤算法进行数据处理并输出
Figure BDA0002347070430000152
其中
Figure BDA0002347070430000153
为关于特征向量的函数表示,σ是把输出转换成概率的sigmoid函数,所述的
Figure BDA0002347070430000154
包括3种常用的函数表示方法,分别是通用矩阵分解方法,多层感知机方法和神经矩阵分解方法,这三种表示方法的介绍如下,
通用矩阵分解方法是在矩阵分解的结果上,为每个项增加权重:
Figure BDA0002347070430000155
其中h表示权重向量。
多层感知机方法是通过非线性的方法进行学习:
Figure BDA0002347070430000161
ZL=ReLU(WLzL-1+bL)
Figure BDA0002347070430000162
其中L表示多层感知机中隐含层的数量,Wx和bx分别表示第x层的权重和偏置项,激活函数默认使用线性整流函数;
神经矩阵分解方法是将GMF和MLP两种按照预设的权重结合起来:
Figure BDA0002347070430000163
其中h表示权重向量,zL为通过MLP学习得到的隐含层最后一层的结果。
本方案中,所述的根据特征预处理所得的用户行为特征输入神经网络进行学习,得到结果信息还包括:
使用jieba分词对所有视频资源的主题词进行分词操作;
比较所有资源中的主题词与某时间段内用户偏好的视频主题词的特征差别率;
将主题词小于特征差别率的归为用户偏好视频。
需要进一步说明的是,根据本发明的实施例,得到推荐的主题词信息还将进行相关度优先级的排序,将优先级靠前的主题词的视频信息筛选出,发送至客户端进行显示。
本发明第三方面公开了一种计算机可读存储介质,所述计算机可读存储介质中包括机器的一种基于大数据的视频信息推荐方法程序,所述一种基于大数据的视频信息推荐方法程序被处理器执行时,实现上述任一项所述的一种基于大数据的视频信息推荐方法的步骤,实现如下步骤:
根据历史数据进行数据特征预处理,构建用户操作模型;
用户操作模型挖掘用户行为特征,生成行为特征信息;
根据特征预处理所得的用户行为特征输入神经网络进行学习,得到结果信息;
根据神经网络所得的结果信息进行信息推荐。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (6)

1.一种基于大数据的视频信息推荐方法,其特征在于,包括:
根据历史数据进行数据特征预处理,构建用户操作模型,所述的历史数据包括观看视频的时间、各时间段观看视频的主题词集合、每个视频的点击量;具体步骤如下:将用户的操作时间划分为{上午,下午,晚上,凌晨}×{工作日,周末}的时间槽;将上述时间槽内用户观看的视频的主题词组合成主题词集合;计算主题词集合的主题词在一个时间槽的所有主题词中的权重;输出与所述时间槽对应的集合及其权重;
用户操作模型挖掘用户行为特征,生成行为特征信息;
根据特征预处理所得的用户行为特征输入神经网络进行学习,得到结果信息;
根据神经网络所得的结果信息进行信息推荐。
2.根据权利要求1所述的一种基于大数据的视频信息推荐方法,其特征在于,所述的用户操作模型挖掘用户行为特征,生成行为特征信息的具体步骤如下:
构建用户偏好矩阵和视频特征矩阵,使用独热编码进行编码,获得A*C和B*C的矩阵,其中C为时间槽的数量、A为用户的数量、B为视频的数量;
Figure FDA0002821154160000011
Figure FDA0002821154160000012
分别表示用户u和物品i的独热编码向量,使用以下公式获得对应的特征向量,也就是矩阵P的第u行和Q的第i行:
Figure FDA0002821154160000013
Figure FDA0002821154160000014
3.根据权利要求2所述的一种基于大数据的视频信息推荐方法,其特征在于,所述的根据特征预处理所得的用户行为特征输入神经网络进行学习,得到结果信息的具体步骤如下
输入矩阵P和矩阵Q,根据视频的点击量,使用神经协同过滤算法进行数据处理并输出
Figure FDA0002821154160000021
其中
Figure FDA0002821154160000022
为关于特征向量的函数表示,σ是把输出转换成概率的sigmoid函数,所述的
Figure FDA0002821154160000023
包括3种常用的函数表示方法,分别是通用矩阵分解方法,多层感知机方法和神经矩阵分解方法,这三种表示方法的介绍如下,
通用矩阵分解方法是在矩阵分解的结果上,为每个项增加权重:
fθ(pu,qi)=hT(pu⊙qi)
其中h表示权重向量;
多层感知机方法是通过非线性的方法进行学习:
Figure FDA0002821154160000024
zL=ReLU(WLzL-1+bL)
fθ(pu,qi)=hTzL
其中L表示多层感知机中隐含层的数量,Wx和bx分别表示第x层的权重和偏置项,激活函数默认使用线性整流函数;
神经矩阵分解方法是将GMF和MLP两种按照预设的权重结合起来:
Figure FDA0002821154160000025
其中h表示权重向量,zL为通过MLP学习得到的隐含层最后一层的结果。
4.根据权利要求3所述的基于大数据的视频信息推荐方法,其特征在于,所述的根据特征预处理所得的用户行为特征输入神经网络进行学习,得到结果信息还包括:
使用jieba分词对所有视频资源的主题词进行分词操作;
比较所有资源中的主题词与某时间段内用户偏好的视频主题词的特征差别率;
将主题词小于特征差别率的归为用户偏好视频。
5.一种基于大数据的视频信息推荐系统,其特征在于,包括存储器和处理器,所述的存储器中包括基于大数据的视频信息推荐方法程序,所述的基于大数据的视频信息推荐方法程序被所述的处理器执行时,实现如下步骤:
根据历史数据进行数据特征预处理,构建用户操作模型,所述的历史数据包括观看视频的时间、各时间段观看视频的主题词集合、每个视频的点击量;具体步骤如下:将用户的操作时间划分为{上午,下午,晚上,凌晨}×{工作日,周末}的时间槽;将上述时间槽内用户观看的视频的主题词组合成主题词集合;计算主题词集合的主题词在一个时间槽的所有主题词中的权重;输出与所述时间槽对应的集合及其权重;
用户操作模型挖掘用户行为特征,生成行为特征信息;
根据特征预处理所得的用户行为特征输入神经网络进行学习,得到结果信息;
根据神经网络所得的结果信息进行信息推荐。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括机器的一种基于大数据的视频信息推荐方法程序,所述一种基于大数据的视频信息推荐方法程序被处理器执行时,实现如权利要求1至4中任一项所述的一种基于大数据的视频信息推荐方法的步骤。
CN201911399174.9A 2019-12-30 2019-12-30 一种基于大数据的视频信息推荐方法、系统和可读存储介质 Active CN111225282B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911399174.9A CN111225282B (zh) 2019-12-30 2019-12-30 一种基于大数据的视频信息推荐方法、系统和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911399174.9A CN111225282B (zh) 2019-12-30 2019-12-30 一种基于大数据的视频信息推荐方法、系统和可读存储介质

Publications (2)

Publication Number Publication Date
CN111225282A CN111225282A (zh) 2020-06-02
CN111225282B true CN111225282B (zh) 2021-04-02

Family

ID=70830940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911399174.9A Active CN111225282B (zh) 2019-12-30 2019-12-30 一种基于大数据的视频信息推荐方法、系统和可读存储介质

Country Status (1)

Country Link
CN (1) CN111225282B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182379B (zh) * 2020-09-28 2021-07-13 上海嗨普智能信息科技股份有限公司 数据处理方法、电子设备及介质
CN113569136B (zh) * 2021-07-02 2024-03-05 北京达佳互联信息技术有限公司 视频推荐方法、装置、电子设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8037080B2 (en) * 2008-07-30 2011-10-11 At&T Intellectual Property Ii, Lp Recommender system utilizing collaborative filtering combining explicit and implicit feedback with both neighborhood and latent factor models
JP2013131165A (ja) * 2011-12-22 2013-07-04 Toshiba Corp 情報再生装置とその制御方法
CN103888852B (zh) * 2014-03-24 2017-05-31 清华大学 用于社交电视的视频推荐方法和装置
CN105338408B (zh) * 2015-12-02 2018-11-13 南京理工大学 基于时间因子的视频推荐方法
CN106484773B (zh) * 2016-09-12 2020-02-14 传线网络科技(上海)有限公司 确定多媒体资源的关键词的权重的方法及装置
CN109429104B (zh) * 2017-09-04 2021-01-26 北京国双科技有限公司 家庭成员的分析方法及相关装置
CN108320187B (zh) * 2018-02-02 2021-04-06 合肥工业大学 一种基于深度社交关系的推荐方法

Also Published As

Publication number Publication date
CN111225282A (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN110139162B (zh) 媒体内容的共享方法和装置、存储介质、电子装置
US11062198B2 (en) Feature vector based recommender system
US8566261B2 (en) Interactive recommendations
US20230017667A1 (en) Data recommendation method and apparatus, computer device, and storage medium
CN111626832B (zh) 产品推荐方法、装置及计算机设备
US11263687B2 (en) System for secure management of inventory and profile information
CN111225282B (zh) 一种基于大数据的视频信息推荐方法、系统和可读存储介质
EP4310695A1 (en) Data processing method and apparatus, computer device, and storage medium
US11886556B2 (en) Systems and methods for providing user validation
CN111372141A (zh) 表情图像生成方法、装置及电子设备
CN112396456A (zh) 广告推送方法、装置、存储介质以及终端
TW201814556A (zh) 資訊匹配方法及相關裝置
CN112364203A (zh) 电视视频推荐方法、装置、服务器和存储介质
CN111625681A (zh) 一种基于大数据的视频信息推荐方法、系统和可读存储介质
CN113704620A (zh) 基于人工智能的用户标签更新方法、装置、设备及介质
US20150081576A1 (en) Generating a supplemental description of an entity
CN117010992A (zh) 用于多任务多场景推荐的推荐模型的训练方法和推荐方法
Bradfield Queen Sono: Netflix Original as postfeminist South African spy thriller
JP6433270B2 (ja) コンテンツ検索結果提供システム及びコンテンツ検索結果提供方法
CN113095901B (zh) 推荐方法和相关模型的训练方法、电子设备、存储装置
CN115964520A (zh) 元数据标签识别
CN111611491A (zh) 搜索词推荐方法、装置、设备及可读存储介质
Dereventsov et al. Simulated contextual bandits for personalization tasks from recommendation datasets
CN112818082A (zh) 评价文本推送方法和装置
JP6885217B2 (ja) ユーザ対話支援システム、ユーザ対話支援方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant