CN110210881A

CN110210881A - 一种用户兴趣预测方法、装置及系统

Info

Publication number: CN110210881A
Application number: CN201810170465.XA
Authority: CN
Inventors: 冯禹铭; 付贤会
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2019-09-06

Abstract

本发明公开了一种用户兴趣预测方法、装置及系统，该方法包括：采集特定的数据生成日志文件；根据日志文件生成训练样本；根据训练样本，采用差分进化算法训练局部回归Elman神经网络以生成所述Elman神经网络的权值和阈值；根据Elman神经网络的权值和阈值获取用户对各主题分类的兴趣度。基于人工智能理论，通过差分进化算法与Elman神经网络相结合的方法，利用数据不断进行自学习及自适应，深度挖掘出用户操作习惯与兴趣度的潜在关系，且对这种潜在关系动态调整，能够量化用户对不同内容的兴趣度，实现对用户兴趣的高精度预测。

Description

一种用户兴趣预测方法、装置及系统

技术领域

本发明涉及通讯设备领域，尤其涉及一种用户兴趣预测方法、装置及系统。

背景技术

随着人工智能的不断发展，产品定制化、服务个性化是未来的发展趋势，作为人工智能具有代表性的一部分，智能终端开始进入千家万户。智能终端极大程度上丰富了用户的观看需求，海量的资源让用户也产生了幸福的烦恼，如何才能迅速找到自己喜欢的资源。此外，内容提供商及广告服务商也十分希望能够详细了解用户的兴趣点，从而为广告投放与内容定制提供准确的依据。传统预测用户兴趣度方法是采用公式法，即通过事先设定好的公式规则，直接计算出兴趣度。这种方法存在计算精度较低，无法自学习及动态修正等缺陷，导致无法深度挖掘出用户操作习惯与用户对不同内容兴趣度的潜在关系。

发明内容

有鉴于此，本发明的目的在于提供一种用户兴趣预测方法、装置及系统，以解决现有技术预测精度较低，无法通过自学习及动态修正，深度挖掘出用户操作习惯与兴趣度的潜在关系的技术问题。

本发明解决上述技术问题所采用的技术方案如下：

根据本发明的一个方面，提供的一种用户兴趣预测方法包括：

采集特定的数据生成日志文件；

根据所述日志文件和局部回归(global feed for ward local recurrent，Elman)神经网络的输入与输出生成训练样本；

采用差分进化算法训练Elman神经网络,根据所述训练样本生成所述Elman神经网络的权值和阈值；

根据所述Elman神经网络的权值和阈值获取用户对各主题分类的兴趣度。

优选的，还包括：在预设的时间间隔更新所述训练样本。

优选的，所述采用差分进化算法训练所述Elman神经网络，根据所述训练样本生成所述Elman神经网络的权值和阈值，具体包括：

判断内容分发网络(Content Delivery Network，CDN)服务器是否可用；

在所述CDN服务器可用的情况下，向所述CDN服务器发送所述训练样本，其中，所述CDN服务器根据所述训练样本采用差分进化算法训练Elman神经网络以生成所述Elman神经网络的权值和阈值；

在所述CDN服务器不可用的情况下，由智能终端根据所述训练样本，采用差分进化算法训练Elman神经网络以生成所述Elman神经网络的权值和阈值。

优选的，所述采用差分进化算法训练Elman神经网络以生成所述Elman神经网络的权值和阈值，具体还包括：

所述Elman神经网络根据所述训练样本初始化种群及算法参数；

确定适应度函数，根据所述种群的个体及算法参数得到不同的网络结构，根据适应度函数值评价网络性能；

依次进行变异操作、交叉操作、选择操作生成新种群，将所述新种群中的每个个体进行解码变为权值和阈值，构成神经网络，直接计算对应网络的输出误差作为所述新种群中的个体的适应度值；

在所述适应度值达到了最大进化代数时，将所述新种群中的最优个体解码后作为所述Elman神经网络的权值和阈值。

优选的，所述特定的数据至少包括以下之一：用户对智能终端的每一个操作数据、智能终端当前状态信息、用户观看内容标签；所述训练数据，至少包括以下之一：观看时间、观看时长、观看动作、观看次数、切换频率、视频信息。

根据本发明的另一个方面，提供的一种用户兴趣预测装置包括：

数据采集模块，用于采集特定的数据生成日志文件；

第一生成模块，用于根据所述日志文件和局部回归神经网络的输入与输出生成训练样本；

第二生成模块，用于采用差分进化算法训练所述Elman神经网络，根据所述训练样本生成所述Elman神经网络的权值和阈值；

兴趣预测模块，用于根据所述Elman神经网络的权值和阈值获取用户对各主题分类的兴趣度。

优选的，所述装置还包括：

更新模块，用于在在预设的时间间隔更新所述训练样本。。

优选的，所述第二生成模块，具体包括：

判断单元，用于判断CDN服务器是否可用；

第一生成单元，用于在所述CDN服务器可用的情况下，向所述CDN服务器发送所述训练样本，其中，所述CDN服务器根据所述训练样本采用差分进化算法训练Elman神经网络以生成所述Elman神经网络的权值和阈值；

第二生成单元，用于在所述CDN服务器不可用的情况下，由智能终端根据所述训练样本，采用差分进化算法训练Elman神经网络以生成所述Elman神经网络的权值和阈值。

根据本发明的再一个方面，提供的一种用户兴趣预测系统包括：

智能终端和CDN服务器，

所述智能终端用于采集特定的数据生成日志文件，根据所述日志文件生成训练样本；

所述CDN服务器用于接收所述智能终端发送所述训练样本，根据所述训练样本，采用差分进化算法训练Elman神经网络以生成所述Elman神经网络的权值和阈值；根据所述Elman神经网络的权值和阈值获取用户对各主题分类的兴趣度。

优选的，所述系统还包括：

在所述CDN服务器不可用的情况下，由智能终端根据所述训练样本，采用差分进化算法训练Elman神经网络以生成所述Elman神经网络的权值和阈值；根据所述Elman神经网络的权值和阈值获取用户对各主题分类的兴趣度。

本发明实施例的用户兴趣预测方法、装置及系统，该方法包括：采集特定的数据生成日志文件；根据日志文件生成训练样本；采用差分进化算法训练Elman神经网络，根据训练样本生成所述Elman神经网络的权值和阈值；根据Elman神经网络的权值和阈值获取用户对各主题分类的兴趣度。基于人工智能理论，通过差分进化算法与Elman神经网络相结合的方法，利用数据不断进行自学习及自适应，深度挖掘出用户操作习惯与兴趣度的潜在关系，且对这种潜在关系动态调整，能够量化用户对不同内容的兴趣度，实现用户兴趣的高精度预测。

附图说明

图1为本发明实施例提供的用户兴趣预测方法流程图；

图2为本发明实施例提供的Elman神经网络结构图；

图3是为本发明实施例提供的差分进化算法优化流程图；

图4为本发明优选实施例提供的用户兴趣预测方法流程图；

图5为本发明实施例提供的用户兴趣预测装置模块结构图；

图6为本发明实施例提供的用户兴趣预测系统结构图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明实施例提供的一种用户兴趣预测方法包括：

步骤S101、采集特定的数据生成日志文件；

具体的，在智能终端启动后，记录下用户的每一步操作数据以及观看的视频信息等数据，生成日志文件，特定的数据至少包括以下之一：用户对智能终端的每一个操作数据、智能终端当前状态信息、用户观看内容标签。

步骤S102、根据日志文件和Elman神经网络的输入和输出生成训练样本；

步骤S102进一步包括：

S1021：解析日志文件；

S1022：抓取日志文件中的训练数据；

S1023：根据Elman神经网络的输入和输出的结构或参数将所述训练数据生成训练样本。

具体的，解析日志文件，抓取日志中的训练数据，包括观看时间、观看时长、观看动作(点击、查询、拖动、收藏)、观看次数、切换频率、视频信息(年代、地区、类型、时长)，根据Elman神经网络的输入和输出的结构或参数生成训练样本，在智能终端本地存储器中划分一块存储区域作为数据库，存放解析出的训练数据。

其中，Elman神经网络输入为训练数据，包括观看时间、观看时长、观看动作(点击、查询、拖动、收藏)、观看次数、切换频率、视频信息(年代、地区、类型、时长)，输出为：用户相对于主题分类的量化兴趣度。

智能终端本地存放的训练数据库大小为预设值，需考虑智能终端本地存储器实际大小设定一个合理值。当有新的数据写入使得数据库大小超限，则删除原有最旧的数据，控制训练数据库的占用体积。

步骤S103、采用差分进化算法训练Elman神经网络，根据训练样本生成所述Elman神经网络的权值和阈值；

步骤S104、根据Elman神经网络的权值和阈值获取用户对各主题分类的兴趣度。

具体的，差分进化算法能够利用训练样本修正Elman神经网络的权值和阈值，使其得到不断优化，提升预测精度，根据用户操作数据和机顶盒状态信息等训练样本就能够输出对应于不同主题分类的量化兴趣度。每隔一个设定时间间隔，使用新的训练样本，利用差分进化算法优化Elman神经网络的权值和阈值，并删除已经训练完的数据。为了提高Elman神经网络训练效率，相对于主题分类的量化兴趣度均归一化为[0，1]范围的值。最后将用户对不同主题分类的兴趣度数据发送给内容提供商及广告服务商服务，为他们的决策提供依据。

其中，主题分类包含但不限于：爱情、幽默、动作、剧情、科幻、恐怖、动画、惊悚、犯罪、冒险、交通、体育、军事、医药、政治、教育、环境、科技、经济、艺术、法律、农业。

Elman神经网络的传统训练方法为梯度下降法，该方法容易使Elman神经网络的训练陷入局部极小，且收敛速度慢。本发明使用差分进化算法修正Elman神经网络的权值和阈值，能够提高其训练速度和精度。

比如，当用户每天在20:00-21:00时间均观看幽默类内容，这种行为经过多次训练，差分进化算法会不断调整Elman神经网络的权值与阈值，挖掘出这种行为的潜在关系，影响了Elman神经网络的输出，使得下次用户再想在这个时间段观看时，会输出比较大的相对于幽默主题分类的兴趣度。随着训练次数增多，通过权值阈值的调整，该主题分类的兴趣度表现为越来越趋近于1。

再比如，当用户每当观看到体育类以及军事类内容时，均频繁切换，且观看时长均很短，这种用户行为经过多次训练，差分进化算法会不断调整Elman神经网络的权值和阈值，挖掘出这种行为的潜在关系，调整权值和阈值使得输出较低的关于体育类及军事类内容的兴趣度。随着训练次数的增多，这种“行为记忆”被不断强化，该主题分类的兴趣度表现为越来越趋近于0。

如图2所示，本发明实施例提供的Elman神经网络结构图，其使用过程如下：

首先，要对Elman神经网络进行训练，初始化各层的权值和阈值，隐含层神经元的激活函数使用tansig型函数，输出层神经元激活函数使用purelin型函数。然后，运用准备好的训练样本，计算出输入层的输出，再将结果赋给隐含层，计算出输出层的输出，并将结果暂时存在状态层。之后，将状态层存储的输出反馈回隐含层，计算出新的输出层输出结果，对比两次输出计算误差，根据误差更新系统的权值和阈值，重复进行上述过程直到达到了终止条件。在权值和阈值确定后，将待预测的信息输入，经过计算可获取到用户相对应不同主题分类的兴趣度。

对于Elman神经网络而言，待预测的信息从输入节点进入网络，经计算通过可变权值到达隐含层节点，隐含层节点的输出既要传给输出节点，又要传给状态层，最后从输出层输出识别结果。到了后一个时刻，状态层将前一时刻的隐含层节点输出值与新的输入节点输出值一道传给隐含层结点，重复前一个时刻的过程。Elman神经网络能够很好地映射动态特性，具有适应时变特性的能力，这都要归功于它多了个能够存储内部状态的状态层。Elman网络对历史数据拥有更高的敏感性，这更有利于它“记住”先前学习过的数据样本，从而很好地进行预测工作。

如图3所示，本发明实施例提供的差分进化算法优化流程图，其执行过程如下：

S301、给定Elman神经网络训练样本；

具体的，差分进化算法使用的是实数编码方式，个体编码的长度与其变量的个数相等，个体X的元素就是神经网络的全体连接权值和阈值。设Elman网络输入层有n个神经元，隐层有p个神经元(状态层与其神经元数目相同)，输出层有q个神经元；输入层到隐含层的权值为u，隐含层到输出层的权值为v，状态层到隐含层的权值为w，隐含层各单元的阈值为θ，输出层各单元的阈值为γ，则个体向量x的编码为：X＝[u₁₁,…,u_np,v₁₁,…,v_pq,w₁₁,…,w_pp,θ₁,…,θ_p,γ₁,…,γ_q]

S302、初始化种群及算法参数；

具体的，确定种群规模NP，并生成含有NP个个体的初始种群X＝(X₁,X₂,…,X_p)^T，确定最大进化代数t_max，变异因子F和交叉因子CR的值。对Elman神经网络的权值和阈值进行优化，首先要建立初始化差分进化种群，每个个体是由权值和阈值组成的，以样本预测误差作为个体适应度评价函数，计算每个个体的适应度；最后采用差分的变异方式交叉操作，直至预测误差小于设定值，优化结束，保存最优个体值，即权值和阈值。

S303、确定适应度函数，根据种群个体及参数得到不同的网络结构，根据适应度函数值评价网络性能；

具体的，在差分进化算法中，适应度是描述种群个体优劣程度的重要指标。本文选用均方误差作为适应度函数，表达式如下：

式中，N为训练样本的总数；t_p是第p个样本的期望输出；y_p是第p个样本的实际输出。通过比较每个个体的适应度值，选取适应度最小的个体。

S304、变异操作、交叉操作、选择操作

具体的，根据公式对个体X_i进行变异，生成变异个体X_i'；将生成的变异个体X_i和X_i'按照公式进行交叉操作，生成新个体X_T；将X_i和X_T带入目标函数值中，选出适应度函数值较小的个体X'_T作为新种群的个体。

将每个个体进行解码变为权值和阈值，构成神经网络，直接计算对应网络的输出误差，作为个体的适应度值

S305、判断是否达到了最大进化代数；

首先判断进化过程是否达到了最大进化代数，如果达到了则转至步骤306，如果没有达到则继续判断适应度值是否达到了目标要求，如果达到了则停止算法的进化过程，如果没有则重复进行步骤S303～步骤S305。

S306、将最优个体解码后作为Elman神经网络的权值和阈值；

将最优个体进行解码，这个优化后的个体能拆分成Elman神经网络各层的连接权值和阈值，以此作为神经网络的权值和阈值。

S307、利用训练样本训练Elman神经网络。

如图4所示，本发明优选实施例提供的一种用户兴趣预测方法包括：

S401、采集特定的数据生成日志文件

其中，特定的数据至少包括以下之一：用户对智能终端的每一个操作数据、智能终端当前状态信息、用户观看内容标签；

具体的，在智能终端启动后，记录下用户的每一步操作数据以及观看的视频信息等数据，生成日志文件。

S402、根据日志文件和Elman神经网络的输入输出生成训练样本；

具体的，解析日志文件，抓取日志中的训练数据，包括观看时间、观看时长、观看动作(点击、查询、拖动、收藏)、观看次数、切换频率、视频信息(年代、地区、类型、时长)，根据Elman神经网络的输入和输出生成训练样本，在智能终端本地存储器中划分一块存储区域作为数据库，存放解析出的训练数据。

S403、判断CDN服务器是否可用；

S404、在CDN服务器可用的情况下，由智能终端发送训练样本给CDN服务器，采用差分进化算法训练Elman神经网络以生成所述Elman神经网络的权值和阈值；根据Elman神经网络的权值和阈值获取用户对各主题分类的兴趣度。

在CDN服务器可用的前提下，将训练样本发送到CDN服务器当中，充分利用CDN服务器的运算能力和网络速度，减轻机顶盒自身的运算负荷。此外，CDN服务器自身拥有大量的内容资源，输出对不同内容的兴趣度，在数据库中对内容进行筛选，并将筛选出的内容经过内容推送模块进行推送给用户，从而实现个性化的服务。

S405、在所述CDN服务器不可用的情况下，由智能终端通过差分进化算法使用训练样本训练Elman神经网络，生成Elman神经网络的权值和阈值，以获取用户对各主题分类的兴趣度；

S406、是否到达预设时间间隔；

S407、当到达预设时间间隔时，获取新的训练样本，删除旧的训练样本，并执行步骤S403；

S408、结束流程。

如图5所示，本发明实施例提供的一种用户兴趣预测装置包括：

数据采集模块51，用于采集特定的数据生成日志文件；

第一生成模块52，用于根据日志文件和Elman神经网络的输入输出生成训练样本；

第二生成模块53，用于采用差分进化算法训练Elman神经网络，根据训练样本生成Elman神经网络的权值和阈值；

兴趣预测模块54，用于根据Elman神经网络的权值和阈值获取用户对各主题分类的兴趣度。

如图6所示，本发明实施例提供的一种用户兴趣预测系统包括：

智能终端61和CDN服务器62，

智能终端用于采集特定的数据生成日志文件，根据该日志文件生成训练样本；

其中，特定的数据至少包括以下之一：用户对智能终端的每一个操作数据、智能终端当前状态信息、用户观看内容标签，解析日志文件，抓取日志文件中的训练数据，形成训练样本；

CDN服务器用于接收所述智能终端发送训练样本，根据该训练样本，采用差分进化算法训练Elman神经网络以生成该Elman神经网络的权值和阈值；根据该Elman神经网络的权值和阈值获取用户对各主题分类的兴趣度。

在CDN服务器不可用的情况下，由智能终端根据该训练样本，采用差分进化算法训练Elman神经网络以生成该Elman神经网络的权值和阈值；根据该Elman神经网络的权值和阈值获取用户对各主题分类的兴趣度。

本实施例中，智能终端70具体包括但不限于手机、机顶盒、平板电脑、网络电视等。

本发明实施例的用户兴趣预测方法、装置、系统及智能终端，该方法包括：采集特定的数据，并生成日志文件；解析日志文件，抓取日志文件中的训练数据，形成训练样本；通过差分进化算法使用训练样本训练Elman神经网络，生成Elman神经网络的权值和阈值，以获取用户对各主题分类的兴趣度。基于人工智能理论，通过差分进化算法与Elman神经网络相结合的方法，利用数据不断进行自学习及自适应，深度挖掘出用户操作习惯与兴趣度的潜在关系，且对这种潜在关系动态调整，能够量化用户对不同内容的兴趣度，实现用户兴趣的高精度预测。

以上参照附图说明了本发明的优选实施例，并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质内所作的任何修改、等同替换和改进，均应在本发明的权利范围之内。

Claims

1.一种用户兴趣预测方法，其特征在于，包括：

采集特定的数据生成日志文件；

根据所述日志文件和局部回归Elman神经网络的输入与输出生成训练样本；

采用差分进化算法训练所述Elman神经网络，根据所述训练样本生成所述Elman神经网络的权值和阈值；

2.根据权利要求1所述的方法，其特征在于，还包括:在预设的时间间隔更新所述训练样本。

3.根据权利要求1所述的方法，其特征在于，所述根据日志文件和局部回归Elman神经网络的输入与输出生成训练样本具体包括：

解析所述日志文件；

抓取所述日志文件中的训练数据；

根据所述Elman神经网络的输入和输出的结构或参数将所述训练数据生成训练样本。

4.根据权利要求1所述的方法，其特征在于，所述采用差分进化算法训练所述Elman神经网络，根据所述训练样本生成所述Elman神经网络的权值和阈值，具体包括：

判断内容分发网络CDN服务器是否可用；

5.根据权利要求4所述的方法，其特征在于，所述采用差分进化算法，根据所述训练样本生成所述Elman神经网络的权值和阈值，具体包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述特定的数据至少包括以下之一：用户对智能终端的每一个操作数据、智能终端当前状态信息、用户观看内容标签；所述训练样本，至少包括以下之一：观看时间、观看时长、观看动作、观看次数、切换频率、视频信息。

7.一种用户兴趣预测装置，其特征在于，包括：

数据采集模块，用于采集特定的数据生成日志文件；

第一生成模块，用于根据所述日志文件和局部回归Elman神经网络的输入与输出生成训练样本；

8.根据权利要求7所述的装置，其特征在于，还包括：

更新模块，用于在在预设的时间间隔更新所述训练样本。

9.根据权利要求8所述的装置，其特征在于，所述第二生成模块，具体包括：

判断单元，用于判断内容分发网络CDN服务器是否可用；

10.一种用户兴趣预测系统，包括智能终端和内容分发网络CDN服务器，其特征在于，

11.根据权利要求10所述的系统，其特征在于，还包括：