CN107992531A

CN107992531A - 基于深度学习的新闻个性化智能推荐方法与系统

Info

Publication number: CN107992531A
Application number: CN201711168188.0A
Authority: CN
Inventors: 余承乐; 洪晶; 陈宇
Original assignee: Jilin Information Consultancy (shenzhen) Co Ltd
Current assignee: Jilin Information Consultancy (shenzhen) Co Ltd
Priority date: 2017-11-21
Filing date: 2017-11-21
Publication date: 2018-05-04
Anticipated expiration: 2037-11-21
Also published as: CN107992531B

Abstract

一种基于深度学习的新闻个性化智能推荐方法与系统，方法包括：获取用户移动端互联网行为数据，并根据BP神经网络预测用户实时兴趣爱好标签；按照用户实时兴趣爱好标签向用户推荐主题与兴趣爱好标签相对应的新闻；获取用户阅读情况；根据用户阅读情况对用户实时兴趣标签进行修正，并进行下一次新闻推荐，从而能够根据用户实时兴趣爱好标签进行新闻推荐，使新用户也能较好的获取到感兴趣的新闻，同时能够根据用户的阅读情况及时对用户实时兴趣标签进行修正，在保证标签精确地同时，丰富了标签的种类，从而能够避免被推荐的新闻主题越来越少，兼顾推荐系统的收敛和发散，提升用户体验度。

Description

基于深度学习的新闻个性化智能推荐方法与系统

技术领域

本发明涉及互联网新闻推送，具体涉及一种基于深度学习的新闻个性化智能推荐方法、一种计算机可读存储介质、一种基于深度学习的新闻个性化智能推荐系统以及一种基于深度学习的新闻个性化智能推荐装置。

背景技术

随着互联网的飞速发展，各种新闻每天都在以亿万级的数量递增，导致用户很难及时浏览到自己感兴趣的新闻，给用户带来了不好的体验，为了解决该问题，通常通过个性化新闻推荐系统将用户感兴趣的新闻及时推荐给他们。

但是，相关技术中当用户历史行为缺失、片面或对历史行为数据的不合理应用时会导致错误推荐，给用户带来不好的体验。例如，当遇到新用户和没有采集到历史行为数据的用户时，通常随机的推荐新闻；又如，当只采集到用户部分感兴趣的新闻时，通常会导致只给该用户推荐单一类型的新闻。

因此，相关技术需要改进。

发明内容

本申请提供一种基于深度学习的新闻个性化智能推荐方法，能够根据用户实时的兴趣爱好进行新闻推荐。

根据第一方面，一种实施例中提供一种基于深度学习的新闻个性化智能推荐方法，获取用户移动端互联网行为数据，并根据BP神经网络预测用户实时兴趣爱好标签；按照所述用户实时兴趣爱好标签向用户推荐主题与所述兴趣爱好标签相对应的新闻；获取用户阅读情况；根据所述用户阅读情况对所述用户实时兴趣标签进行修正，并进行再一次新闻推荐。

可选地，所述用户阅读情况可包括用户阅读的正反馈与负反馈。

可选地，基于深度学习的新闻个性化智能推荐方法可还包括：获取新闻内容，并对所述新闻内容进行文本分词以生成新闻词序列；根据LDA模型和所述新闻词序列提取所述新闻内容的主题词，以形成待计算的新闻；获取新闻类型分类器；对所述待计算的新闻与所述新闻类型分类器进行基于数据流图的多粒度卷积神经网络的计算，以获取所述新闻内容所属的主题类型。

可选地，获取新闻类型分类器的方法可包括：获取新闻类型正样本；将所述新闻类型正样本进行文本分词，并提取所述新闻类型正样本的主题词，以将新闻类型正样本训练成各主题类型的新闻分类器。

根据第二方面，一种实施例中提供一种计算机可读存储介质，包括程序，所述程序能够被处理器执行以实现所述的方法。

根据第三方面，一种实施例中提供一种基于深度学习的新闻个性化智能推荐系统，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现所述的方法。

根据第四方面，一种基于深度学习的新闻个性化智能推荐装置，包括：用于获取用户移动端互联网行为数据，并根据BP神经网络预测用户实时兴趣爱好标签的装置；用于按照所述用户实时兴趣爱好标签向用户推荐与所述兴趣爱好标签相对应的主题的新闻的装置；用于获取用户阅读情况，并将所述用户阅读情况进行反馈的装置；用于根据所述用户阅读情况对所述用户实时兴趣标签进行修正，并进行再一次新闻推荐的装置。

可选地，基于深度学习的新闻个性化智能推荐装置可还包括：用于获取新闻内容，并对所述新闻内容进行文本分词以生成新闻词序列的装置；用于根据 LDA模型和所述新闻词序列提取所述新闻内容的主题词，以形成待计算的新闻的装置；用于获取新闻类型分类器的装置；用于对所述待计算的新闻与所述新闻类型分类器进行基于数据流图的多粒度卷积神经网络的计算，以获取所述新闻内容所属的主题类型的装置。

可选地，获取新闻类型分类器可包括：用于获取新闻类型正样本的装置；用于将所述新闻类型正样本进行文本分词，并提取所述新闻类型正样本的主题词，以将新闻类型正样本训练成各主题类型的新闻分类器的装置。

依据上述实施例的基于深度学习的新闻个性化智能推荐方法及装置，能够根据用户实时兴趣爱好标签进行新闻推荐，从而使新用户也能较好的获取到感兴趣的新闻，同时能够根据用户的阅读情况及时对用户实时兴趣标签进行修正，进而能够避免被推荐的新闻类型越来越少，提升用户的体验。

附图说明

图1为根据本发明实施例的基于深度学习的新闻个性化智能推荐方法的流程图；

图2为根据本发明一个实施例的基于深度学习的新闻个性化智能推荐方法的新闻内容的示意图；

图3为根据本发明一个实施例的基于深度学习的新闻个性化智能推荐方法的新闻内容文本分词后生成新闻词序列的示意图；

图4为根据本发明一个实施例的基于深度学习的新闻个性化智能推荐方法的LDA模型结构示意图；

图5为根据本发明一个实施例的基于深度学习的新闻个性化智能推荐方法获取得到的待计算的新闻的示意图；以及

图6为根据本发明一个实施例的基于深度学习的新闻个性化智能推荐方法的计算两个文档相似度的结构示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

数据挖掘是当前计算机研究的热门领域，随着互联网的飞速发展，各种网络信息不断剧增，智能推荐技术应运而生。衡量一个推荐系统的优劣，关键在于推荐的准确性，核心问题是如何准确获取用户的个性喜好和解析被推荐内容的主题特征。在没有用户的大量历史行为数据，不知道用户个人喜好的情况下，设计出一个让用户对推荐结果满意从而愿意使用的个性化推荐系统，显得尤为重要。

图1为根据本发明实施例的基于深度学习的新闻个性化智能推荐方法的流程图。如图1所示，本发明实施例的基于深度学习的新闻个性化智能推荐方法，包括以下步骤：

S1：获取用户移动端互联网行为数据，并根据BP神经网络预测用户实时兴趣爱好标签。

需要说明的是，可通过用户移动端采集用户的各维度信息，进而分析得到用户的手机型号、品牌类型、运营商、操作系统、设备价值、分辨率、屏幕尺寸、手机上市时间、设备分类、是否有子女、行为性别、婚姻状态、国籍、行为年龄、有无车标识、消费能力水平、收入能力水平、职业类型、工作时段的活动区域、休息时段的活动区域、常住省份、常住城市、人生阶段、公司类型、文化水平、子女阶段、客户信息、金融偏好、旅游目标偏好、旅游品质偏好、应用使用市场、应用使用频度、社交网络活跃度、应用偏好、消费偏好、消费品级、购买方式、上网目的和阅读偏好等基本画像，然后根据这些基本画像数据，利用BP神经网络预测用户当前状态下的兴趣爱好。

具体地，可将基本画像数据作为BP神经网络的输入，在隐含层根据激励函数计算并输出用户实时兴趣爱好标签，其中，x_i为第i个输入的基本画像数据，w_i为第i个输入的基本画像数据的权重，b为隐含层的偏移量，由此能够根据BP神经网络结构获取用户实时兴趣爱好标签。

S2：按照用户实时兴趣爱好标签向用户推荐主题与兴趣爱好标签相对应的新闻。

S3：获取用户阅读情况。其中，用户阅读情况包括用户阅读的正反馈与负反馈。

需要说明的是，用户阅读情况为用户阅读行为数据，直接反映了用户的阅读偏好。具体地，用户阅读情况包括：用户ID、新闻ID、点击次数、阅读时长、是否收藏、是否转发和是否评论等。其中，正反馈为反馈用户喜欢某篇新闻的信息，例如多次点击阅读、阅读时间长、收藏、转发该新闻等；负反馈为用户不喜欢某篇新闻的信息，例如推荐给用户的某篇新闻从未被点击阅读过，用户点击了新闻标题上的不感兴趣按钮、对新闻做了表达不感兴趣的负面评论等。

S4：根据用户阅读情况对用户实时兴趣标签进行修正，并进行再一次新闻推荐。

具体地，通过用户阅读情况可以分析得到用户的阅读偏好数据，进而通过阅读偏好数据对用户实时兴趣爱好标签进行修正，以在进行再一次新闻推荐时，根据修正后的兴趣爱好标签重新推荐新闻。

举例来说，通过用户阅读行为中的新闻ID可以确定用户实时兴趣爱好标签中的主题类型，通过用户ID可以确定具体的用户，从而可以分析得到具体用户偏爱的具体新闻主题类型，在结合新闻的点击次数、阅读时长、是否收藏、是否转发和是否评论等，可以计算出用户对某具体新闻主题类型的偏好程度，然后利用分析得到的结果修正用户实时兴趣爱好标签，使得用户实时兴趣爱好标签越来越符合用户的当前状态。

根据本发明的一个实施例，基于深度学习的新闻个性化智能推荐方法还包括：

S101：获取新闻内容，并对新闻内容进行文本分词以生成新闻词序列。

需要说明的是，整条的新闻文本(如图2所示)计算机是无法直接读取并理解其中含义的，所以需要用到分词工具，以将文章解析成一个一个的词组序列，为下一步提取新闻主题做准备。

中文分词是将一个由汉字组成的句子按照一定的规范切割成一个个单独的词。现有的分词算法共三类分别为：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。其中，基于字符串匹配的分词方法中jieba(结巴)分词是目前国内最好用的中文分词组件。其基本原理为：基于Trie(字典树)树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图，然后采用动态规划查找最大概率路径，找出基于词频的最大切分组合，对于未登录词，采用基于汉字成词能力的HMM(Hidden MarkovModel, 隐马尔可夫模型)模型，使用Viterbi(维特比)算法。

具体地，系统加载字典，生成trie树，给定带分词的句子，使用正则获取连续的中文字符和英文字符，切分成短语列表，对每个短语使用DAG(查字典) 和动态规划，得到最大概率路径，对DAG中那些没有在字典中查到的字，组合成一个新的片段短语，使用HMM模型进行分词，识别字典外的新词，使用python 的yield语法生成一个词语生成器，逐个返回词语，从而能够将图2中的新闻生成如图3所示的新闻词序列。

S102：根据LDA模型和新闻词序列提取新闻内容的主题词，以形成待计算的新闻。

需要说明的是，LDA(Latent Dirichlet allocation)是三层贝叶斯主题模型，它的目的就是通过无监督的学习方法提取文本中隐含的主题信息。隐性语义分析的实质就是利用文本中词组的共现特征来发现文本的主题结构，这种方法不需要任何关于文本的背景知识。文本的隐性语义表示可以对“一词多义”和“一义多词”的语言现象进行建模，这使得搜索引擎系统得到的搜索结果与用户的查询能够在语义层次上匹配，而不仅仅只是在词汇层次上出现交集。LDA模型结构如图4所示，其中，K为主题个数，M为新闻总数，Nm是第m个新闻的单词总数。β是每个主题下词的多项分布的Dirichlet(狄利克雷)先验参数，ɑ是每个新闻下主题的多项分布的Dirichlet先验参数。Zm,n是第m个新闻中第n 个词的主题，Wm,n是m个新闻中的第n个词。剩下来的两个隐含变量θm和k分别表示第m个新闻下的主题分布和第k个主题下词的分布，前者是k维(k 为主题总数)向量，后者是v维向量，v为词典中term总数。

换言之，根据LDA模型和新闻词序列提取新闻内容的主题词的过程就是循环执行：获取一条新闻——获取一个该新闻的主题——获取一个该主题的词。新闻到主题服从多项式分布，主题到词服从多项式分布，即每篇新闻均代表由一些主题构成的一个概率分布，每一个主题又代表由很多单词多构成的一个概率分布。举例来说，在对图2中新闻内容进行文本分词，并输入LDA模型后，设置K＝1，获取到如图5所示的待计算的新闻。

S103：获取新闻类型分类器。

根据本发明的一个实施例，获取新闻分类器包括：

S201：获取新闻类型正样本。例如可获取各类型新闻各1000条，其中，新闻类型可划分为财经、搞笑、国际、军事、科技、历史、旅游、美食、美文、汽车、社会、时尚、探索、体育、养生、游戏、娱乐和育儿共18类。

S202：将新闻类型正样本进行文本分词，并提取新闻类型正样本的主题词，以将新闻类型正样本训练成各主题类型的新闻分类器。

具体地，利用爬虫工具从网络中获取各类型新闻各1000条，即18000条新闻，文本分此后提取主题词，训练成各主题类型的新闻分类器。

S104：对待计算的新闻与新闻类型分类器进行基于数据流图的多粒度卷积神经网络的计算，以获取新闻内容所属的主题类型。

需要说明的是，MPCNN(Multi-perspective Convolutional Neural Network) 多粒度卷积神经网络，使用多个粒度窗口大小的卷积滤波器，后面连接着多种类型的池化方式，能够从多个角度去解析新闻文档，尽可能的多提取新闻文档的语义和句子结构，从而更精确地计算两个文档的相似性。卷积神经网络 (Convolutional Neural Networks，CNN)是多层感知机(MLP)的变种。它是一种深度的监督学习下的机器学习模型，具有极强的适应性，善于挖掘数据局部特征，提取全局训练特征和分类，它的权值共享结构网络使之更类似于生物神经网络，在模式识别的各个领域都取得了很好的成果。CNN是一种带有卷积结构的深度神经网络，通常至少有两个非线性可训练的卷积层，两个非线性的固定卷积层和一个全连接层，一共至少5个隐含层。

具体计算两个文档相似度的结构如图6所示，Doc1为待计算的新闻，Doc2 为新闻类型分类器，即18个新闻类型分类器，根据多粒度卷积神经网络能够计算新闻属于各主题类型的概率，由于是从多个角度去解析新闻，所以采用了多个窗口和多个卷积方式来处理新闻，其中，结构化相似度计算层可以使用多种计算相似度的方式，具体可采用余弦(cos)函数计算待计算的新闻与新闻类型分类其的相似度；全连接层的作用是调整输出，以使输出的是新闻属于各类主题类型的可能性大小。在本发明实施例中图2中的新闻的计算结果如表1所示，进一步地，可按照用户实时兴趣爱好标签向用户推荐主题与兴趣爱好标签相对应的新闻。

表1

举例来说，当获取到用户实时兴趣爱好标签为娱乐&0.5|游戏&0.3|体育 &0.2(即50％喜欢娱乐，30％喜欢游戏，20％喜欢体育)时，则根据表1的数据可以计算出新闻ID为112882的这条新闻推荐给该用户的推荐度为：0* 0.0846585+0.5*0.01733325+0.3*0.0521652+0.2*0.0519405+0* 0.1651095+0*0.02069196+0*0.0661809+0*0.02510412+0*0.0524721+0*0.0783807+0*0.0568581+0*0.0360186+0*0.1096407 +0*0.0492717+0*0.397221+0*0.00551148+0*0.02572671+0* 0.1725549＝0.034704285。

综上所述，根据本发明实施例的基于深度学习的新闻个性化智能推荐方法，能够根据用户实时兴趣爱好标签进行新闻推荐，从而使新用户也能较好的获取到感兴趣的新闻，同时能够根据用户的阅读情况及时对用户实时兴趣标签进行修正，进而能够避免被推荐的新闻类型越来越少，提升用户的体验。

本发明还提供了一种计算机可读存储介质，包括程序，程序能够被处理器执行以实现基于深度学习的新闻个性化智能推荐方法。

本发明还提供了一种基于深度学习的新闻个性化智能推荐系统，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现基于深度学习的新闻个性化智能推荐方法。

与上述几种实施例提供的基于深度学习的新闻个性化智能推荐方法相对应, 本发明的一种实施例还提供了基于深度学习的新闻个性化智能推荐装置,由于本发明实施例提供的基于深度学习的新闻个性化智能推荐装置与上述几种实施例提供的基于深度学习的新闻个性化智能推荐方法相对应,因此在前述基于深度学习的新闻个性化智能推荐方法的实施方式也适用于本实施例提供的基于深度学习的新闻个性化智能推荐装置,在本实施例中不再描述。

本发明实施例提供的一种基于深度学习的新闻个性化智能推荐装置，包括：用于获取用户移动端互联网行为数据，并根据BP神经网络预测用户实时兴趣爱好标签的装置；用于按照用户实时兴趣爱好标签向用户推荐与兴趣爱好标签相对应的主题的新闻的装置；用于获取用户阅读情况，并将用户阅读情况进行反馈的装置；用于根据用户阅读情况对用户实时兴趣标签进行修正，并进行再一次新闻推荐的装置。

根据本发明的一个实施例，用户阅读情况包括用户阅读的正反馈与负反馈。

根据本发明的一个实施例，基于深度学习的新闻个性化智能推荐装置还包括：用于获取新闻内容，并对新闻内容进行文本分词以生成新闻词序列的装置；用于根据LDA模型和新闻词序列提取新闻内容的主题词，以形成待计算的新闻的装置；用于获取新闻类型分类器的装置；用于对待计算的新闻与新闻类型分类器进行基于数据流图的多粒度卷积神经网络的计算，以获取新闻内容所属的主题类型的装置。

根据本发明的一个实施例，获取新闻类型分类器还包括：用于获取新闻类型正样本的装置；用于将新闻类型正样本进行文本分词，并提取新闻类型正样本的主题词，以将新闻类型正样本训练成各主题类型的新闻分类器的装置。

综上所述，根据本发明实施例的基于深度学习的新闻个性化智能推荐装置，能够根据用户实时兴趣爱好标签进行新闻推荐，从而使新用户也能较好的获取到感兴趣的新闻，同时能够根据用户的阅读情况及时对用户实时兴趣标签进行修正，进而能够避免被推荐的新闻类型越来越少，提升用户的体验。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种基于深度学习的新闻个性化智能推荐方法,其特征在于，包括以下步骤：

获取用户移动端互联网行为数据，并根据BP神经网络预测用户实时兴趣爱好标签；

按照所述用户实时兴趣爱好标签向用户推荐主题与所述兴趣爱好标签相对应的新闻；

获取用户阅读情况；

根据所述用户阅读情况对所述用户实时兴趣标签进行修正，并进行再一次新闻推荐。

2.如权利要求1所述的基于深度学习的新闻个性化智能推荐方法，其特征在于，所述用户阅读情况包括用户阅读的正反馈与负反馈。

3.如权利要求1所述的基于深度学习的新闻个性化智能推荐方法，其特征在于，还包括：

获取新闻内容，并对所述新闻内容进行文本分词以生成新闻词序列；

根据LDA模型和所述新闻词序列提取所述新闻内容的主题词，以形成待计算的新闻；

获取新闻类型分类器；

对所述待计算的新闻与所述新闻类型分类器进行基于数据流图的多粒度卷积神经网络的计算，以获取所述新闻内容所属的主题类型。

4.如权利要求2所述的基于深度学习的新闻个性化智能推荐方法，其特征在于，获取新闻类型分类器的方法包括：

获取新闻类型正样本；

将所述新闻类型正样本进行文本分词，并提取所述新闻类型正样本的主题词，以将新闻类型正样本训练成各主题类型的新闻分类器。

5.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要求1-4中任一项所述的方法。

6.一种基于深度学习的新闻个性化智能推荐系统，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-4中任一项所述的方法。

7.一种基于深度学习的新闻个性化智能推荐装置,其特征在于，包括：

用于获取用户移动端互联网行为数据，并根据BP神经网络预测用户实时兴趣爱好标签的装置；

用于按照所述用户实时兴趣爱好标签向用户推荐与所述兴趣爱好标签相对应的主题的新闻的装置；

用于获取用户阅读情况，并将所述用户阅读情况进行反馈的装置；

用于根据所述用户阅读情况对所述用户实时兴趣标签进行修正，并进行再一次新闻推荐的装置。

8.如权利要求6所述的基于深度学习的新闻个性化智能推荐装置，其特征在于，所述用户阅读情况包括用户阅读的正反馈与负反馈。

9.如权利要求6所述的基于深度学习的新闻个性化智能推荐装置，还包括：

用于获取新闻内容，并对所述新闻内容进行文本分词以生成新闻词序列的装置；

用于根据LDA模型和所述新闻词序列提取所述新闻内容的主题词，以形成待计算的新闻的装置；

用于获取新闻类型分类器的装置；

用于对所述待计算的新闻与所述新闻类型分类器进行基于数据流图的多粒度卷积神经网络的计算，以获取所述新闻内容所属的主题类型的装置。

10.如权利要求8所述的基于深度学习的新闻个性化智能推荐装置，获取新闻类型分类器还包括：

用于获取新闻类型正样本的装置；

用于将所述新闻类型正样本进行文本分词，并提取所述新闻类型正样本的主题词，以将新闻类型正样本训练成各主题类型的新闻分类器的装置。