CN107330049B

CN107330049B - 一种新闻热度预估方法及系统

Info

Publication number: CN107330049B
Application number: CN201710509789.7A
Authority: CN
Inventors: 安鸣佳
Original assignee: Beijing Sohu New Media Information Technology Co Ltd
Current assignee: Beijing Sohu New Media Information Technology Co Ltd
Priority date: 2017-06-28
Filing date: 2017-06-28
Publication date: 2020-05-22
Anticipated expiration: 2037-06-28
Also published as: CN107330049A

Abstract

本发明公开一种新闻热度预估方法及系统，相对于传统的基于统计的新闻热度打分系统而言，例如贝叶斯平滑等方法，本发明提出了基于深度和宽度学习构建冷启动新闻(即没有展示历史点击、曝光信息的新入库的新闻)的热度预估模型，并利用该模型对冷启动新闻进行热度预估的方案，基于深度和宽度学习训练模型的构思可使得模型取得准确率上的提升，且由于本发明方案能够实现对冷启动新闻进行热度预估，从而无需以新闻曝光为前提，且可加大高质量的冷启动新闻曝光的概率，并提高高质量冷启动新闻曝光的实时性。

Description

一种新闻热度预估方法及系统

技术领域

本发明属于新闻的个性化推荐领域，尤其涉及一种新闻热度预估方法及系统。

背景技术

在新闻个性化推荐领域中，往往需要对新闻热度进行计算打分，来实现对高热度新闻进行推荐。

传统的新闻热度计算方式多采用基于历史点击统计状况的热文评分技术，比如利用贝叶斯平滑的新闻热度计算等。具体地，热文评分技术，一般是通过对用户在文章的点击情况进行统计，进而对文章进行热度打分，也就是说，在该热文评分技术中，新闻必须有曝光才能计算分值。

众所周知，在新闻推荐领域中，新闻推荐的准确性和时效性是影响用户体验十分重要的因素之一，从而使得新闻热度计算的准确性与实时性尤为重要，而所述热文评分技术，由于需要以新闻曝光为前提，从而会大大降低新闻推送的时效性，同时对于曝光次数有限的文章其打分精度显然存在精度较低的问题，导致新闻推荐的置信度不高。

发明内容

有鉴于此，本发明的目的在于提供一种新闻热度预估方法及系统，旨在克服现有技术的热文评分技术在进行新闻热度评分时存在的时效性及准确性较低的问题，提高新闻推荐的时效性及置信度。

为此，本发明公开如下技术方案：

一种新闻热度预估方法，包括：

获取具有热度信息的历史新闻作为训练数据，并对训练数据进行预处理；

对预处理后的训练数据中的历史新闻进行词语向量化处理，得到历史新闻在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻主题词的词向量；其中，所述新闻标题词为对历史新闻的标题进行分词所得的词语，所述新闻主题词为对历史新闻的新闻全文数据对应的分词进行聚类所得的词语；

利用预定的第一深度神经网络、第二深度神经网络及第三深度神经网络，以一对一方式分别以所述新闻标题词的词向量、新闻关键词的词向量及新闻主题词的词向量为特征进行并行训练，得到基于深度和宽度学习的神经网络模型，并获得训练后输出的向量结果；所述向量结果包括：新闻标题在语义特征上的向量，新闻关键词在语义特征上的向量以及新闻主题在语义特征上的向量；

对所述向量结果包括的各种向量进行连接，得到连接向量，并以所述连接向量为特征，以历史新闻的热度信息为参考，利用预定分类算法训练新闻的热度预估模型；

利用所述热度预估模型，对存在热度预估需求的新闻进行热度预估。

上述方法，优选的，所述对训练数据进行预处理，包括：

对所述训练数据中的新闻内容进行超文本标记语言HTML标签过滤；

对去掉HTML标签的新闻内容中的标题部分、关键词部分及正文部分进行分词，得到新闻标题词、新闻关键词及新闻正文词；并对各分词结果进行编号。

上述方法，优选的，所述对预处理后的训练数据中的历史新闻进行词语向量化处理，得到历史新闻在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻主题词的词向量，包括：

利用预训练的词语转向量模型对历史新闻的新闻标题词、新闻关键词及新闻正文词进行向量化处理，得到历史新闻的在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量；所述词语转向量模型为利用预定的词向量算法基于预训练时所使用文章中词的上下文预训练的模型；

对所述新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量进行聚类，得到新闻主题词的词向量。

上述方法，优选的，所述利用预定的第一深度神经网络、第二深度神经网络及第三深度神经网络，以一对一方式分别以所述新闻标题词的词向量、新闻关键词的词向量及新闻主题词的词向量为特征进行并行训练，包括：

采用长短期记忆模型LSTM，并以所述新闻标题词的词向量为LSTM的特征输入，采用卷积神经网络CNN，并以所述新闻关键词的词向量为CNN的特征输入，采用多层感知机MLP，并以新闻主题词的词向量为MLP的特征输入进行并行训练，得到基于深度和宽度学习的神经网络模型。

上述方法，优选的，所述以所述连接向量为特征，以历史新闻的热度信息为参考，利用预定分类算法训练新闻的热度预估模型，包括：

采用逻辑回归分类算法LR，并以所述连接向量为LR的特征输入，训练新闻的热度预估模型；训练所得的所述热度预估模型提供各种词向量特征的热度贡献度权重，以支持对新闻进行热度预估；

将所述热度预估模型输出的历史新闻的热度预估结果，与历史新闻的实际热度信息进行比对，并将比对结果反馈至所述神经网络模型以及所述热度预估模型的训练中，通过基于反馈的多次迭代训练过程使得所述神经网络模型以及所述热度预估模型不断得以校准。

一种新闻热度预估系统，包括：

数据获取及预处理单元，用于获取具有热度信息的历史新闻作为训练数据，并对训练数据进行预处理；

向量化处理单元，用于对预处理后的训练数据中的历史新闻进行词语向量化处理，得到历史新闻在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻主题词的词向量；其中，所述新闻标题词为对历史新闻的标题进行分词所得的词语，所述新闻主题词为对历史新闻的新闻全文数据对应的分词进行聚类所得的词语；

神经网络模型训练单元，用于利用预定的第一深度神经网络、第二深度神经网络及第三深度神经网络，以一对一方式分别以所述新闻标题词的词向量、新闻关键词的词向量及新闻主题词的词向量为特征进行并行训练，得到基于深度和宽度学习的神经网络模型，并获得训练后输出的向量结果；所述向量结果包括：新闻标题在语音特征上的向量，新闻关键词在语义特征上的向量以及新闻主题在语义特征上的向量；

预估模型训练单元，用于对所述向量结果包括的各种向量进行连接，得到连接向量，并以所述连接向量为特征，以历史新闻的热度信息为参考，利用预定分类算法训练新闻的热度预估模型；

预测单元，用于利用所述热度预估模型，对存在热度预估需求的新闻进行热度预估。

上述系统，优选的，所述数据获取及预处理单元对训练数据进行预处理，进一步包括：

对所述训练数据中的新闻内容进行HTML标签过滤；对去掉HTML标签的新闻内容中的标题部分、关键词部分及正文部分进行分词，得到新闻标题词、新闻关键词及新闻正文词；并对各分词结果进行编号。

上述系统，优选的，所述向量化处理单元，具体用于：

利用预训练的词语转向量模型对历史新闻的新闻标题词、新闻关键词及新闻正文词进行向量化处理，得到历史新闻的在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量；所述词语转向量模型为利用预定的词向量算法基于预训练时所使用文章中词的上下文预训练的模型；对所述新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量进行聚类，得到新闻主题词的词向量。

上述系统，优选的，所述神经网络模型训练单元，具体用于：

上述系统，优选的，所述预估模型训练单元，具体用于：

采用逻辑回归分类算法LR，并以所述连接向量为LR的特征输入，训练新闻的热度预估模型；训练所得的所述热度预估模型提供各种词向量特征的热度贡献度权重，以支持对新闻进行热度预估；将所述热度预估模型输出的历史新闻的热度预估结果，与历史新闻的实际热度信息进行比对，并将比对结果反馈至所述神经网络模型以及所述热度预估模型的训练中，通过基于反馈的多次迭代训练过程使得所述神经网络模型以及所述热度预估模型不断得以校准。

由以上方案可知，本发明提供的新闻热度预估方法及系统，相对于传统的基于统计的新闻热度打分系统而言，例如贝叶斯平滑等方法，本发明提出了基于深度和宽度学习构建冷启动新闻(即没有展示历史点击、曝光信息的新入库的新闻)的热度预估模型，并利用该模型对冷启动新闻进行热度预估的方案，基于深度和宽度学习训练模型的构思可使得模型取得准确率上的提升，且由于本发明方案能够实现对冷启动新闻进行热度预估，从而无需以新闻曝光为前提，且可加大高质量的冷启动新闻曝光的概率，并提高高质量冷启动新闻曝光的实时性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明实施例提供的新闻热度预估方法的流程示意图；

图2是本发明实施例提供的基于深度和宽度学习进行并行训练以及在训练基础上进行新闻热度预估的原理示意图；

图3是本发明实施例提供的新闻热度预估系统的结构示意图。

具体实施方式

为了引用和清楚起见，下文中使用的技术名词、简写或缩写总结解释如下：

冷启动新闻：没有展示历史点击、曝光信息的新入库的新闻。

word embedding：词语转成向量，比如‘苹果’这个表示成一个200维的语义向量。传统方式的one-hot的编码方式高度稀疏，而且这种编码方式使得‘苹果’和‘apple’不具备任何相似性，但是利用本发明的深度学习做的word embedding生成的向量携带语义层信息，会认为‘苹果’和‘apple’高度相似。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的一实施例提供一种新闻热度预估方法，旨在通过在深度和宽度学习基础上对冷启动新闻进行新闻热度预估，来提升新闻热度计算的准确性和实时性，进而提升线上新闻质量，完善用户体验。参考图1示出的本发明实施例的新闻热度预估方法的流程示意图，该方法可以包括以下步骤：

步骤101、获取具有热度信息的历史新闻作为训练数据，并对训练数据进行预处理。

与现有技术在新闻有曝光的前提下，通过对用户在已曝光新闻的点击情况进行统计进而实现对新闻进行热度评分的热文评分技术不同，本发明无需以新闻曝光为前提，并具体基于深度和宽度学习，来实现对冷启动新闻进行热度预估。其中，冷启动新闻是指：没有展示历史点击、曝光信息的新入库的新闻。

鉴于此，在对冷启动新闻进行热度预估之前，需首先使用训练数据来进行冷启动新闻热度预估的深度和宽度学习，进而在深度和宽度学习的基础上建立相应的预估模型。所述训练数据可以是具有热度信息的历史新闻，如具有历史点击、曝光信息的历史新闻等。

其中，可从HDFS(Hadoop Distributed File System，分布式文件系统)中获取具有热度信息的历史新闻作为训练数据，并对所述训练数据进行以下的预处理：

对所述训练数据中的新闻内容进行HTML(Hyper Text Markup Language，超文本标记语言)标签过滤；对去掉HTML标签的新闻内容中的标题部分、关键词部分及正文部分进行分词，得到新闻标题词、新闻关键词及新闻正文词；并对各分词结果进行编号。

实际应用中，例如具体可针对多个新闻频道，分别进行学习并建立独立模型，每个频道下，以该频道下的平均点击数最高的前预定比例(如前25％)的新闻作为正样本，其他为负样本，进行深度和宽度学习及模型训练。

步骤102、对预处理后的训练数据中的历史新闻进行词语向量化处理，得到历史新闻在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻主题词的词向量；其中，所述新闻标题词为对历史新闻的标题进行分词所得的词语，所述新闻主题词为对历史新闻的新闻全文数据对应的分词进行聚类所得的词语。

为了进一步提升后续基于学习所创建的模型的性能，本发明对历史新闻中的词进行了预训练(pre-training)，具体地，本实施例利用skip-gram与哈夫曼树结合的思想基于预训练时所使用的文章中词的上下文，来预训练词语转向量模型(word embedding模型)，之后可基于该词语转向量模型为后续的深度和宽度学习提供语义层面上的词向量，其中，词向量维度可以是但不局限于300维。

在以上预训练词语转向量模型的基础上，本步骤可利用所述词语转向量模型对历史新闻的新闻标题词、新闻关键词及新闻正文词进行词语向量化处理，得到历史新闻在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量；并对所述新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量进行聚类，得到新闻主题词的词向量，从而得到了文章的topic(主题词)分布。

步骤103、利用预定的第一深度神经网络、第二深度神经网络及第三深度神经网络，以一对一方式分别以所述新闻标题词的词向量、新闻关键词的词向量及新闻主题词的词向量为特征进行并行训练，得到基于深度和宽度学习的神经网络模型，并获得训练后输出的向量结果；所述向量结果包括：新闻标题在语音特征上的向量，新闻关键词在语义特征上的向量以及新闻主题在语义特征上的向量。

参考图2示出的基于深度和宽度学习进行并行训练以及在训练基础上进行新闻热度预估的原理示意图，本实施例采用LSTM(Long Short-Term Memory，长短期记忆模型),CNN(convolutional Neural Network，卷积神经网络)和MLP(Multi-layer Perceptron，多层感知机)并行训练的深度和宽度结构的神经网络，并分别以所述新闻标题词的词向量、新闻关键词的词向量及新闻主题词的词向量为特征，进行深度和宽度学习，以此实现基于LSTM、CNN和MLP的神经网络并行训练。

其中，具体地，LSTM采用历史新闻的新闻标题词向量作为特征输入进行模型训练，网络深度为15(不限于此深度)，其中，在训练过程中，采用drop out机制，以保证模型的鲁棒性，drop out是指训练过程中丢失掉一定比例的神经元节点，以防止对训练数据过度拟合，进而导致预测效果下降。在将历史新闻的新闻标题词向量作为特征输入实现模型训练时，可获得LSTM输出的向量结果，该向量结果为：新闻标题在语义特征上的向量。

CNN采用历史新闻的新闻关键词向量作为特征输入进行模型训练，在CNN的第一层卷积层激活函数采用relu(一激活函数)，对第一层卷积层的输出即该卷积层输出的新闻关键词在语义特征上的向量，采用信息提取函数max pooling进行信息提取并对提取结果采用drop out机制处理，再对drop out处理结果经过第二层卷积层接max pooling并且采用drop out机制处理，最终对该drop out结果接全连接层作为CNN网络的输出结果，该CNN网络的输出结果为：新闻关键词在语义特征上的向量。

MLP采用历史新闻的新闻主题词向量作为特征输入进行模型训练，输入的主题词数量示例性地例如可以是200个，MLP采用3层的全连接网络结构，每层后都会接入drop out机制保证model的鲁棒性，最终的全连接层为MLP提供输出向量，MLP的输出向量为：新闻主题词在语义特征上的向量。

步骤104、对所述向量结果包括的各种向量进行连接，得到连接向量，并以所述连接向量为特征，以历史新闻的热度信息为参考，利用预定分类算法训练新闻的热度预估模型。

在利用LSTM、CNN和MLP进行并行训练，得到基于深度和宽度学习的神经网络模型基础上，可对该模型的向量输出，即新闻标题在语义特征上的向量、新闻关键词在语义特征上的向量以及新闻主题在语义特征上的向量进行连接(concat)，即将三者首尾相接，并以连接后的向量作为LR(Logistic Regression，逻辑回归分类)的特征输入进行最终训练并生成新闻的热度预估模型，其中，训练所得的该热度预估模型提供新闻的各种词向量特征的热度贡献度权重，以支持基于词向量特征的热度贡献度权重基础上的新闻热度评分预估。

需要说明的是，基于深度和宽度学习的各模型的训练以及在深度和宽度学习基础上的最终预估模型的训练，是一个基于反馈的迭代训练过程，具体地，每次迭代中，均是以历史新闻的实际热度信息为参考，通过将热度预估模型输出的历史新闻的热度预估结果与历史新闻的实际热度信息进行比对，并将比对结果反馈至所述神经网络模型以及所述热度预估模型的训练中，通过基于反馈的多次迭代训练过程使得所述神经网络模型以及所述热度预估模型不断得以校准，比如，不断对LSTM、CNN和MLP深度和宽度结构的神经网络模型的向量结果进行校准，对热度预估模型提供的词向量特征的热度贡献度权重进行校准等等。其中，迭代次数可由本领域技术人员依据实际需求自由设定。

步骤105、利用所述热度预估模型，对存在热度预估需求的新闻进行热度预估。

在训练出基于深度和宽度学习的新闻热度预估模型的基础上，可利用训练的该模型对实时的冷启动新闻进行热度预估，给出相应的热度打分，对新闻进行热度打分时无需以新闻曝光为前提，实时性高，且基于深度和宽度学习训练模型的构思可使得模型取得准确率上的提升。

其中，经过发明人测试，本发明方法提供的新闻热度预估方式在准确率上取得了远超传统机器学习model的成绩。在新闻热度打分准确性上，现有的基于SVM(SupportVector Machine，支持向量机)的打分方案准确率为87％，而本发明提供的基于深度和宽度学习的打分方案的热度预估准确率为94％。基于本发明方案的新热度预估系统上线后，新闻点击率可普遍提升2-3个百分点。

本发明实施例的提供的新闻热度预估方法，相对于传统的基于统计的新闻热度打分系统而言，例如贝叶斯平滑等方法，本发明提出了基于深度和宽度学习构建冷启动新闻(即没有展示历史点击、曝光信息的新入库的新闻)的热度预估模型，并利用该模型对冷启动新闻进行热度预估的方案，基于深度和宽度学习训练模型的构思可使得模型取得准确率上的提升，且由于本发明方案能够实现对冷启动新闻进行热度预估，从而无需以新闻曝光为前提，且可加大高质量的冷启动新闻曝光的概率，并提高高质量冷启动新闻曝光的实时性。

本发明的另一实施例提供一种新闻热度预估系统，旨在通过在深度和宽度学习基础上对冷启动新闻进行新闻热度预估，来提升新闻热度计算的准确性和实时性，进而提升线上新闻质量，完善用户体验。参考图3示出的本发明实施例的新闻热度预估系统的结构示意图，该系统可以包括：

数据获取及预处理单元301，用于获取具有热度信息的历史新闻作为训练数据，并对训练数据进行预处理；向量化处理单元302，用于对预处理后的训练数据中的历史新闻进行词语向量化处理，得到历史新闻在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻主题词的词向量；其中，所述新闻标题词为对历史新闻的标题进行分词所得的词语，所述新闻主题词为对历史新闻的新闻全文数据对应的分词进行聚类所得的词语；神经网络模型训练单元303，用于利用预定的第一深度神经网络、第二深度神经网络及第三深度神经网络，以一对一方式分别以所述新闻标题词的词向量、新闻关键词的词向量及新闻主题词的词向量为特征进行并行训练，得到基于深度和宽度学习的神经网络模型，并获得训练后输出的向量结果；所述向量结果包括：新闻标题在语音特征上的向量，新闻关键词在语义特征上的向量以及新闻主题在语义特征上的向量；预估模型训练单元304，用于对所述向量结果包括的各种向量进行连接，得到连接向量，并以所述连接向量为特征，以历史新闻的热度信息为参考，利用预定分类算法训练新闻的热度预估模型。预测单元305，用于利用所述热度预估模型，对存在热度预估需求的新闻进行热度预估。

在本发明实施例的一实施方式中，所述数据获取及预处理单元对训练数据进行预处理，进一步包括：对所述训练数据中的新闻内容进行HTML标签过滤；对去掉HTML标签的新闻内容中的标题部分、关键词部分及正文部分进行分词，得到新闻标题词、新闻关键词及新闻正文词；并对各分词结果进行编号。

在本发明实施例的一实施方式中，所述向量化处理单元，具体用于：利用预训练的词语转向量模型对历史新闻的新闻标题词、新闻关键词及新闻正文词进行向量化处理，得到历史新闻的在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量；所述词语转向量模型为利用预定的词向量算法基于预训练时所使用文章中词的上下文预训练的模型；对所述新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量进行聚类，得到新闻主题词的词向量。

在本发明实施例的一实施方式中，所述神经网络模型训练单元，具体用于：采用长短期记忆模型LSTM，并以所述新闻标题词的词向量为LSTM的特征输入，采用卷积神经网络CNN，并以所述新闻关键词的词向量为CNN的特征输入，采用多层感知机MLP，并以新闻主题词的词向量为MLP的特征输入进行并行训练，得到基于深度和宽度学习的神经网络模型。

在本发明实施例的一实施方式中，所述预估模型训练单元，具体用于：采用逻辑回归分类算法LR，并以所述连接向量为LR的特征输入，训练新闻的热度预估模型；训练所得的所述热度预估模型提供各种词向量特征的热度贡献度权重，以支持对新闻进行热度预估；将所述热度预估模型输出的历史新闻的热度预估结果，与历史新闻的实际热度信息进行比对，并将比对结果反馈至所述神经网络模型以及所述热度预估模型的训练中，通过基于反馈的多次迭代训练过程使得所述神经网络模型以及所述热度预估模型不断得以校准。

对于本发明实施例公开的新闻热度预估系统而言，由于其与以上实施例公开的新闻热度预估方法相对应，且具有相同的技术效果，所以描述的比较简单，相关相似之处请参见以上实施例中新闻热度预估方法部分的说明即可，此处不再详述。

综上所述，本发明具有以下优势：本发明提供了基于新闻内容的静态属性的新闻热度预估方案，该方案基于深度和宽度学习技术，在保证网络深度的基础上，采用不同种类的神经网络并行训练来增加网络宽度，并在此基础上进行预估模型的训练。有效的解决了每天海量冷启动的文章的热度预估问题，在时效性和准确性上有了显著的提高，加大了高质量冷启动新闻曝光的概率，提高高质量新闻曝光的实时性，进而提高了用户阅读体验。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

为了描述的方便，描述以上系统或装置时以功能分为各种模块或单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

最后，还需要说明的是，在本文中，诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种新闻热度预估方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对训练数据进行预处理，包括：

3.根据权利要求2所述的方法，其特征在于，所述对预处理后的训练数据中的历史新闻进行词语向量化处理，得到历史新闻在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻主题词的词向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述利用预定的第一深度神经网络、第二深度神经网络及第三深度神经网络，以一对一方式分别以所述新闻标题词的词向量、新闻关键词的词向量及新闻主题词的词向量为特征进行并行训练，包括：

采用长短期记忆模型LSTM，并以所述新闻标题词的词向量作为LSTM的特征输入，采用卷积神经网络CNN，并以所述新闻关键词的词向量作为CNN的特征输入，采用多层感知机MLP，并以新闻主题词的词向量作为MLP的特征输入进行并行训练，得到基于深度和宽度学习的神经网络模型。

5.根据权利要求4所述的方法，其特征在于，所述以所述连接向量为特征，以历史新闻的热度信息为参考，利用预定分类算法训练新闻的热度预估模型，包括：

采用逻辑回归分类算法LR，并以所述连接向量作为LR的特征输入，训练新闻的热度预估模型；训练所得的所述热度预估模型提供各种词向量特征的热度贡献度权重，以支持对新闻进行热度预估；

6.一种新闻热度预估系统，其特征在于，包括：

7.根据权利要求6所述的系统，其特征在于，所述数据获取及预处理单元对训练数据进行预处理，进一步包括：

8.根据权利要求7所述的系统，其特征在于，所述向量化处理单元，具体用于：

9.根据权利要求8所述的系统，其特征在于，所述神经网络模型训练单元，具体用于：

10.根据权利要求9所述的系统，其特征在于，所述预估模型训练单元，具体用于：

采用逻辑回归分类算法LR，并以所述连接向量作为LR的特征输入，训练新闻的热度预估模型；训练所得的所述热度预估模型提供各种词向量特征的热度贡献度权重，以支持对新闻进行热度预估；将所述热度预估模型输出的历史新闻的热度预估结果，与历史新闻的实际热度信息进行比对，并将比对结果反馈至所述神经网络模型以及所述热度预估模型的训练中，通过基于反馈的多次迭代训练过程使得所述神经网络模型以及所述热度预估模型不断得以校准。