CN107330049A - 一种新闻热度预估方法及系统 - Google Patents

一种新闻热度预估方法及系统 Download PDF

Info

Publication number
CN107330049A
CN107330049A CN201710509789.7A CN201710509789A CN107330049A CN 107330049 A CN107330049 A CN 107330049A CN 201710509789 A CN201710509789 A CN 201710509789A CN 107330049 A CN107330049 A CN 107330049A
Authority
CN
China
Prior art keywords
news
word
term vector
training
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710509789.7A
Other languages
English (en)
Other versions
CN107330049B (zh
Inventor
安鸣佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sohu New Media Information Technology Co Ltd
Original Assignee
Beijing Sohu New Media Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sohu New Media Information Technology Co Ltd filed Critical Beijing Sohu New Media Information Technology Co Ltd
Priority to CN201710509789.7A priority Critical patent/CN107330049B/zh
Publication of CN107330049A publication Critical patent/CN107330049A/zh
Application granted granted Critical
Publication of CN107330049B publication Critical patent/CN107330049B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种新闻热度预估方法及系统,相对于传统的基于统计的新闻热度打分系统而言,例如贝叶斯平滑等方法,本发明提出了基于深度和宽度学习构建冷启动新闻(即没有展示历史点击、曝光信息的新入库的新闻)的热度预估模型,并利用该模型对冷启动新闻进行热度预估的方案,基于深度和宽度学习训练模型的构思可使得模型取得准确率上的提升,且由于本发明方案能够实现对冷启动新闻进行热度预估,从而无需以新闻曝光为前提,且可加大高质量的冷启动新闻曝光的概率,并提高高质量冷启动新闻曝光的实时性。

Description

一种新闻热度预估方法及系统
技术领域
本发明属于新闻的个性化推荐领域,尤其涉及一种新闻热度预估方法及系统。
背景技术
在新闻个性化推荐领域中,往往需要对新闻热度进行计算打分,来实现对高热度新闻进行推荐。
传统的新闻热度计算方式多采用基于历史点击统计状况的热文评分技术,比如利用贝叶斯平滑的新闻热度计算等。具体地,热文评分技术,一般是通过对用户在文章的点击情况进行统计,进而对文章进行热度打分,也就是说,在该热文评分技术中,新闻必须有曝光才能计算分值。
众所周知,在新闻推荐领域中,新闻推荐的准确性和时效性是影响用户体验十分重要的因素之一,从而使得新闻热度计算的准确性与实时性尤为重要,而所述热文评分技术,由于需要以新闻曝光为前提,从而会大大降低新闻推送的时效性,同时对于曝光次数有限的文章其打分精度显然存在精度较低的问题,导致新闻推荐的置信度不高。
发明内容
有鉴于此,本发明的目的在于提供一种新闻热度预估方法及系统,旨在克服现有技术的热文评分技术在进行新闻热度评分时存在的时效性及准确性较低的问题,提高新闻推荐的时效性及置信度。
为此,本发明公开如下技术方案:
一种新闻热度预估方法,包括:
获取具有热度信息的历史新闻作为训练数据,并对训练数据进行预处理;
对预处理后的训练数据中的历史新闻进行词语向量化处理,得到历史新闻在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻主题词的词向量;其中,所述新闻标题词为对历史新闻的标题进行分词所得的词语,所述新闻主题词为对历史新闻的新闻全文数据对应的分词进行聚类所得的词语;
利用预定的第一深度神经网络、第二深度神经网络及第三深度神经网络,以一对一方式分别以所述新闻标题词的词向量、新闻关键词的词向量及新闻主题词的词向量为特征进行并行训练,得到基于深度和宽度学习的神经网络模型,并获得训练后输出的向量结果;所述向量结果包括:新闻标题在语义特征上的向量,新闻关键词在语义特征上的向量以及新闻主题在语义特征上的向量;
对所述向量结果包括的各种向量进行连接,得到连接向量,并以所述连接向量为特征,以历史新闻的热度信息为参考,利用预定分类算法训练新闻的热度预估模型;
利用所述热度预估模型,对存在热度预估需求的新闻进行热度预估。
上述方法,优选的,所述对训练数据进行预处理,包括:
对所述训练数据中的新闻内容进行超文本标记语言HTML标签过滤;
对去掉HTML标签的新闻内容中的标题部分、关键词部分及正文部分进行分词,得到新闻标题词、新闻关键词及新闻正文词;并对各分词结果进行编号。
上述方法,优选的,所述对预处理后的训练数据中的历史新闻进行词语向量化处理,得到历史新闻在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻主题词的词向量,包括:
利用预训练的词语转向量模型对历史新闻的新闻标题词、新闻关键词及新闻正文词进行向量化处理,得到历史新闻的在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量;所述词语转向量模型为利用预定的词向量算法基于预训练时所使用文章中词的上下文预训练的模型;
对所述新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量进行聚类,得到新闻主题词的词向量。
上述方法,优选的,所述利用预定的第一深度神经网络、第二深度神经网络及第三深度神经网络,以一对一方式分别以所述新闻标题词的词向量、新闻关键词的词向量及新闻主题词的词向量为特征进行并行训练,包括:
采用长短期记忆模型LSTM,并以所述新闻标题词的词向量为LSTM的特征输入,采用卷积神经网络CNN,并以所述新闻关键词的词向量为CNN的特征输入,采用多层感知机MLP,并以新闻主题词的词向量为MLP的特征输入进行并行训练,得到基于深度和宽度学习的神经网络模型。
上述方法,优选的,所述以所述连接向量为特征,以历史新闻的热度信息为参考,利用预定分类算法训练新闻的热度预估模型,包括:
采用逻辑回归分类算法LR,并以所述连接向量为LR的特征输入,训练新闻的热度预估模型;训练所得的所述热度预估模型提供各种词向量特征的热度贡献度权重,以支持对新闻进行热度预估;
将所述热度预估模型输出的历史新闻的热度预估结果,与历史新闻的实际热度信息进行比对,并将比对结果反馈至所述神经网络模型以及所述热度预估模型的训练中,通过基于反馈的多次迭代训练过程使得所述神经网络模型以及所述热度预估模型不断得以校准。
一种新闻热度预估系统,包括:
数据获取及预处理单元,用于获取具有热度信息的历史新闻作为训练数据,并对训练数据进行预处理;
向量化处理单元,用于对预处理后的训练数据中的历史新闻进行词语向量化处理,得到历史新闻在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻主题词的词向量;其中,所述新闻标题词为对历史新闻的标题进行分词所得的词语,所述新闻主题词为对历史新闻的新闻全文数据对应的分词进行聚类所得的词语;
神经网络模型训练单元,用于利用预定的第一深度神经网络、第二深度神经网络及第三深度神经网络,以一对一方式分别以所述新闻标题词的词向量、新闻关键词的词向量及新闻主题词的词向量为特征进行并行训练,得到基于深度和宽度学习的神经网络模型,并获得训练后输出的向量结果;所述向量结果包括:新闻标题在语音特征上的向量,新闻关键词在语义特征上的向量以及新闻主题在语义特征上的向量;
预估模型训练单元,用于对所述向量结果包括的各种向量进行连接,得到连接向量,并以所述连接向量为特征,以历史新闻的热度信息为参考,利用预定分类算法训练新闻的热度预估模型;
预测单元,用于利用所述热度预估模型,对存在热度预估需求的新闻进行热度预估。
上述系统,优选的,所述数据获取及预处理单元对训练数据进行预处理,进一步包括:
对所述训练数据中的新闻内容进行HTML标签过滤;对去掉HTML标签的新闻内容中的标题部分、关键词部分及正文部分进行分词,得到新闻标题词、新闻关键词及新闻正文词;并对各分词结果进行编号。
上述系统,优选的,所述向量化处理单元,具体用于:
利用预训练的词语转向量模型对历史新闻的新闻标题词、新闻关键词及新闻正文词进行向量化处理,得到历史新闻的在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量;所述词语转向量模型为利用预定的词向量算法基于预训练时所使用文章中词的上下文预训练的模型;对所述新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量进行聚类,得到新闻主题词的词向量。
上述系统,优选的,所述神经网络模型训练单元,具体用于:
采用长短期记忆模型LSTM,并以所述新闻标题词的词向量为LSTM的特征输入,采用卷积神经网络CNN,并以所述新闻关键词的词向量为CNN的特征输入,采用多层感知机MLP,并以新闻主题词的词向量为MLP的特征输入进行并行训练,得到基于深度和宽度学习的神经网络模型。
上述系统,优选的,所述预估模型训练单元,具体用于:
采用逻辑回归分类算法LR,并以所述连接向量为LR的特征输入,训练新闻的热度预估模型;训练所得的所述热度预估模型提供各种词向量特征的热度贡献度权重,以支持对新闻进行热度预估;将所述热度预估模型输出的历史新闻的热度预估结果,与历史新闻的实际热度信息进行比对,并将比对结果反馈至所述神经网络模型以及所述热度预估模型的训练中,通过基于反馈的多次迭代训练过程使得所述神经网络模型以及所述热度预估模型不断得以校准。
由以上方案可知,本发明提供的新闻热度预估方法及系统,相对于传统的基于统计的新闻热度打分系统而言,例如贝叶斯平滑等方法,本发明提出了基于深度和宽度学习构建冷启动新闻(即没有展示历史点击、曝光信息的新入库的新闻)的热度预估模型,并利用该模型对冷启动新闻进行热度预估的方案,基于深度和宽度学习训练模型的构思可使得模型取得准确率上的提升,且由于本发明方案能够实现对冷启动新闻进行热度预估,从而无需以新闻曝光为前提,且可加大高质量的冷启动新闻曝光的概率,并提高高质量冷启动新闻曝光的实时性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明实施例提供的新闻热度预估方法的流程示意图;
图2是本发明实施例提供的基于深度和宽度学习进行并行训练以及在训练基础上进行新闻热度预估的原理示意图;
图3是本发明实施例提供的新闻热度预估系统的结构示意图。
具体实施方式
为了引用和清楚起见,下文中使用的技术名词、简写或缩写总结解释如下:
冷启动新闻:没有展示历史点击、曝光信息的新入库的新闻。
word embedding:词语转成向量,比如‘苹果’这个表示成一个200维的语义向量。传统方式的one-hot的编码方式高度稀疏,而且这种编码方式使得‘苹果’和‘apple’不具备任何相似性,但是利用本发明的深度学习做的word embedding生成的向量携带语义层信息,会认为‘苹果’和‘apple’高度相似。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的一实施例提供一种新闻热度预估方法,旨在通过在深度和宽度学习基础上对冷启动新闻进行新闻热度预估,来提升新闻热度计算的准确性和实时性,进而提升线上新闻质量,完善用户体验。参考图1示出的本发明实施例的新闻热度预估方法的流程示意图,该方法可以包括以下步骤:
步骤101、获取具有热度信息的历史新闻作为训练数据,并对训练数据进行预处理。
与现有技术在新闻有曝光的前提下,通过对用户在已曝光新闻的点击情况进行统计进而实现对新闻进行热度评分的热文评分技术不同,本发明无需以新闻曝光为前提,并具体基于深度和宽度学习,来实现对冷启动新闻进行热度预估。其中,冷启动新闻是指:没有展示历史点击、曝光信息的新入库的新闻。
鉴于此,在对冷启动新闻进行热度预估之前,需首先使用训练数据来进行冷启动新闻热度预估的深度和宽度学习,进而在深度和宽度学习的基础上建立相应的预估模型。所述训练数据可以是具有热度信息的历史新闻,如具有历史点击、曝光信息的历史新闻等。
其中,可从HDFS(Hadoop Distributed File System,分布式文件系统)中获取具有热度信息的历史新闻作为训练数据,并对所述训练数据进行以下的预处理:
对所述训练数据中的新闻内容进行HTML(Hyper Text Markup Language,超文本标记语言)标签过滤;对去掉HTML标签的新闻内容中的标题部分、关键词部分及正文部分进行分词,得到新闻标题词、新闻关键词及新闻正文词;并对各分词结果进行编号。
实际应用中,例如具体可针对多个新闻频道,分别进行学习并建立独立模型,每个频道下,以该频道下的平均点击数最高的前预定比例(如前25%)的新闻作为正样本,其他为负样本,进行深度和宽度学习及模型训练。
步骤102、对预处理后的训练数据中的历史新闻进行词语向量化处理,得到历史新闻在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻主题词的词向量;其中,所述新闻标题词为对历史新闻的标题进行分词所得的词语,所述新闻主题词为对历史新闻的新闻全文数据对应的分词进行聚类所得的词语。
为了进一步提升后续基于学习所创建的模型的性能,本发明对历史新闻中的词进行了预训练(pre-training),具体地,本实施例利用skip-gram与哈夫曼树结合的思想基于预训练时所使用的文章中词的上下文,来预训练词语转向量模型(word embedding模型),之后可基于该词语转向量模型为后续的深度和宽度学习提供语义层面上的词向量,其中,词向量维度可以是但不局限于300维。
在以上预训练词语转向量模型的基础上,本步骤可利用所述词语转向量模型对历史新闻的新闻标题词、新闻关键词及新闻正文词进行词语向量化处理,得到历史新闻在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量;并对所述新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量进行聚类,得到新闻主题词的词向量,从而得到了文章的topic(主题词)分布。
步骤103、利用预定的第一深度神经网络、第二深度神经网络及第三深度神经网络,以一对一方式分别以所述新闻标题词的词向量、新闻关键词的词向量及新闻主题词的词向量为特征进行并行训练,得到基于深度和宽度学习的神经网络模型,并获得训练后输出的向量结果;所述向量结果包括:新闻标题在语音特征上的向量,新闻关键词在语义特征上的向量以及新闻主题在语义特征上的向量。
参考图2示出的基于深度和宽度学习进行并行训练以及在训练基础上进行新闻热度预估的原理示意图,本实施例采用LSTM(Long Short-Term Memory,长短期记忆模型),CNN(convolutional Neural Network,卷积神经网络)和MLP(Multi-layer Perceptron,多层感知机)并行训练的深度和宽度结构的神经网络,并分别以所述新闻标题词的词向量、新闻关键词的词向量及新闻主题词的词向量为特征,进行深度和宽度学习,以此实现基于LSTM、CNN和MLP的神经网络并行训练。
其中,具体地,LSTM采用历史新闻的新闻标题词向量作为特征输入进行模型训练,网络深度为15(不限于此深度),其中,在训练过程中,采用drop out机制,以保证模型的鲁棒性,drop out是指训练过程中丢失掉一定比例的神经元节点,以防止对训练数据过度拟合,进而导致预测效果下降。在将历史新闻的新闻标题词向量作为特征输入实现模型训练时,可获得LSTM输出的向量结果,该向量结果为:新闻标题在语义特征上的向量。
CNN采用历史新闻的新闻关键词向量作为特征输入进行模型训练,在CNN的第一层卷积层激活函数采用relu(一激活函数),对第一层卷积层的输出即该卷积层输出的新闻关键词在语义特征上的向量,采用信息提取函数max pooling进行信息提取并对提取结果采用drop out机制处理,再对drop out处理结果经过第二层卷积层接max pooling并且采用drop out机制处理,最终对该drop out结果接全连接层作为CNN网络的输出结果,该CNN网络的输出结果为:新闻关键词在语义特征上的向量。
MLP采用历史新闻的新闻主题词向量作为特征输入进行模型训练,输入的主题词数量示例性地例如可以是200个,MLP采用3层的全连接网络结构,每层后都会接入drop out机制保证model的鲁棒性,最终的全连接层为MLP提供输出向量,MLP的输出向量为:新闻主题词在语义特征上的向量。
步骤104、对所述向量结果包括的各种向量进行连接,得到连接向量,并以所述连接向量为特征,以历史新闻的热度信息为参考,利用预定分类算法训练新闻的热度预估模型。
在利用LSTM、CNN和MLP进行并行训练,得到基于深度和宽度学习的神经网络模型基础上,可对该模型的向量输出,即新闻标题在语义特征上的向量、新闻关键词在语义特征上的向量以及新闻主题在语义特征上的向量进行连接(concat),即将三者首尾相接,并以连接后的向量作为LR(Logistic Regression,逻辑回归分类)的特征输入进行最终训练并生成新闻的热度预估模型,其中,训练所得的该热度预估模型提供新闻的各种词向量特征的热度贡献度权重,以支持基于词向量特征的热度贡献度权重基础上的新闻热度评分预估。
需要说明的是,基于深度和宽度学习的各模型的训练以及在深度和宽度学习基础上的最终预估模型的训练,是一个基于反馈的迭代训练过程,具体地,每次迭代中,均是以历史新闻的实际热度信息为参考,通过将热度预估模型输出的历史新闻的热度预估结果与历史新闻的实际热度信息进行比对,并将比对结果反馈至所述神经网络模型以及所述热度预估模型的训练中,通过基于反馈的多次迭代训练过程使得所述神经网络模型以及所述热度预估模型不断得以校准,比如,不断对LSTM、CNN和MLP深度和宽度结构的神经网络模型的向量结果进行校准,对热度预估模型提供的词向量特征的热度贡献度权重进行校准等等。其中,迭代次数可由本领域技术人员依据实际需求自由设定。
步骤105、利用所述热度预估模型,对存在热度预估需求的新闻进行热度预估。
在训练出基于深度和宽度学习的新闻热度预估模型的基础上,可利用训练的该模型对实时的冷启动新闻进行热度预估,给出相应的热度打分,对新闻进行热度打分时无需以新闻曝光为前提,实时性高,且基于深度和宽度学习训练模型的构思可使得模型取得准确率上的提升。
其中,经过发明人测试,本发明方法提供的新闻热度预估方式在准确率上取得了远超传统机器学习model的成绩。在新闻热度打分准确性上,现有的基于SVM(SupportVector Machine,支持向量机)的打分方案准确率为87%,而本发明提供的基于深度和宽度学习的打分方案的热度预估准确率为94%。基于本发明方案的新热度预估系统上线后,新闻点击率可普遍提升2-3个百分点。
本发明实施例的提供的新闻热度预估方法,相对于传统的基于统计的新闻热度打分系统而言,例如贝叶斯平滑等方法,本发明提出了基于深度和宽度学习构建冷启动新闻(即没有展示历史点击、曝光信息的新入库的新闻)的热度预估模型,并利用该模型对冷启动新闻进行热度预估的方案,基于深度和宽度学习训练模型的构思可使得模型取得准确率上的提升,且由于本发明方案能够实现对冷启动新闻进行热度预估,从而无需以新闻曝光为前提,且可加大高质量的冷启动新闻曝光的概率,并提高高质量冷启动新闻曝光的实时性。
本发明的另一实施例提供一种新闻热度预估系统,旨在通过在深度和宽度学习基础上对冷启动新闻进行新闻热度预估,来提升新闻热度计算的准确性和实时性,进而提升线上新闻质量,完善用户体验。参考图3示出的本发明实施例的新闻热度预估系统的结构示意图,该系统可以包括:
数据获取及预处理单元301,用于获取具有热度信息的历史新闻作为训练数据,并对训练数据进行预处理;向量化处理单元302,用于对预处理后的训练数据中的历史新闻进行词语向量化处理,得到历史新闻在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻主题词的词向量;其中,所述新闻标题词为对历史新闻的标题进行分词所得的词语,所述新闻主题词为对历史新闻的新闻全文数据对应的分词进行聚类所得的词语;神经网络模型训练单元303,用于利用预定的第一深度神经网络、第二深度神经网络及第三深度神经网络,以一对一方式分别以所述新闻标题词的词向量、新闻关键词的词向量及新闻主题词的词向量为特征进行并行训练,得到基于深度和宽度学习的神经网络模型,并获得训练后输出的向量结果;所述向量结果包括:新闻标题在语音特征上的向量,新闻关键词在语义特征上的向量以及新闻主题在语义特征上的向量;预估模型训练单元304,用于对所述向量结果包括的各种向量进行连接,得到连接向量,并以所述连接向量为特征,以历史新闻的热度信息为参考,利用预定分类算法训练新闻的热度预估模型。预测单元305,用于利用所述热度预估模型,对存在热度预估需求的新闻进行热度预估。
在本发明实施例的一实施方式中,所述数据获取及预处理单元对训练数据进行预处理,进一步包括:对所述训练数据中的新闻内容进行HTML标签过滤;对去掉HTML标签的新闻内容中的标题部分、关键词部分及正文部分进行分词,得到新闻标题词、新闻关键词及新闻正文词;并对各分词结果进行编号。
在本发明实施例的一实施方式中,所述向量化处理单元,具体用于:利用预训练的词语转向量模型对历史新闻的新闻标题词、新闻关键词及新闻正文词进行向量化处理,得到历史新闻的在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量;所述词语转向量模型为利用预定的词向量算法基于预训练时所使用文章中词的上下文预训练的模型;对所述新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量进行聚类,得到新闻主题词的词向量。
在本发明实施例的一实施方式中,所述神经网络模型训练单元,具体用于:采用长短期记忆模型LSTM,并以所述新闻标题词的词向量为LSTM的特征输入,采用卷积神经网络CNN,并以所述新闻关键词的词向量为CNN的特征输入,采用多层感知机MLP,并以新闻主题词的词向量为MLP的特征输入进行并行训练,得到基于深度和宽度学习的神经网络模型。
在本发明实施例的一实施方式中,所述预估模型训练单元,具体用于:采用逻辑回归分类算法LR,并以所述连接向量为LR的特征输入,训练新闻的热度预估模型;训练所得的所述热度预估模型提供各种词向量特征的热度贡献度权重,以支持对新闻进行热度预估;将所述热度预估模型输出的历史新闻的热度预估结果,与历史新闻的实际热度信息进行比对,并将比对结果反馈至所述神经网络模型以及所述热度预估模型的训练中,通过基于反馈的多次迭代训练过程使得所述神经网络模型以及所述热度预估模型不断得以校准。
对于本发明实施例公开的新闻热度预估系统而言,由于其与以上实施例公开的新闻热度预估方法相对应,且具有相同的技术效果,所以描述的比较简单,相关相似之处请参见以上实施例中新闻热度预估方法部分的说明即可,此处不再详述。
综上所述,本发明具有以下优势:本发明提供了基于新闻内容的静态属性的新闻热度预估方案,该方案基于深度和宽度学习技术,在保证网络深度的基础上,采用不同种类的神经网络并行训练来增加网络宽度,并在此基础上进行预估模型的训练。有效的解决了每天海量冷启动的文章的热度预估问题,在时效性和准确性上有了显著的提高,加大了高质量冷启动新闻曝光的概率,提高高质量新闻曝光的实时性,进而提高了用户阅读体验。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
为了描述的方便,描述以上系统或装置时以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种新闻热度预估方法,其特征在于,包括:
获取具有热度信息的历史新闻作为训练数据,并对训练数据进行预处理;
对预处理后的训练数据中的历史新闻进行词语向量化处理,得到历史新闻在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻主题词的词向量;其中,所述新闻标题词为对历史新闻的标题进行分词所得的词语,所述新闻主题词为对历史新闻的新闻全文数据对应的分词进行聚类所得的词语;
利用预定的第一深度神经网络、第二深度神经网络及第三深度神经网络,以一对一方式分别以所述新闻标题词的词向量、新闻关键词的词向量及新闻主题词的词向量为特征进行并行训练,得到基于深度和宽度学习的神经网络模型,并获得训练后输出的向量结果;所述向量结果包括:新闻标题在语义特征上的向量,新闻关键词在语义特征上的向量以及新闻主题在语义特征上的向量;
对所述向量结果包括的各种向量进行连接,得到连接向量,并以所述连接向量为特征,以历史新闻的热度信息为参考,利用预定分类算法训练新闻的热度预估模型;
利用所述热度预估模型,对存在热度预估需求的新闻进行热度预估。
2.根据权利要求1所述的方法,其特征在于,所述对训练数据进行预处理,包括:
对所述训练数据中的新闻内容进行超文本标记语言HTML标签过滤;
对去掉HTML标签的新闻内容中的标题部分、关键词部分及正文部分进行分词,得到新闻标题词、新闻关键词及新闻正文词;并对各分词结果进行编号。
3.根据权利要求2所述的方法,其特征在于,所述对预处理后的训练数据中的历史新闻进行词语向量化处理,得到历史新闻在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻主题词的词向量,包括:
利用预训练的词语转向量模型对历史新闻的新闻标题词、新闻关键词及新闻正文词进行向量化处理,得到历史新闻的在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量;所述词语转向量模型为利用预定的词向量算法基于预训练时所使用文章中词的上下文预训练的模型;
对所述新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量进行聚类,得到新闻主题词的词向量。
4.根据权利要求3所述的方法,其特征在于,所述利用预定的第一深度神经网络、第二深度神经网络及第三深度神经网络,以一对一方式分别以所述新闻标题词的词向量、新闻关键词的词向量及新闻主题词的词向量为特征进行并行训练,包括:
采用长短期记忆模型LSTM,并以所述新闻标题词的词向量为LSTM的特征输入,采用卷积神经网络CNN,并以所述新闻关键词的词向量为CNN的特征输入,采用多层感知机MLP,并以新闻主题词的词向量为MLP的特征输入进行并行训练,得到基于深度和宽度学习的神经网络模型。
5.根据权利要求4所述的方法,其特征在于,所述以所述连接向量为特征,以历史新闻的热度信息为参考,利用预定分类算法训练新闻的热度预估模型,包括:
采用逻辑回归分类算法LR,并以所述连接向量为LR的特征输入,训练新闻的热度预估模型;训练所得的所述热度预估模型提供各种词向量特征的热度贡献度权重,以支持对新闻进行热度预估;
将所述热度预估模型输出的历史新闻的热度预估结果,与历史新闻的实际热度信息进行比对,并将比对结果反馈至所述神经网络模型以及所述热度预估模型的训练中,通过基于反馈的多次迭代训练过程使得所述神经网络模型以及所述热度预估模型不断得以校准。
6.一种新闻热度预估系统,其特征在于,包括:
数据获取及预处理单元,用于获取具有热度信息的历史新闻作为训练数据,并对训练数据进行预处理;
向量化处理单元,用于对预处理后的训练数据中的历史新闻进行词语向量化处理,得到历史新闻在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻主题词的词向量;其中,所述新闻标题词为对历史新闻的标题进行分词所得的词语,所述新闻主题词为对历史新闻的新闻全文数据对应的分词进行聚类所得的词语;
神经网络模型训练单元,用于利用预定的第一深度神经网络、第二深度神经网络及第三深度神经网络,以一对一方式分别以所述新闻标题词的词向量、新闻关键词的词向量及新闻主题词的词向量为特征进行并行训练,得到基于深度和宽度学习的神经网络模型,并获得训练后输出的向量结果;所述向量结果包括:新闻标题在语音特征上的向量,新闻关键词在语义特征上的向量以及新闻主题在语义特征上的向量;
预估模型训练单元,用于对所述向量结果包括的各种向量进行连接,得到连接向量,并以所述连接向量为特征,以历史新闻的热度信息为参考,利用预定分类算法训练新闻的热度预估模型;
预测单元,用于利用所述热度预估模型,对存在热度预估需求的新闻进行热度预估。
7.根据权利要求6所述的系统,其特征在于,所述数据获取及预处理单元对训练数据进行预处理,进一步包括:
对所述训练数据中的新闻内容进行HTML标签过滤;对去掉HTML标签的新闻内容中的标题部分、关键词部分及正文部分进行分词,得到新闻标题词、新闻关键词及新闻正文词;并对各分词结果进行编号。
8.根据权利要求7所述的系统,其特征在于,所述向量化处理单元,具体用于:
利用预训练的词语转向量模型对历史新闻的新闻标题词、新闻关键词及新闻正文词进行向量化处理,得到历史新闻的在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量;所述词语转向量模型为利用预定的词向量算法基于预训练时所使用文章中词的上下文预训练的模型;对所述新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量进行聚类,得到新闻主题词的词向量。
9.根据权利要求8所述的系统,其特征在于,所述神经网络模型训练单元,具体用于:
采用长短期记忆模型LSTM,并以所述新闻标题词的词向量为LSTM的特征输入,采用卷积神经网络CNN,并以所述新闻关键词的词向量为CNN的特征输入,采用多层感知机MLP,并以新闻主题词的词向量为MLP的特征输入进行并行训练,得到基于深度和宽度学习的神经网络模型。
10.根据权利要求9所述的系统,其特征在于,所述预估模型训练单元,具体用于:
采用逻辑回归分类算法LR,并以所述连接向量为LR的特征输入,训练新闻的热度预估模型;训练所得的所述热度预估模型提供各种词向量特征的热度贡献度权重,以支持对新闻进行热度预估;将所述热度预估模型输出的历史新闻的热度预估结果,与历史新闻的实际热度信息进行比对,并将比对结果反馈至所述神经网络模型以及所述热度预估模型的训练中,通过基于反馈的多次迭代训练过程使得所述神经网络模型以及所述热度预估模型不断得以校准。
CN201710509789.7A 2017-06-28 2017-06-28 一种新闻热度预估方法及系统 Active CN107330049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710509789.7A CN107330049B (zh) 2017-06-28 2017-06-28 一种新闻热度预估方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710509789.7A CN107330049B (zh) 2017-06-28 2017-06-28 一种新闻热度预估方法及系统

Publications (2)

Publication Number Publication Date
CN107330049A true CN107330049A (zh) 2017-11-07
CN107330049B CN107330049B (zh) 2020-05-22

Family

ID=60197824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710509789.7A Active CN107330049B (zh) 2017-06-28 2017-06-28 一种新闻热度预估方法及系统

Country Status (1)

Country Link
CN (1) CN107330049B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832299A (zh) * 2017-11-17 2018-03-23 北京百度网讯科技有限公司 基于人工智能的标题的改写处理方法、装置及可读介质
CN107992596A (zh) * 2017-12-12 2018-05-04 百度在线网络技术(北京)有限公司 一种文本聚类方法、装置、服务器和存储介质
CN108038107A (zh) * 2017-12-22 2018-05-15 东软集团股份有限公司 基于卷积神经网络的语句情感分类方法、装置及其设备
CN108133045A (zh) * 2018-01-12 2018-06-08 广州杰赛科技股份有限公司 关键词提取方法与系统、关键词提取模型生成方法与系统
CN108182239A (zh) * 2017-12-27 2018-06-19 成都寻道科技有限公司 一种文章热度预测系统及预测方法
CN109086821A (zh) * 2018-07-31 2018-12-25 太原理工大学 机器人的物体抓取判别方法
CN109086345A (zh) * 2018-07-12 2018-12-25 北京奇艺世纪科技有限公司 一种内容识别方法、内容分发方法、装置及电子设备
CN109165301A (zh) * 2018-09-13 2019-01-08 北京字节跳动网络技术有限公司 视频封面选择方法、装置和计算机可读存储介质
CN109344911A (zh) * 2018-10-31 2019-02-15 北京国信云服科技有限公司 一种基于多层lstm模型的并行处理分类方法
CN109344319A (zh) * 2018-11-01 2019-02-15 中国搜索信息科技股份有限公司 一种基于集成学习的线上内容热度预测方法
CN109472412A (zh) * 2018-11-09 2019-03-15 百度在线网络技术(北京)有限公司 一种事件的预测方法及装置
CN109947946A (zh) * 2019-03-22 2019-06-28 上海诺亚投资管理有限公司 一种预测文章传播热度的方法及装置
CN109977393A (zh) * 2017-12-28 2019-07-05 中国科学院计算技术研究所 一种基于内容争议性的流行新闻预测方法和系统
CN110209825A (zh) * 2019-06-17 2019-09-06 大连海事大学 一种基于宽度学习系统的快速网络表征学习算法
CN111144575A (zh) * 2019-12-05 2020-05-12 支付宝(杭州)信息技术有限公司 舆情预警模型的训练方法、预警方法、装置、设备及介质
CN112256970A (zh) * 2020-10-28 2021-01-22 四川金熊猫新媒体有限公司 一种新闻文本推送方法、装置、设备及存储介质
CN112765956A (zh) * 2021-01-22 2021-05-07 大连民族大学 基于多任务学习的依存句法分析方法及应用
CN113326355A (zh) * 2021-07-29 2021-08-31 湖南正宇软件技术开发有限公司 提案评分的方法、装置、计算机设备和存储介质
CN113535886A (zh) * 2020-04-15 2021-10-22 北大方正信息产业集团有限公司 信息处理方法、装置和设备
CN117390144A (zh) * 2023-12-13 2024-01-12 北京搜狐新媒体信息技术有限公司 一种新闻时效性的确定方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504150A (zh) * 2015-01-09 2015-04-08 成都布林特信息技术有限公司 新闻舆情监测系统
CN105354333A (zh) * 2015-12-07 2016-02-24 天云融创数据科技(北京)有限公司 一种基于新闻文本的话题提取方法
US20160239897A1 (en) * 2015-02-13 2016-08-18 24/7 Customer, Inc. Method and apparatus for improving experiences of online visitors to a website
CN106383817A (zh) * 2016-09-29 2017-02-08 北京理工大学 利用分布式语义信息的论文标题生成方法
CN106599181A (zh) * 2016-12-13 2017-04-26 浙江网新恒天软件有限公司 一种基于主题模型的新闻热点检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504150A (zh) * 2015-01-09 2015-04-08 成都布林特信息技术有限公司 新闻舆情监测系统
US20160239897A1 (en) * 2015-02-13 2016-08-18 24/7 Customer, Inc. Method and apparatus for improving experiences of online visitors to a website
CN105354333A (zh) * 2015-12-07 2016-02-24 天云融创数据科技(北京)有限公司 一种基于新闻文本的话题提取方法
CN106383817A (zh) * 2016-09-29 2017-02-08 北京理工大学 利用分布式语义信息的论文标题生成方法
CN106599181A (zh) * 2016-12-13 2017-04-26 浙江网新恒天软件有限公司 一种基于主题模型的新闻热点检测方法

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832299A (zh) * 2017-11-17 2018-03-23 北京百度网讯科技有限公司 基于人工智能的标题的改写处理方法、装置及可读介质
CN107832299B (zh) * 2017-11-17 2021-11-23 北京百度网讯科技有限公司 基于人工智能的标题的改写处理方法、装置及可读介质
CN107992596A (zh) * 2017-12-12 2018-05-04 百度在线网络技术(北京)有限公司 一种文本聚类方法、装置、服务器和存储介质
CN108038107A (zh) * 2017-12-22 2018-05-15 东软集团股份有限公司 基于卷积神经网络的语句情感分类方法、装置及其设备
CN108038107B (zh) * 2017-12-22 2021-06-25 东软集团股份有限公司 基于卷积神经网络的语句情感分类方法、装置及其设备
CN108182239A (zh) * 2017-12-27 2018-06-19 成都寻道科技有限公司 一种文章热度预测系统及预测方法
CN109977393A (zh) * 2017-12-28 2019-07-05 中国科学院计算技术研究所 一种基于内容争议性的流行新闻预测方法和系统
CN109977393B (zh) * 2017-12-28 2021-09-03 中国科学院计算技术研究所 一种基于内容争议性的流行新闻预测方法和系统
CN108133045A (zh) * 2018-01-12 2018-06-08 广州杰赛科技股份有限公司 关键词提取方法与系统、关键词提取模型生成方法与系统
CN108133045B (zh) * 2018-01-12 2020-07-24 广州杰赛科技股份有限公司 关键词提取方法与系统、关键词提取模型生成方法与系统
CN109086345A (zh) * 2018-07-12 2018-12-25 北京奇艺世纪科技有限公司 一种内容识别方法、内容分发方法、装置及电子设备
CN109086821A (zh) * 2018-07-31 2018-12-25 太原理工大学 机器人的物体抓取判别方法
CN109165301A (zh) * 2018-09-13 2019-01-08 北京字节跳动网络技术有限公司 视频封面选择方法、装置和计算机可读存储介质
CN109344911B (zh) * 2018-10-31 2022-04-12 北京国信云服科技有限公司 一种基于多层lstm模型的并行处理分类方法
CN109344911A (zh) * 2018-10-31 2019-02-15 北京国信云服科技有限公司 一种基于多层lstm模型的并行处理分类方法
CN109344319A (zh) * 2018-11-01 2019-02-15 中国搜索信息科技股份有限公司 一种基于集成学习的线上内容热度预测方法
CN109344319B (zh) * 2018-11-01 2021-08-24 中国搜索信息科技股份有限公司 一种基于集成学习的线上内容热度预测方法
CN109472412A (zh) * 2018-11-09 2019-03-15 百度在线网络技术(北京)有限公司 一种事件的预测方法及装置
CN109947946A (zh) * 2019-03-22 2019-06-28 上海诺亚投资管理有限公司 一种预测文章传播热度的方法及装置
CN110209825A (zh) * 2019-06-17 2019-09-06 大连海事大学 一种基于宽度学习系统的快速网络表征学习算法
CN111144575A (zh) * 2019-12-05 2020-05-12 支付宝(杭州)信息技术有限公司 舆情预警模型的训练方法、预警方法、装置、设备及介质
CN113535886A (zh) * 2020-04-15 2021-10-22 北大方正信息产业集团有限公司 信息处理方法、装置和设备
CN112256970A (zh) * 2020-10-28 2021-01-22 四川金熊猫新媒体有限公司 一种新闻文本推送方法、装置、设备及存储介质
CN112765956A (zh) * 2021-01-22 2021-05-07 大连民族大学 基于多任务学习的依存句法分析方法及应用
CN112765956B (zh) * 2021-01-22 2023-06-20 大连民族大学 基于多任务学习的依存句法分析方法及应用
CN113326355A (zh) * 2021-07-29 2021-08-31 湖南正宇软件技术开发有限公司 提案评分的方法、装置、计算机设备和存储介质
CN117390144A (zh) * 2023-12-13 2024-01-12 北京搜狐新媒体信息技术有限公司 一种新闻时效性的确定方法及装置
CN117390144B (zh) * 2023-12-13 2024-03-08 北京搜狐新媒体信息技术有限公司 一种新闻时效性的确定方法及装置

Also Published As

Publication number Publication date
CN107330049B (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN107330049A (zh) 一种新闻热度预估方法及系统
CN109885670A (zh) 一种面向话题文本的交互注意力编码情感分析方法
CN108197109A (zh) 一种基于自然语言处理的多语言分析方法和装置
CN110866117A (zh) 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN110377696A (zh) 一种商品期货新闻舆情分析方法及系统
CN107247702A (zh) 一种文本情感分析处理方法和系统
CN107291723A (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
CN107729309A (zh) 一种基于深度学习的中文语义分析的方法及装置
CN108073568A (zh) 关键词提取方法和装置
TWI695277B (zh) 自動化網站資料蒐集方法
CN107122349A (zh) 一种基于word2vec‑LDA模型的文本主题词提取方法
EP2973038A1 (en) Classifying resources using a deep network
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN104572631B (zh) 一种语言模型的训练方法及系统
CN110598219A (zh) 一种面向豆瓣网电影评论的情感分析方法
CN111797898A (zh) 一种基于深度语义匹配的在线评论自动回复方法
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
CN108460019A (zh) 一种基于注意力机制的新兴热点话题检测系统
CN112434535A (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN109472022A (zh) 基于机器学习的新词识别方法及终端设备
CN109359198A (zh) 一种文本分类方法及装置
CN112131453A (zh) 一种基于bert的网络不良短文本检测方法、装置及存储介质
CN113569118B (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN109992665A (zh) 一种基于问题目标特征扩展的分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant