CN104657496A - 一种计算信息热度值的方法和设备 - Google Patents

一种计算信息热度值的方法和设备 Download PDF

Info

Publication number
CN104657496A
CN104657496A CN201510102238.XA CN201510102238A CN104657496A CN 104657496 A CN104657496 A CN 104657496A CN 201510102238 A CN201510102238 A CN 201510102238A CN 104657496 A CN104657496 A CN 104657496A
Authority
CN
China
Prior art keywords
news
value
news information
information
hot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510102238.XA
Other languages
English (en)
Other versions
CN104657496B (zh
Inventor
陈起进
潘照明
周森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Netease Shuzhifan Technology Co ltd
Original Assignee
Hangzhou Langhe Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Langhe Technology Co Ltd filed Critical Hangzhou Langhe Technology Co Ltd
Priority to CN201510102238.XA priority Critical patent/CN104657496B/zh
Publication of CN104657496A publication Critical patent/CN104657496A/zh
Application granted granted Critical
Publication of CN104657496B publication Critical patent/CN104657496B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的实施方式提供了一种计算信息热度值的方法。该方法包括:获取新闻信息的新闻特征;依据所述新闻特征确定所述新闻信息的初始热度值、热度矫正值和内容矫正值;依据所述初始热度值、热度矫正值和内容矫正值计算所述新闻信息的目标热度值。通过,本发明的方法使得新发布的新闻信息也可以预测出相应的热度值,从而显著地降低了新发布的新闻信息无法更为合理的排序或排版的可能性,还可以根据热度值来提前为用户推送可能的热门新闻信息,为用户带来了更好的体验。此外,本发明的实施方式提供了一种计算信息热度值的设备。

Description

一种计算信息热度值的方法和设备
技术领域
本发明的实施方式涉及互联网信息技术处理领域,更具体地,本发明的实施方式涉及一种计算信息热度值的方法和设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
目前,随着信息量的日复一日的爆炸性增多,各大门户新闻网站或者应用都有向用户展示新闻信息的方式,尤其是展示热门新闻来吸引用户阅读。
发明内容
但是,如何对新闻信息进行排序、排版或者向用户推送都是重要的问题,如通常会以新闻的热门程度作为考虑因素,等到新闻信息发布一段时间之后,根据用户和媒体对该新闻信息的反馈数据统计得到热门程度。但这样会导致新闻信息的初始排序或者初始排版不够合理,以及向用户推送热门的新闻信息的时机不够及时。特别是针对第一次发布或者刚刚发布较短时间内的新闻信息,无法参考热门程度来对新闻信息进行准确的排序、排版或者向用户推送等。
因此不可避免的是,按照现有技术对新闻信息进行排序、排版或者向用户推送新闻信息,可能就会使得排序、排版结果和推送结果不够及时和全面。
为此,非常需要一种改进的计算并预测信息热度值的方法,以使得对第一次发布或者较短时间内发布的新闻信息进行更为合理准确的排序和排版成为可能,以及使得向用户推送更及时和更符合用户需求的新闻信息成为可能。
在本上下文中,本发明的实施方式期望提供一种计算信息热度值的方法和设备。
在本发明实施方式的第一方面中,提供了一种计算信息热度值的方法,包括:获取新闻信息的新闻特征;依据所述新闻特征确定所述新闻信息的初始热度值、热度矫正值和内容矫正值;依据所述初始热度值、热度矫正值和内容矫正值计算所述新闻信息的目标热度值。
在本发明实施方式的第二方面中,提供了一种计算信息热度值的设备,包括:获取模块,配置用于获取新闻信息的新闻特征;确定模块,配置用于依据所述新闻特征确定所述新闻信息的初始热度值、热度矫正值和内容矫正值;计算模块,配置用于依据所述初始热度值、热度矫正值和内容矫正值计算所述新闻信息的目标热度值。
根据本发明实施方式的计算信息推送度的方法和计算信息推送度的设备,可以在新闻信息缺乏用户和/或媒体的反馈数据时,就能够预测出新闻信息未来可能的热度值,从而可以及时挖掘出潜在的热门新闻信息。基于此,可以为新闻信息的热度排序提供了一个较为合理的参考,将本发明实施方式应用于新闻产品的新闻排版时,就可以改善用户对新闻信息的阅读体验,并且还可以及时甚至较早地将热门新闻信息进行推荐,特别是对于新闻媒体、门户网站等服务商,可以有效减轻人力编辑的工作量,提高生产效率,减少资源消耗。而且能够在相对有限的时间内评估海量的新闻热度,完成一些短时间内人力所不能完成的事情。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了根据本发明实施方式的应用场景示意图;
图2示意性地示出了根据本发明计算信息热度值方法实施例的流程图;
图3示意性地示出了根据本发明计算信息热度值设备实施例的结构框图;
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种计算信息热度值的方法和设备。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
本发明人发现,现有技术中因为新闻信息的热度值需要依靠用户和/或媒体的反馈数据才能得到,所以对于发布时间较短的新闻信息来讲,可能由于其热度值无法准确获取而使得用户无法及时获取到热门新闻信息,不仅如此,新闻产品的各个栏目在对新的新闻信息进行排序或者排版时也无法参考新闻信息的热度值进行。而如果能够采用合理预测的方式,对第一次发布或者发布时间较短的新闻信息也能够预测出其未来可能的热度,那么就可以参考其预测的热度值来进行初始排序或初始排版,从而也可以确定新发布的新闻信息是否需要向用户推送。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
首先参考图1所示的应用场景,用户可以在互联网设备102上浏览各种新闻信息,该互联网设备102可以是台式电脑或者手持的智能设备等,只要该互联网设备102能够通过互联网连接服务器101,就可以接收到服务器101发送的新闻信息以供用户浏览。而互联网设备102上还可以安装各种新闻类软件,例如“网易新闻”等,用户也可以通过新闻类软件来与服务器101交互并浏览各种新闻信息。
示例性方法
下面结合图1的应用场景,参考图2来描述根据本发明示例性实施方式的用于计算信息热度值的方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
步骤201:获取新闻信息的新闻特征。
在本实施方式中,新闻信息可以为互联网上的新闻文章。对于新闻信息的新闻特征,可以包括新闻标题、新闻正文、新闻附图和新闻类别等。新闻信息可通过用户输入或机器抓取的方式输入,对于新闻信息中包含html标签的文本内容,则可以将去除html标签的文本内容作为新闻正文。
本步骤需要把新闻信息转化为适用于计算模型的新闻特征,具体的,新闻特征可以包括文本特征、附图特征和新闻类别,则获取新闻信息的新闻特征具体可以包括:
步骤A1:获取新闻信息的新闻标题、新闻正文、标题附图、正文附图和新闻类别。
首先,获取新闻信息的新闻标题和新闻正文,以及标题附图和正文附图,还有新闻类别。新闻类别指的是新闻信息属于哪一类,例如新闻信息属于“娱乐”类别,还是“体育”类别等。
步骤A2:对所述新闻标题和新闻正文进行预处理以得到所述新闻信息的文本特征。
其中,文本特征主要有新闻标题特征和新闻正文特征。具体的可以对新闻信息的新闻标题及新闻正文进行分词、提取关键词、构建文本特征向量、统计新闻附图信息和统计文本长度等一系列操作。在获取新闻标题特征时,首先可以对新闻标题进行分词,并过滤掉标点符号、代词及介词等,去除噪声,从而得到新闻标题特征。其中,对于分词方法来讲,现有的分词方法可以分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。而按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。在本申请实施方式中,可以选择现有的任意分词方法进行分词,分词方法的选择并不会影响本实施方式的实现。而新闻正文特征获取时,优选的,可以基于Text Rank和TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆向文件频率)算法提取新闻正文的关键词,并按照一定的权值映射到词典向量上,可以得到一个稀疏的文本特征向量,然后分别统计新闻标题的文本长度和新闻正文的文本长度,从而得到文本特征。
步骤A3:统计所述标题附图和正文附图的数量作为附图特征。
对于附图特征,则可以统计新闻标题附图及新闻正文附图的数量作为附图特征。
步骤202:依据所述新闻特征确定所述新闻信息的初始热度值、热度矫正值和内容矫正值。
其中,初始热度值为对新闻信息进行预测的疑似热度,记为H1。可以通过疑似热度预测模型进行预测得到,该预测模型可以通过把新闻内容特征和用户/媒体反馈信息作为训练数据,使用有监督的增量机器学习方法训练得到的,该预测模型记为M1。而热度矫正值用于矫正新闻信息初始热度值的时效性,矫正之后的初始热度值具有更加合理的时效性。通过输入新闻信息的新闻特征,通过预先训练好的热度矫正模型M2,可以计算新闻信息的热度矫正值,记为H2。而内容矫正值可以检测新闻信息的结构,使得矫正后的初始热度值代表了一定程度的内容充实性。具体的,输入新闻信息的新闻特征,通过结构扰动检测模型M3,可以计算新闻信息的内容矫正值,记为H3。
其中,步骤202中依据所述新闻特征确定所述新闻信息的初始热度值,具体可以包括步骤B1~步骤B2:
步骤B1:依据新闻热度标签数据有针对性地从所述新闻特征中提取文本特征向量;所述新闻热度标签数据对应用户和/或媒体对所述新闻信息的反馈情况,所述新闻热度标签数据包括:所述新闻信息的用户点击数、用户评论数、用户转发数、用户点赞数、用户收藏数、用户浏览时间、媒体报道位置和媒体报道数。
在本步骤中,依据新闻信息的文本特征,可以提取新闻的文本特征向量。在提取文本特征向量时,需要注意的是在新闻热度标签数据选择不同的维度时,输入的新闻文本特征也会做相应的调整。例如,新闻热度标签数据的维度为新闻点击数时,则以新闻标题特征为主;而当新闻热度标签数据的维度为新闻评论数时,则要兼顾新闻标题特征和新闻正文关键词,等等。
步骤B2:依据所述新闻信息的新闻类别选取相对应的初始热度预测模型;所述初始热度预测模型与新闻类别相对应且表示文本特征向量和初始热度值之间的函数关系。
在本步骤中,依据新闻信息的类别,选取与该新闻类别相对应的初始热度预测模型,该初始热度预测模型与新闻类别相对应且表示文本特征向量和初始热度值之间的函数关系。可以理解的是,如果新闻信息的类别是未知的,则可以选择通用的初始热度预测模型。选择好初始热度预测模型之后,就可以把新闻信息的文本特征和类别特征作为输入,由初始热度预测模型来分析新闻信息的疑似热门事件特征,进而输出新闻信息的初始热度值。新闻信息的初始热度值可以表示新闻信息潜在的用户和/或媒体反馈热门度,即表示该新闻信息未来可能的用户点击量、用户转发数、用户评论数和媒体报道数等信息。
其中,该初始热度预测模型的训练可以如步骤C1~步骤C7所示:
步骤C1:增量获取预设时间段内的新闻信息的样本数据,所述样本数据包括:新闻类别、新闻标题和新闻正文。
在本步骤中需要增量收集预设时间段内的新闻信息的样本数据,该样本数据可以包括新闻信息的新闻类别、新闻标题和新闻正文。考虑到新闻信息的实时性的特性,训练时可将近半年的新闻信息作为初始新闻信息样本,然后增量收集最新的新闻信息的样本数据。
步骤C2:依据新闻热度标签数据所侧重的维度从所述新闻标题和新闻正文中提取文本特征向量,并将新闻信息样本的文本特征向量作为初始热度预测模型的输入。
在本步骤中,可以以新闻热度标签数据作为不同的维度来提取新闻的文本特征向量,从而构成新闻文本特征向量的集合,作为初始热度预测模型训练的输入,记为X。其中,新闻热度标签数据可以是用户和/或媒体反馈数据,如新闻的用户点击数、用户转发数、用户评论数和媒体报道数等维度,在实际应用中可以使用单个维度作为新闻热度标签数据,也可以把各个新闻热度标签数据作为热度分量,并把它们的加权组合作为新的新闻热度标签数据。
步骤C3:增量获取新闻信息所对应的新闻热度标签数据样本。
优选的,可以增量收集步骤C1中所获取的新闻内容信息样本对应的新闻热度标签数据,得到一个热度标签集,该热度标签集中同时包含了热门的和一些不热门的新闻热度标签数据。
步骤C4:对所述新闻热度标签数据进行预处理以得到训练所需的代表热门强度的热度值,并将所述训练所需的热度值作为所述初始热度预测模型的输出;所述预处理包括:去噪、标准化及分布转换。
对步骤C3中所收集的这些新闻热度标签数据进行数据预处理,优选的,主要预处理过程可以包括噪声去除、分布转换及数据标准化,进而将新闻热度标签数据转化到0~1区间上的热度值,并把预处理后得到的热度值作为初始热度预测模型训练的输出,记为Y。
步骤C5:以所述新闻热度标签数据为训练侧重维度,依据以上步骤中增量获取的训练样本数据,优选的可以对每个新闻类别分别增量训练出回归模型和分类模型。
在本步骤中以新闻热度标签数据为训练侧重维度,可以根据不同的侧重点选择不同热门标签或组合热门标签,从而根据不同的热度参照需求,去训练以新闻点击热度为维度的初始热度预测模型、以评论热度为维度的初始热度预测模型、以报道热度为维度的初始热度预测模型等,从而可以从不同维度来预测新闻信息的热度。
在实际应用中,考虑到不同新闻类别的新闻特征的区别很大,为使训练效果更好,可以参考新闻类别分别独立进行增量训练。每个新闻类别的初始热度预测模型可以分别采用单个的回归模型,优选的,可以采用Elastic Net优化求解的线性回归模型,记为Y=H_ELASTICNET(X),从而得到新闻信息的初始热度值。每个新闻类别还可以使用分类模型,来粗略预测一篇新闻信息是否为较热门新闻,优选的,分类模型可以使用Logistic回归模型,记为B(Y)=H_LOGISTIC(X),在这种情况下新闻热度标签数据为二值数据B(Y),即通过设定阈值,把预处理后的新闻热度标签数据Y转化为0和1的函数。
步骤C6:将每个新闻类别的回归模型和分类模型进行关联从而得到每个新闻类别的混合模型。
为使训练出来的初始热度预测模型具有更好的预测效果和稳定性,可以把步骤C5中训练得到的分类模型和回归模型联合起来得到一个混合模型,于是每个新闻类别可以分别得到一个混合模型,用于更精准的预测新闻信息的初始热度值,可表示为H_MIX(X)。优选的,可以采用联合方法H_MIX=(1-w)*H_ELASTICNET(X)+w*H_LOGISTIC(X),其中w为可变参数。如果新闻的类别数为K个,可以得到K个初始热度预测模型{H_MIX}。
步骤C7:参考常用新闻类别的样本数据和新闻热度标签数据训练得到通用模型。
又因为在实际应用中一些新闻信息是未知类别的,因此还需要训练一个通用的初始热度预测模型,在本步骤中可以参考常用新闻类别的新闻样本数据及新闻热度标签数据,训练得到一个通用模型。
可以理解的是,随着时间的推移,新闻信息的内容在不断的变化,因此,定时增量训练最新的新闻样本数据,可以使得模型保持较好的时效性,例如,可以每天或每3小时进行一次增量训练,并更新线上模型,从而使得初始热度预测模型能够最大可能的保证实时性和准确性。
在介绍完初始热度预测模型的训练过程之后,进入步骤B3:将所述文本特征向量作为选取的初始热度预测模型的输入,计算得到所述初始热度预测模型的输出作为所述初始热度值。
在本步骤中将文本特征向量代入对应选取的初始热度预测模型,计算得到新闻信息的初始热度值H1。
其中,在步骤202中依据新闻特征确定新闻信息的热度矫正值,主要目的是对预测的初始热度值进行时效性矫正,以便增强时效性强的新闻信息的初始热度值。优选的,可以预先构建一个可以反应新闻时效性的量化热词库,然后根据量化热词库进行初始热度值的矫正。具体实现过程可以包括如下所示的步骤D1~步骤D2:
步骤D1:从量化热词库中查找出与所述新闻信息相关的热词及热度量化参数,所述的量化热词库对应所述新闻信息的新闻类别并包含预设时间段内的热词及每个热词对应的热度量化参数。
其中,量化热词库存储了近期最热门的热词及每个热词对应的热度量化参数,在实际应用中,考虑到不同新闻类别的新闻特征差异较大,可以为每个新闻类别都构建一个量化热词库。首先,可以收集预设时间段内新闻信息中的头条新闻、用户在新闻产品中的搜索词频等热门信息,可以收集最近一周和最近一天的数据,还可以按照新闻类别分别进行收集。同时,为了也适用于某些未知类别的新闻信息,还需要收集一些通用的热门信息,可以采用几个常用新闻类别的新闻信息的集合来实现。收集之后,即可对热门新闻标题、热点事件、搜索句子等长特征进行分词,并进行去噪,进而获取主体、事件等关键词汇。然后再根据新闻产品中的热门词汇的搜索量、头条新闻的加粗/高亮样式等参考信息,对热门词汇进行量化,从而得到每个热门词汇的热度量化参数,同时统计热门词汇的变化趋势。优选的,可以分新闻类别统计每个热门词汇的热门排名、热门趋势变化(例如,升高、不变或降低)等信息。最后再把量化后的热门词汇(即热词)及热度量化参数按照新闻类别存入数据库,同时也可以把通用热门词汇及热度量化参数存储至通用类别的量化词库中。可以理解的是,本领域技术人员也可以实时更新量化词库。
步骤D2:依据所述热词和对应的热度量化参数计算所述热度矫正值。
针对一篇新闻信息,根据该新闻信息的新闻类别,选择相应的量化词库,如果是未知类别,则选择通用量化词库。然后对该新闻信息的新闻标题和新闻正文进行热词匹配,选出在量化词库里匹配上的热词。基于匹配上的热词来计算热度矫正项H2。
优选的,下面给出了一个热度矫正项计算模型:假设新闻信息在该新闻类别的量化词库中匹配上m个热词,第i个热词有排名ranki和趋势两个维度,首先可以对该热词的排名进行min-max标准化,得到排名标准化值,如公式一所示:
sr i = rank i - rank min rank max - rank min   (一)
然后计算热度趋势值,计算公式可以如公式(二)所示:
其中,t为一个较小的可变扰动参数。可以由本领域技术人员依据经验值进行设置。
最后参考公式三计算热度矫正项H2,公式(三)如下所示:
H 2 = ln ( 1 + min ( e - 1 , Σ i = 1 K sr i * st i ) )   (三)
在步骤202中,依据所述新闻特征确定所述新闻信息的内容矫正值,具体也可以为:依据文本内容扰动值、标题附图增强值和正文附图增强值,计算所述内容矫正值。
在计算内容矫正值的时候,考虑到新闻的结构特征在一定程度上影响着用户和/或媒体对新闻信息的反馈,如新闻信息的标题长度、正文长度、新闻头图、新闻附图等信息都会对新闻信息的热度产生间接影响,而不同新闻类别的新闻对结构特征的需求也是不一样的。因此,可以对不同新闻类别训练出不同的结构扰动检测的模型。
其中,文本内容扰动值可以依据预先设置的标题合格长度阈值、正文合格长度阈值、标题最优长度区间值、正文最优长度区间值和实际标题长度值、实际正文长度值计算得到。
因为新闻信息的文本结构特征一定程度上影响了新闻信息的热门度,因为文本内容扰动值可以反映新闻的标题和正文的内容充实性,作为新闻信息的热度预测的分量之一。考虑到不同新闻类别的新闻信息,篇幅会有所不同,所以可以按照新闻类别分别建立一些检测阈值,例如标题合格长度阈值、正文合格长度阈值、标题最优长度区间值、正文最优长度区间值、标题长度扰动值和正文长度扰动值等。于是,对新闻类别为k的新闻信息,可以把标题合格长度阈值记为正文合格长度记为标题最优长度区间值记为正文最优长度区间值记为标题长度扰动值为正文长度扰动值为
优选的,参考公式(四),示意了一种文本结构扰动项检测函数:
f ( l , min , sl , el , d ) = 0 , l < min 1.0 - d , min &le; l < sl 1.0 + d , sl &le; l < el 1.0 , else   (四)
如果某篇新闻信息属于类别k,且标题长度为lt,正文长度为lc,于是新闻信息的文本结构扰动值可通过公式五所示的示例性模型计算得到:
其中,标题附图增强值可以依据预先设置的初始标题附图增强值和所述新闻信息是否包括标题附图计算得到。
因为新闻信息的正文附图和用户的阅读体验息息相关,而标题附图则直接影响到了用户是否会点击新闻,因此新闻附图对新闻信息的热度有着一定的增强性,同时考虑到图像内容对不同类别的新闻信息的重要性不同。优选的,下面给出一种检测计算方式如公式六所示:
其中,k代表新闻类别,代表该类别的初始标题附图增强值。
本步骤中的正文附图增强值可以依据预先设置的初始正文附图增强值和正文附图数量计算得到,具体的计算方式可以参考公式七所示:
其中,k代表新闻类别,代表该类别的初始正文附图增强值,n表示正文的附图数目,α为可调参数。
那么,优选的,新闻的结构扰动项H3可通过如下公式计算得到:
H3=(1-c-d)*文本结构扰动项+c*标题附图增强项+d*正文附图增强项,其中c、d均为0~1之间的可调系数,可以由本领域技术人员根据经验值设置。
接着返回图2,进入步骤203:依据所述初始热度值、热度矫正值和内容矫正值计算所述新闻信息的目标热度值。
在本实施方式中,在得到初始热度值H1、热度矫正值H2和内容校正值H3之后,将所述初始热度值、热度矫正值和内容矫正值根据预设的权重进行加权计算,以得到所述新闻信息的目标热度值。例如,目标热度值H可由如下公式计算得到“H=(1-a-b)*H1+a*H2+b*H3计算得到,其中a、b均为0~1之间的可调系数,可以由本领域技术人员根据经验值设置。
可选的,还可以将某一篇新闻信息的目标热度值输出给用户或机器。
其中,因为目标热度值反映了一篇新闻信息在未来可能的热度,因此,可以对于新发布的新闻信息,可以在其目标热度值较大的时候直接向用户进行推送,从而使用户提前浏览到比较热门的新闻信息。那么在不同的实施例中,在步骤203之后,还可以包括:
步骤204:依据新闻信息的目标热度值向用户推送满足预设热度阈值的推荐新闻信息。
在实际应用中,可以设置一个预设热度阈值,例如0.6,那么当一篇新发布的新闻信息的目标热度值大于0.6的时候,则将该新闻信息向用户推送。
可选的,在步骤203之后,还可以包括:
依据新闻信息的目标热度值确定新闻产品各个栏目中的新闻信息的初始排序,所述初始排序表示新闻信息展示给用户的先后顺序。
在实际应用中,因为新闻产品中各个栏目中的新闻信息都具有发布时的初始排序,因此,在发布之前就可以先计算各个新闻信息的目标热度值,从而参考目标热度值来确定新闻产品各个栏目中的新闻信息的初始排序,即,新闻信息展示给用户的先后顺序。目标热度值高的新闻信息可以排在栏目的显著位置或者排在序列前面,而目标热度值低的新闻信息则可以排在栏目中不太显著的位置或者排在序列后面,从而更加方便用户快速阅读到可能比较热门的新闻信息。
在本实施方式中,针对第一次发布或者刚刚发布较短时间内的新闻信息,无法参考热门程度来对新闻信息进行准确的排序、排版或者向用户推送等现象,采用预测目标热度值的方式,对发布时间较短的新闻信息可以预测出其未来可能的热度值,从而可以参考其可能的热度值来对新闻信息进行初始排序或者初始排版,使得排序或排序结果比较合理;还可以将预测的目标热度值较高的新闻信息直接向用户推送,从而使用户能够及时甚至较早地浏览到可能比较热门的新闻信息,也能使得新闻信息的推送更符合用户需求。
示例性设备
在介绍了本发明示例性实施方式的方法之后,接下来,参考图3对本发明示例性实施方式的、用于计算信息热度值的设备进行介绍,本实施方式的设备可以包括:
获取模块301,配置用于获取新闻信息的新闻特征。
其中,所述获取模块301可以包括:获取子模块,配置用于获取新闻信息的新闻标题、新闻正文、标题附图、正文附图和新闻类别;预处理子模块,配置用于对所述新闻标题和新闻正文进行预处理以得到所述新闻信息的文本特征;统计子模块,配置用于统计所述标题附图和正文附图的数量作为附图特征。
确定模块302,配置用于依据所述新闻特征确定所述新闻信息的初始热度值、热度矫正值和内容矫正值。
其中,确定模块302在确定新闻信息的初始热度值的时候,具体配置用于:依据新闻热度标签数据从所述新闻特征中提取文本特征向量;所述新闻热度标签数据对应用户和/或媒体对所述新闻信息的反馈情况,所述新闻热度标签数据包括:所述新闻信息的用户点击数、用户评论数、用户转发数、用户点赞数、用户收藏数、用户浏览时间、媒体报道位置和媒体报道数;依据所述新闻信息的新闻类别选取相对应的初始热度预测模型;所述初始热度预测模型与新闻类别相对应且表示文本特征向量和初始热度值之间的函数关系;将所述文本特征向量作为选取的初始热度预测模型的输入,计算得到所述初始热度预测模型的输出作为所述初始热度值。
其中,确定模块302在确定新闻信息的热度矫正值的时候,具体配置用于:从量化热词库中查找出与所述新闻信息相关的热词及热度量化参数,所述的量化热词库对应所述新闻信息的新闻类别并包含预设时间段内的热词及每个热词对应的热度量化参数;依据所述热词和热度量化参数计算所述热度矫正值。
其中,确定模块302在确定所述新闻信息的内容矫正值的时候,具体配置用于:依据文本内容扰动值、标题附图增强值和正文附图增强值,计算所述内容矫正值;其中,所述的文本内容扰动值依据预先设置的标题合格长度阈值、正文合格长度阈值、标题最优长度区间值、正文最优长度区间值和实际标题长度值、实际正文长度值计算得到;所述的标题附图增强值依据预先设置的初始标题附图增强值和所述新闻信息是否包括标题附图计算得到;所述的正文附图增强值依据预先设置的初始正文附图增强值和正文附图数量计算得到。
计算模块303,配置用于依据所述初始热度值、热度矫正值和内容矫正值计算所述新闻信息的目标热度值。
其中,计算模块303具体可以配置用于:将所述初始热度值、热度矫正值和内容矫正值根据预设的权重进行加权计算,以得到所述新闻信息的目标热度值。
可选的,在不同的实施方式中,该设备还可以包括:
推送模块,配置用于依据新闻信息的目标热度值向用户推送满足预设热度阈值的推荐新闻信息。
可选的,在不同的实施方式中,该设备还可以包括:
排序模块,配置用于依据新闻信息的目标热度值确定新闻产品的各个栏目中的新闻信息的初始排序,所述初始排序表示新闻信息展示给用户的先后顺序。
应当注意,尽管在上文详细描述中提及了计算信息热度值的设备的若干装置或子装置,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之,上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (11)

1.一种计算信息热度值的方法,包括:
获取新闻信息的新闻特征;
依据所述新闻特征确定所述新闻信息的初始热度值、热度矫正值和内容矫正值;
依据所述初始热度值、热度矫正值和内容矫正值计算所述新闻信息的目标热度值。
2.根据权利要求1所述的方法,还包括:
依据新闻信息的目标热度值向用户推送满足预设热度阈值的推荐新闻信息。
3.根据权利要求1所述的方法,还包括:
依据新闻信息的目标热度值确定新闻产品各个栏目中的新闻信息的初始排序,所述初始排序表示新闻信息展示给用户的先后顺序。
4.根据权利要求1所述的方法,所述新闻特征包括文本特征、附图特征和新闻类别,所述获取新闻信息的新闻特征包括:
获取新闻信息的新闻标题、新闻正文、标题附图、正文附图和新闻类别;
对所述新闻标题和新闻正文进行预处理以得到所述新闻信息的文本特征;
统计所述标题附图和正文附图的数量作为附图特征。
5.根据权利要求4所述的方法,所述依据所述新闻特征确定所述新闻信息的初始热度值,包括:
依据新闻热度标签数据从所述新闻特征中提取文本特征向量;所述新闻热度标签数据对应用户和/或媒体对所述新闻信息的反馈情况,所述新闻热度标签数据包括:所述新闻信息的用户点击数、用户评论数、用户转发数、用户点赞数、用户收藏数、用户浏览时间、媒体报道位置和媒体报道数;
依据所述新闻信息的新闻类别选取相对应的初始热度预测模型;所述初始热度预测模型与新闻类别相对应且表示文本特征向量和初始热度值之间的函数关系;
将所述文本特征向量作为选取的初始热度预测模型的输入,计算得到所述初始热度预测模型的输出作为所述初始热度值。
6.根据权利要求4所述的方法,所述依据所述新闻特征确定所述新闻信息的热度矫正值,包括:
从量化热词库中查找出与所述新闻信息相关的热词及热度量化参数,所述的量化热词库对应所述新闻信息的新闻类别并包含预设时间段内的热词及每个热词对应的热度量化参数;
依据所述热词和热度量化参数计算所述热度矫正值。
7.根据权利要求4所述的方法,所述依据所述新闻特征确定所述新闻信息的内容矫正值,包括:
依据文本内容扰动值、标题附图增强值和正文附图增强值,计算所述内容矫正值;
其中,所述的文本内容扰动值依据预先设置的标题合格长度阈值、正文合格长度阈值、标题最优长度区间值、正文最优长度区间值和实际标题长度值、实际正文长度值计算得到;
所述的标题附图增强值依据预先设置的初始标题附图增强值和所述新闻信息是否包括标题附图计算得到;
所述的正文附图增强值依据预先设置的初始正文附图增强值和正文附图数量计算得到。
8.根据权利要求4所述的方法,所述依据所述初始热度值、热度矫正值和内容矫正值计算所述新闻信息的目标热度值,包括:
将所述初始热度值、热度矫正值和内容矫正值根据预设的权重进行加权计算,以得到所述新闻信息的目标热度值。
9.一种计算信息热度值的设备,包括:
获取模块,配置用于获取新闻信息的新闻特征;
确定模块,配置用于依据所述新闻特征确定所述新闻信息的初始热度值、热度矫正值和内容矫正值;
计算模块,配置用于依据所述初始热度值、热度矫正值和内容矫正值计算所述新闻信息的目标热度值。
10.根据权利要求9所述的设备,还包括:
推送模块,配置用于依据新闻信息的目标热度值向用户推送满足预设热度阈值的推荐新闻信息。
11.根据权利要求9所述的设备,还包括:
排序模块,配置用于依据新闻信息的目标热度值确定新闻产品的各个栏目中的新闻信息的初始排序,所述初始排序表示新闻信息展示给用户的先后顺序。
CN201510102238.XA 2015-03-09 2015-03-09 一种计算信息热度值的方法和设备 Active CN104657496B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510102238.XA CN104657496B (zh) 2015-03-09 2015-03-09 一种计算信息热度值的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510102238.XA CN104657496B (zh) 2015-03-09 2015-03-09 一种计算信息热度值的方法和设备

Publications (2)

Publication Number Publication Date
CN104657496A true CN104657496A (zh) 2015-05-27
CN104657496B CN104657496B (zh) 2018-08-14

Family

ID=53248623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510102238.XA Active CN104657496B (zh) 2015-03-09 2015-03-09 一种计算信息热度值的方法和设备

Country Status (1)

Country Link
CN (1) CN104657496B (zh)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045890A (zh) * 2015-07-29 2015-11-11 百度在线网络技术(北京)有限公司 确定目标新闻源中的热点新闻的方法与设备
CN105488193A (zh) * 2015-12-04 2016-04-13 杭州数梦工场科技有限公司 文章热度的预测方法和装置
CN105511942A (zh) * 2015-12-02 2016-04-20 华为技术有限公司 语言虚拟机中热点中间代码的识别方法以及装置
CN105554088A (zh) * 2015-12-10 2016-05-04 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN106021425A (zh) * 2016-05-13 2016-10-12 北京奇虎科技有限公司 热点新闻的挖掘方法及装置
CN106257449A (zh) * 2015-06-19 2016-12-28 阿里巴巴集团控股有限公司 一种信息确定方法和装置
CN106357625A (zh) * 2016-08-30 2017-01-25 腾讯科技(深圳)有限公司 一种多媒体信息发布方法及服务器
CN106407193A (zh) * 2015-07-27 2017-02-15 腾讯科技(深圳)有限公司 一种信息处理方法及装置
CN106503890A (zh) * 2016-10-18 2017-03-15 国云科技股份有限公司 一种信息点击排名方法
CN106933993A (zh) * 2017-02-27 2017-07-07 北京邮电大学 一种资讯处理方法及装置
CN107239537A (zh) * 2017-06-01 2017-10-10 福建中金在线信息科技有限公司 一种文档展示的方法、装置、电子设备及可读存储介质
CN107239497A (zh) * 2017-05-02 2017-10-10 广东万丈金数信息技术股份有限公司 热门内容搜索方法和系统
CN107679236A (zh) * 2017-10-26 2018-02-09 北京麒麟合盛网络技术有限公司 一种热门内容池维护方法和装置
CN107688641A (zh) * 2017-08-28 2018-02-13 江西博瑞彤芸科技有限公司 一种提问管理方法及系统
CN107784010A (zh) * 2016-08-29 2018-03-09 上海掌门科技有限公司 一种用于确定新闻主题的热度信息的方法与设备
CN107908699A (zh) * 2017-11-03 2018-04-13 福建中金在线信息科技有限公司 内容显示方法和服务器
CN107977367A (zh) * 2016-10-21 2018-05-01 腾讯科技(北京)有限公司 一种文本展示方法及服务器
CN108205589A (zh) * 2017-12-29 2018-06-26 成都优易数据有限公司 一种热度迭代计算方法
CN108322316A (zh) * 2017-01-17 2018-07-24 广州市动景计算机科技有限公司 确定信息传播热度的方法、装置及计算设备
CN108985817A (zh) * 2016-12-02 2018-12-11 口碑(上海)信息技术有限公司 关联业务处理方法及装置、店铺推荐方法及装置
CN109344316A (zh) * 2018-08-14 2019-02-15 优视科技(中国)有限公司 新闻热度计算方法及装置
CN109410041A (zh) * 2017-08-17 2019-03-01 香港智能金融科技有限公司 一种由数据驱动的高维度交易员评估方法和系统
CN109558531A (zh) * 2018-10-26 2019-04-02 平安科技(深圳)有限公司 新闻信息推送方法、装置以及计算机设备
CN109657857A (zh) * 2018-12-17 2019-04-19 广东小天才科技有限公司 一种作文考试命题预测方法及装置
CN110069732A (zh) * 2019-03-29 2019-07-30 腾讯科技(深圳)有限公司 一种信息展示的方法、装置及设备
CN110188265A (zh) * 2019-04-26 2019-08-30 中国科学院计算技术研究所 一种融合用户画像的网络舆情热点推荐方法及系统
CN110222909A (zh) * 2019-06-20 2019-09-10 郑州工程技术学院 一种新闻传播力预测方法
CN110489539A (zh) * 2019-08-21 2019-11-22 北京航空航天大学 基于文档的智能办公文件推送技术
CN110555202A (zh) * 2018-05-30 2019-12-10 微软技术许可有限责任公司 文摘播报的生成方法和设备
CN110598151A (zh) * 2019-09-09 2019-12-20 河南牧业经济学院 一种判定新闻传播效果的方法及系统
CN110674447A (zh) * 2019-09-26 2020-01-10 上海烨睿信息科技有限公司 资讯重要性判断方法、装置、计算机终端及存储介质
CN110909232A (zh) * 2019-11-12 2020-03-24 北京百分点信息科技有限公司 一种话题热度的确定方法和装置
CN111597448A (zh) * 2020-05-15 2020-08-28 北京奇艺世纪科技有限公司 一种信息的热度的确定方法、装置及电子设备
CN112307336A (zh) * 2020-10-30 2021-02-02 中国平安人寿保险股份有限公司 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
CN113535886A (zh) * 2020-04-15 2021-10-22 北大方正信息产业集团有限公司 信息处理方法、装置和设备
CN113792084A (zh) * 2021-08-12 2021-12-14 北京中交兴路信息科技有限公司 数据热度的分析方法、装置、设备及存储介质
CN114925942A (zh) * 2022-07-22 2022-08-19 道有道科技集团股份公司 基于数据分析的视频热度预测方法和装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114841155A (zh) * 2022-04-21 2022-08-02 科技日报社 主题内容智能聚合方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102937960A (zh) * 2012-09-06 2013-02-20 北京邮电大学 突发事件热点话题的识别与评估装置和方法
CN103365902A (zh) * 2012-03-31 2013-10-23 北大方正集团有限公司 互联网新闻的评估方法和装置
CN104035960A (zh) * 2014-05-08 2014-09-10 东莞市巨细信息科技有限公司 互联网资讯信息热点预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365902A (zh) * 2012-03-31 2013-10-23 北大方正集团有限公司 互联网新闻的评估方法和装置
CN102937960A (zh) * 2012-09-06 2013-02-20 北京邮电大学 突发事件热点话题的识别与评估装置和方法
CN104035960A (zh) * 2014-05-08 2014-09-10 东莞市巨细信息科技有限公司 互联网资讯信息热点预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
梁野 等: "基于机器学习的网络媒体热点话题预测方法研究和实现", 《万方学术期刊库》 *

Cited By (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106257449A (zh) * 2015-06-19 2016-12-28 阿里巴巴集团控股有限公司 一种信息确定方法和装置
CN106257449B (zh) * 2015-06-19 2019-11-12 阿里巴巴集团控股有限公司 一种信息确定方法和装置
CN106407193A (zh) * 2015-07-27 2017-02-15 腾讯科技(深圳)有限公司 一种信息处理方法及装置
CN105045890A (zh) * 2015-07-29 2015-11-11 百度在线网络技术(北京)有限公司 确定目标新闻源中的热点新闻的方法与设备
CN105511942B (zh) * 2015-12-02 2019-02-19 华为技术有限公司 语言虚拟机中热点中间代码的识别方法以及装置
CN105511942A (zh) * 2015-12-02 2016-04-20 华为技术有限公司 语言虚拟机中热点中间代码的识别方法以及装置
US10871976B2 (en) 2015-12-02 2020-12-22 Huawei Technologies Co, Ltd. Method and apparatus for identifying hotspot intermediate code in language virtual machine
CN105488193A (zh) * 2015-12-04 2016-04-13 杭州数梦工场科技有限公司 文章热度的预测方法和装置
CN111858934A (zh) * 2015-12-04 2020-10-30 杭州数梦工场科技有限公司 文章热度的预测方法和装置
CN105488193B (zh) * 2015-12-04 2020-08-25 杭州数梦工场科技有限公司 文章热度的预测方法和装置
CN111858934B (zh) * 2015-12-04 2024-08-09 杭州数梦工场科技有限公司 文章热度的预测方法和装置
CN105554088A (zh) * 2015-12-10 2016-05-04 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN105554088B (zh) * 2015-12-10 2019-07-23 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN106021425A (zh) * 2016-05-13 2016-10-12 北京奇虎科技有限公司 热点新闻的挖掘方法及装置
CN107784010A (zh) * 2016-08-29 2018-03-09 上海掌门科技有限公司 一种用于确定新闻主题的热度信息的方法与设备
CN106357625B (zh) * 2016-08-30 2020-07-07 腾讯科技(深圳)有限公司 一种多媒体信息发布方法及服务器
CN106357625A (zh) * 2016-08-30 2017-01-25 腾讯科技(深圳)有限公司 一种多媒体信息发布方法及服务器
CN106503890A (zh) * 2016-10-18 2017-03-15 国云科技股份有限公司 一种信息点击排名方法
CN107977367B (zh) * 2016-10-21 2021-12-17 腾讯科技(北京)有限公司 一种文本展示方法及服务器
CN107977367A (zh) * 2016-10-21 2018-05-01 腾讯科技(北京)有限公司 一种文本展示方法及服务器
CN108985817A (zh) * 2016-12-02 2018-12-11 口碑(上海)信息技术有限公司 关联业务处理方法及装置、店铺推荐方法及装置
CN108985817B (zh) * 2016-12-02 2021-03-23 口碑(上海)信息技术有限公司 关联业务处理方法及装置、店铺推荐方法及装置
CN108322316B (zh) * 2017-01-17 2021-10-19 阿里巴巴(中国)有限公司 确定信息传播热度的方法、装置及计算设备
CN108322316A (zh) * 2017-01-17 2018-07-24 广州市动景计算机科技有限公司 确定信息传播热度的方法、装置及计算设备
CN106933993A (zh) * 2017-02-27 2017-07-07 北京邮电大学 一种资讯处理方法及装置
CN106933993B (zh) * 2017-02-27 2019-12-24 北京邮电大学 一种资讯处理方法及装置
CN107239497A (zh) * 2017-05-02 2017-10-10 广东万丈金数信息技术股份有限公司 热门内容搜索方法和系统
CN107239537A (zh) * 2017-06-01 2017-10-10 福建中金在线信息科技有限公司 一种文档展示的方法、装置、电子设备及可读存储介质
CN109410041A (zh) * 2017-08-17 2019-03-01 香港智能金融科技有限公司 一种由数据驱动的高维度交易员评估方法和系统
CN107688641A (zh) * 2017-08-28 2018-02-13 江西博瑞彤芸科技有限公司 一种提问管理方法及系统
CN107679236A (zh) * 2017-10-26 2018-02-09 北京麒麟合盛网络技术有限公司 一种热门内容池维护方法和装置
CN107908699A (zh) * 2017-11-03 2018-04-13 福建中金在线信息科技有限公司 内容显示方法和服务器
CN108205589B (zh) * 2017-12-29 2022-02-15 成都优易数据有限公司 一种热度迭代计算方法
CN108205589A (zh) * 2017-12-29 2018-06-26 成都优易数据有限公司 一种热度迭代计算方法
CN110555202A (zh) * 2018-05-30 2019-12-10 微软技术许可有限责任公司 文摘播报的生成方法和设备
CN109344316A (zh) * 2018-08-14 2019-02-15 优视科技(中国)有限公司 新闻热度计算方法及装置
CN109558531A (zh) * 2018-10-26 2019-04-02 平安科技(深圳)有限公司 新闻信息推送方法、装置以及计算机设备
CN109657857A (zh) * 2018-12-17 2019-04-19 广东小天才科技有限公司 一种作文考试命题预测方法及装置
CN110069732A (zh) * 2019-03-29 2019-07-30 腾讯科技(深圳)有限公司 一种信息展示的方法、装置及设备
CN110069732B (zh) * 2019-03-29 2022-11-22 腾讯科技(深圳)有限公司 一种信息展示的方法、装置及设备
CN110188265A (zh) * 2019-04-26 2019-08-30 中国科学院计算技术研究所 一种融合用户画像的网络舆情热点推荐方法及系统
CN110222909A (zh) * 2019-06-20 2019-09-10 郑州工程技术学院 一种新闻传播力预测方法
CN110489539A (zh) * 2019-08-21 2019-11-22 北京航空航天大学 基于文档的智能办公文件推送技术
CN110598151B (zh) * 2019-09-09 2023-07-14 河南牧业经济学院 一种判定新闻传播效果的方法及系统
CN110598151A (zh) * 2019-09-09 2019-12-20 河南牧业经济学院 一种判定新闻传播效果的方法及系统
CN110674447A (zh) * 2019-09-26 2020-01-10 上海烨睿信息科技有限公司 资讯重要性判断方法、装置、计算机终端及存储介质
CN110909232A (zh) * 2019-11-12 2020-03-24 北京百分点信息科技有限公司 一种话题热度的确定方法和装置
CN113535886A (zh) * 2020-04-15 2021-10-22 北大方正信息产业集团有限公司 信息处理方法、装置和设备
CN111597448A (zh) * 2020-05-15 2020-08-28 北京奇艺世纪科技有限公司 一种信息的热度的确定方法、装置及电子设备
CN112307336A (zh) * 2020-10-30 2021-02-02 中国平安人寿保险股份有限公司 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
CN112307336B (zh) * 2020-10-30 2024-04-16 中国平安人寿保险股份有限公司 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
CN113792084A (zh) * 2021-08-12 2021-12-14 北京中交兴路信息科技有限公司 数据热度的分析方法、装置、设备及存储介质
CN114925942A (zh) * 2022-07-22 2022-08-19 道有道科技集团股份公司 基于数据分析的视频热度预测方法和装置

Also Published As

Publication number Publication date
CN104657496B (zh) 2018-08-14

Similar Documents

Publication Publication Date Title
CN104657496A (zh) 一种计算信息热度值的方法和设备
CN106682192B (zh) 一种基于搜索关键词训练回答意图分类模型的方法和装置
CN102760138B (zh) 用户网络行为的分类方法和装置及对应的搜索方法和装置
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN100465954C (zh) 用于搜索术语建议的多种类型数据的加强群集
CN102831184A (zh) 根据对社会事件的文字描述来预测社会情感的方法及系统
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
CN103399891A (zh) 网络内容自动推荐方法、装置和系统
CN103870001A (zh) 一种生成输入法候选项的方法及电子装置
CN102004774A (zh) 基于统一概率模型的个性化用户标签建模与推荐方法
CN110879831A (zh) 基于实体识别技术的中医药语句分词方法
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN105320646A (zh) 一种基于增量聚类的新闻话题挖掘方法及其装置
CN112051986B (zh) 基于开源知识的代码搜索推荐装置及方法
CN104361102A (zh) 一种基于群组匹配的专家推荐方法及系统
CN102253982A (zh) 一种基于查询语义和点击流数据的查询建议方法
CN103699521A (zh) 文本分析方法及装置
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
CN104484431A (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN110134799B (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
CN110851584B (zh) 一种法律条文精准推荐系统和方法
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
CN111241410B (zh) 一种行业新闻推荐方法及终端
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN106445994A (zh) 一种基于混合算法的网页分类方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 310052 Room 301, Building No. 599, Changhe Street Network Business Road, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou NetEase Shuzhifan Technology Co.,Ltd.

Address before: 310052 Room 301, Building No. 599, Changhe Street Network Business Road, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: HANGZHOU LANGHE TECHNOLOGY Ltd.