CN113688225A - 基于大数据的新闻推荐方法、装置、终端设备及存储介质 - Google Patents
基于大数据的新闻推荐方法、装置、终端设备及存储介质 Download PDFInfo
- Publication number
- CN113688225A CN113688225A CN202110969467.7A CN202110969467A CN113688225A CN 113688225 A CN113688225 A CN 113688225A CN 202110969467 A CN202110969467 A CN 202110969467A CN 113688225 A CN113688225 A CN 113688225A
- Authority
- CN
- China
- Prior art keywords
- news
- evaluated
- category
- weight
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 239000013598 vector Substances 0.000 claims description 45
- 238000004590 computer program Methods 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 16
- 238000000605 extraction Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 7
- 230000004044 response Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Abstract
本申请适用于人工智能技术领域,提供了一种基于大数据的新闻推荐方法、装置、终端设备及存储介质,该方法包括:获取预设时间段内的新闻,待评估新闻为预设时间段内的新闻;对预设时间段内的新闻进行聚类,得到待评估新闻所属的新闻类别和新闻类别包括的各个新闻,基于新闻类别中的各个新闻,确定待评估新闻的权重;获得新闻类别的权重;基于新闻类别的权重和待评估新闻的权重,得到待评估新闻的热度,基于待评估新闻的热度,确定是否推送待评估新闻,本申请相较于人为确定待评估新闻的热度可以实现热度评估的自动化,得到的待评估新闻的热度不会受到人为的干预,得到的待评估新闻的热度更客观、更准确。
Description
技术领域
本申请属于人工智能技术领域,尤其涉及一种基于大数据的新闻推荐方法、装置、终端设备及存储介质。
背景技术
新闻,也叫消息,是指通过报纸、电台、广播、电视台等媒体途径所传播信息的一种称谓。随着互联网的发展,新闻量越来越大。由于新闻的繁多,用户在浏览新闻常常造成无效浏览,向用户推荐热点新闻是降低用户无效浏览的方法。
新闻热度可以反应该新闻受关注程度或受议论程度,因此,可以基于新闻热度向用户推荐新闻。目前,新闻热度的评判多通过人工进行评判。人工评判新闻热度时需要人为的浏览大量新闻,并根据评判人员对新闻的认知去评判该新闻的热度。通过人为评判新闻热度的方法存在人为干预,使得到的新闻热度不够客观、准确,造成向用户推荐的新闻不准确。
发明内容
本申请实施例提供了一种基于大数据的新闻推荐方法、装置、终端设备及存储介质,可以解决新闻推荐不准确的问题。
第一方面,本申请实施例提供了一种基于大数据的新闻推荐方法,包括:
获取预设时间段内的新闻,待评估新闻为所述预设时间段内的新闻;
对所述预设时间段内的新闻进行聚类,得到所述待评估新闻所属的新闻类别和所述新闻类别包括的各个新闻,所述新闻类别中的各个新闻包括所述待评估新闻;
基于所述新闻类别中的各个新闻,确定所述待评估新闻的权重;
获得所述新闻类别的权重;
基于所述新闻类别的权重和所述待评估新闻的权重,得到所述待评估新闻的热度;
基于所述待评估新闻的热度,确定是否推送所述待评估新闻。
第二方面,本申请实施例提供了一种基于大数据的新闻推荐装置,包括:
新闻获取模块,获取预设时间段内的新闻,所述待评估新闻为所述预设时间段内的新闻;
聚类模块,用于对所述预设时间段内的新闻进行聚类,得到所述待评估新闻所属的新闻类别和所述新闻类别包括的各个新闻,所述新闻类别中的各个新闻包括所述待评估新闻;
新闻权重计算模块,用于基于所述新闻类别中的各个新闻,确定所述待评估新闻的权重;
权重获得模块,用于获得所述新闻类别的权重;
热度计算模块,用于基于所述新闻类别的权重和所述待评估新闻的权重,得到所述待评估新闻的热度;
新闻推送模块,用于基于所述待评估新闻的热度,确定是否推送所述待评估新闻。
第三方面,本申请实施例提供了一种终端设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的基于大数据的新闻推荐方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的基于大数据的新闻推荐方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的基于大数据的新闻推荐方法。
本申请第一方面实施例与现有技术相比存在的有益效果是:本申请先对新闻进行聚类得到待评估新闻所属的新闻类别中的各个新闻,基于新闻类别中的各个新闻,确定待评估新闻的权重,基于新闻类别的权重和待评估新闻的权重,得到待评估新闻的热度,基于待评估新闻的热度,确定是否推送待评估新闻,本申请相较于人为确定待评估新闻的热度可以实现热度评估的自动化,得到的待评估新闻的热度不会受到人为的干预,得到的待评估新闻的热度更客观、更准确,进而使推荐的新闻更准确。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的基于大数据的新闻推荐方法的应用场景示意图;
图2是本申请一实施例提供的基于大数据的新闻推荐方法的流程示意图;
图3是本申请一实施例提供的新闻的新闻类别的确定方法的流程示意图;
图4是本申请一实施例提供的待评估新闻的权重的确定方法的流程示意图;
图5是本申请一实施例提供的图4步骤S1021中待评估新闻的关键词的确定方法的流程示意图;
图6是本申请一实施例提供的图4步骤S1023中待评估新闻的关键词的确定方法的流程示意图;
图7是本申请一实施例提供的新闻热度的获得方法的流程示意图;
图8是本申请一实施例提供的基于大数据的新闻推荐装置的结构示意图;
图9是本申请一实施例提供的终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当……时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
图1为本申请实施例提供的基于大数据的新闻推荐方法的应用场景示意图,上述基于大数据的新闻推荐方法可以用于根据新闻热度向用户推荐新闻。其中,新闻存储设备10用于存储新闻。处理器20用于从新闻存储设备10中获取新闻,并根据获取到的新闻确定新闻的热度,最后根据新闻的热度确定是否向用户推送该新闻。
以下结合图1对本申请实施例的基于大数据的新闻推荐方法进行详细说明。
图2示出了本申请提供的新闻推荐方法的示意性流程图,参照图2,对该方法的详述如下:
S101,获取预设时间段内的新闻,待评估新闻为预设时间段内的新闻。
在本实施例中,预设时间段可以根据需要进行选择,例如,预设时间段可以是一天、两天、三天等。
在本实施例中,在获取预设时间段内的新闻之前,可以先设置需要获取的新闻的分类,例如,需要获取经济、体育和娱乐类的新闻。设置新闻来源地址,例如,网站地址。将来源地址和新闻的分类以一对多映射的形式存储为字典表。
在本实施例中,在获取预设时间段内的新闻时,可以先按照预设时间读取字典表,根据字典表确定需要获取的新闻来源地址和每个来源地址中需要获得的新闻的分类。然后通过增量抓取的方式从新闻的来源地址中获得预设时间段内的新闻。增量抓取指按照预设时间抓取以前未抓取过的新闻,对于以前已经抓取过的新闻不再进行抓取。
具体的,获取的新闻可以包括新闻内容、来源地址和新闻发布时间等。
在本实施例中,获取的预设时间段内的每个新闻均可以作为一个待评估新闻,或者将预设时间段内的一个或多个新闻作为待评估新闻。
S102,对所述预设时间段内的新闻进行聚类,得到所述待评估新闻所属的新闻类别和所述新闻类别包括的各个新闻,新闻类别中的各个新闻包括待评估新闻。
在本实施例中,待评估新闻的新闻类别可以为疫情、洪水、暴雨等。
在本实施例中,为了得到待评估新闻的新闻类别,可以基于新闻的新闻内容,对所述预设时间段内的新闻进行聚类。通过对新闻的聚类可以快速、准确的得到各个新闻的新闻类别。
S103,基于所述新闻类别中的各个新闻,确定所述待评估新闻的权重。
在本实施例中,待评估新闻的权重表征待评估新闻在该新闻类别中的重要程度,也可以说是对该新闻类别的贡献程度。
具体的,提取新闻类别中各个新闻的关键词,根据各个新闻的关键词确定新闻类别的关键词。根据待评估新闻的关键词和新闻类别的关键词确定待评估新闻的权重。
S104,获得新闻类别的权重。
在本实施例中,新闻类别的权重表征该新闻类别在所有新闻类别中的重要程度。
具体的,新闻类别的权重可以根据新闻类别中新闻的数量确定。新闻类别的权重还可以是从外部读取的,例如,采集的用户输入数据得到的权重。
S105,基于所述新闻类别的权重和所述待评估新闻的权重,得到所述待评估新闻的热度。
在本实施例中,待评估新闻的热度可以使用新闻类别与待评估新闻的权重的乘积表示。
S106,基于所述待评估新闻的热度,确定是否推送所述待评估新闻。
在本实施例中,得到待评估新闻的热度后,可以将待评估新闻的热度与预设阈值进行比较,如果待评估新闻的热度大于预设阈值,则推送待评估新闻,反之则不推送。另外,如果待评估新闻为多个,在得到每个待评估新闻的热度后,可以将所有待评估新闻的热度按照从大到小的顺序进行排列,从最大的热度开始将预设个数的热度对应待评估新闻作为目标新闻,推送目标新闻。
在本实施例中,在得到待评估新闻的热度后,还可以根据待评估新闻的热度评估该新闻的未来热度走向,或者根据待评估新闻的热度确定公关策略。
本申请实施例中,先获取待评估新闻所属的新闻类别中的各个新闻和新闻类别的权重,基于新闻类别中的各个新闻,确定待评估新闻的权重,基于新闻类别的权重和待评估新闻的权重,得到待评估新闻的热度,基于待评估新闻的热度,确定是否推送待评估新闻,本申请相较于人为确定待评估新闻的热度可以实现热度评估的自动化,得到的待评估新闻的热度不会受到人为的干预,得到的待评估新闻的热度更客观、更准确。另外,本申请利用新闻类别的权重和待评估新闻的权重得到待评估新闻的热度,使用多源数据得到待评估新闻的热度,使评估的新闻热度更准确,进而根据新闻热度更准确的推送新闻。
如图3所示,在一种可能的实现方式中,步骤S102的实现过程可以包括:
S1021,将所述预设时间段内的第一新闻拆分成预设个数的新闻块,第一新闻为所述预设时间段内的任一新闻。
在本实施例中,预设个数可以根据需要进行设置。
作为举例,可以按照前、中、后的规则将每个新闻均拆分成前文、中文、后文三个新闻块,也就是前、中、后三段。
S1022,确定每个新闻块的第一语义特征向量。
在本实施例中,利用训练后的第一语义特征提取模型得到前文、中文、后文三部分各部分对应的语义特征向量。第一语义特征提取模型可以为神经网络模型。语义特征向量用于表征待评估新闻语义信息的向量。语义信息可以表征待评估新闻的主要内容。
在本实施例中,第一语义特征提取模型的训练过程可以包括:
将训练集中每个新闻拆分成预设个数的新闻块,将一个新闻的新闻块输入待训练的第一语义特征提取模型,得到第一语义特征提取模型预测的每个新闻块的语义特征向量。将第一语义特征提取模型预测的每个新闻块的语义特征向量与每个新闻块的真实语义特征向量进行比较,得到偏差值,利用偏差值更新第一语义特征提取模型中的参数。然后对更新参数后的第一语义特征提取模型进行训练,直到第一语义特征提取模型预测的新闻块的语义特征向量满足要求,得到训练后的第一语义特征提取模型。
S1023,确定所述预设时间段内的第一新闻的第二语义特征向量。
在本实施例中,利用第二语义特征提取模型得到每个新闻的第二语义特征向量,本申请中记为第二特征向量。具体的得到第二语义特征向量的过程与S1022中得到第一语义特征向量的过程相似,可以参考S1022,在此不再赘述。
S1024,基于所述预设时间段内的第一新闻对应的各个第一语义特征向量和所述第二语义特征向量,得到所述预设时间段内的第一新闻的目标语义特征向量。
具体的,新闻块为按照第一新闻的内容的前后顺序进行拆分的,每个新闻块中的内容在第一新闻中是相连的。
作为举例,第一新闻包括4段,可以将第1段作为一个新闻块,将第2段和第3段共同作为一个新闻块,将第4段作为一个新闻块。
在本实施例中,在得到新闻块后,可以按照新闻块中的内容在第一新闻中的位置先后对新闻块进行排序。
利用V文章=a*V全+b*V1+.....+d*Vn,得到待评估新闻的目标语义特征向量,其中,V文章为目标语义特征向量,a为整个第一新闻的权重,b为第一个新闻块的权重,d为最后一个新闻块的权重,V全为第二语义特征向量,V1为第一个新闻块的第一语义特征向量,Vn为最后一个新闻块的第一语义特征向量,n为新闻块的个数。
S1025,对得到的所述预设时间段内的所述目标语义特征向量进行聚类,得到所述待评估新闻所属的新闻类别。
在本实施例中,可以计算各个目标语义特征向量的向量距离,将满足预设要求的向量距离对应的新闻归为一类,得到各个新闻类别。满足预设要求的向量距离为在预设范围内的向量距离。
本申请实施例中,利用新闻块的第一语义特征向量和整个新闻的第二语义特征向量可以得到新闻的目标特征向量,利用新闻块的第一语义特征向量对新闻整体的第二语义特征向量进行修正,可以使得到的新闻的目标语义特征向量更准确。
如图4所示,在一种可能的实现方式中,步骤S103的实现过程可以包括:
S1031,基于所述新闻类别中的各个新闻,得到所述待评估新闻的关键词。
可选的,可以提取新闻类别中每个新闻的候选关键词,并统计各个候选关键词出现的次数,将出现次数大于预设次数的候选关键词作为新闻类别的关键词。查找新闻类别的关键词和待评估新闻的候选关键词中重叠的关键词,将重叠的关键词作为待评估新闻的关键词。作为举例,如果新闻类别中包括新闻1、新闻2和待评估新闻。新闻1的关键词为A、B、C和D,新闻2的关键词为A和D,待评估新闻的关键词为C和D。则关键词A出现2次,关键词B出现1次,关键词C出现2次,关键词D出现3次。如果预设次数为1,将大于1的次数对应的关键词作为新闻类别的关键词,则新闻类别的关键词为A、C和D。待评估新闻的关键词C和D同时也是新闻类别的关键词,则将关键词C和D作为待评估新闻的关键词。
如图5所示,可选的,步骤S1031的实现过程可以包括:
S10311,提取所述新闻类别中每个新闻的关键词。
具体的,可以利用关键词提取模型提取每个新闻中的关键词。
S10312,计算每个关键词的tf-idf值。
在本实施例中,tf-idf值表征一个词对文章的重要程度。本申请中用tf-idf值可以确定关键词对新闻类别中新闻的重要程度,根据tf-idf值可以确定新闻类别中重要的关键词,将重要的关键词确定为新闻类别的关键词。tf-idf值为词频(if)和逆文档频率(idf)的乘积。词频表征关键词在新闻中出现的次数。其中,ifi为关键词p的词频,Rp为关键词p出现的次数,M为新闻中关键词的总数。其中,idfp为关键词p的逆文档频率,Z为新闻的个数,Hp为新闻中包含关键词p的新闻的个数。
S10313,基于所述每个关键词的tf-idf值,得到所述新闻类别的关键词,将所述新闻类别的关键词作为所述待评估新闻的关键词。
在本实施例中,对所有的tf-idf值按照从大到小的顺序进行排列,取前边预设个数的tf-idf值对应的关键词作为新闻类别的关键词。由于tf-idf值越大表征该关键词越重要,因此取较大的tf-idf值对应的关键词作为新闻类别的关键词,可以准确反映该新闻类别的关键信息。
在本实施例中,可以直接将新闻类别的关键词作为待评估新闻的关键词,还可以将新闻类别的关键词中出现在待评估新闻中的关键词作为待评估新闻的关键词。
S1032,基于所述待评估新闻的关键词,确定所述待评估新闻的用户参与度评分。
具体的,基于待评估新闻的关键词,利用爬虫技术,可以得到预设时间段内待评估新闻的用户参与数据,用户参与数据为预设时间段内可以表征用户对该关键词存在兴趣的数据。其中,用户参与数据可以包括用户对该关键词的浏览量、转发量、用户对该关键词的讨论量等。
基于用于参与数据可以确定用户参与度评分。具体的,可以根据用户浏览该关键词的浏览量、转发量、用户对该关键词的讨论量确定各自对应的权重值,根据用户浏览该关键词的浏览量、转发量、用户对该关键词的讨论量和各自对应的权重值得到用户参与度评分。用户参与度评分用于表征用户对该新闻的兴趣程度。
S1033,基于所述用户参与度评分,得到所述待评估新闻的权重。
如图6所示,具体的,步骤S1033的实现过程可以包括:
S10331,获取所述待评估新闻的来源地址和所述待评估新闻的发布日期。
S10332,基于所述来源地址,确定所述待评估新闻的地址权重。
在本实施例中,由于来源地址的重要程度不同,因此不同的来源地址对应不同的地址权重。例如,来源地址A对应的权重为0.3,来源地址B对应的权重为0.6。
S10333,基于所述发布日期,确定所述待评估新闻的日期梯度衰减因子。
在本实施例中,热点新闻会随着时间热度先增加再降低,因此设置日期衰减因子确定新闻发布日期对新闻热度的影响。
作为举例,可以设置发布在当前时间之前1-3天的新闻的日期衰减因子为1;3-5天为0.8,6天以上为0.5。如果待评估新闻的发布日期为2天前,则待评估新闻的日期衰减因子为1。
S10334,基于所述地址权重、所述日期梯度衰减因子和所述用户参与度评分,得到所述待评估新闻的权重。
在本实施例中,待评估新闻的权重可以为待评估新闻的地址权重、用户参与度评分和日期梯度衰减因子的乘积。具体的可以根据公式:mi,j=xi,j×ki,j×ti,j得到各个待评估新闻的权重。mi,j为第i类新闻类别中第j个待评估新闻的权重值,xi,j为第i类新闻类别中第j个待评估新闻的地址权重,ki,j为第i类新闻类别中第j个待评估新闻的用户参与度评分,ti,j为第i类新闻类别中第j个待评估新闻的日期梯度衰减因子。根据待评估新闻的地址权重、用户参与度评分和日期梯度衰减因子,使用多源的数据可以准确的待评估新闻的权重。
在一种可能的实现方式中,步骤S104的实现过程可以包括:
S1041,确定所述待评估新闻所属的新闻类别中新闻的个数。
在本实施例中,对获取的预设时间段内的新闻进行聚类后,可以得到各个新闻类别中包括的新闻以及新闻的个数。
S1042,基于所述新闻类别中新闻的个数,得到所述新闻类别的权重。
在本实施例中,新闻类别的权重可以根据该新闻类别所包含的新闻的个数的多少确定,例如,包含的新闻数量多的新闻类别的权重可以比包含新闻数量少的新闻类别的权重高,或者可以确定新闻的个数在哪个权重区间内,根据权重区间确定新闻类别的权重。
作为举例,如果权重区间包括:1-3和4-6。权重区间1-3对应的权重为0.3,权重区间4-6对应的权重为0.6。如果新闻类别中包括5个新闻,则该新闻类别的权重为0.6。
本申请实施例中,由于新闻类别在所有新闻类别中的权重是影响新闻的热度的因素之一,因此通过新闻类别包括的新闻的个数可以快速确定新闻类别,以便于后续计算待评估新闻的热度。
如图7所示,在一种可能的实现方式中,步骤S105的实现过程可以包括:
S1051,获得所述新闻类别中其他各个新闻的权重,其中,所述新闻类别中其他各个新闻为所述新闻类别中除所述待评估新闻之外的新闻。
在本实施例中,新闻类别中其他各个新闻的权重可以参照上述待评估新闻的权重的获得过程,在此不再赘述。
S1052,基于所述待评估新闻的权重和所述新闻类别中其他各个新闻的权重,得到所述新闻类别中的各个新闻的权重和。
S1053,计算所述新闻类别的权重与所述新闻类别中新闻的个数的第一乘积。
S1054,计算所述权重和与所述第一乘积的第二乘积,并将所述第二乘积作为所述待评估新闻的热度。
在本实施例中,根据公式Si=Ai×li×Li计算待评估新闻的热度。其中,Si为第i类新闻类别对应的新闻热度,Ai为第i类新闻类别的群权重。采用多源数据对新闻热度进行评估,使对热度的评估更准确,本申请采用自动化的评估方法,不需要人为介入,使热度评估更准确、快速。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的基于大数据的新闻推荐方法,图8示出了本申请实施例提供的基于大数据的新闻推荐装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图8,该装置200可以包括:新闻获取模块210、聚类模块220、新闻权重计算模块230、权重获得模块240、热度计算模块250和新闻推送模块260。
其中,新闻获取模块210,获取预设时间段内的新闻,所述待评估新闻为所述预设时间段内的新闻;
聚类模块220,用于对所述预设时间段内的新闻进行聚类,得到所述待评估新闻所属的新闻类别和所述新闻类别包括的各个新闻,所述新闻类别中的各个新闻包括所述待评估新闻;
新闻权重计算模块230,用于基于所述新闻类别中的各个新闻,确定所述待评估新闻的权重;
权重获得模块240,用于获得所述新闻类别的权重;
热度计算模块250,用于基于所述新闻类别的权重和所述待评估新闻的权重,得到所述待评估新闻的热度;
新闻推送模块260,用于基于所述待评估新闻的热度,确定是否推送所述待评估新闻。
在一种可能的实现方式中,聚类模块220具体还可以用于:
将所述预设时间段内的第一新闻拆分成预设个数的新闻块,所述第一新闻为所述预设时间段内的任一新闻;
确定每个新闻块的第一语义特征向量;
确定所述预设时间段内的第一新闻的第二语义特征向量;
基于所述预设时间段内的第一新闻对应的各个第一语义特征向量和所述第二语义特征向量,得到所述预设时间段内的第一新闻的目标语义特征向量;
对得到的所述预设时间段内的所述目标语义特征向量进行聚类,得到所述待评估新闻所属的新闻类别。
在一种可能的实现方式中,新闻权重计算模块230具体可以用于:
基于所述新闻类别中的各个新闻,得到所述待评估新闻的关键词;
基于所述待评估新闻的关键词,确定所述待评估新闻的用户参与度评分;
基于所述用户参与度评分,得到所述待评估新闻的权重。
在一种可能的实现方式中,新闻权重计算模块230具体还可以用于:
提取所述新闻类别中每个新闻的关键词;
计算每个关键词的tf-idf值;
基于所述每个关键词的tf-idf值,得到所述新闻类别的关键词,将所述新闻类别的关键词作为所述待评估新闻的关键词。
在一种可能的实现方式中,新闻权重计算模块230具体还可以用于:
获取所述待评估新闻的来源地址和所述待评估新闻的发布日期;
基于所述来源地址,确定所述待评估新闻的地址权重;
基于所述发布日期,确定所述待评估新闻的日期梯度衰减因子;
基于所述地址权重、所述日期梯度衰减因子和所述用户参与度评分,得到所述待评估新闻的权重。
在一种可能的实现方式中,权重获得模块240具体还可以用于:
确定所述待评估新闻所属的新闻类别中新闻的个数;
基于所述新闻类别中新闻的个数,得到所述新闻类别的权重。
在一种可能的实现方式中,热度计算模块250具体还可以用于:
获得所述新闻类别中其他各个新闻的权重,其中,所述新闻类别中其他各个新闻为所述新闻类别中除所述待评估新闻之外的新闻;
基于所述待评估新闻的权重和所述新闻类别中其他各个新闻的权重,得到所述新闻类别中的各个新闻的权重和;
计算所述新闻类别的权重与所述新闻类别中新闻的个数的第一乘积;
计算所述权重和与所述第一乘积的第二乘积,并将所述第二乘积作为所述待评估新闻的热度。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种终端设备,参见图9,该终端设备400可以包括:至少一个处理器410、存储器420以及存储在所述存储器420中并可在所述至少一个处理器410上运行的计算机程序,所述处理器410执行所述计算机程序时实现上述任意各个方法实施例中的步骤,例如图2所示实施例中的步骤S101至步骤S106。或者,处理器410执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如图8所示模块210至260的功能。
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器420中,并由处理器410执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序段,该程序段用于描述计算机程序在终端设备400中的执行过程。
本领域技术人员可以理解,图9仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如输入输出设备、网络接入设备、总线等。
处理器410可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器420可以是终端设备的内部存储单元,也可以是终端设备的外部存储设备,例如插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。所述存储器420用于存储所述计算机程序以及终端设备所需的其他程序和数据。所述存储器420还可以用于暂时地存储已经输出或者将要输出的数据。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本申请实施例提供的基于大数据的新闻推荐方法可以应用于计算机、平板电脑、笔记本电脑、上网本、个人数字助理(personal digital assistant,PDA)等终端设备上,本申请实施例对终端设备的具体类型不作任何限制。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述基于大数据的新闻推荐方法各个实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述基于大数据的新闻推荐方法各个实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于大数据的新闻推荐方法,其特征在于,包括:
获取预设时间段内的新闻,待评估新闻为所述预设时间段内的新闻;
对所述预设时间段内的新闻进行聚类,得到所述待评估新闻所属的新闻类别和所述新闻类别包括的各个新闻,所述新闻类别中的各个新闻包括所述待评估新闻;
基于所述新闻类别中的各个新闻,确定所述待评估新闻的权重;
获得所述新闻类别的权重;
基于所述新闻类别的权重和所述待评估新闻的权重,得到所述待评估新闻的热度;
基于所述待评估新闻的热度,确定是否推送所述待评估新闻。
2.如权利要求1所述的基于大数据的新闻推荐方法,其特征在于,所述对所述预设时间段内的新闻进行聚类,得到所述待评估新闻所属的新闻类别,包括:
将所述预设时间段内的第一新闻拆分成预设个数的新闻块,所述第一新闻为所述预设时间段内的任一新闻;
确定每个新闻块的第一语义特征向量;
确定所述预设时间段内的第一新闻的第二语义特征向量;
基于所述预设时间段内的第一新闻对应的各个第一语义特征向量和所述第二语义特征向量,得到所述预设时间段内的第一新闻的目标语义特征向量;
对得到的所述预设时间段内的所述目标语义特征向量进行聚类,得到所述待评估新闻所属的新闻类别。
3.如权利要求1所述的基于大数据的新闻推荐方法,其特征在于,所述基于所述新闻类别中的各个新闻,确定所述待评估新闻的权重,包括:
基于所述新闻类别中的各个新闻,得到所述待评估新闻的关键词;
基于所述待评估新闻的关键词,确定所述待评估新闻的用户参与度评分;
基于所述用户参与度评分,得到所述待评估新闻的权重。
4.如权利要求3所述的基于大数据的新闻推荐方法,其特征在于,所述基于所述新闻类别中的各个新闻,得到所述待评估新闻的关键词,包括:
提取所述新闻类别中每个新闻的关键词;
计算每个关键词的tf-idf值;
基于所述每个关键词的tf-idf值,得到所述新闻类别的关键词,将所述新闻类别的关键词作为所述待评估新闻的关键词。
5.如权利要求3所述的基于大数据的新闻推荐方法,其特征在于,所述基于所述用户参与度评分,得到所述待评估新闻的权重,包括:
获取所述待评估新闻的来源地址和所述待评估新闻的发布日期;
基于所述来源地址,确定所述待评估新闻的地址权重;
基于所述发布日期,确定所述待评估新闻的日期梯度衰减因子;
基于所述地址权重、所述日期梯度衰减因子和所述用户参与度评分,得到所述待评估新闻的权重。
6.如权利要求1所述的基于大数据的新闻推荐方法,其特征在于,所述获得所述新闻类别的权重,包括:
确定所述待评估新闻所属的新闻类别中新闻的个数;
基于所述新闻类别中新闻的个数,得到所述新闻类别的权重。
7.如权利要求1所述的基于大数据的新闻推荐方法,其特征在于,所述基于所述新闻类别的权重和所述待评估新闻的权重,得到所述待评估新闻的热度,包括:
获得所述新闻类别中其他各个新闻的权重,其中,所述新闻类别中其他各个新闻为所述新闻类别中除所述待评估新闻之外的新闻;
基于所述待评估新闻的权重和所述新闻类别中其他各个新闻的权重,得到所述新闻类别中的各个新闻的权重和;
计算所述新闻类别的权重与所述新闻类别中新闻的个数的第一乘积;
计算所述权重和与所述第一乘积的第二乘积,并将所述第二乘积作为所述待评估新闻的热度。
8.一种基于大数据的新闻推荐装置,其特征在于,包括:
新闻获取模块,获取预设时间段内的新闻,待评估新闻为所述预设时间段内的新闻;
聚类模块,用于对所述预设时间段内的新闻进行聚类,得到所述待评估新闻所属的新闻类别和所述新闻类别包括的各个新闻,所述新闻类别中的各个新闻包括所述待评估新闻;
新闻权重计算模块,用于基于所述新闻类别中的各个新闻,确定所述待评估新闻的权重;
权重获得模块,用于获得所述新闻类别的权重;
热度计算模块,用于基于所述新闻类别的权重和所述待评估新闻的权重,得到所述待评估新闻的热度;
新闻推送模块,用于基于所述待评估新闻的热度,确定是否推送所述待评估新闻。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的基于大数据的新闻推荐方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于大数据的新闻推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110969467.7A CN113688225B (zh) | 2021-08-23 | 2021-08-23 | 基于大数据的新闻推荐方法、装置、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110969467.7A CN113688225B (zh) | 2021-08-23 | 2021-08-23 | 基于大数据的新闻推荐方法、装置、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113688225A true CN113688225A (zh) | 2021-11-23 |
CN113688225B CN113688225B (zh) | 2024-03-15 |
Family
ID=78581522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110969467.7A Active CN113688225B (zh) | 2021-08-23 | 2021-08-23 | 基于大数据的新闻推荐方法、装置、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113688225B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105022840A (zh) * | 2015-08-18 | 2015-11-04 | 新华网股份有限公司 | 一种新闻信息处理方法、新闻推荐方法和相关装置 |
CN105224699A (zh) * | 2015-11-17 | 2016-01-06 | Tcl集团股份有限公司 | 一种新闻推荐方法及装置 |
KR101705810B1 (ko) * | 2015-11-18 | 2017-02-10 | 고려대학교 산학협력단 | 뉴스를 추천하는 서버, 스마트 단말 및 이를 이용한 뉴스 추천 방법 |
CN107784010A (zh) * | 2016-08-29 | 2018-03-09 | 上海掌门科技有限公司 | 一种用于确定新闻主题的热度信息的方法与设备 |
CN107944001A (zh) * | 2017-12-05 | 2018-04-20 | 北京金山安全软件有限公司 | 热点新闻的检测方法、装置及电子设备 |
CN111143655A (zh) * | 2019-12-30 | 2020-05-12 | 创新奇智(青岛)科技有限公司 | 一种新闻热度的计算方法 |
-
2021
- 2021-08-23 CN CN202110969467.7A patent/CN113688225B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105022840A (zh) * | 2015-08-18 | 2015-11-04 | 新华网股份有限公司 | 一种新闻信息处理方法、新闻推荐方法和相关装置 |
CN105224699A (zh) * | 2015-11-17 | 2016-01-06 | Tcl集团股份有限公司 | 一种新闻推荐方法及装置 |
KR101705810B1 (ko) * | 2015-11-18 | 2017-02-10 | 고려대학교 산학협력단 | 뉴스를 추천하는 서버, 스마트 단말 및 이를 이용한 뉴스 추천 방법 |
CN107784010A (zh) * | 2016-08-29 | 2018-03-09 | 上海掌门科技有限公司 | 一种用于确定新闻主题的热度信息的方法与设备 |
CN107944001A (zh) * | 2017-12-05 | 2018-04-20 | 北京金山安全软件有限公司 | 热点新闻的检测方法、装置及电子设备 |
CN111143655A (zh) * | 2019-12-30 | 2020-05-12 | 创新奇智(青岛)科技有限公司 | 一种新闻热度的计算方法 |
Non-Patent Citations (1)
Title |
---|
王珂: "实时新闻推荐系统的设计与实现", 中国优秀硕士学位论文全文数据库 (信息科技辑), no. 1, pages 138 - 2143 * |
Also Published As
Publication number | Publication date |
---|---|
CN113688225B (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10977447B2 (en) | Method and device for identifying a user interest, and computer-readable storage medium | |
CN109815314B (zh) | 一种意图识别方法、识别设备及计算机可读存储介质 | |
CN106503014B (zh) | 一种实时信息的推荐方法、装置和系统 | |
WO2022095374A1 (zh) | 关键词抽取方法、装置、终端设备及存储介质 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN109388743B (zh) | 语言模型的确定方法和装置 | |
CN105630975B (zh) | 一种信息处理方法和电子设备 | |
CN109918621B (zh) | 基于数字指纹和语义特征的新闻文本侵权检测方法与装置 | |
CN111831804A (zh) | 一种关键短语的提取方法、装置、终端设备及存储介质 | |
CN111126067B (zh) | 实体关系抽取方法及装置 | |
CN111767713A (zh) | 关键词的提取方法、装置、电子设备及存储介质 | |
CN106294473B (zh) | 一种实体词挖掘方法、信息推荐方法及装置 | |
CN111753048A (zh) | 文档检索方法、装置、设备及存储介质 | |
CN110825868A (zh) | 一种基于话题热度的文本推送方法、终端设备及存储介质 | |
CN107908649B (zh) | 一种文本分类的控制方法 | |
CN112163415A (zh) | 针对反馈内容的用户意图识别方法、装置及电子设备 | |
CN111400516A (zh) | 标签确定方法、电子设备及存储介质 | |
CN113688225B (zh) | 基于大数据的新闻推荐方法、装置、终端设备及存储介质 | |
WO2022257455A1 (zh) | 一种相似文本的确定方法、装置、终端设备及存储介质 | |
CN111813964B (zh) | 基于生态环境的数据处理方法及相关设备 | |
CN115408527A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN113656575A (zh) | 训练数据的生成方法、装置、电子设备及可读介质 | |
CN113420120A (zh) | 关键信息提取模型的训练方法、提取方法、设备及介质 | |
CN113392329A (zh) | 内容推荐方法、装置、电子设备及存储介质 | |
CN111984867A (zh) | 一种网络资源确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |