CN112749341A - 重点舆情推荐方法、可读存储介质及数据处理装置 - Google Patents
重点舆情推荐方法、可读存储介质及数据处理装置 Download PDFInfo
- Publication number
- CN112749341A CN112749341A CN202110088158.9A CN202110088158A CN112749341A CN 112749341 A CN112749341 A CN 112749341A CN 202110088158 A CN202110088158 A CN 202110088158A CN 112749341 A CN112749341 A CN 112749341A
- Authority
- CN
- China
- Prior art keywords
- data
- hot
- microblog
- news
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012545 processing Methods 0.000 title claims abstract description 38
- 238000003860 storage Methods 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000012216 screening Methods 0.000 claims abstract description 25
- 230000035945 sensitivity Effects 0.000 claims description 48
- 239000011159 matrix material Substances 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 16
- 238000005516 engineering process Methods 0.000 claims description 13
- 230000006399 behavior Effects 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000012946 outsourcing Methods 0.000 claims description 4
- 230000002085 persistent effect Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000003892 spreading Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/221—Column-oriented storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明提供了重点舆情推荐方法、可读存储介质及数据处理装置,方法包括:处理海量互联网数据,获得热点主题和对应的关键词,拓展后生成热点领域短句库,使用文本语义相似模型分析文章的热点领域话题占比,完成热点领域推荐;筛选获得高热度评级的新闻数据和高热度值的微博数据,完成新闻和微博推荐;再根据个性化用户词典,训练文本语义相似模型分析文章的个性化内容占比,完成个性化定制推荐;结合以上所有推荐,实时推送热点文章。相较于现有技术,能够根据不同平台多样化计算热度,弥补了单一热点字段评判的不足,满足多样化平台的实时重点舆情推荐,提高了推荐内容的准确性,拓展了推荐内容的覆盖面,具有优异的实时性和稳定性。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及重点舆情推荐方法、可读存储介质及数据处理装置。
背景技术
互联网的飞速发展使得人们更加简便快捷地获取海量的信息,能够足不出户地了解到世界各地实时发生的事情。但是随之带来的是爆炸式的信息量,导致用户因为信息过载而无法高效获取信息。其中,产生信息过载的原因包括两方面,首先用户无法完全浏览全网的信息,其次用户无法有效地总结出感兴趣的信息。
为了解决用户因为信息过载而无法高效获取信息的问题,需要通过大数据处理的方法对海量信息进行处理,使得用户能够高效获取需要的信息。根据市场调研,现有的舆情推荐方案基本上以预先设定的人工规则进行匹配或者相似计算,推送符合要求的文章;或者是依赖于在线新闻爬取、社交媒体的部分爬取或者付费内容的内容源,直接使用这些数据源自带的热度字段,推送高热度数据。但是这两种存在非常明显的问题:一个是预先设置的规则并不能囊括所有热点,而且热点是随着时间不断变化的;另外就是社交媒体的热点字段的评判较为简单,应该综合多方面进行热点评估。
发明内容
为解决上述舆情场景下信息推荐对用户可能关注热点,领域热点推荐以及平台多样化推荐设计的问题,本发明使用主题模型和相似模型实现了各主要领域的推荐策略,对新闻和微博媒体添加热点计算,提出了重点舆情推荐方法、可读存储介质及数据处理装置。
第一方面,本发明提供一种重点舆情推荐方法,包括:
步骤1,以每小时为时间间隔,通过大数据和文档主题生成模型处理百万级互联网数据,获得热点主题和与所述热点主题对应的关键词;本发明中,通过每小时处理百万级互联网数据,即可实现每天处理千万级互联网数据,达到处理海量互联网数据的目的。
步骤2,根据所述热点主题和关键词,拓展所述互联网数据生成热点领域短句库,使用文本语义相似模型分析文章的热点领域话题占比,完成热点领域推荐;
步骤3,根据新闻媒体的热度评级,筛选获得高热度评级的新闻数据;
步骤4,根据微博媒体传播分值和热度分值,筛选获得高热度值的微博数据;
步骤5,根据个性化用户词典拓展生成个性化短句库,训练所述文本语义相似模型分析文章的个性化内容占比,完成个性化定制推荐;
步骤6,根据所述热点领域推荐、高热度值的新闻数据、高热度值的微博数据和个性化定制推荐,实时推送热点文章。
进一步地,在一种实现方式中,所述步骤1包括:
步骤1-1,通过所述大数据搜集、存储并处理每小时内百万级的互联网数据,所述互联网数据的数据源包含爬虫爬取的重点网站数据和外包合作数据;
所述通过大数据搜集、存储并处理每小时内百万级的互联网数据,通过存储管理和框架算法实现;
其中,所述存储管理即采用面向列族的NoSQL数据库HBase,对所述互联网数据进行持久化存储;所述框架算法包含分布式离线批量计算技术、分布式内存迭代计算技术和分布式流式处理计算技术,所述框架算法分别使用MapReduce、Spark和Storm技术;
步骤1-2,通过所述文档主题生成模型(Latent Dirichlet Allocation,LDA)处理互联网数据,包括对所述互联网数据进行分词,计算每个所述互联网数据文档中每个单词的词频,得到下列等式左边的p(词语|文档)概率矩阵,所述文档主题生成模型即通过下列等式左边的矩阵进行训练,学习获得右边两个矩阵,最终学习出词语和主题的关系,即关键词和热点主题的关系:
其中,p(词语|文档)矩阵表示每个文档中每个单词的词频,即每个单词在文档中出现的概率;p(词语|主题)矩阵表示每个主题中每个词语的出现概率;p(主题|文档)矩阵表示每个文档中每个主题的出现概率;
步骤1-3,通过所述文档主题生成模型以及预设主题数,获得文档中的热点主题和与所述热点主题对应的词语集合,筛选每个所述词语集合中出现频率最高的词语作为热点主题的关键词。
进一步地,在一种实现方式中,所述步骤1-3包括:在生成与所述热点主题对应的词语集合时,若两个热点主题的词语集合中出现4个或4个以上词语相同时,则认为所述两个热点主题是同一热点主题,将所述两个热点主题合并,并将所述两个热点主题对应的词语集合合并。
进一步地,在一种实现方式中,所述步骤2包括:
步骤2-1,根据所述热点主题和关键词,对存储的每个小时内百万级的互联网数据进行正则化匹配,拓展获得所述热点主题所在领域的文本数据,生成所述热点领域短句库,所述热点领域短句库是以短句为单位的文本数据集合,所述短句为包含各个热点主题的语句;所述热点领域短句库作为训练集,使用bert预训练模型获得对应句子嵌入向量;具体的,本发明中,本步骤即根据筛选出现频率最高的热点主题并得到对应的可以表征主题的主题词LDA_keywords,总结所在领域domain,使用匹配方式拓展领域domain的文本数据形成热点领域短句库domain_data。
步骤2-2,使用训练获得的热点领域短句库的句子嵌入向量以及KNN相似判别模型,分析互联网实时数据中的一篇文章中各句子所属的热点领域类别,若所述预测的文章中各句子所属的某一热点领域类别占比最多或者占比高于句子总数目的30%,推送所述预测的文章至该热点领域类别的板块中,完成热点领域推荐。具体的,本发明中,所述文本语义相似模型是使用拓展的热点领域短句库domain_data{hotpoint1,hotpoint2,hotpoint3,…}训练文本语义相似模型预测热点领域的模型,其中,hotpoint1,hotpoint2,hotpoint3都为集合。所述若预测的文章中各句子所属的某一热点领域类别占比最多或者占比高于句子总数目的30%,为向下取整。
进一步地,在一种实现方式中,所述步骤3包括:
步骤3-1,获取所述新闻媒体所对应的新闻网站的权重表、敏感程度预设词表和重点对象的权重表;具体的,本发明中,新闻网站的权重表xinwen_weight,敏感程度预设词表mgx_weight,重点对象权重表main_object_weight,用于计算出新闻媒体新闻文本的热度评级,产生新闻推荐数据排行。
其中,所述新闻网站的权重表包括每个新闻网站的重要度和与来源评分,所述每个新闻网站的重要度包括高重要度、中重要度和低重要度,根据所述新闻网站的重要度给予相应的权值,即为新闻网站的来源评分;
所述敏感程度预设词表包括每个词语的敏感度和与敏感性等级评分,所述每个词语的敏感度包括一般敏感、敏感和极端敏感,根据所述每个词语敏感度给予相应的权值,即为敏感性等级评分;
所述重点对象的权重表包括根据重点对象的对象属性预设的重要度和与重要度评分,所述每个重点对象的重要度包括高重要度、中重要度和低重要度,根据所述重点对象的重要度给予相应的权值,即为重点对象重要度评分;
步骤3-2,通过以下公式,计算所述新闻媒体新闻文本的热度评级:
newsScore=4*resourcescore+3*mainobjectscore+3*mgxscore
其中,newsScore表示新闻媒体新闻文本的热度评级,resourcescore表示新闻网站来源评分,mainobjectscore表示重点对象重要度评分,mgxscore表示敏感性等级评分;
步骤3-3,根据所述新闻媒体新闻文本的热度评级,筛选热度评级降序排名前十的新闻数据。
进一步地,在一种实现方式中,所述步骤4包括:
步骤4-1,获取所述微博媒体文本包含帖子所在的层数、微博评论数、微博点赞数、微博转发数;具体的,本发明中,通过微博媒体文本,重点对象权重表main_object_weight,敏感程度预设词表mgx_weight,计算出微博媒体文本的传播分值以及热度分值,产生微博推荐数据排行。其中,所述帖子所在的层数包括原帖为0层,评论帖为至少1层。
步骤4-2,根据以下公式,计算所述微博媒体文本的传播分值:
infospreadscore=250×log(pls)/log(max_pls)+625×log(zfs)/log(max_zfs)+125×log(dzs)/log(max_dzs)
其中,infospreadscore表示微博媒体文本的传播分值,pls表示微博评论数,max_pls表示最大微博评论数,zfs表示微博转发数,max_zfs表示最大微博转发数,dzs表示微博点赞数,max_dzs表示最大微博点赞数;
步骤4-3,根据以下公式,计算所述微博媒体文本的热度分值:
weiboScore=3*mainobjectscore+2*postscore+3*mgxscore
其中,weiboScore表示微博媒体文本的热度分值,mainobjectscore表示重点对象评分,postscore表示帖子评分,mgxscore表示敏感性等级评分;具体的,本发明中,所述帖子评分包括原帖的帖子评分为20分,1~10层评论帖的帖子评分为10分,超过10层的评论帖的帖子评分为0分。
步骤4-4,在所述每小时的微博媒体文本,按传播分值从小到大的顺序,筛选获得排列前20的微博媒体文本,同时按照热度分值从小到大的顺序获得前10的微博媒体文本,作为高热度值的微博数据。
进一步地,在一种实现方式中,所述步骤5包括:
步骤5-1,获取个性化用户词典,所述个性化用户词典包括预设的人物、学校和企业的信息表;
所述人物的对象包括人名、职务、权重和行为;
所述学校的对象包括学校名称、学校昵称、权重和行为;
所述企业的对象包括企业名、企业昵称、权重和行为;
具体的,本发明中,通过预设的重要人物、学校和企业的信息表,对象包含名称object_name,职务duty/昵称nick_name,权重weight,行为action等,正则化匹配数据生成个性化短句库,训练文本语义相似模型预测个性化推荐的模型。
步骤5-2,通过正则化匹配数据,将所述个性化用户词典拓展生成个性化短句库,使用所述步骤2-2中Bert预训练模型生成句向量,并使用KNN相似模型筛选人物、学校和企业重点对象活动的数据信息,并分析文章命中的个性化热点内容占比,匹配出文章相似最多的个性化热点,完成个性化定制推荐。
进一步地,在一种实现方式中,所述步骤6包括:
步骤6-1,实时获得来自新闻数据和微博数据中热度高的排名各前10的文章;
步骤6-2,计算文章中句子与所述热点领域或者用户的个性化定制相似命中的句子,筛选占比最高或者占比超过该篇文章句子的30%的文章。具体的,本发明中,所述筛选占比最高或者占比超过该篇文章句子的30%的文章,为向下取整。
本发明所述的重点舆情推荐方法中,新闻和微博社交媒体通过媒体类型特征等计算热度,可以实时筛选高热度值的媒体数据;使用热点领域推荐模型、个性化定制推荐模型筛选出符合全网信息该时间段的实时热点以及用户关注热点的数据,通过和高热度值的媒体数据融合,推送社交媒体热度排名靠前的热点领域和个性化推荐数据,实现实时推送热点文章。
第二方面,本发明提供一种可读存储介质,存储有可执行指令,所述可执行指令用于执行所述的重点舆情推荐方法。
第三方面,本发明提供一种数据处理装置,包括所述的可读存储介质,所述数据处理装置调取并执行该可读存储介质中的可执行指令,以进行一种文本语义相似的重点舆情推荐。
本发明提供的一种重点舆情推荐方法、可读存储介质和数据处理装置,将多种社交媒体策略结合,增强系统的可拓展性,复用性高,支持冷启动,开发代价低,根据业务需求灵活多变。相较于现有技术,本方案通过大数据实时处理全网的社交媒体数据以及定制化数据,计算各个时间段内的用户可能关心的热点,通过预训练语义相似模型,实时有效挖掘出热点领域舆情内容。对于不同的社交媒体如新闻微博需要根据平台特色,添加相应的热度计算,弥补了单一热点字段评判的不足,从而满足多样化平台的实时重点舆情推荐,大大提高了推荐内容的准确性,拓展了推荐内容的覆盖面,具有优异的实时性和稳定性特点。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例部分提供的一种基于文本语义相似的重点舆情推荐方法的构架示意图;
图2是本发明实施例部分提供的一种基于文本语义相似的重点舆情推荐方法中获取领域关键词的工作流程示意图;
图3是本发明实施例部分提供的一种基于文本语义相似的重点舆情推荐方法中文本语义相似算法的工作流程示意图;
图4是本发明实施例部分提供的一种基于文本语义相似的重点舆情推荐方法的新闻推荐数据示意图;
图5是本发明实施例部分提供的一种基于文本语义相似的重点舆情推荐方法的微博推荐数据示意图;
图6是本发明实施例部分提供的一种基于文本语义相似的重点舆情推荐方法的个性化推荐数据示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例公开重点舆情推荐方法、可读存储介质及数据处理装置,应用于实时社交网络环境下的重点热点舆情推荐,由于互联网数据量庞大且热点重点极为分散,采用本方法可以有效抓取主流社交媒体——新闻和微博的热度特点,推送更加符合社交平台数据特点的热点数据。同时利用全网信息挖掘实时热点,并且形成动态的热点领域短句库,用于训练热点领域相似判别模型,筛选符合各动态时间内的热点的文章并且推送。
如图1所示,是本发明的重点舆情推荐方法的获取领域关键词流程图。本发明的目的是解决网络多领域重点热点舆情信息的判定以及用户可能感兴趣的个性化推荐内容的融合,提出了基于文本语义相似的重点舆情推荐方法。所述重点舆情推荐方法,包括:
步骤1,以每小时为时间间隔,通过大数据和文档主题生成模型处理百万级互联网数据,获得热点主题和与所述热点主题对应的关键词;本实施例中,通过每小时处理百万级互联网数据,即可实现每天处理千万级互联网数据,达到处理海量互联网数据的目的。
步骤2,根据所述热点主题和关键词,拓展所述互联网数据生成热点领域短句库,使用文本语义相似模型分析文章的热点领域话题占比,完成热点领域推荐;
步骤3,根据新闻媒体的热度评级,筛选获得高热度评级的新闻数据;
步骤4,根据微博媒体传播分值和热度分值,筛选获得高热度值的微博数据;
步骤5,根据个性化用户词典拓展生成个性化短句库,训练所述文本语义相似模型分析文章的个性化内容占比,完成个性化定制推荐;
步骤6,根据所述热点领域推荐、高热度值的新闻数据、高热度值的微博数据和个性化定制推荐,实时推送热点文章。
本实施例所述的重点舆情推荐方法中,所述步骤1包括:
步骤1-1,通过所述大数据搜集、存储并处理每小时内百万级的互联网数据,所述互联网数据的数据源包含爬虫爬取的重点网站数据和外包合作数据;
所述通过大数据搜集、存储并处理每小时内百万级的互联网数据,通过存储管理和框架算法实现;
其中,所述存储管理即采用面向列族的NoSQL(非关系型的数据库)数据库HBase,对所述互联网数据进行持久化存储;所述框架算法包含分布式离线批量计算技术、分布式内存迭代计算技术和分布式流式处理计算技术,所述框架算法分别使用MapReduce、Spark和Storm技术;在大数据技术的支持下,有效收集全网的实时流式数据,用于实时分析热点主题领域。
步骤1-2,通过所述文档主题生成模型(Latent Dirichlet Allocation,LDA)处理互联网数据,包括对所述互联网数据进行分词,计算每个所述互联网数据文档中每个单词的词频,得到下列等式左边的p(词语|文档)概率矩阵,所述文档主题生成模型即通过下列等式左边的矩阵进行训练,学习获得右边两个矩阵,最终学习出词语和主题的关系,即关键词和热点主题的关系:
其中,p(词语|文档)矩阵表示每个文档中每个单词的词频,即每个单词在文档中出现的概率;p(词语|主题)矩阵表示每个主题中每个词语的出现概率;p(主题|文档)矩阵表示每个文档中每个主题的出现概率;本实施例中,此时得到的主题其实是包含了多个可以总结该主题的关键词集合。通过关键词可以拓展对应的主题短句库。
步骤1-3,通过所述文档主题生成模型以及预设主题数,获得文档中的热点主题和与所述热点主题对应的词语集合,筛选每个所述词语集合中出现频率最高的词语作为热点主题的关键词。本发明使用文档主题生成模型方法,将经过大数据搜集存储的每小时的全网互联网数据(数据源包含爬虫爬取重点网站数据、外包合作数据,囊括主流社交平台数据)通过处理获得该时间段的主题和相应的词语集合,利用匹配等方式生成每个领域的短句库,用于文本语义相似处理的数据训练集采集。
本实施例所述的重点舆情推荐方法中,所述步骤1-3包括:在生成与所述热点主题对应的词语集合时,若两个热点主题的词语集合中出现4个或4个以上词语相同时(已去除停用词),则认为所述两个热点主题是同一热点主题,将所述两个热点主题合并,并将所述两个热点主题对应的词语集合合并。如图2所示,是基于文本语义相似的重点舆情推荐方法的获取领域关键词流程图。
如图3所示,是文本语义相似模型预测的流程图。本实施例所述的重点舆情推荐方法中,所述步骤2包括:
步骤2-1,根据所述热点主题和关键词,对存储的每个小时内百万级的互联网数据进行正则化匹配,拓展获得所述热点主题所在领域的文本数据,生成所述热点领域短句库,所述热点领域短句库是以短句为单位的文本数据集合,所述短句为包含各个热点主题的语句;所述热点领域短句库作为训练集,使用bert预训练模型获得对应句子嵌入向量;具体的,本实施例中,本步骤即根据筛选出现频率最高的热点主题并得到对应的可以表征主题的主题词LDA_keywords,总结所在领域domain,使用匹配方式拓展领域domain的文本数据形成热点领域短句库domain_data。
步骤2-2,使用训练获得的热点领域短句库的句子嵌入向量以及KNN相似判别模型,分析互联网实时数据中的一篇文章中各句子所属的热点领域类别,若所述预测的文章中各句子所属的某一热点领域类别占比最多或者占比高于句子总数目的30%,推送所述预测的文章至该热点领域类别的板块中,完成热点领域推荐。具体的,本实施例中,所述文本语义相似模型是使用拓展的热点领域短句库domain_data{hotpoint1,hotpoint2,hotpoint3,…}训练文本语义相似模型预测热点领域的模型,其中,hotpoint1,hotpoint2,hotpoint3都为热点集合。所述若预测的文章中各句子所属的某一热点领域类别占比最多或者占比高于句子总数目的30%,为向下取整。
具体的,本实施例中,获取各个经过去重后的领域domain拓展获得的热点领域短句库domain_data,是以短语为单位的数据集合;将划分的领域看成多个实时推荐类别,如社会、教育、医疗、经济、政治等,热点领域短句库domain_data是包含各个主题领域方方面面的短语内容。如医疗领域内的一条短句“疫苗研制已经进入初步临床试验阶段,有希望有未来!”。
将这些数据作为训练集,使用bert预训练模型进行分类训练,但其实学到其中语义关系用于文本相似分析即可,即预训练的文本向量结果用于下游微调操作。BERT模型在文本前插入一个[CLS]符号,并将该符号对应的输出向量作为整篇文本的语义表示。与文本中已有的其它字/词相比,这个无明显语义信息的符号会更“公平”地融合文本中各个字/词的语义信息。
具体的,本实施例中,本发明使用的基于Transformers的双向编码表示(BERT)在多个自然语言处理任务中取得了广泛的性能提升,可以在分类任务中获得极高准确率,使用的bert预训练模型的框架是pytorch下bert,引入哈工大讯飞联合全词覆盖中文BERT-wmm预训练模型。
在分类任务中,使用transformer的Encoder编码器部分,对于每层编码器Encoder的内部,首先会通过一个自注意力层self-attention,之后跟一层全连接前馈神经网络。如果要计算当前词的向量表征,那么我们需要关注上下文其它词,并且每个词对当前词的影响不同,即注意力不同,这是bert的attention机制的内核所在。输入通过编码器-线性层可以输出分类结果。
热点领域短句库domain_data经过bert分类器训练形成多分类模型后,测试文本(dim=N)以句子作为单位进行分类预测,但是只取经过编码器的最后隐藏层的特征矩阵(维度是N*hidden_size隐藏层的维度),因为用bert做句子级的任务,需要使用经过编码器训练后的结果pooled_output做预训练处理,进一步的微调使用编码器最后隐藏层last_hidden_state的结果,而第0列为分类标志CLS,对应句向量,这时的句向量已经学习到文本语义关系,得到的句向量可以做接下来的文本的相似处理。
文本语义的相似处理方法使用的是K-近邻(KNN)算法,通过测量不同特征值之间的距离进行相似判断,本发明中使用欧式距离,将N个句子的句向量进行相似判断,最终N个句子分为了n个类别,选取其中占比最高的类别m1、m2,...,mx,表达了该文档的推荐类别从高到低有x个,最接近的推荐类别是m1。使用已经学习好的bert领域类别模型+KNN的文本语义相似模型用来分析某篇文章中的热点领域话题的占比。
例如:某一篇文章10句话中可以分析出有5句话涉及医疗方面,3句话涉及社会民生,1句涉及维权类,1句涉及教育类,从而进行医疗方向为主要,社会方向为次要的定向热点推送。
本实施例所述的重点舆情推荐方法中,所述步骤3包括:
步骤3-1,获取所述新闻媒体所对应的新闻网站的权重表、敏感程度预设词表和重点对象的权重表;具体的,本实施例中,新闻网站的权重表xinwen_weight,敏感程度预设词表mgx_weight,重点对象权重表main_object_weight,用于计算出新闻媒体新闻文本的热度评级,产生新闻推荐数据排行。
其中,所述新闻网站的权重表包括每个新闻网站的重要度和与来源评分,所述每个新闻网站的重要度包括高重要度、中重要度和低重要度,根据所述新闻网站的重要度给予相应的权值,即为新闻网站的来源评分;
所述敏感程度预设词表包括每个词语的敏感度和与敏感性等级评分,所述每个词语的敏感度包括一般敏感、敏感和极端敏感,根据所述每个词语敏感度给予相应的权值,即为敏感性等级评分;
所述重点对象的权重表包括根据重点对象的对象属性预设的重要度和与重要度评分,所述每个重点对象的重要度包括高重要度、中重要度和低重要度,根据所述重点对象的重要度给予相应的权值,即为重点对象重要度评分;
本发明使用新闻网站的权重表xinwen_weight,敏感程度预设词表mgx_weight,重点对象的权重表main_object_weight,计算出新闻文本的热度评级,产生新闻推荐数据。
新闻网站权重表包含登记在册的中央新闻网站,全国重点网站以及重要商业网站,按照重要性中央新闻网站评分20~30,全国重点网站10~20,商业网站5~10的权重划分。重要对象权重根据对象所在领域的重要程度进行评分,如南京大学在高校领域,重要程度分为三档20~30,10~20,0~10,在该领域地位越高或者重要程度越高则分值越高。
敏感程度预设词表中类别按照重要性由高到低分别是涉法涉诉、作风建设、投诉维权、安全生产、经济金融、食品医药卫生、教育类、自然灾害、环境保护、拆迁征地等敏感类别,最终命中类别的敏感词用于计算该文档的敏感度,网站来源权重、重点对象权重和敏感度结合计算文本的指标分数,计算出新闻文本的热度评级,产生新闻推荐数据。如图4所示,是本发明实施例提供的新闻推荐数据示意图。
步骤3-2,通过以下公式,计算所述新闻媒体新闻文本的热度评级:
newsScore=4*resourcescore+3*mainobjectscore+3*mgxscore
其中,newsScore表示新闻媒体新闻文本的热度评级,resourcescore表示新闻网站来源评分,mainobjectscore表示重点对象重要度评分,mgxscore表示敏感性等级评分;具体的,本实施例中,所述敏感性等级评分mgxscore根据命中的敏感关键词以及频率进行计算,目前分为三个等级:一般敏感、敏感、极端敏感。
步骤3-3,根据所述新闻媒体新闻文本的热度评级,筛选热度评级降序排名前十的新闻数据。
本实施例所述的重点舆情推荐方法中,所述步骤4包括:
步骤4-1,获取所述微博媒体文本包含帖子所在的层数、微博评论数、微博点赞数、微博转发数;具体的,本实施例中,通过微博媒体文本,重点对象权重表main_object_weight,敏感程度预设词表mgx_weight,计算出微博媒体文本的传播分值以及热度分值,产生微博推荐数据排行。其中,所述帖子所在的层数包括原帖为0层,评论帖为至少1层。
本发明通过微博媒体文本的热度计算敏感程度预设词表mgx_weight,所述微博媒体文本的热度包含是否原帖,微博评论数,微博点赞数,微博转发数等,计算出微博文本的指标分数以及话题热度,产生微博推荐数据。微博评论数、微博点赞数、微博转发数体现账户的传播广度,通过计算微博的传播广度和热度,计算文本的指标分数。如图5所示,是微博推荐数据示意图。
步骤4-2,根据以下公式,计算所述微博媒体文本的传播分值:
infospreadscore=250×log(pls)/log(max_pls)+625×log(zfs)/log(max_zfs)+125×log(dzs)/log(max_dzs)
其中,infospreadscore表示微博媒体文本的传播分值,pls表示微博评论数,max_pls表示最大微博评论数,zfs表示微博转发数,max_zfs表示最大微博转发数,dzs表示微博点赞数,max_dzs表示最大微博点赞数;
步骤4-3,根据以下公式,计算所述微博媒体文本的热度分值:
weiboScore=3*mainobjectscore+2*postscore+3*mgxscore
其中,weiboScore表示微博媒体文本的热度分值,mainobjectscore表示重点对象评分,postscore表示帖子评分,mgxscore表示敏感性等级评分;具体的,本实施例中,所述帖子评分包括原帖的帖子评分为20分,1~10层评论帖的帖子评分为10分,超过10层的评论帖的帖子评分为0分。本实施例中,重点对象评分mainobjectscore,敏感性等级评分mgxscore表示敏感性等级评分,这两个参数直接参考新闻媒体文本中对应参数数值。
步骤4-4,在所述每小时的微博媒体文本,按传播分值从小到大的顺序,筛选获得排列前20的微博媒体文本,同时按照热度分值从小到大的顺序获得前10的微博媒体文本,作为高热度值的微博数据。
本实施例所述的重点舆情推荐方法中,所述步骤5包括:
步骤5-1,获取个性化用户词典,所述个性化用户词典包括预设的人物、学校和企业的信息表;
所述人物的对象包括人名、职务、权重和行为;
所述学校的对象包括学校名称、学校昵称、权重和行为;
所述企业的对象包括企业名、企业昵称、权重和行为;
具体的,本实施例中,通过预设的重要人物、学校和企业的信息表,对象包含名称object_name,职务duty/昵称nick_name,权重weight,行为action等,正则化匹配数据生成个性化短句库,训练文本语义相似模型预测个性化推荐的模型。
步骤5-2,通过正则化匹配数据,将所述个性化用户词典拓展生成个性化短句库,使用所述步骤2-2中Bert预训练模型生成句向量,并使用KNN相似模型筛选人物、学校和企业重点对象活动的数据信息,并分析文章命中的个性化热点内容占比,匹配出文章相似最多的个性化热点,完成个性化定制推荐。
本发明通过添加了个性化用户词典,即为政府、校园、企业定制舆情监控,有效支持冷启动,通过预设重要的人物、学校和企业的信息表,人物对象包含人名object_name,职务duty,权重weight,行为action等;企业对象包含企业名object_name,企业昵称nick_name,权重weight,行为action等;学校对象包含学校名称object_name,学校昵称nick_name,权重weight,行为action等,使用获得的个性化关键词通过正则匹配方式生成个性化重点对象短句库,并用于训练文本语义相似模型,筛选政府、校园和企业重点对象活动的数据信息,实现个性化服务,如图6所示,是个性推荐数据示意图。本实施例中,所述对象的重点程度由用户业务决定,如重要省市县领导、重点百强企业、知名高校等,后续也可以根据实际需求进行其他定制对象的预设。
此外,本发明通过设置一定容积的缓存cache,当实时数据经过相似判断后进入不同的领域,并且对不同社交媒体数据进行重点舆情评级,更新cache的内容,确保某段时间内存储最重要舆情信息以及重点舆情的实时更新。
本实施例所述的重点舆情推荐方法中,所述步骤6包括:
步骤6-1,实时获得来自新闻数据和微博数据中热度高的排名各前10的文章;
步骤6-2,计算文章中句子与所述热点领域或者用户的个性化定制相似命中的句子,筛选占比最高或者占比超过该篇文章句子的30%的文章。具体的,本实施例中,所述筛选占比最高或者占比超过该篇文章句子的30%的文章,为向下取整。
本发明所述的重点舆情推荐方法中,新闻和微博社交媒体通过媒体类型特征等计算热度,可以实时筛选高热度值的媒体数据;使用热点领域推荐模型、个性化定制推荐模型筛选出符合全网信息该时间段的实时热点以及用户关注热点的数据,通过和高热度值的媒体数据融合,推送社交媒体热度排名靠前的热点领域和个性化推荐数据,实现实时推送热点文章。
在本实施例提供的一种重点舆情推荐方法的基础上,还提供了一种可读存储介质,存储有可执行指令,所述可执行指令用于执行所述的重点舆情推荐方法。
在本实施例提供的一种重点舆情推荐方法和可读存储介质的基础上,还提供了一种数据处理装置,包括所述的可读存储介质,所述数据处理装置调取并执行该可读存储介质中的可执行指令,以进行一种文本语义相似的重点舆情推荐。
本发明提供的一种重点舆情推荐方法、可读存储介质和数据处理装置,将多种社交媒体策略结合,增强系统的可拓展性,复用性高,支持冷启动,开发代价低,根据业务需求灵活多变。相较于现有技术,本方案通过大数据实时处理全网的社交媒体数据以及定制化数据,计算各个时间段内的用户可能关心的热点,通过预训练语义相似模型,实时有效挖掘出热点领域舆情内容。对于不同的社交媒体如新闻微博需要根据平台特色,添加相应的热度计算,弥补了单一热点字段评判的不足,从而满足多样化平台的实时重点舆情推荐,大大提高了推荐内容的准确性,拓展了推荐内容的覆盖面,具有优异的实时性和稳定性特点。
具体实现中,本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的重点舆情推荐方法、可读存储介质及数据处理装置的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(random access memory,RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。以上所述的本发明实施方式并不构成对本发明保护范围的限定。
Claims (10)
1.一种重点舆情推荐方法,其特征在于,包括:
步骤1,以每小时为时间间隔,通过大数据和文档主题生成模型处理百万级互联网数据,获得热点主题和与所述热点主题对应的关键词;
步骤2,根据所述热点主题和关键词,拓展所述互联网数据生成热点领域短句库,使用文本语义相似模型分析文章的热点领域话题占比,完成热点领域推荐;
步骤3,根据新闻媒体的热度评级,筛选获得高热度评级的新闻数据;
步骤4,根据微博媒体传播分值和热度分值,筛选获得高热度值的微博数据;
步骤5,根据个性化用户词典拓展生成个性化短句库,训练所述文本语义相似模型分析文章的个性化内容占比,完成个性化定制推荐;
步骤6,根据所述热点领域推荐、高热度值的新闻数据、高热度值的微博数据和个性化定制推荐,实时推送热点文章。
2.根据权利要求1所述的一种重点舆情推荐方法,其特征在于,所述步骤1包括:
步骤1-1,通过所述大数据搜集、存储并处理每小时内百万级的互联网数据,所述互联网数据的数据源包含爬虫爬取的重点网站数据和外包合作数据;
所述通过大数据搜集、存储并处理每小时内百万级的互联网数据,通过存储管理和框架算法实现;
其中,所述存储管理即采用面向列族的NoSQL数据库HBase,对所述互联网数据进行持久化存储;所述框架算法包含分布式离线批量计算技术、分布式内存迭代计算技术和分布式流式处理计算技术,所述框架算法分别使用MapReduce、Spark和Storm技术;
步骤1-2,通过所述文档主题生成模型处理互联网数据,包括对所述互联网数据进行分词,计算每个所述互联网数据文档中每个单词的词频,得到下列等式左边的p(词语|文档)概率矩阵,所述文档主题生成模型即通过下列等式左边的矩阵进行训练,学习获得右边两个矩阵,最终学习出词语和主题的关系,即关键词和热点主题的关系:
其中,p(词语|文档)矩阵表示每个文档中每个单词的词频,即每个单词在文档中出现的概率;p(词语|主题)矩阵表示每个主题中每个词语的出现概率;p(主题|文档)矩阵表示每个文档中每个主题的出现概率;
步骤1-3,通过所述文档主题生成模型以及预设主题数,获得文档中的热点主题和与所述热点主题对应的词语集合,筛选每个所述词语集合中出现频率最高的词语作为热点主题的关键词。
3.根据权利要求2所述的一种重点舆情推荐方法,其特征在于,所述步骤1-3包括:在生成与所述热点主题对应的词语集合时,若两个热点主题的词语集合中出现4个或4个以上词语相同时,则认为所述两个热点主题是同一热点主题,将所述两个热点主题合并,并将所述两个热点主题对应的词语集合合并。
4.根据权利要求1所述的一种重点舆情推荐方法,其特征在于,所述步骤2包括:
步骤2-1,根据所述热点主题和关键词,对存储的每个小时内百万级的互联网数据进行正则化匹配,拓展获得所述热点主题所在领域的文本数据,生成所述热点领域短句库,所述热点领域短句库是以短句为单位的文本数据集合,所述短句为包含各个热点主题的语句;所述热点领域短句库作为训练集,使用bert预训练模型获得对应句子嵌入向量;
步骤2-2,使用训练获得的热点领域短句库的句子嵌入向量以及KNN相似判别模型,分析互联网实时数据中的一篇文章中各句子所属的热点领域类别,若所述预测的文章中各句子所属的某一热点领域类别占比最多或者占比高于句子总数目的30%,推送所述预测的文章至该热点领域类别的板块中,完成热点领域推荐。
5.根据权利要求1所述的一种重点舆情推荐方法,其特征在于,所述步骤3包括:
步骤3-1,获取所述新闻媒体所对应的新闻网站的权重表、敏感程度预设词表和重点对象的权重表;
其中,所述新闻网站的权重表包括每个新闻网站的重要度和与来源评分,所述每个新闻网站的重要度包括高重要度、中重要度和低重要度,根据所述新闻网站的重要度给予相应的权值,即为新闻网站的来源评分;
所述敏感程度预设词表包括每个词语的敏感度和与敏感性等级评分,所述每个词语的敏感度包括一般敏感、敏感和极端敏感,根据所述每个词语敏感度给予相应的权值,即为敏感性等级评分;
所述重点对象的权重表包括根据重点对象的对象属性预设的重要度和与重要度评分,所述每个重点对象的重要度包括高重要度、中重要度和低重要度,根据所述重点对象的重要度给予相应的权值,即为重点对象重要度评分;
步骤3-2,通过以下公式,计算所述新闻媒体新闻文本的热度评级:
newsScore=4*resourcescore+3*mainobjectscore+3*mgxscore
其中,newsScore表示新闻媒体新闻文本的热度评级,resourcescore表示新闻网站来源评分,mainobjectscore表示重点对象重要度评分,mgxscore表示敏感性等级评分;
步骤3-3,根据所述新闻媒体新闻文本的热度评级,筛选热度评级降序排名前十的新闻数据。
6.根据权利要求1所述的一种重点舆情推荐方法,其特征在于,所述步骤4包括:
步骤4-1,获取所述微博媒体文本包含帖子所在的层数、微博评论数、微博点赞数、微博转发数;
步骤4-2,根据以下公式,计算所述微博媒体文本的传播分值:
infospreadscore=250×log(pls)/log(max_pls)+625×log(zfs)/log(max_zfs)+125×log(dzs)/log(max_dzs)
其中,infospreadscore表示微博媒体文本的传播分值,pls表示微博评论数,max_pls表示最大微博评论数,zfs表示微博转发数,max_zfs表示最大微博转发数,dzs表示微博点赞数,max_dzs表示最大微博点赞数;
步骤4-3,根据以下公式,计算所述微博媒体文本的热度分值:
weiboScore=3*mainobjectscore+2*postscore+3*mgxscore
其中,weiboScore表示微博媒体文本的热度分值,mainobjectscore表示重点对象评分,postscore表示帖子评分,mgxscore表示敏感性等级评分;
步骤4-4,在所述每小时的微博媒体文本,按传播分值从小到大的顺序,筛选获得排列前20的微博媒体文本,同时按照热度分值从小到大的顺序获得前10的微博媒体文本,作为高热度值的微博数据。
7.根据权利要求1所述的一种重点舆情推荐方法,其特征在于,所述步骤5包括:
步骤5-1,获取个性化用户词典,所述个性化用户词典包括预设的人物、学校和企业的信息表;
所述人物的对象包括人名、职务、权重和行为;
所述学校的对象包括学校名称、学校昵称、权重和行为;
所述企业的对象包括企业名、企业昵称、权重和行为;
步骤5-2,通过正则化匹配数据,将所述个性化用户词典拓展生成个性化短句库,使用所述步骤2-2中Bert预训练模型生成句向量,并使用KNN相似模型筛选人物、学校和企业重点对象活动的数据信息,并分析文章命中的个性化热点内容占比,匹配出文章相似最多的个性化热点,完成个性化定制推荐。
8.根据权利要求1所述的一种重点舆情推荐方法,其特征在于,所述步骤6包括:
步骤6-1,实时获得来自新闻数据和微博数据中热度高的排名各前10的文章;
步骤6-2,计算文章中句子与所述热点领域或者用户的个性化定制相似命中的句子,筛选占比最高或者占比超过该篇文章句子的30%的文章。
9.一种可读存储介质,其特征在于,存储有可执行指令,所述可执行指令用于执行权利要求1-8中任一项的重点舆情推荐方法。
10.一种数据处理装置,其特征在于,包括如权利要求9所述的可读存储介质,所述数据处理装置调取并执行该可读存储介质中的可执行指令,以进行一种文本语义相似的重点舆情推荐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110088158.9A CN112749341B (zh) | 2021-01-22 | 2021-01-22 | 重点舆情推荐方法、可读存储介质及数据处理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110088158.9A CN112749341B (zh) | 2021-01-22 | 2021-01-22 | 重点舆情推荐方法、可读存储介质及数据处理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112749341A true CN112749341A (zh) | 2021-05-04 |
CN112749341B CN112749341B (zh) | 2024-03-29 |
Family
ID=75652848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110088158.9A Active CN112749341B (zh) | 2021-01-22 | 2021-01-22 | 重点舆情推荐方法、可读存储介质及数据处理装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112749341B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113360776A (zh) * | 2021-07-19 | 2021-09-07 | 西南大学 | 基于跨表数据挖掘的科技资源推荐方法 |
CN113569118A (zh) * | 2021-06-30 | 2021-10-29 | 深圳市东信时代信息技术有限公司 | 自媒体推送方法、装置、计算机设备及存储介质 |
CN113688310A (zh) * | 2021-07-23 | 2021-11-23 | 北京中科闻歌科技股份有限公司 | 一种内容推荐方法、装置、设备及存储介质 |
CN115186050A (zh) * | 2022-09-08 | 2022-10-14 | 粤港澳大湾区数字经济研究院(福田) | 基于自然语言处理的选题推荐方法、系统及相关设备 |
CN115455269A (zh) * | 2022-08-22 | 2022-12-09 | 华云天下(南京)科技有限公司 | 文章热度分析方法、装置、数据处理架构和分析系统 |
CN117422063A (zh) * | 2023-12-18 | 2024-01-19 | 四川省大数据技术服务中心 | 应用智能辅助决策的大数据处理方法及智能辅助决策系统 |
CN117807190A (zh) * | 2024-02-28 | 2024-04-02 | 青岛他坦科技服务有限公司 | 一种能源大数据敏感数据智能化识别方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831234A (zh) * | 2012-08-31 | 2012-12-19 | 北京邮电大学 | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 |
JP2016040660A (ja) * | 2014-08-12 | 2016-03-24 | 日本電信電話株式会社 | コンテンツ推薦装置、コンテンツ推薦方法及びコンテンツ推薦プログラム |
CN109325175A (zh) * | 2018-08-23 | 2019-02-12 | 广东工业大学 | 融合微博兴趣挖掘的新闻推送方法、装置及设备 |
CN109446329A (zh) * | 2018-11-08 | 2019-03-08 | 大连瀚闻资讯有限公司 | 一种舆情分析的热点识别方法 |
CN110188265A (zh) * | 2019-04-26 | 2019-08-30 | 中国科学院计算技术研究所 | 一种融合用户画像的网络舆情热点推荐方法及系统 |
WO2019200786A1 (zh) * | 2018-04-18 | 2019-10-24 | 平安科技(深圳)有限公司 | 舆情数据预测方法、装置、终端及存储介质 |
CN110413863A (zh) * | 2019-08-01 | 2019-11-05 | 信雅达系统工程股份有限公司 | 一种基于深度学习的舆情新闻去重与推送方法 |
CN112035658A (zh) * | 2020-08-05 | 2020-12-04 | 海纳致远数字科技(上海)有限公司 | 基于深度学习的企业舆情监测方法 |
CN112395410A (zh) * | 2021-01-13 | 2021-02-23 | 北京智源人工智能研究院 | 一种基于实体抽取的产业舆情推荐方法、装置及电子设备 |
-
2021
- 2021-01-22 CN CN202110088158.9A patent/CN112749341B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831234A (zh) * | 2012-08-31 | 2012-12-19 | 北京邮电大学 | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 |
JP2016040660A (ja) * | 2014-08-12 | 2016-03-24 | 日本電信電話株式会社 | コンテンツ推薦装置、コンテンツ推薦方法及びコンテンツ推薦プログラム |
WO2019200786A1 (zh) * | 2018-04-18 | 2019-10-24 | 平安科技(深圳)有限公司 | 舆情数据预测方法、装置、终端及存储介质 |
CN109325175A (zh) * | 2018-08-23 | 2019-02-12 | 广东工业大学 | 融合微博兴趣挖掘的新闻推送方法、装置及设备 |
CN109446329A (zh) * | 2018-11-08 | 2019-03-08 | 大连瀚闻资讯有限公司 | 一种舆情分析的热点识别方法 |
CN110188265A (zh) * | 2019-04-26 | 2019-08-30 | 中国科学院计算技术研究所 | 一种融合用户画像的网络舆情热点推荐方法及系统 |
CN110413863A (zh) * | 2019-08-01 | 2019-11-05 | 信雅达系统工程股份有限公司 | 一种基于深度学习的舆情新闻去重与推送方法 |
CN112035658A (zh) * | 2020-08-05 | 2020-12-04 | 海纳致远数字科技(上海)有限公司 | 基于深度学习的企业舆情监测方法 |
CN112395410A (zh) * | 2021-01-13 | 2021-02-23 | 北京智源人工智能研究院 | 一种基于实体抽取的产业舆情推荐方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
丁晟春等: "网络舆情潜在热点主题识别研究", 《DATA ANALYSIS AND KNOWLEDGE DISCOVERY》, pages 29 - 39 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569118A (zh) * | 2021-06-30 | 2021-10-29 | 深圳市东信时代信息技术有限公司 | 自媒体推送方法、装置、计算机设备及存储介质 |
CN113569118B (zh) * | 2021-06-30 | 2023-12-22 | 深圳市东信时代信息技术有限公司 | 自媒体推送方法、装置、计算机设备及存储介质 |
CN113360776A (zh) * | 2021-07-19 | 2021-09-07 | 西南大学 | 基于跨表数据挖掘的科技资源推荐方法 |
CN113688310A (zh) * | 2021-07-23 | 2021-11-23 | 北京中科闻歌科技股份有限公司 | 一种内容推荐方法、装置、设备及存储介质 |
CN113688310B (zh) * | 2021-07-23 | 2023-08-29 | 北京中科闻歌科技股份有限公司 | 一种内容推荐方法、装置、设备及存储介质 |
CN115455269A (zh) * | 2022-08-22 | 2022-12-09 | 华云天下(南京)科技有限公司 | 文章热度分析方法、装置、数据处理架构和分析系统 |
CN115455269B (zh) * | 2022-08-22 | 2023-08-29 | 华云天下(南京)科技有限公司 | 文章热度分析方法、装置、数据处理架构和分析系统 |
CN115186050A (zh) * | 2022-09-08 | 2022-10-14 | 粤港澳大湾区数字经济研究院(福田) | 基于自然语言处理的选题推荐方法、系统及相关设备 |
CN115186050B (zh) * | 2022-09-08 | 2023-01-10 | 粤港澳大湾区数字经济研究院(福田) | 基于自然语言处理的选题推荐方法、系统及相关设备 |
CN117422063A (zh) * | 2023-12-18 | 2024-01-19 | 四川省大数据技术服务中心 | 应用智能辅助决策的大数据处理方法及智能辅助决策系统 |
CN117422063B (zh) * | 2023-12-18 | 2024-02-23 | 四川省大数据技术服务中心 | 应用智能辅助决策的大数据处理方法及智能辅助决策系统 |
CN117807190A (zh) * | 2024-02-28 | 2024-04-02 | 青岛他坦科技服务有限公司 | 一种能源大数据敏感数据智能化识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112749341B (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112749341B (zh) | 重点舆情推荐方法、可读存储介质及数据处理装置 | |
Sharif et al. | Sentiment analysis of Bengali texts on online restaurant reviews using multinomial Naïve Bayes | |
Neethu et al. | Sentiment analysis in twitter using machine learning techniques | |
Shi et al. | Sentiment analysis of Chinese microblogging based on sentiment ontology: a case study of ‘7.23 Wenzhou Train Collision’ | |
Liu et al. | An intelligent question answering system of the liao dynasty based on knowledge graph | |
Yan et al. | " Shall I Be Your Chat Companion?" Towards an Online Human-Computer Conversation System | |
Rahate et al. | Feature selection for sentiment analysis by using svm | |
Zhu | Topic recommendation system using personalized fuzzy logic interest set | |
Gupta et al. | Sentiment analysis using support vector machine | |
Imani et al. | Aspect extraction and classification for sentiment analysis in drug reviews | |
Fócil-Arias et al. | A tweets classifier based on cosine similarity | |
Da et al. | Deep learning based dual encoder retrieval model for citation recommendation | |
Al Imran et al. | Bnnet: A deep neural network for the identification of satire and fake bangla news | |
Abudalfa et al. | Survey on target dependent sentiment analysis of micro-blogs in social media | |
Li et al. | ISWR: an implicit sentiment words recognition model based on sentiment propagation | |
Jiang et al. | Detecting online fake reviews via hierarchical neural networks and multivariate features | |
Al-Ramahi et al. | Classifying insincere questions on Question Answering (QA) websites: meta-textual features and word embedding | |
Lokman et al. | A conceptual IR chatbot framework with automated keywords-based vector representation generation | |
Yang et al. | A multi-model fusion framework based on deep learning for sentiment classification | |
Abbas et al. | A deep learning approach for context-aware citation recommendation using rhetorical zone classification and similarity to overcome cold-start problem | |
Amiri et al. | Research topics and trends of the hashtag recommendation domain | |
Hariramani et al. | Sentimental Analysis on social media | |
Lin et al. | Introduction to the Special Issue of Recent Advances in Computational Linguistics for Asian Languages | |
Li et al. | Augmenting the global semantic information between words to heterogeneous graph for deception detection | |
He | Using Natural Language Processing Techniques to Analyze the Impact of Covid-19 on Stock Market |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |