CN112749341A

CN112749341A - 重点舆情推荐方法、可读存储介质及数据处理装置

Info

Publication number: CN112749341A
Application number: CN202110088158.9A
Authority: CN
Inventors: 高峰; 贺成龙; 杨阳朝; 梁增玉; 李惠柯; 汤世松; 刘蛰
Original assignee: Nanjing Laiwangxin Technology Research Institute Co ltd
Current assignee: Nanjing Laiwangxin Technology Research Institute Co ltd
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-05-04
Anticipated expiration: 2041-01-22
Also published as: CN112749341B

Abstract

本发明提供了重点舆情推荐方法、可读存储介质及数据处理装置，方法包括：处理海量互联网数据，获得热点主题和对应的关键词，拓展后生成热点领域短句库，使用文本语义相似模型分析文章的热点领域话题占比，完成热点领域推荐；筛选获得高热度评级的新闻数据和高热度值的微博数据，完成新闻和微博推荐；再根据个性化用户词典，训练文本语义相似模型分析文章的个性化内容占比，完成个性化定制推荐；结合以上所有推荐，实时推送热点文章。相较于现有技术，能够根据不同平台多样化计算热度，弥补了单一热点字段评判的不足，满足多样化平台的实时重点舆情推荐，提高了推荐内容的准确性，拓展了推荐内容的覆盖面，具有优异的实时性和稳定性。

Description

重点舆情推荐方法、可读存储介质及数据处理装置

技术领域

本发明涉及自然语言处理领域，尤其涉及重点舆情推荐方法、可读存储介质及数据处理装置。

背景技术

互联网的飞速发展使得人们更加简便快捷地获取海量的信息，能够足不出户地了解到世界各地实时发生的事情。但是随之带来的是爆炸式的信息量，导致用户因为信息过载而无法高效获取信息。其中，产生信息过载的原因包括两方面，首先用户无法完全浏览全网的信息，其次用户无法有效地总结出感兴趣的信息。

为了解决用户因为信息过载而无法高效获取信息的问题，需要通过大数据处理的方法对海量信息进行处理，使得用户能够高效获取需要的信息。根据市场调研，现有的舆情推荐方案基本上以预先设定的人工规则进行匹配或者相似计算，推送符合要求的文章；或者是依赖于在线新闻爬取、社交媒体的部分爬取或者付费内容的内容源，直接使用这些数据源自带的热度字段，推送高热度数据。但是这两种存在非常明显的问题：一个是预先设置的规则并不能囊括所有热点，而且热点是随着时间不断变化的；另外就是社交媒体的热点字段的评判较为简单，应该综合多方面进行热点评估。

发明内容

为解决上述舆情场景下信息推荐对用户可能关注热点，领域热点推荐以及平台多样化推荐设计的问题，本发明使用主题模型和相似模型实现了各主要领域的推荐策略，对新闻和微博媒体添加热点计算，提出了重点舆情推荐方法、可读存储介质及数据处理装置。

第一方面，本发明提供一种重点舆情推荐方法，包括：

步骤1，以每小时为时间间隔，通过大数据和文档主题生成模型处理百万级互联网数据，获得热点主题和与所述热点主题对应的关键词；本发明中，通过每小时处理百万级互联网数据，即可实现每天处理千万级互联网数据，达到处理海量互联网数据的目的。

步骤2，根据所述热点主题和关键词，拓展所述互联网数据生成热点领域短句库，使用文本语义相似模型分析文章的热点领域话题占比，完成热点领域推荐；

步骤3，根据新闻媒体的热度评级，筛选获得高热度评级的新闻数据；

步骤4，根据微博媒体传播分值和热度分值，筛选获得高热度值的微博数据；

步骤5，根据个性化用户词典拓展生成个性化短句库，训练所述文本语义相似模型分析文章的个性化内容占比，完成个性化定制推荐；

步骤6，根据所述热点领域推荐、高热度值的新闻数据、高热度值的微博数据和个性化定制推荐，实时推送热点文章。

进一步地，在一种实现方式中，所述步骤1包括：

步骤1-1，通过所述大数据搜集、存储并处理每小时内百万级的互联网数据，所述互联网数据的数据源包含爬虫爬取的重点网站数据和外包合作数据；

所述通过大数据搜集、存储并处理每小时内百万级的互联网数据，通过存储管理和框架算法实现；

其中，所述存储管理即采用面向列族的NoSQL数据库HBase，对所述互联网数据进行持久化存储；所述框架算法包含分布式离线批量计算技术、分布式内存迭代计算技术和分布式流式处理计算技术，所述框架算法分别使用MapReduce、Spark和Storm技术；

步骤1-2，通过所述文档主题生成模型(Latent Dirichlet Allocation，LDA)处理互联网数据，包括对所述互联网数据进行分词，计算每个所述互联网数据文档中每个单词的词频，得到下列等式左边的p(词语|文档)概率矩阵，所述文档主题生成模型即通过下列等式左边的矩阵进行训练，学习获得右边两个矩阵，最终学习出词语和主题的关系，即关键词和热点主题的关系：

其中，p(词语|文档)矩阵表示每个文档中每个单词的词频，即每个单词在文档中出现的概率；p(词语|主题)矩阵表示每个主题中每个词语的出现概率；p(主题|文档)矩阵表示每个文档中每个主题的出现概率；

步骤1-3，通过所述文档主题生成模型以及预设主题数，获得文档中的热点主题和与所述热点主题对应的词语集合，筛选每个所述词语集合中出现频率最高的词语作为热点主题的关键词。

进一步地，在一种实现方式中，所述步骤1-3包括：在生成与所述热点主题对应的词语集合时，若两个热点主题的词语集合中出现4个或4个以上词语相同时，则认为所述两个热点主题是同一热点主题，将所述两个热点主题合并，并将所述两个热点主题对应的词语集合合并。

进一步地，在一种实现方式中，所述步骤2包括：

步骤2-1，根据所述热点主题和关键词，对存储的每个小时内百万级的互联网数据进行正则化匹配，拓展获得所述热点主题所在领域的文本数据，生成所述热点领域短句库，所述热点领域短句库是以短句为单位的文本数据集合，所述短句为包含各个热点主题的语句；所述热点领域短句库作为训练集，使用bert预训练模型获得对应句子嵌入向量；具体的，本发明中，本步骤即根据筛选出现频率最高的热点主题并得到对应的可以表征主题的主题词LDA_keywords，总结所在领域domain，使用匹配方式拓展领域domain的文本数据形成热点领域短句库domain_data。

步骤2-2，使用训练获得的热点领域短句库的句子嵌入向量以及KNN相似判别模型，分析互联网实时数据中的一篇文章中各句子所属的热点领域类别，若所述预测的文章中各句子所属的某一热点领域类别占比最多或者占比高于句子总数目的30％，推送所述预测的文章至该热点领域类别的板块中，完成热点领域推荐。具体的，本发明中，所述文本语义相似模型是使用拓展的热点领域短句库domain_data{hotpoint1，hotpoint2，hotpoint3，…}训练文本语义相似模型预测热点领域的模型，其中，hotpoint1，hotpoint2，hotpoint3都为集合。所述若预测的文章中各句子所属的某一热点领域类别占比最多或者占比高于句子总数目的30％，为向下取整。

进一步地，在一种实现方式中，所述步骤3包括：

步骤3-1，获取所述新闻媒体所对应的新闻网站的权重表、敏感程度预设词表和重点对象的权重表；具体的，本发明中，新闻网站的权重表xinwen_weight，敏感程度预设词表mgx_weight，重点对象权重表main_object_weight，用于计算出新闻媒体新闻文本的热度评级，产生新闻推荐数据排行。

其中，所述新闻网站的权重表包括每个新闻网站的重要度和与来源评分，所述每个新闻网站的重要度包括高重要度、中重要度和低重要度，根据所述新闻网站的重要度给予相应的权值，即为新闻网站的来源评分；

所述敏感程度预设词表包括每个词语的敏感度和与敏感性等级评分，所述每个词语的敏感度包括一般敏感、敏感和极端敏感，根据所述每个词语敏感度给予相应的权值，即为敏感性等级评分；

所述重点对象的权重表包括根据重点对象的对象属性预设的重要度和与重要度评分，所述每个重点对象的重要度包括高重要度、中重要度和低重要度，根据所述重点对象的重要度给予相应的权值，即为重点对象重要度评分；

步骤3-2，通过以下公式，计算所述新闻媒体新闻文本的热度评级：

newsScore＝4*resourcescore+3*mainobjectscore+3*mgxscore

其中，newsScore表示新闻媒体新闻文本的热度评级，resourcescore表示新闻网站来源评分，mainobjectscore表示重点对象重要度评分，mgxscore表示敏感性等级评分；

步骤3-3，根据所述新闻媒体新闻文本的热度评级，筛选热度评级降序排名前十的新闻数据。

进一步地，在一种实现方式中，所述步骤4包括：

步骤4-1，获取所述微博媒体文本包含帖子所在的层数、微博评论数、微博点赞数、微博转发数；具体的，本发明中，通过微博媒体文本，重点对象权重表main_object_weight，敏感程度预设词表mgx_weight，计算出微博媒体文本的传播分值以及热度分值，产生微博推荐数据排行。其中，所述帖子所在的层数包括原帖为0层，评论帖为至少1层。

步骤4-2，根据以下公式，计算所述微博媒体文本的传播分值：

infospreadscore＝250×log(pls)/log(max_pls)+625×log(zfs)/log(max_zfs)+125×log(dzs)/log(max_dzs)

其中，infospreadscore表示微博媒体文本的传播分值，pls表示微博评论数，max_pls表示最大微博评论数，zfs表示微博转发数，max_zfs表示最大微博转发数，dzs表示微博点赞数，max_dzs表示最大微博点赞数；

步骤4-3，根据以下公式，计算所述微博媒体文本的热度分值：

weiboScore＝3*mainobjectscore+2*postscore+3*mgxscore

其中，weiboScore表示微博媒体文本的热度分值，mainobjectscore表示重点对象评分，postscore表示帖子评分，mgxscore表示敏感性等级评分；具体的，本发明中，所述帖子评分包括原帖的帖子评分为20分，1～10层评论帖的帖子评分为10分，超过10层的评论帖的帖子评分为0分。

步骤4-4，在所述每小时的微博媒体文本，按传播分值从小到大的顺序，筛选获得排列前20的微博媒体文本，同时按照热度分值从小到大的顺序获得前10的微博媒体文本，作为高热度值的微博数据。

进一步地，在一种实现方式中，所述步骤5包括：

步骤5-1，获取个性化用户词典，所述个性化用户词典包括预设的人物、学校和企业的信息表；

所述人物的对象包括人名、职务、权重和行为；

所述学校的对象包括学校名称、学校昵称、权重和行为；

所述企业的对象包括企业名、企业昵称、权重和行为；

具体的，本发明中，通过预设的重要人物、学校和企业的信息表，对象包含名称object_name，职务duty/昵称nick_name，权重weight，行为action等，正则化匹配数据生成个性化短句库，训练文本语义相似模型预测个性化推荐的模型。

步骤5-2，通过正则化匹配数据，将所述个性化用户词典拓展生成个性化短句库，使用所述步骤2-2中Bert预训练模型生成句向量，并使用KNN相似模型筛选人物、学校和企业重点对象活动的数据信息，并分析文章命中的个性化热点内容占比，匹配出文章相似最多的个性化热点，完成个性化定制推荐。

进一步地，在一种实现方式中，所述步骤6包括：

步骤6-1，实时获得来自新闻数据和微博数据中热度高的排名各前10的文章；

步骤6-2，计算文章中句子与所述热点领域或者用户的个性化定制相似命中的句子，筛选占比最高或者占比超过该篇文章句子的30％的文章。具体的，本发明中，所述筛选占比最高或者占比超过该篇文章句子的30％的文章，为向下取整。

本发明所述的重点舆情推荐方法中，新闻和微博社交媒体通过媒体类型特征等计算热度，可以实时筛选高热度值的媒体数据；使用热点领域推荐模型、个性化定制推荐模型筛选出符合全网信息该时间段的实时热点以及用户关注热点的数据，通过和高热度值的媒体数据融合，推送社交媒体热度排名靠前的热点领域和个性化推荐数据，实现实时推送热点文章。

第二方面，本发明提供一种可读存储介质，存储有可执行指令，所述可执行指令用于执行所述的重点舆情推荐方法。

第三方面，本发明提供一种数据处理装置，包括所述的可读存储介质，所述数据处理装置调取并执行该可读存储介质中的可执行指令，以进行一种文本语义相似的重点舆情推荐。

本发明提供的一种重点舆情推荐方法、可读存储介质和数据处理装置，将多种社交媒体策略结合，增强系统的可拓展性，复用性高，支持冷启动，开发代价低，根据业务需求灵活多变。相较于现有技术，本方案通过大数据实时处理全网的社交媒体数据以及定制化数据，计算各个时间段内的用户可能关心的热点，通过预训练语义相似模型，实时有效挖掘出热点领域舆情内容。对于不同的社交媒体如新闻微博需要根据平台特色，添加相应的热度计算，弥补了单一热点字段评判的不足，从而满足多样化平台的实时重点舆情推荐，大大提高了推荐内容的准确性，拓展了推荐内容的覆盖面，具有优异的实时性和稳定性特点。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例部分提供的一种基于文本语义相似的重点舆情推荐方法的构架示意图；

图2是本发明实施例部分提供的一种基于文本语义相似的重点舆情推荐方法中获取领域关键词的工作流程示意图；

图3是本发明实施例部分提供的一种基于文本语义相似的重点舆情推荐方法中文本语义相似算法的工作流程示意图；

图4是本发明实施例部分提供的一种基于文本语义相似的重点舆情推荐方法的新闻推荐数据示意图；

图5是本发明实施例部分提供的一种基于文本语义相似的重点舆情推荐方法的微博推荐数据示意图；

图6是本发明实施例部分提供的一种基于文本语义相似的重点舆情推荐方法的个性化推荐数据示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例公开重点舆情推荐方法、可读存储介质及数据处理装置，应用于实时社交网络环境下的重点热点舆情推荐，由于互联网数据量庞大且热点重点极为分散，采用本方法可以有效抓取主流社交媒体——新闻和微博的热度特点，推送更加符合社交平台数据特点的热点数据。同时利用全网信息挖掘实时热点，并且形成动态的热点领域短句库，用于训练热点领域相似判别模型，筛选符合各动态时间内的热点的文章并且推送。

如图1所示，是本发明的重点舆情推荐方法的获取领域关键词流程图。本发明的目的是解决网络多领域重点热点舆情信息的判定以及用户可能感兴趣的个性化推荐内容的融合，提出了基于文本语义相似的重点舆情推荐方法。所述重点舆情推荐方法，包括：

步骤1，以每小时为时间间隔，通过大数据和文档主题生成模型处理百万级互联网数据，获得热点主题和与所述热点主题对应的关键词；本实施例中，通过每小时处理百万级互联网数据，即可实现每天处理千万级互联网数据，达到处理海量互联网数据的目的。

本实施例所述的重点舆情推荐方法中，所述步骤1包括：

其中，所述存储管理即采用面向列族的NoSQL(非关系型的数据库)数据库HBase，对所述互联网数据进行持久化存储；所述框架算法包含分布式离线批量计算技术、分布式内存迭代计算技术和分布式流式处理计算技术，所述框架算法分别使用MapReduce、Spark和Storm技术；在大数据技术的支持下，有效收集全网的实时流式数据，用于实时分析热点主题领域。

其中，p(词语|文档)矩阵表示每个文档中每个单词的词频，即每个单词在文档中出现的概率；p(词语|主题)矩阵表示每个主题中每个词语的出现概率；p(主题|文档)矩阵表示每个文档中每个主题的出现概率；本实施例中，此时得到的主题其实是包含了多个可以总结该主题的关键词集合。通过关键词可以拓展对应的主题短句库。

步骤1-3，通过所述文档主题生成模型以及预设主题数，获得文档中的热点主题和与所述热点主题对应的词语集合，筛选每个所述词语集合中出现频率最高的词语作为热点主题的关键词。本发明使用文档主题生成模型方法，将经过大数据搜集存储的每小时的全网互联网数据(数据源包含爬虫爬取重点网站数据、外包合作数据，囊括主流社交平台数据)通过处理获得该时间段的主题和相应的词语集合，利用匹配等方式生成每个领域的短句库，用于文本语义相似处理的数据训练集采集。

本实施例所述的重点舆情推荐方法中，所述步骤1-3包括：在生成与所述热点主题对应的词语集合时，若两个热点主题的词语集合中出现4个或4个以上词语相同时(已去除停用词)，则认为所述两个热点主题是同一热点主题，将所述两个热点主题合并，并将所述两个热点主题对应的词语集合合并。如图2所示，是基于文本语义相似的重点舆情推荐方法的获取领域关键词流程图。

如图3所示，是文本语义相似模型预测的流程图。本实施例所述的重点舆情推荐方法中，所述步骤2包括：

步骤2-1，根据所述热点主题和关键词，对存储的每个小时内百万级的互联网数据进行正则化匹配，拓展获得所述热点主题所在领域的文本数据，生成所述热点领域短句库，所述热点领域短句库是以短句为单位的文本数据集合，所述短句为包含各个热点主题的语句；所述热点领域短句库作为训练集，使用bert预训练模型获得对应句子嵌入向量；具体的，本实施例中，本步骤即根据筛选出现频率最高的热点主题并得到对应的可以表征主题的主题词LDA_keywords，总结所在领域domain，使用匹配方式拓展领域domain的文本数据形成热点领域短句库domain_data。

步骤2-2，使用训练获得的热点领域短句库的句子嵌入向量以及KNN相似判别模型，分析互联网实时数据中的一篇文章中各句子所属的热点领域类别，若所述预测的文章中各句子所属的某一热点领域类别占比最多或者占比高于句子总数目的30％，推送所述预测的文章至该热点领域类别的板块中，完成热点领域推荐。具体的，本实施例中，所述文本语义相似模型是使用拓展的热点领域短句库domain_data{hotpoint1，hotpoint2，hotpoint3，…}训练文本语义相似模型预测热点领域的模型，其中，hotpoint1，hotpoint2，hotpoint3都为热点集合。所述若预测的文章中各句子所属的某一热点领域类别占比最多或者占比高于句子总数目的30％，为向下取整。

具体的，本实施例中，获取各个经过去重后的领域domain拓展获得的热点领域短句库domain_data，是以短语为单位的数据集合；将划分的领域看成多个实时推荐类别，如社会、教育、医疗、经济、政治等，热点领域短句库domain_data是包含各个主题领域方方面面的短语内容。如医疗领域内的一条短句“疫苗研制已经进入初步临床试验阶段，有希望有未来！”。

将这些数据作为训练集，使用bert预训练模型进行分类训练，但其实学到其中语义关系用于文本相似分析即可，即预训练的文本向量结果用于下游微调操作。BERT模型在文本前插入一个[CLS]符号，并将该符号对应的输出向量作为整篇文本的语义表示。与文本中已有的其它字/词相比，这个无明显语义信息的符号会更“公平”地融合文本中各个字/词的语义信息。

具体的，本实施例中，本发明使用的基于Transformers的双向编码表示(BERT)在多个自然语言处理任务中取得了广泛的性能提升，可以在分类任务中获得极高准确率，使用的bert预训练模型的框架是pytorch下bert，引入哈工大讯飞联合全词覆盖中文BERT-wmm预训练模型。

在分类任务中，使用transformer的Encoder编码器部分，对于每层编码器Encoder的内部，首先会通过一个自注意力层self-attention，之后跟一层全连接前馈神经网络。如果要计算当前词的向量表征，那么我们需要关注上下文其它词，并且每个词对当前词的影响不同，即注意力不同，这是bert的attention机制的内核所在。输入通过编码器-线性层可以输出分类结果。

热点领域短句库domain_data经过bert分类器训练形成多分类模型后，测试文本(dim＝N)以句子作为单位进行分类预测，但是只取经过编码器的最后隐藏层的特征矩阵(维度是N*hidden_size隐藏层的维度)，因为用bert做句子级的任务，需要使用经过编码器训练后的结果pooled_output做预训练处理，进一步的微调使用编码器最后隐藏层last_hidden_state的结果，而第0列为分类标志CLS，对应句向量，这时的句向量已经学习到文本语义关系，得到的句向量可以做接下来的文本的相似处理。

文本语义的相似处理方法使用的是K-近邻(KNN)算法，通过测量不同特征值之间的距离进行相似判断，本发明中使用欧式距离，将N个句子的句向量进行相似判断，最终N个句子分为了n个类别，选取其中占比最高的类别m1、m2，...，mx，表达了该文档的推荐类别从高到低有x个，最接近的推荐类别是m1。使用已经学习好的bert领域类别模型+KNN的文本语义相似模型用来分析某篇文章中的热点领域话题的占比。

例如：某一篇文章10句话中可以分析出有5句话涉及医疗方面，3句话涉及社会民生，1句涉及维权类，1句涉及教育类，从而进行医疗方向为主要，社会方向为次要的定向热点推送。

本实施例所述的重点舆情推荐方法中，所述步骤3包括：

步骤3-1，获取所述新闻媒体所对应的新闻网站的权重表、敏感程度预设词表和重点对象的权重表；具体的，本实施例中，新闻网站的权重表xinwen_weight，敏感程度预设词表mgx_weight，重点对象权重表main_object_weight，用于计算出新闻媒体新闻文本的热度评级，产生新闻推荐数据排行。

本发明使用新闻网站的权重表xinwen_weight，敏感程度预设词表mgx_weight，重点对象的权重表main_object_weight，计算出新闻文本的热度评级，产生新闻推荐数据。

新闻网站权重表包含登记在册的中央新闻网站，全国重点网站以及重要商业网站，按照重要性中央新闻网站评分20～30，全国重点网站10～20，商业网站5～10的权重划分。重要对象权重根据对象所在领域的重要程度进行评分，如南京大学在高校领域，重要程度分为三档20～30，10～20，0～10，在该领域地位越高或者重要程度越高则分值越高。

敏感程度预设词表中类别按照重要性由高到低分别是涉法涉诉、作风建设、投诉维权、安全生产、经济金融、食品医药卫生、教育类、自然灾害、环境保护、拆迁征地等敏感类别，最终命中类别的敏感词用于计算该文档的敏感度，网站来源权重、重点对象权重和敏感度结合计算文本的指标分数，计算出新闻文本的热度评级，产生新闻推荐数据。如图4所示，是本发明实施例提供的新闻推荐数据示意图。

newsScore＝4*resourcescore+3*mainobjectscore+3*mgxscore

其中，newsScore表示新闻媒体新闻文本的热度评级，resourcescore表示新闻网站来源评分，mainobjectscore表示重点对象重要度评分，mgxscore表示敏感性等级评分；具体的，本实施例中，所述敏感性等级评分mgxscore根据命中的敏感关键词以及频率进行计算，目前分为三个等级：一般敏感、敏感、极端敏感。

本实施例所述的重点舆情推荐方法中，所述步骤4包括：

步骤4-1，获取所述微博媒体文本包含帖子所在的层数、微博评论数、微博点赞数、微博转发数；具体的，本实施例中，通过微博媒体文本，重点对象权重表main_object_weight，敏感程度预设词表mgx_weight，计算出微博媒体文本的传播分值以及热度分值，产生微博推荐数据排行。其中，所述帖子所在的层数包括原帖为0层，评论帖为至少1层。

本发明通过微博媒体文本的热度计算敏感程度预设词表mgx_weight，所述微博媒体文本的热度包含是否原帖，微博评论数，微博点赞数，微博转发数等，计算出微博文本的指标分数以及话题热度，产生微博推荐数据。微博评论数、微博点赞数、微博转发数体现账户的传播广度，通过计算微博的传播广度和热度，计算文本的指标分数。如图5所示，是微博推荐数据示意图。

weiboScore＝3*mainobjectscore+2*postscore+3*mgxscore

其中，weiboScore表示微博媒体文本的热度分值，mainobjectscore表示重点对象评分，postscore表示帖子评分，mgxscore表示敏感性等级评分；具体的，本实施例中，所述帖子评分包括原帖的帖子评分为20分，1～10层评论帖的帖子评分为10分，超过10层的评论帖的帖子评分为0分。本实施例中，重点对象评分mainobjectscore，敏感性等级评分mgxscore表示敏感性等级评分，这两个参数直接参考新闻媒体文本中对应参数数值。

本实施例所述的重点舆情推荐方法中，所述步骤5包括：

所述人物的对象包括人名、职务、权重和行为；

所述学校的对象包括学校名称、学校昵称、权重和行为；

所述企业的对象包括企业名、企业昵称、权重和行为；

具体的，本实施例中，通过预设的重要人物、学校和企业的信息表，对象包含名称object_name，职务duty/昵称nick_name，权重weight，行为action等，正则化匹配数据生成个性化短句库，训练文本语义相似模型预测个性化推荐的模型。

本发明通过添加了个性化用户词典，即为政府、校园、企业定制舆情监控，有效支持冷启动，通过预设重要的人物、学校和企业的信息表，人物对象包含人名object_name，职务duty，权重weight，行为action等；企业对象包含企业名object_name，企业昵称nick_name，权重weight，行为action等；学校对象包含学校名称object_name，学校昵称nick_name，权重weight，行为action等，使用获得的个性化关键词通过正则匹配方式生成个性化重点对象短句库，并用于训练文本语义相似模型，筛选政府、校园和企业重点对象活动的数据信息，实现个性化服务，如图6所示，是个性推荐数据示意图。本实施例中，所述对象的重点程度由用户业务决定，如重要省市县领导、重点百强企业、知名高校等，后续也可以根据实际需求进行其他定制对象的预设。

此外，本发明通过设置一定容积的缓存cache，当实时数据经过相似判断后进入不同的领域，并且对不同社交媒体数据进行重点舆情评级，更新cache的内容，确保某段时间内存储最重要舆情信息以及重点舆情的实时更新。

本实施例所述的重点舆情推荐方法中，所述步骤6包括：

步骤6-2，计算文章中句子与所述热点领域或者用户的个性化定制相似命中的句子，筛选占比最高或者占比超过该篇文章句子的30％的文章。具体的，本实施例中，所述筛选占比最高或者占比超过该篇文章句子的30％的文章，为向下取整。

在本实施例提供的一种重点舆情推荐方法的基础上，还提供了一种可读存储介质，存储有可执行指令，所述可执行指令用于执行所述的重点舆情推荐方法。

在本实施例提供的一种重点舆情推荐方法和可读存储介质的基础上，还提供了一种数据处理装置，包括所述的可读存储介质，所述数据处理装置调取并执行该可读存储介质中的可执行指令，以进行一种文本语义相似的重点舆情推荐。

具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的重点舆情推荐方法、可读存储介质及数据处理装置的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，ROM)或随机存储记忆体(random access memory，RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种重点舆情推荐方法，其特征在于，包括：

步骤1，以每小时为时间间隔，通过大数据和文档主题生成模型处理百万级互联网数据，获得热点主题和与所述热点主题对应的关键词；

2.根据权利要求1所述的一种重点舆情推荐方法，其特征在于，所述步骤1包括：

步骤1-2，通过所述文档主题生成模型处理互联网数据，包括对所述互联网数据进行分词，计算每个所述互联网数据文档中每个单词的词频，得到下列等式左边的p(词语|文档)概率矩阵，所述文档主题生成模型即通过下列等式左边的矩阵进行训练，学习获得右边两个矩阵，最终学习出词语和主题的关系，即关键词和热点主题的关系：

3.根据权利要求2所述的一种重点舆情推荐方法，其特征在于，所述步骤1-3包括：在生成与所述热点主题对应的词语集合时，若两个热点主题的词语集合中出现4个或4个以上词语相同时，则认为所述两个热点主题是同一热点主题，将所述两个热点主题合并，并将所述两个热点主题对应的词语集合合并。

4.根据权利要求1所述的一种重点舆情推荐方法，其特征在于，所述步骤2包括：

步骤2-1，根据所述热点主题和关键词，对存储的每个小时内百万级的互联网数据进行正则化匹配，拓展获得所述热点主题所在领域的文本数据，生成所述热点领域短句库，所述热点领域短句库是以短句为单位的文本数据集合，所述短句为包含各个热点主题的语句；所述热点领域短句库作为训练集，使用bert预训练模型获得对应句子嵌入向量；

步骤2-2，使用训练获得的热点领域短句库的句子嵌入向量以及KNN相似判别模型，分析互联网实时数据中的一篇文章中各句子所属的热点领域类别，若所述预测的文章中各句子所属的某一热点领域类别占比最多或者占比高于句子总数目的30％，推送所述预测的文章至该热点领域类别的板块中，完成热点领域推荐。

5.根据权利要求1所述的一种重点舆情推荐方法，其特征在于，所述步骤3包括：

步骤3-1，获取所述新闻媒体所对应的新闻网站的权重表、敏感程度预设词表和重点对象的权重表；

newsScore＝4*resourcescore+3*mainobjectscore+3*mgxscore

6.根据权利要求1所述的一种重点舆情推荐方法，其特征在于，所述步骤4包括：

步骤4-1，获取所述微博媒体文本包含帖子所在的层数、微博评论数、微博点赞数、微博转发数；

weiboScore＝3*mainobjectscore+2*postscore+3*mgxscore

其中，weiboScore表示微博媒体文本的热度分值，mainobjectscore表示重点对象评分，postscore表示帖子评分，mgxscore表示敏感性等级评分；

7.根据权利要求1所述的一种重点舆情推荐方法，其特征在于，所述步骤5包括：

所述人物的对象包括人名、职务、权重和行为；

所述学校的对象包括学校名称、学校昵称、权重和行为；

所述企业的对象包括企业名、企业昵称、权重和行为；

8.根据权利要求1所述的一种重点舆情推荐方法，其特征在于，所述步骤6包括：

步骤6-2，计算文章中句子与所述热点领域或者用户的个性化定制相似命中的句子，筛选占比最高或者占比超过该篇文章句子的30％的文章。

9.一种可读存储介质，其特征在于，存储有可执行指令，所述可执行指令用于执行权利要求1-8中任一项的重点舆情推荐方法。

10.一种数据处理装置，其特征在于，包括如权利要求9所述的可读存储介质，所述数据处理装置调取并执行该可读存储介质中的可执行指令，以进行一种文本语义相似的重点舆情推荐。