CN112269852A

CN112269852A - 生成舆情专题方法、系统及存储介质

Info

Publication number: CN112269852A
Application number: CN202011149400.0A
Authority: CN
Inventors: 赖文波; 陈志群; 陈锦冰; 韩刚
Original assignee: Shenzhen Zhonghong Online Co ltd
Current assignee: Shenzhen Zhonghong Online Co ltd
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-01-26

Abstract

本发明公开了一种生成舆情专题方法、系统及存储介质，生成舆情专题方法包括：获取舆情资讯，提取所述舆情资讯中的多个关键词，根据所述多个关键词构建关键词词库；分析所述关键词词库与预设的舆情主题的相关度；根据所述相关度将相应的所述舆情资讯更新至所述舆情主题对应的数据库。本发明根据舆情资讯提取关键词以得到关键词词库，然后分析关键词词库与舆情主题的相关度，再根据相关度将舆情资讯存储于舆情主题对应的数据库内，以实现舆情资讯的自动整合成一个舆情专题，既节省人力又能够快速且准确地生成舆情专题，以便于用户能够及时获取到与舆情主题相关的舆情资讯。

Description

生成舆情专题方法、系统及存储介质

技术领域

本发明涉及新闻专题的技术领域，尤其是涉及一种生成舆情专题方法、系统及存储介质。

背景技术

随着移动互联网发展，各大新闻资讯类APP也随之发展迅速。以个性化推荐、内容聚合、碎片化等形式来展示新闻资讯也成为目前新闻资讯类APP的发展方向。

分类一个事件及一个时间的衍生事件及影响、讨论等等，这就代表，当得到一片舆情还不够，要能够将舆情文章转化为一个专题，传统的方式是通过人工分析每一篇舆情文章的文字，然后提取事件的关键词进行规则的构建。但是采用人工的方式去分析文字以简历新闻舆情专题的方式不仅耗费人力，增加人工成本，且需要一定的时间，容易错失时效性，失去了舆情处理的关键时间点。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种生成舆情专题方法，能够自动识别舆情文章，自动生成新闻舆情专题，节省人力，且提高新闻舆情专题发布的效率。

本发明还提出一种生成舆情专题系统。

本发明还提出一种计算机可读存储介质。

第一方面，本发明的一个实施例提供了生成舆情专题方法，包括：

获取舆情资讯，提取所述舆情资讯中的多个关键词，根据所述多个关键词构建关键词词库；

分析所述关键词词库与预设的舆情主题的相关度；

根据所述相关度将相应的所述舆情资讯更新至所述舆情主题对应的数据库。

本发明实施例的生成舆情专题方法至少具有如下有益效果：根据舆情资讯提取关键词以得到关键词词库，然后分析关键词词库与舆情主题的相关度，再根据相关度将舆情资讯更新至舆情主题对应的数据库内，以实现舆情资讯的自动整合成一个舆情专题，既节省人力又能够快速且准确地生成舆情专题，以便于用户能够及时获取与舆情主题相关的舆情资讯。

根据本发明的另一些实施例的生成舆情专题方法，还包括：

确定预设的舆情主题，具体包括：

获取首次发表的所述舆情资讯的舆情标题；

提取所述舆情标题的主成分；

根据所述主成分确定到所述舆情主题。

根据本发明的另一些实施例的生成舆情专题方法，所述主成分包括：主语、谓语和宾语，所述提取所述舆情标题的主成分，包括：

根据所述舆情标题中的标点符号对所述舆情标题进行断句，得到标题短句；

提取每个所述标题短句所对应的所述主语和/或所述谓语和/或所述宾语。

根据本发明的另一些实施例的生成舆情专题方法，所述获取舆情资讯，提取所述舆情资讯中的多个关键词，根据所述多个关键词构建关键词词库，包括：

获取所述舆情资讯；

提取所述舆情资讯的正文的关键词以得到若干正文关键词；

合并所述若干正文关键词，构建所述关键词词库。

根据本发明的另一些实施例的生成舆情专题方法，所述提取所述舆情资讯的正文的关键词以得到若干正文关键词，包括：

采用HANLP算法提取所述正文的关键词；

采用STANDFORNLP算法提取所述正文中的人名、地名和机构名；

将所述关键词和/或所述人名和/或所述地名和/或所述机构名合并以得到正文关键词。

根据本发明的另一些实施例的生成舆情专题方法，所述舆情主题包括预设的若干单词，所述分析所述关键词词库与预设的舆情主题的相关度，包括：

获取预设的每个所述单词的权重；

获取每个所述单词与所述关键词词库的相关性、每个所述单词与所述舆情主题的相关性；

根据每个单词的权重、每个所述单词与所述关键词词库的相关性、每个所述单词与所述舆情主题的相关性确定所述关键词词库与所述舆情主题的相关度。

根据本发明的另一些实施例的生成舆情专题方法，还包括：

提取所述舆情资讯的资讯标题的关键词以得到标题关键词；

根据所述标题关键词与所述舆情主题的匹配度、所述相关度确定所述舆情资讯的排序分数；

将所述舆情主题对应的数据库内的所述舆情资讯根据所述排序分数按顺序排列。

根据本发明的另一些实施例的生成舆情专题方法，采用BM25算法分析所述关键词词库与预设的舆情主题的相关度。

第二方面，本发明的一个实施例提供了生成舆情专题系统，包括：

获取模块，用于获取舆情资讯；

提取模块，用于提取所述舆情资讯中的多个关键词，根据所述多个关键词构建关键词词库；

分析模块，用于分析所述关键词词库与预设的舆情主题的相关度；

处理模块，用于根据所述相关度将相应的所述舆情资讯更新至所述舆情主题对应的数据库。

本发明实施例的生成舆情专题系统至少具有如下有益效果：通过提取模块提取舆情资讯中的关键词后得到关键词词库，然后分析模块分析关键词语预设的舆情主题的相关度，处理模块根据相关度将舆情资讯存入与舆情主题对应的数据库，以便于将相关的舆情资讯自动整个于一个舆情专题内，以便于用户能够从这个舆情专题内查看与舆情主题相关的舆情资讯，既节省人力又能够快速且准确得到舆情专题。

第三方面，本发明的一个实施例提供了计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如第一方面所述的生成舆情专题方法。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

图1是本发明实施例中生成舆情专题方法的一具体实施例流程示意图；

图2是本发明实施例中生成舆情专题方法的另一具体实施例流程示意图；

图3是本发明实施例中生成舆情专题方法的另一具体实施例流程示意图；

图4是本发明实施例中生成舆情专题方法的另一具体实施例流程示意图；

图5是本发明实施例中生成舆情专题方法的另一具体实施例流程示意图；

图6是本发明实施例中生成舆情专题方法的另一具体实施例流程示意图；

图7是本发明实施例中生成舆情专题方法的另一具体实施例流程示意图；

图8是本发明实施例中生成舆情专题系统的一具体实施例模块框图。

附图标记：100、获取模块；200、提取模块；300、分析模块；400、处理模块。

具体实施方式

以下将结合实施例对本发明的构思及产生的技术效果进行清楚、完整地描述，以充分地理解本发明的目的、特征和效果。显然，所描述的实施例只是本发明的一部分实施例，而不是全部实施例，基于本发明的实施例，本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例，均属于本发明保护的范围。

在本发明实施例的描述中，如果涉及到“若干”，其含义是一个以上，如果涉及到“多个”，其含义是两个以上，如果涉及到“大于”、“小于”、“超过”，均应理解为不包括本数，如果涉及到“以上”、“以下”、“以内”，均应理解为包括本数。如果涉及到“第一”、“第二”，应当理解为用于区分技术特征，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

在自媒体时代，新闻、资讯数量呈爆炸性增长，且新时代的舆情往往不是分析一篇文章，而是分类一个时间及一个事件衍生及影响、讨论等等，这就代表着一篇舆情资讯是不够的，需要将多篇舆情资讯转化为一个专题，以传统的方式是人工去分析这篇舆情资讯，然后提取舆情资讯的关键词以进行规则的构建，但是采用人工分析的方式不仅低效、成本高，且反应时间久，而且节假日、深夜更不能快速响应，从而错失时效性，失去了舆情处理的关键事件点。

基于此，本申请公开了一种生成舆情专题方法，能够根据舆情资讯自动生成舆情专题，节省人力，且能够全面、精确地生成相关的舆情专题。

参照图1，第一方面，本发明实施例公开了一种生成舆情专题方法，包括：

S100、获取舆情资讯，提取舆情资讯中的多个关键词，根据多个关键词构建关键词词库；

S200、分析关键词词库与预设的舆情主题的相关度；

S300、根据相关度将相应的舆情资讯更新至舆情主题对应的数据库。

通过获取舆情资讯，通过提取舆情资讯中的关键词，且每一篇舆情资讯提取的关键词是多个的，因此通过多个关键词汇集形成关键词词库。由于一个舆情主题通常由多篇舆情资讯组成，因此每一篇舆情资讯对应的关键词词库是相互独立的，以便于分析每一个关键词词库与舆情主题的相关度，即可将多篇舆情资讯整合于一个舆情专题内。当得到每篇舆情资讯的关键词词库后，分析该关键词词库与预设的舆情主题的相关度，并根据相关度将舆情资讯归入舆情主题对应的数据库内。

其中，根据相关度将舆情资讯归入舆情主题对应的数据库是针对相关度高的舆情资讯，通过预设阈值，若舆情资讯超过预设阈值则认为相关度高，因此将该舆情资讯归入该舆情资讯对应的数据库内。

参照图2，在一些实施例中，生成舆情专题方法还包括：

S400、确定预设的舆情主题。

其中，预设的舆情主题可以是人工输入，也可以通过自动识别舆情资讯确定的。而在本实施例中，步骤S400具体包括：

S410、获取首次发表的舆情资讯的舆情标题；

S420、提取舆情标题的主成分；

S430、根据主成分确定到舆情主题。

当每一次事件发生时都是通过第一篇舆情资讯进行一个舆情主题的构建，以便于人们了解该舆情主题相关的其他舆情资讯，因此通过获取首次发表的舆情资讯的舆情标题，然后通过提取舆情标题的主成分，并根据主成分得到舆情主题，使得舆情主题自动获得，以得到准确的舆情主题。

参照图3，在一些实施例中，主成分包括：主语、谓语和宾语，且步骤S420具体包括：

S421、根据舆情标题中的标点符号对舆情标题进行断句，得到标题短句；

S422、提取每个标题短句所对应的主语和/或谓语和/或宾语。

获取舆情资讯的舆情标题后，需要对舆情标题进行断句以得到标题短句，然后再对每个标题短句提取主语和/或谓语和/或宾语。若舆情标题只有一句则无需进行标题短句，直接从该舆情标题中提取主语和/或谓语和/或宾语，若舆情标题存在多个标题短句则通过标点符合进行断句，以得到多个标题短句，再获取每个标题短句的主语和/或谓语和/或宾语。

其中，使用的标点符号为包括以下任意一种或多种“，；。！？及空格”，通过标点符号断句后采用STANDFORDNLP算法进行主语、谓语和宾语的提取，因此通过STANDFORDNLP算法能够准确提取出舆情标题的主成分。

在一些实施例中，根据预设的主题创建规则将提取得到的主语和/或谓语和/或宾合并得到舆情主题，且主题创建规则为主语和谓语，或者主语与宾语的结合方式。也即提取到舆情主题的主语、谓语、宾语通过以主语和谓语，或者主语和宾语的规则构建舆情主题。

例如，首次发表的一篇舆情资讯的舆情标题为“A市于2020年10月14日由于暴雨发生一起山体滑坡事故，造成山底下的10名人员受伤”，则根据“,”将该舆情标题分为“A市于2020年10月14日由于暴雨发生一起山体滑坡事故”和“造成山底下的10名人员受伤”，然后对这两个标题短句进行主语、谓语和宾语的提取。因此提取得到“A市”、“发生”、“山体滑坡事故”、“造成”“10名人员受伤”，则需要将这个主语、谓语和宾语进行合并以得到“A市发生山体滑坡事故”，因此以“A市发生山体滑坡事故”作为舆情主题，以便于将相关的舆情资讯合并成为一个舆情专题。

参照图4，在一些实施例中，步骤S100包括：

S110、获取舆情资讯；

S120、提取舆情资讯的正文的关键词以得到若干正文关键词；

S130、合并若干正文关键词，构建关键词词库。

当舆情主题构建成功后，获取其他相关的舆情资讯，提取舆情资讯的正文的关键词以得到正文关键词，且每篇舆情资讯的正文关键词都是多个，然后将多个正文关键词合并得到关键词词库。由于每个舆情资讯不一定有标题，且标题有时候也无法准确地判断出该舆情资讯与舆情主题的相关性，因此通过获取每个舆情资讯的关键词以得到多个正文关键词，然后将多个正文关键词进行合并以得到关键词词库，以便于根据关键词词库能够更多地搜索到相关的舆情资讯，并合并于该舆情主题对应的数据库内，以更加全面的掌握该舆情主题对应得舆情资讯。

参照图5，在一些实施例中，步骤S120包括：

S121、采用HANLP算法提取正文的关键词；

S122、采用STANDFORDNLP算法提取正文中的人名、地名和机构名；

S123、将关键词和/或人名和/或地名和/或机构名合并以得到正文关键词表。

其中，HANLP是由一系列模型与算法组成的工具包，目标是普及自然语言处理在生产环境中的应用。HANLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。HANLP主要功能包括分词、词性标注、关键词提取、自动摘要、依存句法分析、命名实体识别、短语提取、拼音转换、简繁转换等等。而STANDFORDNLP算法能够准确地提取人名、地名和机构名。因此通过HANLP算法能够准确地获取正文中的关键词，然后通过HANLP算法提取正文中内容关键词，而STANDFORDNLP算法提取正文中的人名、地名和机构名，再将两个算法提取的关键词、人名和/或地名和/或机构名进行合并以得到准确的正文关键词。

参照图6，在一些实施例中，分析关键词词库与预设的舆情主题的相关度采用BM25算法得到，舆情主题包括预设的若干单词。因此，通过BM25算法得到相关度的步骤S200包括：

S210、获取预设的每个单词的权重；

S220、获取每个单词与关键词词库的相关性、每个单词与舆情主题的相关性；

S230、根据每个单词的权重、每个单词与关键词词库的相关性、每个单词与舆情主题的相关性确定关键词词库与舆情主题的相关度。

通过将舆情主题包括若干单词，且相关度通过每个单词与关键词词库的相关性计算得到，需要通过每个单词与关键词词库之间的相关性、每个单词与舆情主题的相关度以及每个单词的权重计算得到每个单词与舆情资讯的相关度，再对所有单词进行求和以得到舆情主题和该舆情资讯的相关度。

具体地计算相关度的公式如下：

A＝D₁(Ds)×D₁(query)×d₁+D₂(Ds)×D₂(query)×d₂...... (1)

式中，A为相关度，D₁(Ds)为单词1和关键词词库的相关性，D₁(query)为单词1与舆情主题的相关性，d₁为单词1的权重值，D₂(Ds)为单词2和关键词词库的相关性，D₂(query)为单词2与舆情主题的相关性，d₂为单词2的权重值。因此通过公式(1)能够准确地计算出舆情资讯与舆情主题的相关度，以便于判断是否将该舆情资讯归于该舆情主题对应的数据库内。

参照图7，在一些实施例中，生成舆情专题方法，还包括：

S500、提取舆情资讯的资讯标题的关键词以得到标题关键词；

S600、根据标题关键词与舆情主题的匹配度、相关度确定舆情资讯的排序分数；

S700、将舆情主题对应的数据库内的舆情资讯根据排序分数按顺序排列。

通过舆情资讯的正文与舆情主题的相关度，能够更加全面的匹配到与舆情主题相关的舆情资讯，以便于用户能获取更多与舆情主题对应的舆情主题。但是通过获取舆情资讯的资讯标题后，判断资讯标题和舆情主题的匹配度，由于相关度只是舆情资讯与舆情主题的相关度，因此通过获取资讯标题和舆情主题的匹配度，再根据相关度和匹配度得到排序分数，然后将每个舆情资讯按照排序分析进行排序，以便于跟舆情主题更加相关的舆情资讯排序前面，以便于用户能够直接获取更加符合舆情主题的舆情资讯。

具体地，排序分数的计算公式如下：

SCORE＝0.6*Ti/TN+0.4*sigmoid(A) (2)

式中，SCORE为排序分数，TN为舆情主题的关键词总数量，Ti为标题关键词命中的数量；A为舆情资讯与舆情主题的相关度。由于资讯标题与舆情主题的匹配度更加重要，因此设置匹配度的权重为0.6，而相关度的权重为0.4，因此舆情资讯根据该排序分析排序，排序在最前面的舆情资讯更加重要且更加匹配，以便于能够快速获取更加匹配舆情主题的舆情资讯。

下面参考图1至和图7以一个具体的实施例详细描述根据本发明实施例的生成舆情专题方法。值得理解的是，下述描述仅是示例性说明，而不是对发明的具体限制。

获取舆情资讯的舆情标题后，需要对舆情标题进行断句以得到标题短句，然后再对每个标题短句提取主语和/或谓语和/或宾语。将提取到舆情主题的主语、谓语、宾语通过以主语和谓语，或者主语和宾语的规则构建舆情主题。当舆情主题构建成功后，因此通过HANLP算法能够准确地获取正文中的关键词，然后通过HANLP算法提取正文中关键词，而STANDFORDNLP算法提取正文中的人名、地名和机构名，再将两个算法提取的关键词和/或人名和/或地名和/或机构名进行合并以得到准确的正文关键词。然后将多个正文关键词组成关键词词库。通过将舆情主题进行切分以得到若干单词，且相关度通过每个单词与关键词词库的相关性计算得到，需要通过每个单词与关键词词库之间的相关性、每个单词与舆情主题的相关度以及每个单词的权重计算得到每个单词与舆情资讯的相关度，再对所有单词进行求和以得到舆情主题和该舆情资讯的相关度。最后通过获取资讯标题和舆情主题的匹配度，再根据相关度和匹配度得到排序分数，然后将每个舆情资讯按照排序分析进行排序，以便于跟舆情主题更加相关的舆情资讯排序前面，以便于用户能够直接获取更加符合舆情主题的舆情资讯。

第二方面，参照图8，本发明实施例还公开了生成舆情专题系统，包括：获取模块100、提取模块200、分析模块300以及处理模块400，获取模块100用于获取舆情资讯；提取模块200用于提取舆情资讯中的多个关键词，根据多个关键词构建关键词词库；分析模块300用于分析关键词词库与预设的舆情主题的相关度；处理模块400用于根据相关度将舆情资讯存入与舆情主题对应的数据库。

通过提取模块200提取舆情资讯中的关键词后得到关键词词库，然后分析模块300分析关键词语预设的舆情主题的相关度，处理模块400根据相关度将舆情资讯存入与舆情主题对应的数据库，以便于将相关的舆情资讯自动整个于一个舆情专题内，以便于用户能够从这个舆情专题内查看与舆情主题相关的舆情资讯，既节省人力又能够快速且准确得到舆情专题。

其中，生成舆情专题系统具体执行步骤参照第一方面的生成舆情专题方法，此处不再赘述。

第三方面，一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行如第一方面的生成舆情专题方法。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。此外，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

Claims

1.生成舆情专题方法，其特征在于，包括：

分析所述关键词词库与预设的舆情主题的相关度；

2.根据权利要求1所述的生成舆情专题方法，其特征在于，还包括：

确定预设的舆情主题，具体包括：

获取首次发表的所述舆情资讯的舆情标题；

提取所述舆情标题的主成分；

根据所述主成分确定到所述舆情主题。

3.根据权利要求2所述的生成舆情专题方法，其特征在于，所述主成分包括：主语、谓语和宾语，所述提取所述舆情标题的主成分，包括：

4.根据权利要求1所述的生成舆情专题方法，其特征在于，所述获取舆情资讯，提取所述舆情资讯中的多个关键词，根据所述多个关键词构建关键词词库，包括：

获取所述舆情资讯；

提取所述舆情资讯的正文的关键词以得到若干正文关键词；

合并所述若干正文关键词，构建所述关键词词库。

5.根据权利要求4所述的生成舆情专题方法，其特征在于，所述提取所述舆情资讯的正文的关键词以得到若干正文关键词，包括：

采用HANLP算法提取所述正文的关键词；

采用STANDFORNLP算法提取所述正文中的人名、地名和机构名；

6.根据权利要求1所述的生成舆情专题方法，其特征在于，所述舆情主题包括预设的若干单词，所述分析所述关键词词库与预设的舆情主题的相关度，包括：

获取预设的每个所述单词的权重；

7.根据权利要求4所述的生成舆情专题方法，其特征在于，还包括：

提取所述舆情资讯的资讯标题的关键词以得到标题关键词；

8.根据权利要求1至6任一项所述的生成舆情专题方法，其特征在于，采用BM25算法分析所述关键词词库与预设的舆情主题的相关度。

9.生成舆情专题系统，其特征在于，包括：

获取模块，用于获取舆情资讯；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至8任一项所述的生成舆情专题方法。