CN110489653A

CN110489653A - 舆情信息查询方法和装置、系统、电子设备、存储介质

Info

Publication number: CN110489653A
Application number: CN201910786280.6A
Authority: CN
Inventors: 王飞; 柳超
Original assignee: Beijing Dike Technology Co Ltd
Current assignee: Beijing Dike Technology Co Ltd
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2019-11-22

Abstract

本公开实施例公开了一种舆情信息查询方法和装置、系统、电子设备、存储介质，其中，方法包括：接收搜索请求，该搜索请求中包括待匹配字段值；基于所述待匹配字段值对第一数据库中进行检索，得到第一检索结果；基于第一检索结果中的文章标识，对第二数据库中进行检索，得到第一检索结果中文章标识所标识文章的相关信息；其中，第二数据库用于存储第二数据表，第二数据表包括至少一篇文章的文章标识、索引字段的字段值和文章详情；分别对第一检索结果中文章标识所标识文章的相关信息进行舆情分析，得到舆情分析结果。本公开实施例提高了舆情信息的搜集效率和效果，并实现了海量数据的在线存储。

Description

舆情信息查询方法和装置、系统、电子设备、存储介质

技术领域

本公开涉及互联网技术，尤其是一种舆情信息查询方法和装置、系统、电子设备、存储介质。

背景技术

目前，随着社会经济和科技的发展，企业的总体情况(例如企业的数量、成立、注销等等)和各企业的个体经营状况(例如，公司背景、司法风险、公司发展、经营状况、知识产权等等)，每天都在发生着变化。互联网的普及带来了信息的快速无壁垒传播，各企业的舆情信息也来源众多，包括：公司报告、政府公告、研究报告、工商行政处罚信息、海量的新闻以及社交媒体信息等等，舆情信息规模庞大而且来源丰富。对于企业合作、商品交易、项目招商、融资、投资等方面，全面了解一个企业的企业信息，都具有重要意义。因此，无论是企业管理者还是市场人员，每天都需要从不同的信息来源阅读大量舆情信息并从中获取有用信息。

在实现本公开的过程中，本公开的发明人通过研究发现，一方面不仅需要快速捕捉并适应市场的快速变化，另一方面，还需要面对不同信息来源的海量舆情数据的处理，如果仍然依靠传统的纯人工搜集、处理、监控的方式，需要耗费大量的时间而且容易忽视关键信息，显然已无法满足需求。

发明内容

本公开实施例提供一种用于对企业的舆情信息进行查询的技术方案。

根据本公开实施例的一个方面，提供的一种舆情信息查询方法，包括：

接收搜索请求，所述搜索请求中包括待匹配字段值；

基于所述待匹配字段值对第一数据库中进行检索，得到第一检索结果，所述第一检索结果包括至少一个文章标识；其中，所述第一数据库用于存储第一数据表，所述第一数据表包括至少一篇文章的文章标识、索引字段的字段值和属性字段的字段值，每个文章标识唯一标识一篇文章；

基于所述第一检索结果中的文章标识，对第二数据库中进行检索，得到所述第一检索结果中文章标识所标识文章的相关信息；其中，所述第二数据库用于存储第二数据表，所述第二数据表包括至少一篇文章的文章标识、索引字段的字段值和文章详情；

分别对所述第一检索结果中文章标识所标识文章的相关信息进行舆情分析，得到舆情分析结果。

可选地，在本公开舆情信息查询方法的另一实施例中，所述第二数据表中索引字段的数量多于所述第一数据表中索引字段的数量；和/或，

所述第一数据表中的索引字段包括：主体，发布时间；其中，所述主体字段包括以下任意一项或多项：企业、组织、人员；和/或，

所述第一数据表中的属性字段包括以下任意一项或多项：时间范围，事件分类，过滤筛选字段。

可选地，在本公开舆情信息查询方法的另一实施例中，所述文章详情包括以下任意一项或多项：文章的链接，文章的来源站点、频道，文章的入库时间，热度，正文，正文内链接。

可选地，在本公开舆情信息查询方法的另一实施例中，所述待匹配字段值包括目标索引字段的字段值和/或目标属性字段的字段值；

所述基于所述待匹配字段值对第一数据库中进行检索，包括：基于所述目标索引字段的字段值和/或所述目标属性字段的字段值对第一数据库中进行检索。

可选地，在本公开舆情信息查询方法的另一实施例中，所述得到第一检索结果之后，还包括：

对所述第一检索结果按照预设排序规则进行排序，并以每页可显示文章数量为单位，依次从排序后的第一检索结果中选取一个单位的文章标识，针对选取的一个单位的文章标识，执行所述基于所述第一检索结果中的文章标识，对第二数据库中进行检索的操作，以及所述分别对所述第一检索结果中的文章标识所标识文章的相关信息进行舆情分析的操作。

可选地，在本公开舆情信息查询方法的另一实施例中，所述分别对所述第一检索结果中的文章标识所标识文章的相关信息进行舆情分析，得到舆情分析结果，包括：

分别对所述选取的一个单位的文章标识所标识各文章的文章详情并行进行舆情分析，得到所述选取的一个单位的文章标识所标识各文章的舆情标签。

可选地，在本公开舆情信息查询方法的另一实施例中，所述分别对所述第一检索结果中的文章标识所标识文章的相关信息进行舆情分析，得到舆情分析结果，还包括：

分别对所述选取的一个单位的文章标识所标识各文章的文章详情并行进行情感色彩分析，得到所述选取的一个单位的文章标识所标识各文章的情感色彩；

显示所述选取的一个单位的文章标识所标识各文章的舆情标签和情感色彩。

基于所述第一检索结果，按照预设聚合字段对所述第一检索结果进行聚合处理，得到聚合结果；

显示所述聚合结果。

可选地，在本公开舆情信息查询方法的另一实施例中，所述聚合字段包括：任意一个或多个索引字段，和/或任意一个或多个属性字段。

可选地，在本公开舆情信息查询方法的另一实施例中，还包括：

按照预设周期或实时抓取预设站点上的文章，并根据所述第二数据表的结构对抓取到的文章进行分析，分别针对抓取到的各文章分配文章标识、获取各索引字段的字段值和文章详情，并将各文章的文章标识、各索引字段的字段值和文章详情对应存储到所述第二数据表中。

按照预设周期基于所述第二数据表对所述第一数据表进行更新。

可选地，在本公开舆情信息查询方法的另一实施例中，所述按照预设周期基于所述第二数据表对所述第一数据表进行更新，包括：

按照预设周期，根据所述第一数据表的结构，基于所述第二数据表中当前周期内各文章的文章标识、索引字段的字段值和文章详情，获取所述第一数据表中所需文章的文章标识、索引字段的字段值和属性字段的字段值并更新到所述第一数据表中。

根据本公开实施例的另一个方面，提供的一种舆情信息查询装置，包括：

接收模块，用于接收搜索请求，所述搜索请求中包括待匹配字段值；

第一检索模块，用于基于所述待匹配字段值对第一数据库中进行检索，得到第一检索结果，所述第一检索结果包括至少一个文章标识；

所述第一数据库，用于存储第一数据表，所述第一数据表包括至少一篇文章的文章标识、索引字段的字段值和属性字段的字段值，每个文章标识唯一标识一篇文章；

第二检索模块，用于基于所述第一检索结果中的文章标识，对第二数据库中进行检索，得到所述第一检索结果中文章标识所标识文章的相关信息；

所述第二数据库，用于存储第二数据表，所述第二数据表包括至少一篇文章的文章标识、索引字段的字段值和文章详情；

分析模块，用于分别对所述第一检索结果中文章标识所标识文章的相关信息进行舆情分析，得到舆情分析结果。

可选地，在本公开舆情信息查询装置的另一实施例中，所述第二数据表中索引字段的数量多于所述第一数据表中索引字段的数量；和/或，

可选地，在本公开舆情信息查询装置的另一实施例中，所述文章详情包括以下任意一项或多项：文章的链接，文章的来源站点、频道，文章的入库时间，热度，正文，正文内链接。

可选地，在本公开舆情信息查询装置的另一实施例中，所述待匹配字段值包括目标索引字段的字段值和/或目标属性字段的字段值；

所述第一检索模块，用于基于所述目标索引字段的字段值和/或所述目标属性字段的字段值对第一数据库中进行检索。

可选地，在本公开舆情信息查询装置的另一实施例中，所述第一检索模块，还用于对所述第一检索结果按照预设排序规则进行排序，并以每页可显示文章数量为单位，依次从排序后的第一检索结果中选取一个单位的文章标识发送给所述第二检索模块，以便所述第二检索模块针对选取的一个单位的文章标识，执行所述基于所述第一检索结果中的文章标识，对第二数据库中进行检索的操作，所述分析模块分别对所述第一检索结果中的文章标识所标识文章的相关信息进行舆情分析的操作。

可选地，在本公开舆情信息查询装置的另一实施例中，所述分析模块包括：

舆情分析单元，用于分别对所述选取的一个单位的文章标识所标识各文章的文章详情并行进行舆情分析，得到所述选取的一个单位的文章标识所标识各文章的舆情标签。

可选地，在本公开舆情信息查询装置的另一实施例中，所述分析模块还包括：

情感色彩分析单元，用于分别对所述选取的一个单位的文章标识所标识各文章的文章详情并行进行情感色彩分析，得到所述选取的一个单位的文章标识所标识各文章的情感色彩；

所述装置还包括：

显示模块，用于显示所述选取的一个单位的文章标识所标识各文章的舆情标签和情感色彩。

可选地，在本公开舆情信息查询装置的另一实施例中，还包括：

聚合模块，用于基于所述第一检索结果，按照预设聚合字段对所述第一检索结果进行聚合处理，得到聚合结果；

显示模块，用于显示所述聚合结果。

可选地，在本公开舆情信息查询装置的另一实施例中，所述聚合字段包括：任意一个或多个索引字段，和/或任意一个或多个属性字段。

抓取模块，用于按照预设周期或实时抓取预设站点上的文章，并根据所述第二数据表的结构对抓取到的文章进行分析，分别针对抓取到的各文章分配文章标识、获取各索引字段的字段值和文章详情，并将各文章的文章标识、各索引字段的字段值和文章详情对应存储到所述第二数据表中。

同步模块，用于按照预设周期基于所述第二数据表对所述第一数据表进行更新。

可选地，在本公开舆情信息查询装置的另一实施例中，所述同步模块，用于按照预设周期，根据所述第一数据表的结构，基于所述第二数据表中当前周期内各文章的文章标识、索引字段的字段值和文章详情，获取所述第一数据表中所需文章的文章标识、索引字段的字段值和属性字段的字段值并更新到所述第一数据表中。

根据本公开实施例的又一个方面，提供的一种舆情信息查询系统，包括：

客户端，用于接收搜索请求；以及显示舆情分析结果；

第一服务器，用于存储第一数据表，所述第一数据表包括至少一篇文章的文章标识、索引字段的字段值和属性字段的字段值，每个文章标识唯一标识一篇文章；以及基于所述搜索请求对第一数据库中进行检索，得到第一检索结果，所述第一检索结果包括至少一个文章标识；

第二服务器，用于存储第二数据表，所述第二数据表包括至少一篇文章的文章标识、索引字段的字段值和文章详情；基于所述第一检索结果中的文章标识，对第二数据库中进行检索，得到所述第一检索结果中文章标识所标识文章的相关信息；分别对所述第一检索结果中文章标识所标识文章的相关信息进行舆情分析，得到舆情分析结果。

根据本公开实施例的又一个方面，提供的一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述任一实施例所述的舆情信息查询方法。

根据本公开实施例的再一个方面，提供的一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述任一实施例所述的舆情信息查询方法。

基于本公开上述实施例提供的舆情信息查询方法和装置、系统、电子设备、存储介质，通过第一数据表存储文章的文章标识、索引字段的字段值和属性字段的字段值，通过第二数据表存储文章标识、索引字段的字段值和文章详情，接收到搜索请求后，可以根据搜索请求中的待匹配字段值对第一数据库中进行检索，得到包括至少一个文章标识的第一检索结果，然后基于第一检索结果中的文章标识对第二数据库中进行检索，得到第一检索结果中文章标识所标识文章的相关信息，再分别对第一检索结果中文章标识所标识文章的相关信息进行舆情分析，得到舆情分析结果，从而实现了对海量舆情数据的自动搜集和分析处理，无需依靠人工搜集、处理、监控，节省了人工成本，并实现了舆情信息的无遗漏搜集，提高了舆情信息的搜集效率和效果。另外，通过第二数据表存储文章标识、索引字段的字段值和文章详情，可以实现海量数据的在线存储。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同描述一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开舆情信息查询方法一个实施例的流程图。

图2为本公开舆情信息查询方法另一个实施例的流程图。

图3为本公开舆情信息查询装置一个实施例的结构示意图。

图4为本公开舆情信息查询装置另一个实施例的结构示意图。

图5为本公开舆情信息查询系统一个实施例的结构示意图。

图6为本公开电子设备一个应用实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

新闻舆情就是新闻媒体作为中间个体，对作为客体的企业、组织、社会管理者的相关事件产生和持有的态度，以及作为主观个体对此产生反应的综合分析及相应报道。新闻舆情是经过媒体验证和包装过的舆论，是带有客观性和准确性的舆论，是客观诚实的就一件事情进行的媒体分析和报道。这种新闻舆情是最有权威性的社会舆论，需要通过某种手段实时进行监测和分析。通过对新闻舆情的监测和分析，可以帮助政府和相关单位随时了解情况和及时制定出相应的解决方案。

图1为本公开舆情信息查询方法一个实施例的流程图。如图1所示，该实施例的舆情信息查询方法包括：

102，接收搜索请求，该搜索请求中包括待匹配字段值。

其中的待匹配字段值可以是索引字段的字段值，也可以是属性字段的字段值，或者可以同时包括索引字段的字段值和属性字段的字段值。

104，基于搜索请求中的待匹配字段值对第一数据库中进行检索，得到第一检索结果，该第一检索结果包括至少一个文章标识(ID)。

其中，第一数据库用于存储第一数据表，该第一数据表包括至少一篇文章的文章ID、索引字段的字段值和属性字段的字段值，每个文章ID唯一标识一篇文章，索引字段用于快速查询文章的字段，例如文章ID、主体、发布时间等等，第一数据表可以包括一个或多个索引字段。

106，基于第一检索结果中的文章ID，对第二数据库中进行检索，得到第一检索结果中文章ID所标识文章的相关信息。

其中，第二数据库用于存储第二数据表，第二数据表包括至少一篇文章的文章ID、索引字段的字段值和文章详情，第二数据表可以包括一个或多个索引字段。

其中，第二数据表中的索引字段与第一数据表中的索引字段可以相同，也可以不同，第二数据表中的索引字段与第一数据表中的索引字段可以根据业务需求进行设置和调整。

108，分别对第一检索结果中文章ID所标识文章的相关信息进行舆情分析，得到舆情分析结果。

基于本公开上述实施例提供的舆情信息查询方法，通过第一数据表存储文章的文章标识、索引字段的字段值和属性字段的字段值，通过第二数据表存储文章标识、索引字段的字段值和文章详情，接收到搜索请求后，可以基于搜索请求中的待匹配字段值对第一数据库中进行检索，得到包括至少一个文章标识的第一检索结果，然后基于第一检索结果中的文章标识对第二数据库中进行检索，得到第一检索结果中文章标识所标识文章的相关信息，再分别对第一检索结果中文章标识所标识文章的相关信息进行舆情分析，得到舆情分析结果，从而实现了对海量舆情数据的自动搜集和分析处理，无需依靠人工搜集、处理、监控，节省了人工成本，并实现了舆情信息的无遗漏搜集，提高了舆情信息的搜集效率和效果。另外，通过第二数据表存储文章标识、索引字段的字段值和文章详情，可以实现海量数据的在线存储。

在其中一些可能的实现方式中，第二数据表中索引字段的数量多于第一数据表中索引字段的数量。

在其中一些可能的实现方式中，文章详情例如可以包括但不限于以下任意一项或多项：文章的链接，文章的来源站点、频道，文章的入库时间，热度，正文，正文内链接，等等。

目前通常采用基于传统MySQL架构的数据库来进行数据存储，无法支撑大数据量的业务场景，在数据存储和查询性能上都会遇到瓶颈，而新闻数据量庞大，每天可能有上百条新闻数据，采用基于传统MySQL架构的数据库无法满足新闻数据的存储需求。本公开实施例中，第二数据表可以通过表格存储(Table Store)的方式来存储文章的相关信息，表格存储(Table Store)是构建在阿里云飞天分布式系统之上的NoSQL架构的数据存储服务，是一种非关系型的数据库，可以提供海量结构化数据的存储和实时访问，随着存储数据量的不断增大，表格存储可以设置并调整数据分区从而为该表配置更多的存储，单表的数据量理论没有上限，从而能够实现长期支持海量新闻数据的存储，相对于传统MySQL架构的数据库，可以很好地支撑新闻舆情分析的业务需求。

另外，第二数据表中可以采用较多的索引字段，从而在支撑海量数据存储的情况下，可以基于各索引字段实现复杂多样的检索，具备高效的查询效率。

实际应用中，可以在阿里云控制台的表格存储(TableStore)模块中新建实例，来新建数据表(即上述第二数据表)，根据新闻舆情分析所需的数据结构新建索引字段，完成数据表结构的设计。由于不同存储容量和查询性能需要的成本不同，本公开实施例中可以按需调整实例配置，确定第二数据表的合适的容量和查询性能，从而兼顾成本与性能。

在其中一些可能的实现方式中，第一数据表中的索引字段可以包括但不限于：主体，发布时间。其中的主体字段可以包括但不限于以下任意一项或多项：企业、组织、人员等等。

在其中一些可能的实现方式中，第一数据表中的属性字段可以包括但不限于以下任意一项或多项：时间范围，事件分类，过滤筛选字段。其中的过滤筛选字段为用于对满足搜索请求中其他条件的检索结果进行筛选过滤的字段，该过滤筛选字段例如可以为具体的主体名称、时间、舆情标签等任意条件。其中的事件分类为文章记录事件所属的分类，例如可以包括但不限于以下任意一项或多项：违法乱纪、产品/生产、信誉/成果、资本运作、财务、经营、人事等等。

本公开实施例中，第一数据表可以采用阿里云的开放搜索服务(OpenSearch)架构实现，OpenSearch架构支持应用结构、数据处理、查询分析、以及搜索结果两阶段排序定制等性能，可以支持各种查询需求和对查询结果的聚合需求，从而能够支持新闻舆情分析业务中各种复杂的查询聚合需求。

实际应用中，可以在阿里云控制台-开放搜索(OpenSearch)模块中新建实例，来新建数据表(即上述第一数据表)，仅将用于搜索的少数几个索引字段作为第一数据表中的新建字段即可；根据搜索和/或聚合业务等需求，指定索引字段列表、属性字段列表，完成第一数据表结构的设计。由于不同存储容量和计算资源需要的成本不同，本公开实施例中可以按需调整实例配置，合理第一数据表的合适的容量和计算资源，从而兼顾成本与性能。

在其中一些可能的实现方式中，102接收的搜索请求中的待匹配字段值可以包括目标索引字段的字段值和/或目标属性字段的字段值。其中的目标索引字段为用户选择的索引字段，目标索引字段的字段值为用户选择的索引字段的字段值，例如具体的公司名称、组织名称、人员姓名等等。目标属性字段为用户选择的属性字段，目标属性字段的字段值为用户选择的属性字段的字段值，例如具体的时间范围、事件分类等等。相应的，104中，基于目标索引字段的字段值和/或目标属性字段的字段值对第一数据库中进行检索。

另外，在本公开舆情信息查询方法的另一个实施例中，104之后，还包括：对第一检索结果按照预设排序规则(例如按照时间倒序，即按照时间发布由晚到早的顺序)进行排序，并以每页可显示文章数量为单位，依次从排序后的第一检索结果中选取一个单位的文章ID，针对选取的一个单位的文章ID，执行106和108的操作。例如，每页可显示的文章数量为15篇，则将第一检索结果按时间倒序排序后，每次选取15篇文章执行106和108的操作，从而实现了对第一检索结果的传输和对第二数据库的检索流水作业，提升了整体的检索效率。

相应地，在其中一些可能的实现方式中，108中，分别对选取的一个单位的文章ID所标识各文章的文章详情并行进行舆情分析，得到选取的一个单位的文章ID所标识各文章的舆情标签。

另外，在另一些可能的实现方式中，108中，还可以分别对选取的一个单位的文章ID所标识各文章的文章详情并行进行情感色彩分析，得到选取的一个单位的文章ID所标识各文章的情感色彩；显示选取的一个单位的文章ID所标识各文章的文章名称、链接、舆情标签和情感色彩。

其中，可以分析文章中是否出现预设字词、以及出现预设字词的次数，按照预设规则确定相应的情感色彩。例如，文章中出现预设字词“增长”3次，表示积极感情出现3次，加3分；出现预设字词“破产”5次，表示消极感情出现5次，减5分，累计出现所有预设字词对应的分数，得到总分，选择预设与总分对应的颜色作为该文章的情感色彩。

另外，在本公开舆情信息查询方法的又一个实施例中，104之后，还可以基于第一检索结果，按照预设聚合字段对第一检索结果进行聚合处理，得到聚合结果，该聚合结果可以包括第一检索结果中同一信息出现的次数和/或该同一信息链接的文章和/或其舆情分析结果；显示该聚合结果。其中的预设聚合字段为预先设定的需要对第一检索结果中同一信息进行聚合的字段，聚合字段例如可以包括但不限于：任意一个或多个索引字段，和/或任意一个或多个属性字段，例如公司、组织、个人等主体。例如，对第一检索结果中的公司和个人分别进行聚合，可以得到同一公司、同一个人的聚合结果，例如ABC公司出现的次数或者文章数量、以及出现该ABC公司的文章和/或其舆情分析结果。另外，得到聚合结果后，还可以基于聚合字段的字段值按照由高到低的顺序进行排序后再显示排序后的聚合结果。例如，A公司出现200次、B公司出现150次、C公司出现69次。

在上述实施例中，第二数据表可以提供海量数据的在线存储，如果仅基于第二数据表进行复杂的条件查询，效率较低，本公开实施例中，采用第一数据表结合第二数据表(TableStore+OpenSearch)的混合架构进行新闻数据的存储，既可以实现海量新闻数据的存储，还可以支持复杂的查询、过滤、排序业务需求，且在海量数据业务场景里依然保持极高的查询效率；并且实现了检索结果的聚合功能，解决了单一使用表格存储方式无法完成聚合业务的问题。

另外，操作106中，还可以基于第一检索结果中的各文章ID，从第二数据库中检索该文章ID在内容上较为相关(例如包括搜索请求中索引字段的字段值相近或类似的字段值)的文章作为用户感兴趣新闻，和/或，按照预设方式从第二数据库中获取推荐文章(例如当前热点最高的文章)作为推荐文章，显示舆情分析结果时，还可以同时显示推荐文章和/或用户感兴趣新闻。

另外，通过操作106得到第一检索结果中文章ID所标识文章的相关信息时，还可以根据预设敏感字词对第一检索结果中文章ID所标识文章的相关信息(例如文章详情)进行过滤，然后再执行108的操作，使得最终显示的文章的相关想信息中不包含该敏感字词。

另外，在本公开上述舆情信息查询方法的实施例之前，还可以包括对第一数据表和第二数据表进行更新的操作。

图2为本公开舆情信息查询方法另一个实施例的流程图。如图2所示，与图1所示的实施例相比，该实施例还可以包括：

202，按照预设周期或实时抓取预设站点上的文章，并根据第二数据表的结构对抓取到的文章进行分析，分别针对抓取到的各文章分配文章ID、获取各索引字段的字段值和文章详情，并将各文章的文章ID、各索引字段的字段值和文章详情对应存储到第二数据表中。

其中，在一个可选示例中，第二数据表中，可以按照抓取到的文章的入库时间分配文章ID并按照文章ID进行排序存储。

进一步地，在图2所示实施例中，202之后，还可以包括：

204，按照预设周期基于第二数据表对第一数据表进行更新。

在其中一些可能的实现方式中，按照预设周期基于第二数据表对第一数据表进行更新，可以包括：

按照预设周期，根据第一数据表的结构，基于第二数据表中当前周期内各文章的文章ID、索引字段的字段值和文章详情，获取第一数据表中所需文章的文章ID、索引字段的字段值和属性字段的字段值并更新到第一数据表中。

具体实现中，可以在每个周期基于第二数据表更新第一数据表时，对本次更新的内容打时间戳，下一个周期基于第二数据表更新第一数据表时，可以确定该时间戳之后的内容为待更新内容。或者，也可以对每个周期更新到的第二数据表中的最后一篇文章打标记，下一个周期基于第二数据表更新第一数据表时，可以确定该标记之后的内容为待更新内容。或者，也可以记录每次更新到的第二数据表中的最后一篇文章ID，下一个周期基于第二数据表更新第一数据表时，可以确定该文章ID之后的内容为待更新内容。另外，本公开实施例也可以采用其他方式确定每个周期第二数据表中需要更新到第一数据表中的内容，本公开实施例对此不做限制。

本公开实施例中，可利用阿里云控制台-数据工厂(DataWorks)服务实现第一数据表和第二数据表中数据的初始化同步和后续新增数据的同步。DataWorks基于MaxCompute作为核心的计算、存储引擎，提供海量数据的离线加工分析、数据挖掘等功能，可从不同的数据存储引入数据，对数据进行传输、转换和集成，最后将处理好的数据同步至其他数据系统。可以在DataWorks中新建工作空间，新建数据集成业务流程，创建全量同步脚本实现第二数据表到第一数据表中初次全量数据的同步，创建增量脚本及配置预设周期，定时实现后续第二数据表到第一数据表中增量数据的自动同步。

以下以一个具体实例的应用为例，对本公开实施例进行进一步详细说明：

周期性抓取预设站点上的新闻(即上述文章)，并根据第二数据表的结构对抓取到的文章进行分析，分别提取出新闻中涉及的公司、组织、人员信息，并根据预先分配的公司标识、组织标识、人员标识，分别将上述公司、组织、人员信息作为字段值存入第二数据表中的对应索引字段，这些索引字段的字段值同步到第一数据表用于检索；其中的公司标识、组织标识、人员标识可以预先分配，用于分别对应唯一标识一个公司、组织、人员；

接收到搜索请求时，基于搜索请求中目标索引字段的字段值和/或目标属性字段的字段值，例如事件分类、时间范围、公司、组织、人员的具体信息，对第一数据库中进行检索和过滤筛选，得到第一检索结果；

分别按照公司、组织、人员为聚合字段对第一检索结果进行聚合处理，得到聚合结果；

基于第一检索结果中的文章ID对第二数据库中进行检索，得到第一检索结果中文章ID对应的新闻详情；

分别对第一检索结果中文章ID对应的新闻详情进行舆情分析，得到每篇新闻的舆情分析结果，包括舆情标签、情感色彩、摘要、出现次数位于前三位的公司、组织、人员信息；

按照预设排序规则，例如按照发布时间倒序排序，最新的新闻在上面，后续新闻的排列位置按照发布时间由晚到早的顺序依次往后，显示上述舆情分析结果和聚合结果，其中，聚合结果中可以仅显示出现次数最多的前10位公司、组织、人员信息。

由此，本应用实施例实现了以企业/事业单位/投资机构/品牌为主体的相关新闻搜索和舆情分析。

基于本公开实施例，实现了海量新闻数据的在线存储，可以实现以企业/事业单位/投资机构/品牌为主体的相关新闻和热点新闻搜索，可以实现新闻涉及相关公司、组织、人员的前几位(topn)聚合，可以根据事件分类/时间范围/相关公司组织人员进行过滤筛选、新闻详情页舆情标签的提取及相关新闻/最热新闻/可能感兴趣新闻的推荐。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图3为本公开舆情信息查询装置一个实施例的结构示意图。该实施例的舆情信息查询装置可用于实现本公开上述各舆情信息查询方法实施例。如图3所示，该实施例的装置包括：接收模块，第一检索模块，第一数据库，第二检索模块，第二数据库和分析模块。其中：

接收模块，用于接收搜索请求，该搜索请求中包括待匹配字段值。

第一检索模块，用于基于搜索请求中的待匹配字段值对第一数据库中进行检索，得到第一检索结果，第一检索结果包括至少一个文章ID。

在其中一些可能的实现方式中，搜索请求中的待匹配字段可以包括目标索引字段的字段值和/或目标属性字段的字段值。相应地，第一检索模块，用于基于该目标索引字段的字段值和/或目标属性字段的字段值对第一数据库中进行检索。

第一数据库，用于存储第一数据表，第一数据表包括至少一篇文章的文章ID、索引字段的字段值和属性字段的字段值，每个文章ID唯一标识一篇文章。

第二检索模块，用于基于第一检索结果中的文章ID，对第二数据库中进行检索，得到第一检索结果中文章ID所标识文章的相关信息。

第二数据库，用于存储第二数据表，第二数据表包括至少一篇文章的文章ID、索引字段的字段值和文章详情。

分析模块，用于分别对第一检索结果中文章ID所标识文章的相关信息进行舆情分析，得到舆情分析结果。

基于本公开上述实施例提供的舆情信息查询装置，通过第一数据表存储文章的文章标识、索引字段的字段值和属性字段的字段值，通过第二数据表存储文章标识、索引字段的字段值和文章详情，接收到搜索请求后，可以基于搜索请求中的待匹配字段值对第一数据库中进行检索，得到包括至少一个文章标识的第一检索结果，然后基于第一检索结果中的文章标识对第二数据库中进行检索，得到第一检索结果中文章标识所标识文章的相关信息，再分别对第一检索结果中文章标识所标识文章的相关信息进行舆情分析，得到舆情分析结果，从而实现了对海量舆情数据的自动搜集和分析处理，无需依靠人工搜集、处理、监控，节省了人工成本，并实现了舆情信息的无遗漏搜集，提高了舆情信息的搜集效率和效果。另外，通过第二数据表存储文章标识、索引字段的字段值和文章详情，可以实现海量数据的在线存储。

在其中一些可能的实现方式中，第一数据表中的属性字段可以包括但不限于以下任意一项或多项：时间范围，事件分类，过滤筛选字段。

另外，在本公开舆情信息查询装置的另一个实施例中，第一检索模块，还可用于对第一检索结果按照预设排序规则进行排序，并以每页可显示文章数量为单位，依次从排序后的第一检索结果中选取一个单位的文章ID发送给第二检索模块，以便第二检索模块针对选取的一个单位的文章ID，执行基于第一检索结果中的文章ID，对第二数据库中进行检索的操作，分析模块分别对第一检索结果中的文章ID所标识文章的相关信息进行舆情分析的操作。

在其中一些可能的实现方式中，分析模块可以包括：舆情分析单元，用于分别对选取的一个单位的文章ID所标识各文章的文章详情并行进行舆情分析，得到选取的一个单位的文章ID所标识各文章的舆情标签。

可选地，在另一些可能的实现方式中，分析模块还可以包括：情感色彩分析单元，用于分别对选取的一个单位的文章ID所标识各文章的文章详情并行进行情感色彩分析，得到选取的一个单位的文章ID所标识各文章的情感色彩。

图4为本公开舆情信息查询装置另一个实施例的结构示意图。如图4所示，在本公开舆情信息查询装置的另一个实施例中，还可以包括：显示模块，用于显示选取的一个单位的文章ID所标识各文章的舆情标签和情感色彩。

可选地，再参见图4，在本公开舆情信息查询装置的又一个实施例中，还可以包括：聚合模块，用于基于第一检索结果，按照预设聚合字段对第一检索结果进行聚合处理，得到聚合结果。相应地，显示模块还可用于显示该聚合结果。

其中的预设聚合字段为预先设定的需要对第一检索结果中同一信息进行聚合的字段，聚合字段例如可以包括但不限于：任意一个或多个索引字段，和/或任意一个或多个属性字段，例如公司、组织、个人等主体。

可选地，再参见图4，在本公开舆情信息查询装置的再一个实施例中，还可以包括：抓取模块，用于按照预设周期或实时抓取预设站点上的文章，并根据第二数据表的结构对抓取到的文章进行分析，分别针对抓取到的各文章分配文章ID、获取各索引字段的字段值和文章详情，并将各文章的文章ID、各索引字段的字段值和文章详情对应存储到第二数据表中。

可选地，再参见图4，在本公开舆情信息查询装置的再一个实施例中，还可以包括：同步模块，用于按照预设周期基于第二数据表对第一数据表进行更新。

在其中一些可能的实现方式中，同步模块，用于按照预设周期，根据第一数据表的结构，基于第二数据表中当前周期内各文章的文章ID、索引字段的字段值和文章详情，获取第一数据表中所需文章的文章ID、索引字段的字段值和属性字段的字段值并更新到第一数据表中。

图5为本公开舆情信息查询系统一个实施例的结构示意图。该实施例的舆情信息查询系统可用于实现本公开上述各舆情信息查询方法实施例。如图5所示，该实施例的系统包括：客户端，第一服务器和第二服务器。其中：

客户端，用于接收搜索请求；以及显示舆情分析结果。

第一服务器，用于存储第一数据表，所述第一数据表包括至少一篇文章的文章标识、索引字段的字段值和属性字段的字段值，每个文章标识唯一标识一篇文章；以及基于所述搜索请求对第一数据库中进行检索，得到第一检索结果，所述第一检索结果包括至少一个文章标识。

在其中一些可能的实现方式中，第一服务器可以包括上述图3-图4任一实施例中的第一检索模块和第一数据库，第一检索模块和第一数据库的具体实现可以参考上述实施例，此处不再赘述。

在其中一些可能的实现方式中，第二服务器可以包括上述图3-图4任一实施例中的第二检索模块和第二数据库，第二检索模块和第二数据库的具体实现可以参考上述实施例，此处不再赘述。

基于本公开上述实施例提供的舆情信息查询系统，通过第一数据表存储文章的文章标识、索引字段的字段值和属性字段的字段值，通过第二数据表存储文章标识、索引字段的字段值和文章详情，接收到搜索请求后，可以对第一数据库中进行检索，得到包括至少一个文章标识的第一检索结果，然后基于第一检索结果中的文章标识对第二数据库中进行检索，得到第一检索结果中文章标识所标识文章的相关信息，再分别对第一检索结果中文章标识所标识文章的相关信息进行舆情分析，得到舆情分析结果，从而实现了对海量舆情数据的自动搜集和分析处理，无需依靠人工搜集、处理、监控，节省了人工成本，并实现了舆情信息的无遗漏搜集，提高了舆情信息的搜集效率和效果。另外，通过第二数据表存储文章标识、索引字段的字段值和文章详情，可以实现海量数据的在线存储。

另外，本公开实施例还提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行存储器中存储的计算机程序，且计算机程序被执行时，实现本公开上述任一实施例的舆情信息查询方法。

图6为本公开电子设备一个应用实施例的结构示意图。下面，参考图6来描述根据本公开实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。如图6所示，电子设备包括一个或多个处理器和存储器。

处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器可以运行所述程序指令，以实现上文所述的本公开的各个实施例的舆情信息查询方法以及/或者其他期望的功能。

在一个示例中，电子设备还可以包括：输入装置和输出装置，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备或第二设备时，该输入装置可以是显示屏、键盘、鼠标等，用于捕捉输入信息。在该电子设备是单机设备时，该输入装置可以是通信网络连接器，用于从第一设备和第二设备接收所采集的输入信号。

该输出装置可以向外部输出各种信息，该输出设备可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图6中仅示出了该电子设备中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。

另外，本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现本公开上述任一实施例的舆情信息查询方法。

另外，本公开实施例还提供了一种计算机程序，包括计算机指令，当计算机指令在设备的处理器中运行时，实现本公开上述任一实施例的本公开舆情信息查询方法。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本公开的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置、设备。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种舆情信息查询方法，其特征在于，包括：

接收搜索请求，所述搜索请求中包括待匹配字段值；

2.根据权利要求1所述的方法，其特征在于，所述第二数据表中索引字段的数量多于所述第一数据表中索引字段的数量；和/或，

3.根据权利要求1或2所述的方法，其特征在于，所述文章详情包括以下任意一项或多项：文章的链接，文章的来源站点、频道，文章的入库时间，热度，正文，正文内链接。

4.根据权利要求1-3任一所述的方法，其特征在于，所述待匹配字段值包括目标索引字段的字段值和/或目标属性字段的字段值；

5.根据权利要求1-4任一所述的方法，其特征在于，所述得到第一检索结果之后，还包括：

6.根据权利要求5所述的方法，其特征在于，所述分别对所述第一检索结果中的文章标识所标识文章的相关信息进行舆情分析，得到舆情分析结果，包括：

7.根据权利要求6所述的方法，其特征在于，所述分别对所述第一检索结果中的文章标识所标识文章的相关信息进行舆情分析，得到舆情分析结果，还包括：

8.根据权利要求1-7任一所述的方法，其特征在于，所述得到第一检索结果之后，还包括：

显示所述聚合结果。

9.根据权利要求8所述的方法，其特征在于，所述聚合字段包括：任意一个或多个索引字段，和/或任意一个或多个属性字段。

10.根据权利要求1-9任一所述的方法，其特征在于，还包括：

11.根据权利要求10所述的方法，其特征在于，还包括：

12.根据权利要求11所述的方法，其特征在于，所述按照预设周期基于所述第二数据表对所述第一数据表进行更新，包括：

13.一种舆情信息查询装置，其特征在于，包括：

14.一种舆情信息查询系统，其特征在于，包括：

客户端，用于接收搜索请求，所述搜索请求中包括待匹配字段值；以及显示舆情分析结果；

第一服务器，用于存储第一数据表，所述第一数据表包括至少一篇文章的文章标识、索引字段的字段值和属性字段的字段值，每个文章标识唯一标识一篇文章；以及基于所述待匹配字段值对第一数据库中进行检索，得到第一检索结果，所述第一检索结果包括至少一个文章标识；

15.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述权利要求1-12任一所述的方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现上述权利要求1-12任一所述的方法。