CN102968452A

CN102968452A - 网络舆情信息统计方法及系统

Info

Publication number: CN102968452A
Application number: CN2012104144455A
Authority: CN
Inventors: 杨睿尘
Original assignee: Beijing Tengyi Science & Technology Development Co Ltd
Current assignee: Beijing Tengyi Science & Technology Development Co Ltd
Priority date: 2012-10-25
Filing date: 2012-10-25
Publication date: 2013-03-13

Abstract

本发明提出一种网络舆情信息统计方法及系统。其中，方法包括以下步骤：输入需要统计的主题；通过网络爬虫从网页和微博抓取与主题相关的数据并保存；将抓取数据进行统计生成统计数据；根据统计数据生成统计报表。根据本发明实施例的方法，通过对网页和微博数据的抓取与统计得出了获得统计数据，并且对数据统计与展现的并行进行提高了数据统计效率和速度，同时生成统计报表方便了用户。

Description

网络舆情信息统计方法及系统

技术领域

本发明涉及计算机技术领域，特别涉及一种网络舆情信息统计方法及系统。

背景技术

随着互联网应用的广泛普及，数据的海量性在各方面的体现越来越突出，从网络流量数据，到移动通信用户行为记录；从搜索引擎的日志数据，到银行的客户操作记录，等。这些海量信息与生俱来的数字化与网络化性质，在给人们带来了改善服务机遇的同时也提出了许多新的技术挑战，如何从这些海量的数据里方便快捷的找到新的信息，如何从这里面统计分析得到我们想要的数据。

目前使用的普遍采用的方法是直接根据需求从网络获取相关数据进行分析处理的方法。

解决海量数据统计速度和效率瓶颈问题

目前所使用的一定程度上可以得出相关信息，但是存在如下缺陷：

（1）在面对海量的数据时，找不到头绪和重点统计效率低。

（2）展现速度慢不能及时快速呈现在用户面前。

发明内容

本发明的目的旨在至少解决上述的技术缺陷之一。

为达到上述目的，本发明一方面的实施例提出一种网络舆情信息统计方法，包括以下步骤：S1：输入需要统计的主题；S2：通过网络爬虫从网页和微博抓取与所述主题相关的数据并保存；S3：将抓取所述数据进行统计生成统计数据；以及S4：根据所述统计数据生成统计报表。

根据本发明实施例的方法，通过对网页和微博数据的抓取与统计得出了获得统计数据，并且对数据统计与展现的并行进行提高了数据统计效率和速度，同时生成统计报表方便了用户。

在本发明的一个实施例中，所述方法还包括：将所述统计报表进行保存，并呈现给用户。

在本发明的一个实施例中，所述步骤S3具体包括：S31：设置数据的统计方式；以及S32：根据统计方式将数据中将相关联的数据进行整合并进行统计。

在本发明的一个实施例中，所述主题为情感信息、热门话题、转载率排名、点击率排名中的一种或者用户自定义的主题。

为达到上述目的，本发明的实施例另一方面提出一种网络舆情信息统计系统，包括：输入模块，用于输入需要统计的主题；抓取模块，用于通过网络爬虫从网页和微博抓取与所述主题相关的数据并保存；统计模块，将抓取所述数据进行统计生成统计数据；以及报表模块，用于根据所述统计数据生成统计报表。

根据本发明实施例的系统，通过对网页和微博数据的抓取与统计得出了获得统计数据，并且对数据统计与展现的并行进行提高了数据统计效率和速度，同时生成统计报表方便了用户。

本发明的一个实施例中，所述系统还包括：保存模块，用于将所述统计报表进行保存，并呈现给用户。

本发明的一个实施例中，所述统计模块具体包括：设置单元，用于设置数据的统计方式以及；统计单元，用于根据统计方式将数据中将相关联的数据进行整合并进行统计。

本发明的一个实施例中，所述主题为情感信息、热门话题、转载率排名、点击率排名中的一种或者用户自定义的主题。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的网络舆情信息统计方法的流程图；

图2为根据本发明另一个实施例的网络舆情信息统计方法的流程图；

图3为根据本发明另一个实施例的情感统计报表图；

图4为根据本发明一个实施例的网络舆情信息统计系统的框架图；

图5为根据本发明一个实施例的统计模块的框架图；以及

图6为根据本发明另一个实施例的网络舆情信息统计系统的框架图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

图1为本发明实施例的基于视频的广告发现方法的流程图。如图1所示，根据本发明实施例的基于视频的广告发现方法，包括以下步骤：

步骤S101，输入需要统计的主题。

具体地，用户在输入界面输入需要统计或感兴趣的主题，其中，主题为情感信息、热门话题、转载率排名、点击率排名中的一种或者用户自定义的主题。

步骤S102，通过网络爬虫从网页和微博抓取与主题相关的数据并保存。

具体地，在获取需要统计的主题后，通过网络爬虫从互联网抓取与主题相关信息。在获取过程当中，同时将于主题相关的信息与该信息的来源、抓取时间等进行记录并保存到网页数据库中。微博抽取涉及到目前用户量较大的腾讯微博、新浪微博、搜狐微博和网易微博，在抓取到与主题相关的信息后同信息的来抓取时间等进行记录保存到微博数据库中。

在本发明的一个实施例中，网页数据的抓取与微博数据的抓取并行进行分别保存到网页数据库与微博数据库中之后，交由总的数据库进行保存管理而网页数据库与微博数据库中的信息则进行删除清空处理。

根据本发明实施例的方法，通过对处理后数据库信息的删除，提高了数据交互的速度，进而提高了效率。

步骤S103，将抓取数据进行统计生成统计数据。

具体地，首先设置数据的统计方式，其中，数据的统计方式包括按月统计、按日统计和按小时统计，并设置统计周期，其中，统计周期为每隔多长时间获取一次统计数据的时间。例如，统计方式为按月统计、统计周期为一个月，则根据所设置的统计方式和统计周期从数据库中提取相关数据并进行整合及统计生成统计数据。例如，所设置为按月并且周期为一个月，则根据数据的周期从数据库中提取数据并按日进行统计生成统计数据。

在本发明的一个实施例中，计算机处于空闲时间进行统计，而在繁忙时暂停统计。需要说明的是，由于所要处理的是海量的网络数据需要大量的时间进行处理因此在所设置的周期内统计出来的数据位中间数据而不是对整个海量的网络数据进行处理后的数据。

步骤S104，根据统计数据生成统计报表。

在本发明的一个实施例中，所生成的统计数据是关于主题的一些文字数据，根据这些文字数据以及统计方式和统计周期的设置，将文字数据处理生成统计报表。

根据本发明实施例的方法，通过对网页和微博数据的抓取与统计得出统计数据，并且通过数据统计与展现的并行进行提高了数据统计效率和速度，同时生成统计报表方便了用户。

图2为根据本发明另一个实施例的网络舆情信息统计方法的流程图。如图2所示，根据本发明实施例的网络舆情信息统计方法，包括以下步骤：

步骤S201，输入需要统计的主题。

步骤S202，通过网络爬虫从网页和微博抓取与主题相关的数据并保存。

步骤S203，将抓取数据进行统计生成统计数据。

在本发明的一个实施例中，计算机处于空闲时间进行统计，而在繁忙时暂停统计。需要说明的是，由于所要处理的是海量的网络数据需要大量的时间进行处理，因此在所设置的周期内统计出来的数据位中间数据而不是对整个海量的网络数据进行处理后的数据。

步骤S204，根据统计数据生成统计报表。

步骤S205，将统计报表进行保存并呈现给用户。

具体地，将生成的统计报表首先保存到后台数据库中，并通过图像界面呈现给用户。

在本发明的一个实施例中，统计与展现并行执行，可以先从海量数据中的内容分成多个部分并定时统计出一部分得中间结果，并将中间结果存储在数据库同时呈现给用户，例如，图3为情感统计报表图。

根据本发明实施例的方法，通过采用统计与展现并行执行的方式，减少了用户的等待时间，同时使用户了解数据统计情况方便了用户。

图4为本发明实施例的网络舆情信息统计系统的结构框图，如图4所示，根据本发明实施例的网络舆情信息统计系统包括输入模块100、抓取模块200、统计模块300和报表模块400。

具体地，输入模块100用于输入需要统计的主题。用户在输入界面输入需要统计或感兴趣的主题，其中，主题为情感信息、热门话题、转载率排名、点击率排名中的一种或者用户自定义的主题。

抓取模块200用于通过网络爬虫从网页和微博抓取与主题相关的数据并保存。通过网络爬虫从互联网抓取与主题相关信息。在获取过程当中，同时将于主题相关的信息与该信息的来源、抓取时间等进行记录并保存到网页数据库中。微博抽取涉及到目前用户量较大的腾讯微博、新浪微博、搜狐微博和网易微博，在抓取到与主题相关的信息后同信息的来抓取时间等进行记录保存到微博数据库中。

根据本发明实施例的系统，通过对处理后数据库信息的删除，提高了数据交互的速度，进而提高了效率。

统计模块300将抓取数据进行统计生成统计数据。

图5为本发明实施例的网络舆情信息统计系统的结构框图，如图5所示，根据本发明实施例的网络舆情信息统计系统具体包括设置单元310和统计单元320。

更具体地，设置单元310用于设置数据的统计方式。设置数据的统计方式，其中，数据的统计方式包括按月统计、按日统计和按小时统计，并设置统计周期，其中，统计周期为每隔多长时间获取一次统计数据的时间。

统计单元320用于根据统计方式将数据中将相关联的数据进行整合并进行统计。

根据所设置的统计方式和统计周期从数据库中提取相关数据并进行整合及统计生成统计数据。例如，所设置为按月并且周期为一个月，则根据数据的周期从数据库中提取数据并按日进行统计生成统计数据。

在本发明的一个实施例中，计算机处于空闲时间进行统计，而在繁忙时暂统计。需要说明的是，由于所要处理的是海量的网络数据需要大量的时间进行处理，因此在所设置的周期内统计出来的数据位中间数据而不是对整个海量的网络数据进行处理后的数据。

报表模块400用于根据统计数据生成统计报表。所生成的统计数据是关于主题的一些文字数据，根据所这些文字数据以及统计方式和统计周期的设置，将文字数据处理生成统计报表。

图6为本发明另一个实施例的网络舆情信息统计系统的结构框图，如图6所示，根据本发明实施例的网络舆情信息统计系统还包括保存模块500用于将统计报表进行保存，并呈现给用户。

在本发明的一个实施例中，将生成的统计报表首先保存到后台数据库中，并通过图像界面呈现给用户。由于这些数据对时效性要求不高，但是对速度要求比较高，因此统计与展现并行执行，可以先从海量数据中的内容分成多个部分并定时统计出一部分得中间结果，并将中间结果存储在数据库同时呈现给用户

根据本发明实施例的系统，通过采用统计与展现并行执行的方式，减少了用户的等待时间，同时使用户了解数据统计情况方便了用户。

应当理解，本发明的系统实施例中的各个模块和单元的具体操作过程可与方法实施例中的描述相同，此处不再详细描述。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种网络舆情信息统计方法，其特征在于，包括以下步骤：

S1：输入需要统计的主题；

S2：通过网络爬虫从网页和微博抓取与所述主题相关的数据并保存；

S3：将抓取所述数据进行统计生成统计数据；以及

S4：根据所述统计数据生成统计报表。

2.根据权利要求1所述的网络舆情信息统计方法，其特征在于，还包括：

S5：将所述统计报表进行保存，并呈现给用户。

3.根据权利要求1所述的网络舆情信息统计方法，其特征在于，所述步骤S3具体包括：

S31：设置数据的统计方式；以及

S32：根据统计方式将数据中将相关联的数据进行整合并进行统计。

4.根据权利要求1所述的网络舆情信息统计方法，其特征在于，所述主题为情感信息、热门话题、转载率排名、点击率排名中的一种或者用户自定义的主题。

5.一种网络舆情信息统计系统，其特征在于，包括：

输入模块，用于输入需要统计的主题；

抓取模块，用于通过网络爬虫从网页和微博抓取与所述主题相关的数据并保存；

统计模块，将抓取所述数据进行统计生成统计数据；以及

报表模块，用于根据所述统计数据生成统计报表。

6.根据权利要求6所述的网络舆情信息统计系统，其特征在于，还包括：

保存模块，用于将所述统计报表进行保存，并呈现给用户。

7.根据权利要求6所述的网络舆情信息统计系统，其特征在于，所述统计模块具体包括：

设置单元，用于设置数据的统计方式；以及

统计单元，用于根据统计方式将数据中将相关联的数据进行整合并进行统计。

8.根据权利要求5所述的网络舆情信息统计系统，其特征在于，所述主题为情感信息、热门话题、转载率排名、点击率排名中的一种或者用户自定义的主题。