CN102945270A

CN102945270A - 并行化分布式网络舆情数据管理方法及系统

Info

Publication number: CN102945270A
Application number: CN2012104246336A
Authority: CN
Inventors: 杨睿尘
Original assignee: Beijing Tengyi Science & Technology Development Co Ltd
Current assignee: Beijing Tengyi Science & Technology Development Co Ltd
Priority date: 2012-10-30
Filing date: 2012-10-30
Publication date: 2013-02-27
Anticipated expiration: 2032-10-30
Also published as: CN102945270B

Abstract

本发明提出一种并行化分布式网络舆情数据管理方法及系统，其中该方法包括：对互联网数据进行抓取；对互联网数据进行抽取；存储和展示抓取和抽取得到的互联网舆情数据；以及对互联网舆情数据的索引和查询进行优化。本发明的方法和系统具有效率较高的优点。

Description

并行化分布式网络舆情数据管理方法及系统

技术领域

本发明属于计算机应用技术领域和信息技术领域，特别涉及一种并行化分布式网络舆情数据管理方法及系统。

背景技术

随着互联网应用的广泛普及，数据的海量性在各方面的体现越来越突出，从网络流量数据，到移动通信用户行为记录；从搜索引擎的日志数据，到银行的客户操作记录，等等。这些海量信息与生俱来的数字化与网络化性质，人们在共享海量网络信息的同时，也面临着海量数据存储、访问和管理问题。

以往当人们需要存储结构化数据时，数据库通常是首选的解决方案，在数据规模不大时，其可以提供便捷、稳定的服务。然而随着数据量的增长，特别是当Web时代来临后，针对动辄TB级的庞大数据，海量数据的存储和访问成为了系统设计的瓶颈问题。

发明内容

本发明旨在解决海量数据的存储和访问数据库设计瓶颈问题，并对数据库及数据操作进行优化设计。

本发明的一个目的在于提出一种效率较高的并行化分布式网络舆情数据管理方法。

本发明的并行化分布式网络舆情数据管理方法，包括：对互联网数据进行抓取；对所述互联网数据进行抽取；存储和展示抓取和抽取得到的互联网舆情数据；以及对所述互联网舆情数据的索引和查询进行优化。

在本发明的方法的一个实施例中，所述对互联网数据进行抓取包括：用户设定网站的类型、所属行业、所要抓取索引页的链接；然后将所述索引页对应的网页信息抓取的正则配置网页导入数据库；以及读取所述索引页的完整抓取配置信息，对所述索引页下的所有全文和评论进行抓取，并对抓取的网页进行标定和记录。

在本发明的方法的一个实施例中，所述对所述互联网数据进行抽取包括：将所述索引页对应的网页信息抽取正则配置文件导入数据库；以及读取所述索引页下正文、评论的完整抽取配置信息，进行所述索引页下的所有正文及评论的抽取，并对抽取的网页进行标定和记录。

在本发明的方法的一个实施例中，所述数据库的读操作和写操作在不同数据库服务器中进行。

本发明的另一个目的在于提出一种效率较高的并行化分布式网络舆情数据管理系统。

本发明的并行化分布式网络舆情数据管理系统，包括：数据抓取模块，所述数据抓取模块用于对互联网数据进行抓取；数据抽取模块，所述数据抽取模块用于对所述互联网数据进行抽取；存储模块，所述存储模块用于存储和展示抓取和抽取得到的互联网舆情数据；以及优化模块，所述优化模块用于对所述互联网舆情数据的索引和查询进行优化。

在本发明的系统的一个实施例中，所述数据抓取模块包括：用户设定模块，所述用户设定模块用于用户设定网站的类型、所属行业、所要抓取索引页的链接；第一导入模块，所述第一导入模块用于将所述索引页对应的网页信息抓取的正则配置网页导入数据库；以及抓取及标定子模块，所述抓取及标定子模块用于读取所述索引页的完整抓取配置信息，对所述索引页下的所有全文和评论进行抓取，并对抓取的网页进行标定和记录。

在本发明的系统的一个实施例中，所述数据抽取模块包括：第二导入模块，所述第二导入模块用于将所述索引页对应的网页信息抽取正则配置文件导入数据库；以及抽取及标定子模块，装置抽取及标定子模块用于读取所述索引页下正文、评论的完整抽取配置信息，进行所述索引页下的所有正文及评论的抽取，并对抽取的网页进行标定和记录。

在本发明的系统的一个实施例中，所述数据库的读操作和写操作在不同数据库服务器中进行。

本发明借鉴当前通用的负载均衡技术、数据库的读写分离技术、数据库拆分技术，并结合项目自身的特点对数据库的设计进行优化处理，达到将数据库建立在一台服务器上，客户端运行在各自的服务器上，只将处理后的数据存储到数据库服务器上；也可以将现有数据库进行分拆，建立多个服务器上，公共的基础信息和关联信息可以通过数据库同步和分发技术实现数据的一致性。本发明可以完成数据抓取所需配置的编辑、删除管理功能；数据抽取所需配置的编辑、删除管理功能；对抓取的网页进行标定和记录，对抽取的信息进行结构化的数据存储。为上层系统提供单台服务器部署或多台服务器分布式部署两种部署方式。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明的并行化分布式网络舆情数据管理方法的流程图；

图2为本发明的并行化分布式网络舆情数据管理系统的结构框图；

图3为本发明的方法和系统中的数据结构图；

图4为数据抓取部分数据结构图；

图5为数据抽取部分数据结构图；

图6为数据存储和展示数据结构图；和

图7为程序接口结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方，或仅仅表示第一特征水平高度小于第二特征。

本发明的一个目的在于提出一种效率较高的并行化分布式网络舆情数据管理方法。如图1所示，该方法包括：S1.对互联网数据进行抓取；S2.对互联网数据进行抽取；S3.存储和展示抓取和抽取得到的互联网舆情数据；以及S4.对互联网舆情数据的索引和查询进行优化。

在本发明的方法的一个实施例中，步骤S1进一步包括：用户设定网站的类型、所属行业、所要抓取索引页的链接；然后将索引页对应的网页信息抓取的正则配置网页导入数据库；以及读取索引页的完整抓取配置信息，对索引页下的所有全文和评论进行抓取，并对抓取的网页进行标定和记录。

在本发明的方法的一个实施例中，步骤S2进一步包括：将索引页对应的网页信息抽取正则配置文件导入数据库；以及读取索引页下正文、评论的完整抽取配置信息，进行索引页下的所有正文及评论的抽取，并对抽取的网页进行标定和记录。

在本发明的方法的一个实施例中，数据库的读操作和写操作在不同数据库服务器中进行。

本发明的另一个目的在于提出一种效率较高的并行化分布式网络舆情数据管理系统，如图2所示，该系统包括：数据抓取模块100，用于对互联网数据进行抓取；数据抽取模块200，用于对互联网数据进行抽取；存储模块300，用于存储和展示抓取和抽取得到的互联网舆情数据；以及优化模块400，用于对互联网舆情数据的索引和查询进行优化。

在本发明的系统的一个实施例中，数据抓取模块100包括：用户设定模块110，用户设定模块110用于用户设定网站的类型、所属行业、所要抓取索引页的链接；第一导入模块120，第一导入模块120用于将索引页对应的网页信息抓取的正则配置网页导入数据库；以及抓取及标定子模块130，抓取及标定子模块130用于读取索引页的完整抓取配置信息，对索引页下的所有全文和评论进行抓取，并对抓取的网页进行标定和记录。

在本发明的系统的一个实施例中，数据抽取模块200包括：第二导入模块210，第二导入模块210用于将索引页对应的网页信息抽取正则配置文件导入数据库；以及抽取及标定子模块220，装置抽取及标定子模块220用于读取索引页下正文、评论的完整抽取配置信息，进行索引页下的所有正文及评论的抽取，并对抽取的网页进行标定和记录。

在本发明的系统的一个实施例中，数据库的读操作和写操作在不同数据库服务器中进行。

本发明所涉及的管理方法和系统，具有通用性和扩展性，主要为上层系统、模块之间的数据交互及处理策略提供支持。发明人将首先介绍该系统的总体实现情况；其次在总体实现的基础之上，分别介绍各个部分的具体情况和相关的程序实现。

1、数据管理系统的总体实现情况

数据管理系统共分为配置管理、数据结构化存储和数据展示三个部分。配置部分通过界面给用户提供一定的可视化的操作，方便用户配置网站的基础信息、网页抓取、抽取配置正则的导入以及自定义分类及专题的设置；数据结构化存储部分能够将抽取到的网络信息进行结构化存储和优化重组；数据展示部分根据用户设定的专题信息将结构化存储的信息按照不同的维度进行图形化、网格化的显示。

在用户配置的过程中，首先需要设定网站的类型、所属行业、所要抓取索引页的链接，然后将该索引页对应的网页信息抓取的正则配置文件导入数据库，数据抓取模块通过读取该索引页的完整抓取配置信息，就可以对该索引页下的所有文章及评论进行抓取，并对抓取的网页进行标定和记录；将该索引页对应的网页信息抽取的正则配置文件导入数据库，数据抽取模块通过读取该索引页下正文、评论的完整抽取配置信息，就可以进行该索引页下的所有文章及评论的抽取，并对已抽取的网页进行标定和记录，将抽取的结果按照其属性进行结构化的存储。

在将抓取和抽取的结果按照其属性进行结构化的存储之后，根据数据展示部分的对数据呈现方面的需要作进一步数据的重组优化，使得数据展示部分发出数据请求时能快速得到所需的数据。

把对数据库读和写的操作分开对应不同的数据库服务器，这样能有效地减轻数据库压力，也能减轻输入输出压力。主数据库提供写操作，从数据库提供读操作，其实在很多系统中，主要是读的操作。当主数据库进行写操作时，数据要同步到从数据库，这样才能有效保证数据库完整性。

2、数据管理系统各模块实现情况

本部分按照数据管理系统为上层系统提供的数据库管理功能，逐一介绍数据库管理系统各模块的功能实现。

1）互联网数据抓取配置

对于整个数据管理系统，在配置管理部分，我们将索引页的基本信息按照网站、网站下的板块、网站板块下的子板块等逐层进行划分，并按照树状结构对每一索引页进行存储。

针对索引页，包括索引页下正文的抓取和评论的抓取配置信息，相应的数据表可独立拆分出来供上层模块单独使用。当根据配置信息将网页抓取下来保存到本地后，记录相应的抓取记录到数据库中。

如图4所示，是抓取网页所需配置基本表结构，从网站的索引页起始，首先要得到网站某版面的基本信息，如“索引页链接”，进入该版面的路径等，其次要得到该版面的基本结构，指向正文的链接形式，索引页下一页的形式及获取时所需的基本参数和判定条件。

对于索引页有多页的网站，不但需要给定索引页下的所有正文链接，同时也要根据配置的索引页下一页的形式的正则表达式拼接出索引页下一页的链接，目的是拿到了该版面的所有文章的链接为止，或者根据设定的抓取深度值来决定具体抓取多少索引页。

在得到正文页链接后，我们就可以得到正文页，如果正文页有多页，我们要得到完整的正文，就要通过读取正文页信息抓取配置表得到正文页下一页的形式及获取时所需的基本参数和判定条件，将正文页逐页抓取下来。

如果正文页含有与其相关的评论信息，通过读取评论页信息抓取配置表得到抓取评论页的链接，如果评论页有多页，则通过读取评论页下一页的形式及获取时所需的基本参数和判定条件，就可以获取多页评论信息。这样，我们就可以得到网站某版面下的所有正文和正文对应的评论页面，将这些页面下载到本地，并做相关抓取结果状态的记录。

2）互联网数据抽取配置

网页信息抽取的正则配置信息是对这一索引页下的抽取提供操作依据，包括对抓取下来的正文和评论的抽取配置信息。

当根据配置信息将网页抓取下来保存到本地后，记录相应的抓取记录到数据库中，如果上层系统共用一台数据库服务器，那么根据抓取记录表信息进行抽取操作；如果上层系统使用各自独立的数据库，则需要使用数据库同步技术，将两数据库中的抓取记录表数据进行同步。

如图5所示，是抽取数据所需配置基本表结构，根据抓取状态记录表中的记录，对标志为未进行抽取操作的网页进行抽取操作。

在得到网页的同时，得到该网页对应的正文页、评论页抽取配置表，对正文页中文章的标题、作者、发表时间、回复数、点击数等信息进行抽取；对评论页中发表评论的作者、发表标题、发表时间、回复数、点击数、IP、地址等信息进行抽取。考虑到有些网站文章较长，我们对文章按照自然段落分段，提取并与正文信息分开存储，评论信息的存储也是如此。这样也方便后续的统计分析部分使用。

3）互联网舆情数据存储和展示

我们将对正文和评论进行抽取的信息按照正文的作者、标题、点击数、回复数、发表时间等，正文段落内容信息、评论的作者、点击数、回复数、发表时间等，评论段落内容信息进行存储。

由于数据量很大，我们采用将存放在同一个数据库中的数据分散存放到多个数据库上，实现分布存储，通过路由规则路由访问特定的数据库，这样一来每次访问面对的就不是单台服务器了，而是N台服务器，这样就可以降低单台机器的负载压力，此处主要是使用水平(横向)拆分：将同一个表的数据进行分块保存到不同的数据库中，这些数据库中的表结构完全相同。为了使数据展示部分发出数据请求时能快速得到所需的数据，我们对这些抽取信息又根据展现图表、图片所需不同形式数据的情况进行重新的组织，并按类型分别进行存储。

如图6所示，对已经抽取到的正文信息和评论信息进行情感值的标定，统计各文章所含词汇的频繁项等信息。进行情感值标定的对象主要是一篇完整的文章或一篇完整的评论信息，通过对某篇文章或评论整体进行分析，得出其情感值，标定到正文或评论结果信息表里。

对已经抽取到的经过情感值等标定的正文信息和评论信息进行不同维度的统计和展示。通过按回复数和点击数，统计出各个设定专题下的最热话题；按点击数，统计出各个设定专题下的点击排名；通过按文章发表时间，统计出各个设定专题下的最新话题；通过情感分析值的标定，得出某篇文章大家对其的态度倾向是正面的还是负面的；通过对地域的统计，得出某篇文章在不同地域大家对其的态度倾向正面和负面所占的比重；通过统计词汇的频繁项，得出某篇文章里的热点词；诸如此类，还可以得到文章的转载率排名、区域统计、媒介类型分析、评论数量趋势分析、网站分布、传播度分析等统计信息。

4）互联网舆情数据索引和查询优化

由于涉及到大量（多表关联查询和大数据量查询）的查询，特别是针对正文内容和评论内容进行的多关键词的模糊匹配查询，我们采用全文索引功能并结合经过优化的存储过程脚本，为统计展示提供了快速准确的查询数据。通过对所有统计分析功能的接口方法进行多次多线程调用测试，针对查询比较频繁的几张数据表除了添加聚类索引，还适当的针对几个字段添加了非聚类索引，提高了查询效率。

为使本领域技术人员更好地理解本发明，发明人对数据管理系统程序接口实现情况做进一步补充介绍。

为了降低各程序间的耦合关系，方便程序的后期修改和维护，程序采用分层结构。如图7所示，数据库连接及库表映射文件的配置文件里，存放了连接数据库的方言、url链接、用户名、密码以及数据库表与实体类映射文件列表信息，系统运行时首先读取此信息，建立数据库的基本连接，然后根据数据库表与实体类映射文件列表信息去获取和加载映射文件；数据库表、视图的实体类以及数据库表、视图的映射文件层，即是数据的持久层操作代码，映射文件反映了数据库表各字段的类型、实体类的属性以及二者之间的对应转换关系；数据表、视图基本数据操作层（单表、视图的增、删、查、改）的实现，将对表的直接使用SQL语句操作转化成了先对实体类进行操作，需要持久化是再转化成对数据库表的操作；服务层接口中存放的是一组客户端（前端界面）和服务端交互的接口类，通过此封装，其他模块需要对数据库进行操作时，可以不关心数据库的内部结构，直接传入满足接口方法所需的参数，调用相应的方法来实现对数据库的操作；服务层实现中存放对应接口类的实现类及各种实现方法。

需要说明的是，流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种并行化分布式网络舆情数据管理方法，其特征在于，包括：

对互联网数据进行抓取；

对所述互联网数据进行抽取；

存储和展示抓取和抽取得到的互联网舆情数据；以及

对所述互联网舆情数据的索引和查询进行优化。

2.如权利要求1所述的方法，其特征在于，所述对互联网数据进行抓取包括：

用户设定网站的类型、所属行业、所要抓取索引页的链接；

然后将所述索引页对应的网页信息抓取的正则配置网页导入数据库；以及

读取所述索引页的完整抓取配置信息，对所述索引页下的所有全文和评论进行抓取，并对抓取的网页进行标定和记录。

3.如权利要求1和2所述的方法，其特征在于，所述对所述互联网数据进行抽取包括：

将所述索引页对应的网页信息抽取正则配置文件导入数据库；以及

读取所述索引页下正文、评论的完整抽取配置信息，进行所述索引页下的所有正文及评论的抽取，并对抽取的网页进行标定和记录。

4.如权利要求4所述的方法，其特征在于，所述数据库的读操作和写操作在不同数据库服务器中进行。

5.一种并行化分布式网络舆情数据管理系统，其特征在于，包括：

数据抓取模块，所述数据抓取模块用于对互联网数据进行抓取；

数据抽取模块，所述数据抽取模块用于对所述互联网数据进行抽取；

存储模块，所述存储模块用于存储和展示抓取和抽取得到的互联网舆情数据；以及

优化模块，所述优化模块用于对所述互联网舆情数据的索引和查询进行优化。

6.如权利要求5所述的系统，其特征在于，所述数据抓取模块包括：

用户设定模块，所述用户设定模块用于用户设定网站的类型、所属行业、所要抓取索引页的链接；

第一导入模块，所述第一导入模块用于将所述索引页对应的网页信息抓取的正则配置网页导入数据库；以及

抓取及标定子模块，所述抓取及标定子模块用于读取所述索引页的完整抓取配置信息，对所述索引页下的所有全文和评论进行抓取，并对抓取的网页进行标定和记录。

7.如权利要求5和6所述的系统，其特征在于，所述数据抽取模块包括：

第二导入模块，所述第二导入模块用于将所述索引页对应的网页信息抽取正则配置文件导入数据库；以及

抽取及标定子模块，装置抽取及标定子模块用于读取所述索引页下正文、评论的完整抽取配置信息，进行所述索引页下的所有正文及评论的抽取，并对抽取的网页进行标定和记录。

8.如权利要求8所述的方法，其特征在于，所述数据库的读操作和写操作在不同数据库服务器中进行。