CN112732668A

CN112732668A - 一种大数据网页存储和分析的方法

Info

Publication number: CN112732668A
Application number: CN202110081240.9A
Authority: CN
Inventors: 陈娟妮; 李国涛; 张明哲
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2021-04-30

Abstract

本发明涉及大数据技术领域，具体提供了一种大数据网页存储和分析的方法，具有以下步骤：S1、将待分析的网页数据按网站站点划分存储在HDFS文件中，采用Hive表关联此HDFS数据；S2、采用Spark程序读取步骤S1存储在Hive表中的数据，提取出企业名称信息，并将企业名称相关信息存储到Hive表中；S3、对每个企业名称进行分词处理，并将分词结果存储在Hive表中；S4、依据步骤S3的真实企业名称分词结果表进行分类匹配；S5、为用户提供步骤S1中网页内容中出现的企业名称和真实企业名册中的企业名称中匹配度高的企业名称。与现有技术相比，本发明具有广泛适用性，支持水平扩展，对于涉及网页存储和分析的业务都可以普遍适用。

Description

一种大数据网页存储和分析的方法

技术领域

本发明涉及大数据技术领域，具体提供一种大数据网页存储和分析的方法。

背景技术

在信息化时代，广大互联网用户都可以通过各个平台发表对企业的评价，企业想从这些评价中得到互联网用户对企业的认可度。实际上，互联网用户针对企业的评价五花八门，大多评价是文本信息、口语化的语言描述，并且网络信息复杂且庞大，要从中分析出企业想要的信息，从架构上来说非常困难。

传统的关系数据库可以存储有限的网页数据，单台机器的应有可以支持有限的网页数据分析，随着数据越来越庞大，这些存储和分析架构及能力远远不足以支持广大互联网数据的存储和分析。

发明内容

本发明是针对上述现有技术的不足，提供一种实用性强的大数据网页存储和分析的方法。

本发明解决其技术问题所采用的技术方案是：

一种大数据网页存储和分析的方法，具有以下步骤：

S1、将待分析的网页数据按网站站点划分存储在HDFS文件中，采用Hive表关联此HDFS数据；

S2、采用Spark程序读取步骤S1存储在Hive表中的数据，关联预先提供的对文本数据进行分词的程序包，对网页内容进行分词分析，提取出企业名称信息，并将企业名称相关信息存储到Hive表中。

S3、将真实的企业名册上传至HDFS目录，采用Spark程序读取企业名册中的数据，并关联预先提供的分词程序包，对每个企业名称进行分词处理，并将分词结果存储在Hive表中；

S4、采用Spark程序，关联查询步骤S2和步骤S3的处理结果表，对步骤S2中得到的企业名称，依据步骤S3的真实企业名称分词结果表进行分类匹配，计算匹配度，并将计算结果存储到HBase表；

S5、上层应用用于查询HBase表中的数据，为用户提供步骤S1中网页内容中出现的企业名称和真实企业名册中的企业名称中匹配度高的企业名称，用于后续的分析提供信息。

进一步的,在步骤S1中，分析站点net1和站点net2中面向企业评价的数据时，可创建HDFS文件/mysite/net1.csv来存储站点net1的信息，创建HDFS文件/mysite/net2.csv来存储站点net2的信息，存储文件格式为csv格式。

作为优选,CSV文件中包含pageid、comurl、site、cominfo、dt，其中，所述pageid中存储网页唯一标识，comurl中存储网页地址，site中存储网站地址，cominfo中存储网页内容，dt中存储日期信息。

进一步的,在步骤S2中，采用Spark程序，Spark直接使用Hive的元数据；

编写Spark程序，读取存放网页数据的Hive表，加载对文本数据进行分词的程序包，采用Spark对数据进行分片，然后，关联对文本数据进行分词的程序包对cominfo的数据进行分词处理，将分词处理后的结果数据存储到Hive表。

进一步的,在步骤S2中，在Hive表中，pageid中存储网页唯一标识，comurl中存储网页地址，site中存储网站地址，virorgname存储上述分词得到的企业名称，sidx存储上述分词得到的企业名称在网页内容cominfo中的起始位置索引，eidx存储上述分词得到的企业名称在网页内容cominfo中的结束位置索引，dt中存储日期信息。

进一步的,在步骤S3中，预先设置企业名册，所述企业名册中包含真实的企业名称信息，将企业名称信息进行分词并存储到Hive表中。

进一步的,企业名册数据存储为CSV格式，一列存储企业ID，一列存储企业名称，将该企业名册文件上传到HDFS目录/myorg/rcom，创建Hive表关联此文件。

进一步的,在步骤S4中，采用Spark程序读取此Hive表，加载预先提供的分词程序包，对orgname对应的企业名称进行分词处理，分词结果存储到Hive表中。

进一步的,在步骤S4中，areacode存储企业所在地域id，orgid存储企业id，orgname存储企业名称，对企业名称进行分词之后的内容存储在orgarea、orgbase、orgindustry和orgtype中，其中，orgarea存储企业名称中的地域信息，orgbase存储企业名称中的主体信息orgindustry存储企业名称中的行业类别，orgtype存储企业性质。

进一步的,在步骤S5中，采用Spark程序关联查询存储网页内容识别出的企业名称Hive表和存储企业名册分词后的企业名称分词结果Hive表，对每一条从网页内容识别出的企业名称，从真实的分词后的企业名称分词结果表中的字段orgarea、orgbase、orgindustry和orgtype四个维度计算匹配度，从中分析出目标网页内容及匹配度信息，将计算结果存储到HBase数据库中。

本发明的一种大数据网页存储和分析的方法和现有技术相比，具有以下突出的有益效果：

本发明从架构角度提供从网页数据存储、分析的解决方案，针对网页数据的存储提供了详细的方案说明，并说明了网页数据分析的解决方案。该技术架构具有广泛适用性，支持水平扩展，对于涉及网页存储和分析的业务都可以普遍适用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图1是本发明中待分析的网页数据存储流程示意图；

附图2是本发明中计算待分析网页数据的流程示意图；

附图3是本发明中对真实企业名称进行分词处理并存储的流程示意图；

附图4是本发明中对存储结构数据进行关联查询分析并存储的流程示意图。

具体实施方式

为了使本技术领域的人员更好的理解本发明的方案，下面结合具体的实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

下面给出一个最佳实施例：

如图1-4所示，本实施例中的一种大数据网页存储和分析的方法，考虑到互联网网页数据的特点是网页来源不同网站，网页文件数目多，网页内容小。因此，直接采用HDFS作为网页文件的存储并不是最佳方式，因为Hadoop体系的分布式文件存储HDFS不适用于存储大量小文件。

因此，本发明的方案为，分网站站点存储到HDFS中，按照网站站点创建HDFS文件，将该网站站点下的所有网页数据都存储到该HDFS文件中。考虑到既需要存储网页来源又需要存储网页内容，因此选择csv格式作为存储文件格式。

具体的步骤为：

S1、将待分析的网页数据按网站站点划分存储在HDFS文件中，采用Hive表关联此HDFS数据。

当需要分析站点net1和站点net2中面向企业评价的数据时，可创建HDFS文件/mysite/net1.csv来存储站点net1的信息，创建HDFS文件/mysite/net2.csv来存储站点net2的信息。其中，CSV文件可根据需求设置，本实施例中的CSV文件包含pageid、comurl、site、cominfo和dt，其中，pageid中存储网页唯一标识，comurl中存储网页地址，site中存储网站地址，cominfo中存储网页内容(比如互联网用户的评论信息)，dt中存储日期信息。

由于存储到HDFS的数据是CSV格式的，为方便后续分析，创建一个Hive外部表关联上述存储网页数据的HDFS文件所在父目录，示例如下表：

有了Hive表之后，采用开源的分布式大数据计算产品Spark分析网页数据，其中Spark可直接使用Hive的元数据(即Hive表信息)。

cominfo中存储的网页内容是文本数据，可依据需求对文本数据进行分词，需要预先提供出能够对文本数据进行分词的程序包，该程序包能够根据输入的文本数据识别出其中出现的企业名称，该程序包不需要实现分布式调度功能。编写Spark程序，读取存放网页数据的Hive表；加载能够对文本数据进行分词的程序包；采用Spark自身特性对数据进行分片，然后关联能够对文本数据进行分词的程序包对cominfo的数据进行分词处理；将分词处理后的结果数据存储到Hive表。

基于上述示例，存储分词结果的Hive表示例如下表：

其中，pageid中存储网页唯一标识，comurl中存储网页地址，site中存储网站地址，virorgname存储上述分词得到的企业名称，sidx存储上述分词得到的企业名称在网页内容cominfo中的起始位置索引，eidx存储上述分词得到的企业名称在网页内容cominfo中的结束位置索引，dt中存储日期信息。

上述，对cominfo中存储的网页内容进行分词处理并识别出企业名称的整个过程中，采用了大数据计算产品Hive和Spark，能够支持存储和计算的横向扩展，实现了分布式计算能力。

S3、将真实的企业名册上传至HDFS目录，采用Spark程序读取企业名册中的数据，并关联预先提供的分词程序包，对每个企业名称进行分词处理，并将分词结果存储在Hive表中。

从互联网的网页内容中识别出的企业名称，可能不是企业名称的全称，也可能是较常出现在企业名称中的部分名称，总之，该企业名称并不准确，可能不是企业想要的数据。这个时候就需要根据真实的企业名称和该企业名称进行比对分析，计算该企业名称和相似的真实的企业名称的匹配度。为实现此功能，需要预先设置企业名册，该企业名册中包含了真实的企业名称信息。由于从互联网的网页内容中识别出的企业名称存储在Hive表中，为方便比对计算，将该企业名册信息进行分词并存储到Hive表中。采用此方法可以快速便捷地采用Spark程序实现两张Hive表之间的数据关联查询和分析。

一般企业名册都是格式化的数据，可以将该企业名册数据存储为CSV格式，比如就包含两列，一列存储企业ID，一列存储企业名称。将该企业名册文件上传到HDFS目录/myorg/rcom，创建Hive表关联此文件，Hive示例如下：

S4、采用Spark程序，关联查询步骤S2和步骤S3的处理结果表，对步骤S2中得到的企业名称，依据步骤S3的真实企业名称分词结果表进行分类匹配，计算匹配度，并将计算结果存储到HBase表。

采用Spark程序读取此Hive表，加载预先提供的分词程序包，对orgname对应的企业名称进行分词处理，分词结果存储到Hive表中。该企业名称分词结果表的示例如下：

其中，areacode存储企业所在地域id，orgid存储企业id，orgname存储企业名称，对企业名称进行分词之后的内容存储在orgarea、orgbase、orgindustry、orgtype中，其中，orgarea存储企业名称中的地域信息，orgbase存储企业名称中的主体信息orgindustry存储企业名称中的行业类别，orgtype存储企业性质。

采用Spark程序关联查询存储网页内容识别出的企业名称Hive表和存储企业名册分词后的企业名称分词结果Hive表，对每一条从网页内容识别出的企业名称，从真实的分词后的企业名称分词结果表中的字段orgarea、orgbase、orgindustry、orgtype等四个维度计算匹配度，从中分析出目标网页内容及匹配度信息。计算结果存储到开源大数据产品HBase数据库中，方案中选择HBase的原因是由于HBase可以面向应用提供实时的数据查询能力。

上述具体的实施方式仅是本发明具体的个案，本发明的专利保护范围包括但不限于上述具体的实施方式，任何符合本发明的一种大数据网页存储和分析的方法权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换，皆应落入本发明的专利保护范围。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种大数据网页存储和分析的方法，其特征在于，具有以下步骤：

2.根据权利要求1所述的一种大数据网页存储和分析的方法，其特征在于，在步骤S1中，分析站点net1和站点net2中面向企业评价的数据时，可创建HDFS文件/mysite/net1.csv来存储站点net1的信息，创建HDFS文件/mysite/net2.csv来存储站点net2的信息，存储文件格式为csv格式。

3.根据权利要求2所述的一种大数据网页存储和分析的方法，其特征在于，CSV文件中包含pageid、comurl、site、cominfo、dt，其中，所述pageid中存储网页唯一标识，comurl中存储网页地址，site中存储网站地址，cominfo中存储网页内容，dt中存储日期信息。

4.根据权利要求1所述的一种大数据网页存储和分析的方法，其特征在于，在步骤S2中，采用Spark程序，Spark直接使用Hive的元数据；

5.根据权利要求4所述的一种大数据网页存储和分析的方法，其特征在于，在步骤S2中，在Hive表中，pageid中存储网页唯一标识，comurl中存储网页地址，site中存储网站地址，virorgname存储上述分词得到的企业名称，sidx存储上述分词得到的企业名称在网页内容cominfo中的起始位置索引，eidx存储上述分词得到的企业名称在网页内容cominfo中的结束位置索引，dt中存储日期信息。

6.根据权利要求1所述的一种大数据网页存储和分析的方法，其特征在于，在步骤S3中，预先设置企业名册，所述企业名册中包含真实的企业名称信息，将企业名称信息进行分词并存储到Hive表中。

7.根据权利要求6所述的一种大数据网页存储和分析分方法，其特征在于，企业名册数据存储为CSV格式，一列存储企业ID，一列存储企业名称，将该企业名册文件上传到HDFS目录/myorg/rcom，创建Hive表关联此文件。

8.根据权利要求1所述的一种大数据网页存储和分析的方法，其特征在于，在步骤S4中，采用Spark程序读取此Hive表，加载预先提供的分词程序包，对orgname对应的企业名称进行分词处理，分词结果存储到Hive表中。

9.根据权利要求8所述的一种大数据网页存储和分析的方法，其特征在于，在步骤S4中，areacode存储企业所在地域id，orgid存储企业id，orgname存储企业名称，对企业名称进行分词之后的内容存储在orgarea、orgbase、orgindustry和orgtype中，其中，orgarea存储企业名称中的地域信息，orgbase存储企业名称中的主体信息orgindustry存储企业名称中的行业类别，orgtype存储企业性质。

10.根据权利要求1所述的一种大数据网页存储和分析的方法，其特征在于，在步骤S5中，采用Spark程序关联查询存储网页内容识别出的企业名称Hive表和存储企业名册分词后的企业名称分词结果Hive表，对每一条从网页内容识别出的企业名称，从真实的分词后的企业名称分词结果表中的字段orgarea、orgbase、orgindustry和orgtype四个维度计算匹配度，从中分析出目标网页内容及匹配度信息，将计算结果存储到HBase数据库中。