CN108170826A

CN108170826A - 一种基于互联网大数据的宏观经济分析方法及系统

Info

Publication number: CN108170826A
Application number: CN201810013720.XA
Authority: CN
Inventors: 李亮涛; 丁荣荣; 彭翔; 张炎红
Original assignee: Beijing State Xin Hong Number Science And Technology Co Ltd
Current assignee: Beijing State Xin Hong Number Science And Technology Co Ltd
Priority date: 2018-01-08
Filing date: 2018-01-08
Publication date: 2018-06-15

Abstract

本申请提供了一种基于互联网大数据的宏观经济分析方法及系统，所述方法包括：接收用户根据待分析的宏观经济业务选择的数据源及其查询条件；从所述数据源中获取符合查询条件的数据并保存在本地数据库中；根据所述数据源对应的预置去重字段，对保存在本地数据库中的数据进行去重处理；根据所述宏观经济业务的预置类别情绪关键词，从去重处理后的数据的预置字段中抽取对应的量化数据信息；根据用户配置的统计维度，对抽取出的量化数据信息中的各分析指标进行统计；以预设图表形式展现各分析指标的统计结果。本申请通过上述手段，有效解决了现有技术不能基于互联网大数据对宏观经济进行实时分析的问题。

Description

一种基于互联网大数据的宏观经济分析方法及系统

技术领域

本申请涉及数据处理技术领域，特别地，涉及一种基于互联网大数据的宏观经济分析方法及系统。

背景技术

大数据是全新的产业形态，具有前向依赖效应低、而后向拉动效应高的重要特点。一方面，发展大数据产业不像传统产业那样需要大量配套产业体系和基础设施作为先决条件。另一方面，大数据正在影响和改变传统生产方式和经济运行机制，促进社会分工协作和生产组织方式的集约和创新。

传统的数据监测、分析、统计方式面对海量增长的各种数据，呈现出滞后、缺失等问题，在一定程度上与社会公众的期望存在差距，制约政府部门对宏观经济运行情况及时精准地监测与分析。目前，管理部门在对宏观经济运行情况进行监测、分析以及趋势预测时，大多使用的是传统的官方统计数据。然而，随着大数据技术的迅猛发展，官方统计数据面临着前所未有的重大挑战。首先，统计数据具有一定的滞后性。其次，统计数据源广泛性较为欠缺，海量的非结构化数据、电子商务数据、电子政务以及搜索引擎数据并未被包含在内。

针对互联网中的数量类的结构化数据信息，目前已经有初步尝试，如麻省理工学院的“10亿价格项目”，研究团队利用网络抓取技术获取网上购物交易数据，收集了70个国家的300个零售商共500万种在线商品的价格，建立了通胀指数的日发布系统，滞后期仅有3天，几乎可以实现通货膨胀指数的实时预测。但数量类的结构化数据信息在互联网数据中仅占非常小的部分，应用范围非常小，对于如何利用互联网中占比更大的非结构化信息分析宏观经济指标，现有技术还处于理论研究阶段；正如《国外理论动态》2015年第1期刊出的文章“大数据与宏观经济分析研究综述”所记载的，对于如何从文本、图片、视频等数据信息中挖掘出结构化、数量化的信息，只是提出了可以通过线性模型、决策树、支持向量机、人工神经网络、自组织映射网络、遗传算法等机器学习算法挖掘数据的构想，但没有给出如何从互联网非结构化数据中提取出结构化数量信息的具体实现方式，更无从以此为基础宏观对经济指标进行分析。

发明内容

本申请提供一种基于互联网大数据的宏观经济分析方法及系统，用于解决现有技术不能基于互联网大数据对宏观经济进行实时分析的问题。

本申请公开的一种基于互联网大数据的宏观经济分析方法，包括：接收用户根据待分析的宏观经济业务选择的数据源及其查询条件；从所述数据源中获取符合查询条件的数据并保存在本地数据库中；根据所述数据源对应的预置去重字段，对保存在本地数据库中的数据进行去重处理；根据所述宏观经济业务的预置类别情绪关键词，从去重处理后的数据的预置字段中抽取对应的量化数据信息；根据用户配置的统计维度，对抽取出的量化数据信息中的各分析指标进行统计；以预设图表形式展现各分析指标的统计结果。

优选地，执行所述方法的系统配置有任务管理程序；所述从所述数据源中获取符合查询条件的数据并保存在本地数据库中，具体包括：根据数据源的来源渠道将数据获取任务切分为多个子任务，并将所述子任务添加到任务队列；任务管理程序从所述任务队列调度子任务，由所述子任务执行从相应数据源获取对应的满足查询条件的数据并储存到本地数据库中的过程。

优选地，查询条件为所述数据源的标题和/或正文中包括有用户设置的检索关键词；切分数据获取任务的参数还包括预设的日期范围；在将数据获取任务切分为多个子任务之前还包括：依据所述查询条件预览每个数据源中符合条件的数据；根据所述数据源中符合查询条件的数据量生成数据获取预估时间。

优选地，执行所述方法的系统配置有任务提交引擎和Spark集群；根据所述数据源对应的预置去重字段，对保存在本地数据库中的数据进行去重处理，具体包括：生成数据去重处理任务并添加至任务队列；所述任务提交引擎从任务队列拖出数据去重处理任务并发送至Spark集群；所述Spark集群解析出数据去重处理任务中的预置去重字段，以预置去重字段为主键，调用去重函数对保存在本地数据库中的数据执行去重处理。

优选地，执行所述方法的系统配置有任务提交引擎和Spark集群；根据所述宏观经济业务的预置类别情绪关键词，从去重处理后的数据的预置字段中抽取对应的量化数据信息，具体包括：生成量化数据抽取任务并添加至任务队列；所述任务提交引擎从任务队列拖出量化数据抽取任务并发送至Spark集群；所述Spark集群解析出量化数据抽取任务中的预置类别情绪关键词，执行根据所述预置类别情绪关键词从去重处理后的数据的预置字段中抽取对应的量化数据信息的处理过程。

优选地，所述从去重处理后的数据的预置字段中抽取对应的量化数据信息，具体包括：将第一条数据记录作为当前数据记录；对当前数据记录中的预置字段的文本内容使用正则表达式进行切分，生成一条或多条句子；对上述生成的每一条句子，遍历所有的预置类别情绪关键词，对所述句子进行正则匹配判断；若命中则计算该句子的情感得分；其中正面情感的情感得分为1，中立情感的情感得分为0，负面情感的情感得分为-1；将下一条数据记录作为当前数据记录，重复上述对当前数据记录的处理过程，直至所有数据记录处理完毕。

优选地，所述预置字段包括多个；在所述从去重处理后的数据的预置字段中抽取对应的量化数据信息之前，还包括：将每条数据记录的预置字段合并为一个新的预置字段，作为后续切分的预置字段。

本申请公开的一种基于互联网大数据的宏观经济分析装置，包括：用户接口模块，用于接收用户根据待分析的宏观经济业务选择的数据源及其查询条件；数据获取模块，用于从所述数据源中获取符合查询条件的数据并保存在本地数据库中；数据清洗模块，用于根据所述数据源对应的预置过滤参数对保存在本地数据库中的数据进行去重处理；数据抽取模块，用于根据所述宏观经济业务的预置类别情绪关键词从去重处理后的数据的预置字段中抽取对应的量化数据信息；指标统计模块，用于根据用户配置的统计维度对抽取出的量化数据信息中的各分析指标进行统计；结果展现模块，用于以预设图表形式展现各分析指标的统计结果。

优选地，所述系统配置有任务管理程序和/或任务提交引擎和Spark集群，其中：所述数据获取模块根据数据源的来源渠道将数据获取任务切分为多个子任务，并将所述子任务添加到任务队列；所述任务管理程序从所述任务队列调度子任务，由所述子任务执行从相应数据源获取对应的满足查询条件的数据并储存到本地数据库中的过程；所述数据清洗模块生成数据去重处理任务并添加至任务队列；所述任务提交引擎从任务队列拖出数据去重处理任务并发送至Spark集群；所述Spark集群解析出数据去重处理任务中的预置去重字段，以预置去重字段为主键，调用去重函数对保存在本地数据库中的数据执行去重处理；所述数据抽取模块生成量化数据抽取任务并添加至任务队列；所述任务提交引擎从任务队列拖出量化数据抽取任务并发送至Spark集群；所述Spark集群解析出量化数据抽取任务中的预置类别情绪关键词，执行根据所述预置类别情绪关键词从去重处理后的数据的预置字段中抽取对应的量化数据信息的处理过程。

本申请还公开了一种在其上记录有用于执行上述方法的程序的存储介质。

与现有技术相比，本申请具有以下优点：

本申请优选实施例基于互联网大数据的宏观经济分析作为一个有价值的研究问题，提出了一套有效的分析流程，具有实际的应用价值，能够为政府进行宏观经济决策提供有价值的参考，有效解决了现有技术不能基于互联网大数据对宏观经济进行实时分析的问题。

附图说明

附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请第一实施例一种基于互联网大数据的宏观经济分析方法的流程图；

图2为本申请第二实施例一种基于互联网大数据的宏观经济分析方法的流程图；

图3为本申请第三实施例一种基于互联网大数据的宏观经济分析系统的结构示意图；

图4为图2所示的实施例中数据接入功能选择界面示意图；

图5为图2所示的实施例中媒体类数据源配置界面示意图；

图6为图2所示的实施例中数据接入任务列表界面示意图；

图7为图2所示的实施例中数据接入后台处理流程图；

图8为图2所示的实施例中数据处理业务流程图；

图9为图2所示的实施例中数据去重配置界面示意图；

图10为图2所示的实施例中数据处理任务列表示意图；

图11为图2所示的实施例中数据处理阶段的数据处理流程图；

图12为图2所示的实施例中数据分析业务流程图；

图13为图2所示的实施例中类别情绪计算配置界面示意图；

图14为图2所示的实施例中数据分析任务列表示意图；

图15为图2所示的实施例中数据分析阶段的数据处理流程示意图；

图16为图2所示的实施例中特色小镇关注占比示意图；

图17为图2所示的实施例中特色小镇类别情绪分布示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

在本申请的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上，除非另有明确具体的限定。术语“包括”、“包含”及类似术语应该被理解为是开放性的术语，即“包括/包含但不限于”。术语“基于”是“至少部分地基于”。术语“一实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”。其他术语的相关定义将在下文描述中给出。

第一实施例：

参照图1，示出了本申请第一实施例一种基于互联网大数据的宏观经济分析方法的流程，本优选方法实施例包括以下步骤：

步骤S101：接收用户根据待分析的宏观经济业务选择的数据源及其查询条件。

在具体实施时，上述查询条件可以为所述数据源的标题和/或正文中包括有用户设置的检索关键词。

步骤S103：从所述数据源中获取符合查询条件的数据并保存在本地数据库中。

具体实施时，可以在执行本方法实施例的系统中配置任务管理程序；步骤S103具体可以包括：

步骤S103-1：根据数据源的来源渠道将数据获取任务切分为多个子任务，并将所述子任务添加到任务队列；

步骤S103-2：任务管理程序从所述任务队列调度子任务，由所述子任务执行从相应数据源获取对应的满足查询条件的数据并储存到本地数据库中的过程。

在进一步的优选实施例中，切分数据获取任务的参数还可以包括预设的日期范围；在步骤S103-1之前还包括：

步骤S103-0：依据所述查询条件预览每个数据源中符合条件的数据；根据所述数据源中符合查询条件的数据量生成数据获取预估时间。

步骤S105：根据所述数据源对应的预置去重字段，对保存在本地数据库中的数据进行去重处理。

具体实施时，可以在执行所述方法的系统中配置任务提交引擎和Spark集群；步骤S105具体可以包括：

步骤S105-1：生成数据去重处理任务并添加至任务队列；

步骤S105-2：任务提交引擎从任务队列拖出数据去重处理任务并发送至Spark集群；

步骤S105-3：Spark集群解析出数据去重处理任务中的预置去重字段，以预置去重字段为主键，调用去重函数对保存在本地数据库中的数据执行去重处理。

步骤S107：根据所述宏观经济业务的预置类别情绪关键词，从去重处理后的数据的预置字段中抽取对应的量化数据信息。

具体实施时，可以在执行本方法实施例的系统中配置任务提交引擎和Spark集群；步骤S107具体可以包括：

步骤S107-1：生成量化数据抽取任务并添加至任务队列；

步骤S107-2：任务提交引擎从任务队列拖出量化数据抽取任务并发送至Spark集群；

步骤S107-3：Spark集群解析出量化数据抽取任务中的预置类别情绪关键词，执行根据所述预置类别情绪关键词从去重处理后的数据的预置字段中抽取对应的量化数据信息的处理过程。

上述从去重处理后的数据的预置字段中抽取对应的量化数据信息具体可以包括：

步骤S107-31：将第一条数据记录作为当前数据记录；

步骤S107-32：对当前数据记录中的预置字段的文本内容使用正则表达式进行切分，生成一条或多条句子；

上述正则表达式是对字符串操作的一种逻辑公式，可以用事先定义好的一些特定字符及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。给定一个正则表达式和另一个字符串，可以达到如下的目的：对给定的字符串是否符合正则表达式的过滤（称作“匹配”）；通过正则表达式，从字符串中获取想要的特定部分。正则表达式的特点是：灵活性、逻辑性和功能性非常强；可以迅速地用极简单的方式实现字符串的复杂控制。

步骤S107-33：对上述生成的每一条句子，遍历所有的预置类别情绪关键词，对所述句子进行正则匹配判断；若命中则计算该句子的情感得分；其中正面情感的情感得分为1，中立情感的情感得分为0，负面情感的情感得分为-1；

步骤S107-34：将下一条数据记录作为当前数据记录，转步骤S107-32重复上述对当前数据记录的处理过程，直至所有数据记录处理完毕。

其中，当预置字段包括多个时，为方便使用正则表达式对字段中的文本内容进行切分，在抽取量化数据信息之前，可以先将每条数据记录的预置字段合并为一个新的预置字段，作为后续切分的预置字段。

步骤S109：根据用户配置的统计维度，对抽取出的量化数据信息中的各分析指标进行统计。

步骤S111：以预设图表形式展现各分析指标的统计结果。

具体实施时，可以根据需要设置的展现统计结果的形式包括折线图、柱状图、散点图、K线图、饼图、雷达图、和弦图、力导向布局图、地图、仪表图、热力图、事件河流图、韦恩图、矩形图、树图以及字符云等。

第二实施例：

参照图2，示出了本申请第二实施例一种基于互联网大数据的宏观经济分析方法的流程。具体实施时，可以对数据接入、数据处理、数据分析、分析结果展现的界面上罗列其各自所支持的子功能项，并对子功能项按照统一的命名规则（所属模块简称_编号）进行编码。例如数据接入的媒体类数据接入功能项的编码可以是ds_101；数据处理的去重功能项的编码可以是dp_101；数据分析的类别情绪计算功能项的编码可以是da_101。

对用户在数据接入、数据处理、数据分析、分析结果展现时进行的子功能项配置操作，可以统一定义为“任务”（task），每一项任务都有自己唯一的标识task_id。

后台处理程序将根据子功能项编码选择合适的处理程序，处理的结果将存入到分布式列式数据库（如hbase）中。在hbase中预先创建各个子功能项的表，一种功能对应一张表，同一张表之内的数据通过主键来区分数据属于哪一个任务，主键格式为：task_id@记录主键。详细的数据记录以JSON的格式保存在all字段中，方便后续的动态解析。

为方便说明，本优选实施例以“特色小镇政策分析”为例描述宏观经济分析的流程，包括：

步骤S201：数据接入。

本优选实施例中，可以通过文件、API接口两种方式接入多种数据源，便于快速为宏观经济分析的各种不同业务提供基础原始数据支撑。具体实施时，数据接入功能项选择界面可以采用图4所示的形式实现。

媒体类数据接入界面中提供日期范围、匹配方式、过滤关键词、排除关键词、媒体渠道等多种查询条件。其中日期范围、匹配方式、过滤关键词、媒体渠道为必填信息。进行“特色小镇政策分析”分析，需要以“特色小镇”为过滤关键词从互联网上抓取新闻、博客、微信、论坛和微博渠道的文本数据。媒体类数据源配置界面如图5所示。

配置完成后的数据接入任务列表如图6所示，此配置工作分四步完成：

（1）配置查询条件

（2）依据配置的查询条件，预览数据

（3）预估数据接入完成所花费时间

（4）对任务命名并保存，命名为“媒体数据源”

数据接入的后台程序处理过程如图7所示，包括：

（1）解析用户配置的查询条件；

（2）使用时间、媒体渠道两个维度将任务切分成多个子任务，时间的粒度为天。

（3）将子任务放入到任务队列中

（4）数据提取线程从任务队列中消费子任务，通过API接口将数据取回

（5）取回的数据中加入task_id（100）、功能项编码（ds_101）,组装成新的json格式数据，并将新数据发送给入库模块

（6）入库模块将接入的数据，存入到“媒体类”功能项所对应的表（h2t_ds_news）中，主键以task_id@记录主键，详细的数据记录以json格式保存在all字段中。

同理，基于上述处理流程，我们只需要横向扩展不同种类数据的提取接口，在不改变原有操作流程的情况下，就可以将不同种类的数据快速对接到本系统中。

具有4种文件格式、10个API接口、5种数据库的接入方式，可统一多种数据来源，例如互联网数据、政务数据、社会数据、统计局数据等，实现跨数据源、多数据源同时处理，便于快速为宏观经济分析的不同业务提供数据支撑。接入的数据最终存入到了分布式列式数据库（如hbase）中。

步骤S203：数据处理。

数据处理过程是针对步骤S201中已接入的数据进行数据清洗、数据变换、信息抽取操作。对准备好的数据源进行去重、去噪、打标等多种预处理操作，数据源要进行的预处理操作是可以选择的，非结构化数据源主要是进行去重和二次过滤操作，而结构化数据源主要是做多表关联、数据聚合、追加合并、行列转置等数据变换工作。

数据处理功能包括数据清洗、数据变换和信息抽取等。数据清洗是把原始数据源中的重复数据、异常数据等清除掉；数据变换是对不同数据进行重新组合，形成新的数据集合；信息抽取功能是从庞大的互联网文本中利用自然语言处理技术抽取出更有价值的信息。

通过这些功能，对数据进行清洗、变换，达到数据分析和挖掘对数据质量的要求。数据处理的业务流程如图8所示。

在本实施例中，图8中的业务流程适用于数据处理下的各个功能项，其中分布式数据处理采用的Spark内存计算框架。Spark是一个通用引擎，可以用来完成各种各样的运算，包括SQL查询、文本处理等，而且处理速度很快。

为了满足后续数据分析和挖掘的数据质量要求，在数据处理过程中对步骤S201配置的任务“媒体数据源”进行数据去重（dp_101）操作。

数据去重处理，是对所选数据源中的一个或多个字段的内容进行去重处理。如果配置多个字段，字段之间先拼接到一起，然后作为一个整体再进行去重。例如，在做宏观经济分析时，可以对互联网数据中的“页面地址”字段去重，数据去重配置界面如图9所示。

配置完成后，将任务命名“媒体数据源-排重”，生成的任务列表如图10所示。

生成的任务可以存储到MYSQL数据库中的t_dp_task表中（task_id为主键），数据去重的配置参数存储到MYSQL数据中的t_dp_conf_distinct（task_id为外键），配置参数中含有数据来源（“媒体数据源”）的task_id（100），详细的数据处理过程如图11所示，包括：

（1）任务管理程序持续监控t_dp_task表中的新任务即任务状态为0的任务，如果发现任务状态为0的任务（task_id假设为101），会根据任务所属功能项编码（此例为数据去重，编码为dp_101）去自己所属的详细配置表t_dp_conf_distinct中查找task_id等于101的配置信息；

（2）任务管理读取到任务和配置信息后，会将任务信息+配置信息合并为1条新的任务，发送到任务队列；同时修改t_dp_task的任务状态为1表示处理中；

（3）任务提交引擎从任务队列中pull出任务；

（4）通过接口发送给Spark集群；

（5）Spark集群接收到任务后，解析任务中的配置信息，从数据源媒体类表h2t_ds_news中查找task_id为100的数据并加载到内存中，作为其处理的输入；并从配置信息中解析出的此次要处理的功能编码是dp_101为数据去重任务，然后将配置信息和数据发送给去重接口；

（6）去重程序将根据配置信息中的去重字段（页面地址）去重：首先将数据转换为key-value格式，需要去重的字段（页面地址字段）进行MD5加密作为主键，原数据信息作为value，然后调用Spark的去重函数（如distinct函数），实现去重功能；

（7）去重的结果数据调用入库程序存入到hbase中的数据去重表（h2t_dp_distinct）中，主键以task_id@记录主键：101@记录主键，详细的数据信息以JSON格式存入到all字段中；

（8）任务提交引擎能够捕捉到Spark集群的任务完成状态，当任务处理完成或者失败时，其将发送处理结果消息给任务处理程序；

（9）任务处理程序中的状态更新模块将根据接收到的处理结果状态，修改t_dp_task表中的任务状态，2表示处理完成；3表示处理失败；

同理，通过上述的数据处理流程，只需要横向扩展数据处理中的组件库，通过配置不同的参数就能够实现二次过滤、特征过滤、高相关滤波、多表关联、数据聚合、追加合并、行列转置、招投标信息抽取、专家观点抽取、事件抽取等数据处理功能，能够大大缩减开发周期，同时无相关技术经验的分析人员也可以通过拖拽的方式实现数据处理。

步骤S205：数据分析。

数据分析是宏观经济分析方案的核心，实现基于数据处理后的高质量数据完成数据的价值挖掘。数据分析包括数值分析和文本分析两大子功能，数值分析可以基于机器学习实现分类模型、回归模型、聚类模型和推荐模型等多种模型库；而文本分析可以基于自然语言处理技术，实现文本聚类、关键词分析、情感计算等功能。可以根据不同数据分析实际工作中的需求进行模型的定制，不断完善模型算法库。数据分析功能的业务流程如图12所示。

在对接入的数据进行完必要的数据处理后，就可以进入到数据分析环节对“特色小镇”进行类别情绪计算，所选择的输入数据为“媒体数据源-排重”，其配置界面如图13所示。

类别情绪计算是本申请在宏观经济领域发明的一种分析方法，其主要的配置参数有统计维度、分析字段（可以设置多个文本字段）、类别（支持多组类别）、类别下的关键词；其中每一个类别下面都必须设置关键词，关键词支持正则表达式，本优选实施例中将一个完整的正则表达式看做是一个关键词。

配置完成后，将任务命名“特色小镇-类别情绪计算”，其任务列表如图14所示。

生成的任务会存储到MYSQL数据库中的t_da_task表中（task_id为主键），类别情绪计算的配置参数存储到MYSQL数据库中的表t_da_conf_category_emotion_cal（以task_id为外键），配置参数中含有数据来源（“媒体数据源-排重”）的task_id（101），详细的数据处理过程如图15所示，包括：

（1）任务管理程序持续监控t_da_task表中的新任务（即任务状态为0的任务），如果发现任务状态为0的任务（task_id假设为200），则根据任务所属功能项编码（此例为数据去重，编码为da_101）去自己所属的详细配置表t_da_conf_category_emotion_cal中查找task_id等于200的配置信息；

（2）任务管理程序读取到任务和配置信息后，会将任务信息和配置信息合并为1条新的任务，发送到任务队列；同时修改t_da_task的任务状态为1表示任务正在处理中；

（3）任务提交引擎从任务队列中pull出任务；

（4）通过接口发送给Spark集群；

（5）Spark集群接收到任务后，解析任务中的配置信息，从数据去重表h2t_dp_distinct中查找task_id为101的数据并加载到内存中，作为其处理的输入；并从配置信息中解析出的此次要处理的功能编码是da_101为类别情绪计算任务，然后将配置信息和数据发送给类别情绪计算接口;

（6）类别情绪计算的计算流程如下：

①首先根据分析字段中配置的字段规则，将一条记录中的多个字段组合成一个新的字段A；

②对一条记录中字段A的文本内容使用正则表达式进行切分，生成N条句子；

③遍历类别下的所有关键词，对句子进行正则匹配是否命中判断，如果命中则计算该句子的情感得分（得分1表示正面；0表示中立；-1表示负面），生成一条新的中间结果记录，字段包括：统计维度（例如日期，为用户配置的统计维度字段值）、组名、关键词、情感名称、情感得分；

④重复第③步，遍历某一条记录下的所有句子，直至结束；

⑤重复第②步，遍历所有数据记录，直至结束；

⑥调用Spark的接口，将所有的中间结果数据存放到临时表中，然后对临时表使用SQL语句进行分组统计（统计维度为页面配置的维度+组名+情感名称，输出字段为：统计维度、组名、情感名称、统计值）；

（7）计算的结果数据调用入库程序存入到hbase中的类别情绪计算表（h2t_da_category_emotion_cal）中，主键以task_id@记录主键：200@记录主键，详细的数据信息以JSON格式存入到all字段中。

（9）任务处理程序中的状态更新模块将根据接收到的处理结果状态，修改t_da_task表中的任务状态，2表示处理完成；3表示处理失败；

同理，通过上述的数据分析流程，只需要横向扩展数据分析中的组件库，通过配置不同的参数就能够实现频次分布统计、文本分布统计、类别分布统计、关键词情绪计算、词频统计、文本聚类等数据分析功能，能够大大缩减开发周期，同时无相关技术经验的分析人员也可以通过拖拽的方式实现数据分析。

步骤S207：分析结果展现。

将数据源按照用户自定义的图表进行展现，展现方式包括折线图、柱状图、散点图、K线图、饼图、雷达图、和弦图、力导向布局图、地图、仪表图、热力图、事件河流图、韦恩图、矩形图、树图以及字符云等。

以特色小镇分析为例，从互联网数据中提取有关特色小镇的媒体、自媒体数据，分析网民对各类特色小镇关注占比分布并可视化展现，如图16和17所示。

对于前述的各方法实施例，为了描述简单，故将其都表述为一系列的动作组合，但是本领域的技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为根据本申请，某些步骤可以采用其他顺序或同时执行；其次，本领域技术人员也应该知悉，上述方法实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本申请还公开了一种在其上记录有用于执行上述第一实施例和第二实施例所述方法的程序的存储介质。所述存储介质包括配置为以计算机（以计算机为例）可读的形式存储或传送信息的任何机制。例如，存储介质包括只读存储器（ROM）、随机存取存储器（RAM）、磁盘存储介质、光存储介质、闪速存储介质、电、光、声或其他形式的传播信号等（例如，载波、红外信号、数字信号等）。

第三实施例：

参照图3，示出了本申请第三实施例一种基于互联网大数据的宏观经济分析系统的结构框图，包括：

用户接口模块30，用于接收用户根据待分析的宏观经济业务选择的数据源及其查询条件；在具体实施时，上述查询条件可以为所述数据源的标题和/或正文中包括有用户设置的检索关键词。

数据获取模块31，用于从所述数据源中获取符合查询条件的数据并保存在本地数据库中。

数据清洗模块32，用于根据所述数据源对应的预置过滤参数对保存在本地数据库中的数据进行去重处理。

数据抽取模块33，用于根据所述宏观经济业务的预置类别情绪关键词从去重处理后的数据的预置字段中抽取对应的量化数据信息。

指标统计模块34，用于根据用户配置的统计维度对抽取出的量化数据信息中的各分析指标进行统计。

结果展现模块35，用于以预设图表形式（如折线图、柱状图、散点图、K线图、饼图、雷达图、和弦图、力导向布局图、地图、仪表图、热力图、事件河流图、韦恩图、矩形图、树图以及字符云等）展现各分析指标的统计结果。

在另一实施例中，所述系统还可以配置任务管理程序，和/或任务提交引擎和Spark集群，其中：

具体实施时，上述数据获取模块31可以根据数据源的来源渠道将数据获取任务切分为多个子任务，并将所述子任务添加到任务队列；然后由任务管理程序从所述任务队列调度子任务，由所述子任务执行从相应数据源获取对应的满足查询条件的数据并储存到本地数据库中的过程。

在进一步的优选实施例中，切分数据获取任务的参数还可以包括预设的日期范围；数据获取模块31在将数据获取任务切分为多个子任务之前，还包括如下处理过程：依据所述查询条件预览每个数据源中符合条件的数据；根据所述数据源中符合查询条件的数据量生成数据获取预估时间。

数据清洗模块32可以生成数据去重处理任务并添加至任务队列；然后由任务提交引擎从任务队列拖出数据去重处理任务并发送至Spark集群；Spark集群收到数据去重处理任务后，解析出数据去重处理任务中包括的预置去重字段，以预置去重字段为主键，调用去重函数（如distinct函数）对保存在本地数据库中的数据执行去重处理。

数据抽取模块33可以生成量化数据抽取任务并添加至任务队列；由任务提交引擎从任务队列拖出量化数据抽取任务并发送至Spark集群； Spark集群收到量化数据抽取任务后，解析出量化数据抽取任务中包括的预置类别情绪关键词，执行根据所述预置类别情绪关键词从去重处理后的数据的预置字段中抽取对应的量化数据信息的处理过程。

具体实施时，数据抽取模块33可以采用如下方式从去重处理后的数据的预置字段中抽取对应的量化数据信息：将第一条数据记录作为当前数据记录；对当前数据记录中的预置字段的文本内容使用正则表达式进行切分，生成一条或多条句子；对上述生成的每一条句子，遍历所有的预置类别情绪关键词，对所述句子进行正则匹配判断；若命中则计算该句子的情感得分（其中正面情感的情感得分为1，中立情感的情感得分为0，负面情感的情感得分为-1）；将下一条数据记录作为当前数据记录，重复上述对当前数据记录的处理过程，直至所有数据记录处理完毕。

当预置字段包括多个时；为方便对字段中的文本内容的切分处理，数据抽取模块33在抽取量化数据信息之前，可以先将每条数据记录的预置字段合并为一个新的预置字段。

需要说明的是，上述系统实施例属于优选实施例，所涉及的单元和模块并不一定是本申请所必须的。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于本申请的系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例部分的说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，既可以位于一个地方或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于互联网大数据的宏观经济分析方法，其特征在于，包括：

接收用户根据待分析的宏观经济业务选择的数据源及其查询条件；

从所述数据源中获取符合查询条件的数据并保存在本地数据库中；

根据所述数据源对应的预置去重字段，对保存在本地数据库中的数据进行去重处理；

根据所述宏观经济业务的预置类别情绪关键词，从去重处理后的数据的预置字段中抽取对应的量化数据信息；

根据用户配置的统计维度，对抽取出的量化数据信息中的各分析指标进行统计；

以预设图表形式展现各分析指标的统计结果。

2.根据权利要求1所述的一种基于互联网大数据的宏观经济分析方法，其特征在于，执行所述方法的系统配置有任务管理程序；所述从所述数据源中获取符合查询条件的数据并保存在本地数据库中，具体包括：

根据数据源的来源渠道将数据获取任务切分为多个子任务，并将所述子任务添加到任务队列；

任务管理程序从所述任务队列调度子任务，由所述子任务执行从相应数据源获取对应的满足查询条件的数据并储存到本地数据库中的过程。

3.根据权利要求2所述的一种基于互联网大数据的宏观经济分析方法，其特征在于，查询条件为所述数据源的标题和/或正文中包括有用户设置的检索关键词；切分数据获取任务的参数还包括预设的日期范围；在将数据获取任务切分为多个子任务之前还包括：

依据所述查询条件预览每个数据源中符合条件的数据；

根据所述数据源中符合查询条件的数据量生成数据获取预估时间。

4.根据权利要求1所述的一种基于互联网大数据的宏观经济分析方法，其特征在于，执行所述方法的系统配置有任务提交引擎和Spark集群；根据所述数据源对应的预置去重字段，对保存在本地数据库中的数据进行去重处理，具体包括：

生成数据去重处理任务并添加至任务队列；

所述任务提交引擎从任务队列拖出数据去重处理任务并发送至Spark集群；

所述Spark集群解析出数据去重处理任务中的预置去重字段，以预置去重字段为主键，调用去重函数对保存在本地数据库中的数据执行去重处理。

5.根据权利要求1所述的一种基于互联网大数据的宏观经济分析方法，其特征在于，执行所述方法的系统配置有任务提交引擎和Spark集群；根据所述宏观经济业务的预置类别情绪关键词，从去重处理后的数据的预置字段中抽取对应的量化数据信息，具体包括：

生成量化数据抽取任务并添加至任务队列；

所述任务提交引擎从任务队列拖出量化数据抽取任务并发送至Spark集群；

所述Spark集群解析出量化数据抽取任务中的预置类别情绪关键词，执行根据所述预置类别情绪关键词从去重处理后的数据的预置字段中抽取对应的量化数据信息的处理过程。

6.根据权利要求1或5所述的一种基于互联网大数据的宏观经济分析方法，其特征在于，所述从去重处理后的数据的预置字段中抽取对应的量化数据信息，具体包括：

将第一条数据记录作为当前数据记录；

对当前数据记录中的预置字段的文本内容使用正则表达式进行切分，生成一条或多条句子；

对上述生成的每一条句子，遍历所有的预置类别情绪关键词，对所述句子进行正则匹配判断；若命中则计算该句子的情感得分；其中正面情感的情感得分为1，中立情感的情感得分为0，负面情感的情感得分为-1；

将下一条数据记录作为当前数据记录，重复上述对当前数据记录的处理过程，直至所有数据记录处理完毕。

7.根据权利要求6所述的一种基于互联网大数据的宏观经济分析方法，其特征在于，所述预置字段包括多个；在所述从去重处理后的数据的预置字段中抽取对应的量化数据信息之前，还包括：

将每条数据记录的预置字段合并为一个新的预置字段，作为后续切分的预置字段。

8.一种基于互联网大数据的宏观经济分析系统，其特征在于，包括：

用户接口模块，用于接收用户根据待分析的宏观经济业务选择的数据源及其查询条件；

数据获取模块，用于从所述数据源中获取符合查询条件的数据并保存在本地数据库中；

数据清洗模块，用于根据所述数据源对应的预置过滤参数对保存在本地数据库中的数据进行去重处理；

数据抽取模块，用于根据所述宏观经济业务的预置类别情绪关键词从去重处理后的数据的预置字段中抽取对应的量化数据信息；

指标统计模块，用于根据用户配置的统计维度对抽取出的量化数据信息中的各分析指标进行统计；

结果展现模块，用于以预设图表形式展现各分析指标的统计结果。

9.根据权利要求8所述的一种基于互联网大数据的宏观经济分析系统，其特征在于，所述系统配置有任务管理程序和/或任务提交引擎和Spark集群，其中：

所述数据获取模块根据数据源的来源渠道将数据获取任务切分为多个子任务，并将所述子任务添加到任务队列；所述任务管理程序从所述任务队列调度子任务，由所述子任务执行从相应数据源获取对应的满足查询条件的数据并储存到本地数据库中的过程；

所述数据清洗模块生成数据去重处理任务并添加至任务队列；所述任务提交引擎从任务队列拖出数据去重处理任务并发送至Spark集群；所述Spark集群解析出数据去重处理任务中的预置去重字段，以预置去重字段为主键，调用去重函数对保存在本地数据库中的数据执行去重处理；

所述数据抽取模块生成量化数据抽取任务并添加至任务队列；所述任务提交引擎从任务队列拖出量化数据抽取任务并发送至Spark集群；所述Spark集群解析出量化数据抽取任务中的预置类别情绪关键词，执行根据所述预置类别情绪关键词从去重处理后的数据的预置字段中抽取对应的量化数据信息的处理过程。

10.一种存储介质，其特征在于，所述存储介质存储有用于执行权利要求1~7任一所述的方法的程序。