CN114297190A - 数据分析方法及装置 - Google Patents

数据分析方法及装置 Download PDF

Info

Publication number
CN114297190A
CN114297190A CN202210221175.XA CN202210221175A CN114297190A CN 114297190 A CN114297190 A CN 114297190A CN 202210221175 A CN202210221175 A CN 202210221175A CN 114297190 A CN114297190 A CN 114297190A
Authority
CN
China
Prior art keywords
data
data records
growth
model
trend
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210221175.XA
Other languages
English (en)
Inventor
李文龙
吴代君
朱海洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Shengtu Digital Technology Co ltd
Zhejiang Shuyang Technology Co ltd
Original Assignee
Zhejiang Shengtu Digital Technology Co ltd
Zhejiang Shuyang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Shengtu Digital Technology Co ltd, Zhejiang Shuyang Technology Co ltd filed Critical Zhejiang Shengtu Digital Technology Co ltd
Priority to CN202210221175.XA priority Critical patent/CN114297190A/zh
Publication of CN114297190A publication Critical patent/CN114297190A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供了一种数据分析方法及装置。其中方法包括:获取目标领域下的多条数据记录;将该多条数据记录输入预先构建的增长模型,得到若干增长指标数据;将该多条数据记录输入预先构建的趋势模型,得到若干趋势指标数据;基于该多条数据记录、若干增长指标数据和若干趋势指标数据,以及预先构建的风险评估模型,确定所述目标领域的风险评估结果;基于所述若干增长指标数据、若干趋势指标数据和风险评估结果,生成针对所述目标领域的分析报告,其中包括分析图表和相关文字说明。如此,可以实现从原始数据到终端图表报告产品的自动化生成。

Description

数据分析方法及装置
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及一种数据分析方法及装置。
背景技术
在当今大数据时代,随着数据的巨量增加,数据产业面临严重的瓶颈,那就是数据积累越来越多,但数据价值得挖掘无法同步跟进,主要的原因是数据分析专家的增长与培养时间周期太长。现实中存在日益增长的数据与无法进行有效数据价值挖掘的矛盾,这制约了数据价值的发挥。大量数据产生与收集后,往往成为数据存货甚至是数据包袱,这与提升数字价值得初衷严重不符。
因此,迫切需要一种方案,可以高效进行数据处理和分析,充分挖掘数据价值。
发明内容
本说明书一个或多个实施例描述了一种数据分析方法,可以有效提高数据的分析处理效率,充分挖掘数据价值,实现从原始数据到终端图表报告产品的自动化生成。
根据第一方面,提供了一种数据分析方法,包括:获取目标领域下的多条数据记录;将该多条数据记录输入预先构建的增长模型,得到若干增长指标数据;将该多条数据记录输入预先构建的趋势模型,得到若干趋势指标数据;基于该多条数据记录、若干增长指标数据和若干趋势指标数据,以及预先构建的风险评估模型,确定所述目标领域的风险评估结果;基于所述若干增长指标数据、若干趋势指标数据和风险评估结果,生成针对所述目标领域的分析报告,其中包括分析图表和相关文字说明。
在一个实施例中,获取目标领域下的多条数据记录,包括:从目标数据源和目标数据库获取若干第一原始数据记录;基于目标网址爬取若干第二原始数据记录;基于所述若干第一原始数据记录和若干第二原始数据记录,确定所述多条数据记录。
在一个具体的实施例中,基于所述若干第一原始数据记录和若干第二原始数据记录,确定所述多条数据记录,包括:基于所述若干第一原始数据记录和若干第二原始数据记录,计算自定义字段的字段值,归入所述多条数据记录。
在另一个具体的实施例中,基于所述若干第一原始数据记录和若干第二原始数据记录,确定所述多条数据记录,包括:将所述若干第一原始数据记录和若干第二原始数据记录进行数据清洗和数据修正处理后,归入所述多条数据记录。
在一个实施例中,所述增长模型包括若干子模型;其中,将该多条数据记录输入预先构建的增长模型,得到若干增长指标数据,包括:将所述多条数据记录中的第一记录部分输入增长贡献度分解子模型,得到各个分解维度下的各个维度值所对应的贡献度;和/或,将所述多条数据记录中的第二记录部分输入增长季节调整子模型,得到季节调整后的增长指标数据;和/或,将所述多条数据记录中的第三记录部分输入增长环比子模型,得到增长环比指标数据;和/或,将所述多条数据记录中的第三记录部分输入增长同比子模型,得到增长同比指标数据;和/或,将所述多条数据记录中的第四记录部分输入增长预测子模型,得到下一时间节点的预测指标值。
在一个实施例中,所述趋势模型包括以下子模型中的一个或多个:热度识别模型、指数化趋势模型、面积叠加模型、线性趋势模型、趋势方向模型、柱状排序模型。
在一个实施例中,基于该多条数据记录、若干增长指标数据和若干趋势指标数据,以及预先构建的风险评估模型,确定所述目标领域的风险评估结果,包括:将所述多条数据记录中的至少一部分、若干增长指标值和若干趋势指标值输入预先训练好的风险评分模型,得到风险评分,归入所述风险评估结果。
在一个具体的实施例中,基于该多条数据记录、若干增长指标数据和若干趋势指标数据,以及预先构建的风险评估模型,确定所述目标领域的风险评估结果,还包括:基于预先建立的风险分数与响应对策之间的映射关系,确定所述得到的风险评分对应的响应对策,归入所述风险评估结果;和/或,根据所述风险分数绘制风险热图,归入所述风险评估结果。
在一个实施例中,基于所述若干增长指标数据、若干趋势指标数据和风险评估结果,生成针对所述目标领域的分析报告,包括:基于所述增长指标数据、若干趋势指标数据和风险评估结果进行数据可视化处理,生成对应的可视化图表,用于形成所述分析报告;其中,所述数据可视化处理包括以下中的至少一种:图形区域抓取、优化图形选取、色彩智能配置、图形尺寸优化;和/或,基于所述增长指标数据、若干趋势指标数据和风险评估结果,以及预先建立的文字情景库,生成说明性文字,用于形成所述分析报告。
根据第二方面,提供了一种数据分析装置,包括:数据记录获取单元,配置为获取目标领域下的多条数据记录;增长数据确定单元,配置为将该多条数据记录输入预先构建的增长模型,得到若干增长指标数据;趋势数据确定单元,配置为将该多条数据记录输入预先构建的趋势模型,得到若干趋势指标数据;风险数据确定单元,配置为基于该多条数据记录、若干增长指标数据和若干趋势指标数据,以及预先构建的风险评估模型,确定所述目标领域的风险评估结果;报告生成单元,配置为基于所述若干增长指标数据、若干趋势指标数据和风险评估结果,生成针对所述目标领域的分析报告,其中包括分析图表和相关文字说明。
在一个实施例中,数据记录获取单元具体配置为:从目标数据源和目标数据库获取若干第一原始数据记录;基于目标网址爬取若干第二原始数据记录;基于所述若干第一原始数据记录和若干第二原始数据记录,确定所述多条数据记录。
进一步,在一个具体的实施例中,数据记录获取单元进一步配置为:基于所述若干第一原始数据记录和若干第二原始数据记录,计算自定义字段的字段值,归入所述多条数据记录。
在另一个具体的实施例中,数据记录获取单元进一步配置为:将所述若干第一原始数据记录和若干第二原始数据记录进行数据清洗和数据修正处理后,归入所述多条数据记录。
在一个实施例中,所述增长模型包括若干子模型;增长数据确定单元具体配置为:将所述多条数据记录中的第一记录部分输入增长贡献度分解子模型,得到各个分解维度下的各个维度值所对应的贡献度;和/或,将所述多条数据记录中的第二记录部分输入增长季节调整子模型,得到季节调整后的增长指标数据;和/或,将所述多条数据记录中的第三记录部分输入增长环比子模型,得到增长环比指标数据;和/或,将所述多条数据记录中的第三记录部分输入增长同比子模型,得到增长同比指标数据;和/或,将所述多条数据记录中的第四记录部分输入增长预测子模型,得到下一时间节点的预测指标值。
在一个实施例中,所述趋势模型包括以下子模型中的一个或多个:热度识别模型、指数化趋势模型、面积叠加模型、线性趋势模型、趋势方向模型、柱状排序模型。
在一个实施例中,风险数据确定单元具体配置为:将所述多条数据记录中的至少一部分、若干增长指标值和若干趋势指标值输入预先训练好的风险评分模型,得到风险评分,归入所述风险评估结果。
在一个具体的实施例中,风险数据确定单元具体还配置为:基于预先建立的风险分数与响应对策之间的映射关系,确定所述得到的风险评分对应的响应对策,归入所述风险评估结果;和/或,根据所述风险分数绘制风险热图,归入所述风险评估结果。
在一个实施例中,报告生成单元具体配置为:基于所述增长指标数据、若干趋势指标数据和风险评估结果进行数据可视化处理,生成对应的可视化图表,用于形成所述分析报告;其中,所述数据可视化处理包括以下中的至少一种:图形区域抓取、优化图形选取、色彩智能配置、图形尺寸优化;和/或,基于所述增长指标数据、若干趋势指标数据和风险评估结果,以及预先建立的文字情景库,生成说明性文字,用于形成所述分析报告。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,处理器执行所述可执行代码时,实现第一方面的方法。
采用本说明书实施例提供的方法和装置, 可以有效提高数据的分析处理效率,充分挖掘数据价值,实现从原始数据到终端图表报告产品的自动化生成。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出根据一个实施例的数据分析方案的实施架构示意图;
图2示出根据一个实施例的数据分析方法的流程示意图;
图3示出根据一个实施例的数据分析装置的结构示意图;
图4示出根据一个实施例的数据分析平台的结构示意图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
本说明书实施例披露一种数据分析方案,通过对数据记录进行智能化采集和处理,实现对数据价值的充分挖掘,并且,将挖掘价值体现在可供终端查看的数据图表分析报告中。图1示出根据一个实施例的数据分析方案的实施架构示意图,如图1所示,为了对某个领域(以下或称目标领域)进行数据分析,采集该领域下的多条数据记录(图1中示意为N条),并利用增长模型、趋势模型和风险评估模型,对其进行层次化、深度化分析处理,进而基于分析处理的结果生成针对该领域的文字图表分析报告。
下面结合具体的实施例,描述本申请发明构思的实施步骤。图2示出根据一个实施例的数据分析方法的流程示意图,所述方法的执行主体可以为任何具有计算、处理能力的装置、平台、服务器或设备集群。如图2所示,所述方法包括以下步骤:
步骤S210,获取目标领域下的多条数据记录;步骤S220,将该多条数据记录输入预先构建的增长模型,得到若干增长指标数据;步骤S230,将该多条数据记录输入预先构建的趋势模型,得到若干趋势指标数据;步骤S240,基于该多条数据记录、若干增长指标数据和若干趋势指标数据,以及预先构建的风险评估模型,确定所述目标领域的风险评估结果;步骤S250,基于所述若干增长指标数据、若干趋势指标数据和风险评估结果,生成针对所述目标领域的分析报告,其中包括分析图表和相关文字说明。
对以上步骤的展开介绍如下:
首先,在步骤S210,获取目标领域下的多条数据记录。需理解,此目标领域可以是任意的应用领域,如经济、政务、民生、消费、医疗和教育等。
在一个实施例中,从目标数据源获取若干原始数据记录。需理解,其中目标数据源可以包括签订有合作协议的数据源。在另一个实施例中,从目标数据库获取若干原始数据记录。需理解,其中目标数据库可以包括签订有协议的数据库。在又一个实施例中,从目标网址爬取若干原始数据记录,例如,可以通过网上数据抓取软件进行数据抓取。
基于上述获取或爬去的原始数据记录,进一步,在一个实施例中,可以直接将其归入上述多条数据记录。在另一个实施例中,可以先对这些原始数据记录进行数据清洗等预处理,再归入上述多条数据记录中。在一个具体的实施例中,数据清洗处理包括有效数据识别,例如,对于某条数据记录中的某个字段值,若其在有效数值区间内,则判定其为有效数据,否则为无效数据,进一步,可以对无效数据进行抛弃或修正处理,从而实现对数据的清洗。在另一个具体的实施例中,上述预处理包括数据修正处理,例如,将某个字段下的字段值统一修正为预设精度(例如小数点后保留两位)下的数值。在又一个具体的实施例中,上述预处理还包括缺省值智能处理,例如,可以对某个缺省的字段值进行默认值填充。在还一个具体的实施例中,还包括对原始数据进行逻辑排序,按照逻辑排序生成便于识别的数据序列。如此,通过对原始数据记录进行预处理,可以生成标准化的数据记录。
另一方面,在一个实施例中,可以根据上述原始数据记录计算自定义字段的字段值,或者说计算自定义基础指标的基础指标值,从而归入多条数据记录中。如此,可以实现基础指标的自定义,从而生成现有数据库无法提供、但在目标领域下的数据分析又十分需要的基础指标体系。
由上,可以获取目标领域下的多条数据记录。然后,在步骤S220,将此多条数据记录输入预先构建的增长模型,得到若干增长指标数据。需说明,本说明书实施例中披露的指标数据可以包括指标数值或者基于指标数值绘制的图例。
上述增长模型中可以是单个模型,或者,可以实现为多个子模型。需理解,其中各个子模型所对应的输入通常存在一定差异,可以是上述多条数据记录中的不同部分,例如,数据记录中的不同字段,或者,对应不同日期的数据记录。
在一个实施例中,将上述多条数据记录中的第一记录部分输入增长贡献度分解子模型,得到各个分解维度下的各个维度值所对应的贡献度。在一个具体的实施例中,分解维度可以根据地区、产品、价格、数量、行业或产业等进行设定。示例性地,地区维度下的维度值可以包括华北、华东和华中地区。
在另一个实施例中,将上述多条数据记录中的第二记录部分输入增长季节调整子模型,得到季节调整后的增长指标数据。需理解,季节调整通常是指消除季节性周期的影响,例如,春节期间消费额的大幅增长在一定范围内是正常的,需要消除这部分影响。
在又一个实施例中,将上述多条数据记录中的第三记录部分输入增长环比子模型,得到增长环比指标数据。
在还一个实施例中,将上述多条数据记录中的第三记录部分输入增长同比子模型,得到增长同比指标数据。
在再一个实施例中,将上述多条数据记录中的第四记录部分输入增长预测子模型,得到下一时间节点的预测指标值。在一个具体的实施例中,其中增长预测子模型可以实现为周期模型或线性模型等。
由上,可以得到若干增长指标数据,包括增长贡献度、增长环比、增长同比、增长预测值、增长季节性调整后数据,等等。在执行步骤S220之前、同时或之后,还执行步骤S230,将上述多条数据记录输入预先构建的趋势模型,得到若干趋势指标数据。需说明,趋势模型主要用于判断各类指标变动的方向,其中可以包括以下一个或多个子模型:热度/色彩识别模型、指数化趋势模型、HP filter模型、线性趋势模型、面积叠加模型、趋势方向模型、柱状排序模型,等等。需理解,指数化趋势模型包括将数据记录处理成指数化指标,再对其进行趋势分析,其中指数化指标是在指数中反映其数量变化或对比关系的变量。
如此,可以得到若干趋势指标数据。
以上,可以得到多条数据记录、若干增长指标数据和若干趋势指标数据。基于此,在步骤S240,根据得到的这些数据和预先构建的风险评估模型,确定目标领域的风险评估结果。
可以理解,上述若干增长指标数据中包括若干增长指标值,上述若干趋势指标数据中包括若干趋势指标值。
在一个实施例中,将多条数据记录中的部分或全部、若干增长指标值和若干趋势指标值输入预先训练好的风险评分模型,得到风险评分,归入风险评估结果。需说明,此风险评分模型是机器学习模型,例如,可以采用深度学习(Deep Learning)算法或贝叶斯网络等实现。进一步,在一个具体的实施例中,可以对风险评分模型进行多次使用,从而得到同一维度下多个维值的评分,例如,风险评分模型可以用于评估不同地区的风险分数,相应,可以将上述多条数据记录、若干增长指标值和若干趋势指标值划分为对应不同地区的多组数据,从而,将该多组数据分别输入风险评分模型,得到多个风险数据。在另一个具体的实施例中,上述风险评分模型中包括对应多个维度的风险子模型,相应,可以基于上述得到的数据形成对应该多个维度的多组数据,从而将此多组数据各自对应输入多个风险子模型中,得到该多个维度对应的多个风险分数。
由上,可以得到风险评分。进一步,在一个实施例中,可以根据风险评分绘制风险热图,从而归入风险评估结果。在另一个实施例中,还可以基于预先建立的风险分数与响应对策之间的映射关系,确定上述得到的风险评分对应的响应对策,从而归入风险评估结果。
由上,可以得到风险评估结果。之后,在步骤S250,基于此风险评估结果,以及上述若干增长指标数据和若干趋势指标数据,生成针对目标领域的分析报告,其中包括分析图表和相关文字说明。
在一个实施例中,通过进行数据可视化处理,生成对应的可视化图表,即上述分析图表。在一个具体的实施例中,其中数据可视化处理可以包括:图形区域抓取、优化图形选取、色彩智能配置、图形尺寸优化。在一个例子中,上述若干趋势指标数据中包括多个指标趋势图例,相应,可以对其进行抓取,进一步,还可以从中抓取被标记为异常的指标趋势的图例,从而实现图形选取的优化。
在一个实施例中,可以结合预先建立的文字情景库,生成说明性文字,即上述相关文本说明,用于形成上述分析报告。需理解,此说明性文字与分析图表是适配的。在一个实施例中,文字情景库中可以包括对应多个备选领域的多个领域词典,相应,在本步骤,可以基于与目标领域对应的领域词典进行词汇选取,以生成说明性文字。
另一方面,在一个实施例中,上述说明性文字的生成还用到了数字文字匹配技术,例如,将19年匹配为2019年。在另一个实施例中,还用到了文字智能选取技术,例如,根据预先建立的指标值区间与描述性文字之间的映射关系,选取与上述增长指标值或趋势指标值等相对应的描述性文字。示例性地,某个指标和另一指标的指标值分别为-5%和-6%,相应,可以确定对应的描述性文字为严重下跌和有所下降。
由上,可以实现数据分析报告的自动生成。
根据另一方面的实施例,在步骤S250之后,所述方法还可以包括:将生成的分析报告发送至用户终端。
综上,采用本说明书实施例披露的数据分析方法,可以有效提高数据的分析处理效率,充分挖掘数据价值,实现从原始数据到终端图表报告产品的自动化生成。
与上述数据分析方法相对应的,本说明书实施例还披露一种数据分析装置。图3示出根据一个实施例的数据分析装置的结构示意图,如图3所示,所述装置300包括:
数据记录获取单元310,配置为获取目标领域下的多条数据记录;增长数据确定单元320,配置为将该多条数据记录输入预先构建的增长模型,得到若干增长指标数据;趋势数据确定单元330,配置为将该多条数据记录输入预先构建的趋势模型,得到若干趋势指标数据;风险数据确定单元340,配置为基于该多条数据记录、若干增长指标数据和若干趋势指标数据,以及预先构建的风险评估模型,确定所述目标领域的风险评估结果;报告生成单元350,配置为基于所述若干增长指标数据、若干趋势指标数据和风险评估结果,生成针对所述目标领域的分析报告,其中包括分析图表和相关文字说明。
在一个实施例中,数据记录获取单元310具体配置为:从目标数据源和目标数据库获取若干第一原始数据记录;基于目标网址爬取若干第二原始数据记录;基于所述若干第一原始数据记录和若干第二原始数据记录,确定所述多条数据记录。
进一步,在一个具体的实施例中,数据记录获取单元310进一步配置为:基于所述若干第一原始数据记录和若干第二原始数据记录,计算自定义字段的字段值,归入所述多条数据记录。
在另一个具体的实施例中,数据记录获取单元310进一步配置为:将所述若干第一原始数据记录和若干第二原始数据记录进行数据清洗和数据修正处理后,归入所述多条数据记录。
在一个实施例中,所述增长模型包括若干子模型;增长数据确定单元320具体配置为:将所述多条数据记录中的第一记录部分输入增长贡献度分解子模型,得到各个分解维度下的各个维度值所对应的贡献度;和/或,将所述多条数据记录中的第二记录部分输入增长季节调整子模型,得到季节调整后的增长指标数据;和/或,将所述多条数据记录中的第三记录部分输入增长环比子模型,得到增长环比指标数据;和/或,将所述多条数据记录中的第三记录部分输入增长同比子模型,得到增长同比指标数据;和/或,将所述多条数据记录中的第四记录部分输入增长预测子模型,得到下一时间节点的预测指标值。
在一个实施例中,所述趋势模型包括以下子模型中的一个或多个:热度识别模型、指数化趋势模型、面积叠加模型、线性趋势模型、趋势方向模型、柱状排序模型。
在一个实施例中,风险数据确定单元340具体配置为:将所述多条数据记录中的至少一部分、若干增长指标值和若干趋势指标值输入预先训练好的风险评分模型,得到风险评分,归入所述风险评估结果。
在一个具体的实施例中,风险数据确定单元340具体还配置为:基于预先建立的风险分数与响应对策之间的映射关系,确定所述得到的风险评分对应的响应对策,归入所述风险评估结果;和/或,根据所述风险分数绘制风险热图,归入所述风险评估结果。
在一个实施例中,报告生成单元350具体配置为:基于所述增长指标数据、若干趋势指标数据和风险评估结果进行数据可视化处理,生成对应的可视化图表,用于形成所述分析报告;其中,所述数据可视化处理包括以下中的至少一种:图形区域抓取、优化图形选取、色彩智能配置、图形尺寸优化;和/或,基于所述增长指标数据、若干趋势指标数据和风险评估结果,以及预先建立的文字情景库,生成说明性文字,用于形成所述分析报告。
综上,采用本说明书实施例披露的数据分析装置,可以有效提高数据的分析处理效率,充分挖掘数据价值,实现从原始数据到终端图表报告产品的自动化生成。
为辅助理解,下面结合图4示出的平台系统架构图,并且,以上述目标领域为经济领域为例,对本申请方案进行进一步介绍。图4示出根据一个实施例的数据分析平台的结构示意图,如图4所示,从平台构成来看,其中包括5大系统和35个子系统。
一、大数据采集系统。平台通过与数据源及商业数据库签订协议或通过网上数据抓取软件,建立自身的经济大数据库,汇聚了百万级条数的动态经济指标。同时,平台还通过自身系统生成了现有数据库无法提供、但经济分析又十分需要的新的指标体系,从而形成了自身在经济大数据整合方面的独特优势。
二、智能数据处理系统。平台利用计算机的逻辑判断模型对经济大数据进行有效性处理,实施自动筛选,定位有效数据,按照逻辑排序生成便于识别的数据序列。具体来说,这包括了4个子系统:有效数据识别,数据智能修正,缺省值智能处理,数据逻辑排序。通过这4四个子系统,平台自动生成了为经济与统计模型使用的标准智能数据系列。
三、经济学及统计学分析模型。平台基于自身构建的严谨经济学以及统计学分析模型,对智能经济数据进行大量精确的分解、趋势、风险及统计分析。具体,这方面的模型包括3个领域,即增长模型,趋势模型及风险分析模型。
1)增长模型主要是对经济指标的贡献度进行分解,涉及的领域包括地区,产品,价格与数量,行业及产业。考虑到数据的扰动因素,平台设计了增长季节调整模型。同时,平台还制定了标准的同比增长及环比增长模型。预测也是增长的主要内容,这方面,平台设计了预测模型,包括周期模型,线性模型等。
2)趋势模型主要是用于判断各类指标变动的方向,包括了热度/色彩识别模型,指数化趋势模型,HP fliter模型,线性趋势模型,面积叠加模型,趋势方向模型,柱状排序模型。
3)风险分析模型主要对经济风险进行识别与提出相应的对策。具体的模型包括风险热图分析,风险预警模型以及对策响应框架。
四、数据可视化处理系统。经过经济学及统计学模型的处理,平台将模型输出的数据进智能可视化处理。具体包括4个方面,图形区域抓取,优化图形选取,色彩智能配置及图形尺寸优化。
五、文字智能生成系统。在自动生成终端图形的基础上,平台可以利用文字的智能生成系统,对终端图形进行自动的文字匹配生成,具体包括四个子系统:文字情景库,数字文字匹配,文字智能选取,终端报告匹配及自动发送。
由上,平台在经过以上五个系统的智能处理后,将自动生成终端的经济分析报告,可以以PPT,PDF, word的形式对用户进行自动发送。需要强调的是,平台系统不是封闭的系统,它强调开放式的计算及交互式演进,可以基于云计算并进行系统与客户之间的交互式信息传递及反馈,以不断进行改进,提升服务客户的水平及竞争能力。具体:
1)平台的数据库具有独特优势。区别于目前传统的商业数据库,平台的数据库是整合现有行业层面数据程度最高且更为全面的经济数据库,具有不可替代性。主要的数据来源具有独创性,且数据的分析视角更为深入。基于此,平台报告的深度及广度均超过目前一般的专业经济报告,其已经得到了多个使用方的高度评价。
2)平台提供了最为全面、智能及深入的经济风险预警判断系统。平台的经济风险预警判断系统是基于经济数据实时抓取、智能分析以及快速展示的系统,在范围、速度及可靠性等方面优于传统的风险分析预警方法。平台的经济风险预警判断系统已经运用到宏观经济风险监测分析领域,对经济风险判断发挥了重要作用。不仅如此,由于平台在行业分析方面具有优势,因此平台的经济风险预警判断系统也可以运用到行业及企业层面的风险识别及投资决策。
3)平台将经济分析方法与数据自动化判断及智能逻辑运算有机结合起来,实现了经济分析、统计学及大数据处理的跨界组合,从而发展出目前已知在经济分析领域自动化程度最高、高度跨界的分析平台。平台包括了5大系统及35个子系统:大数据采集系统,智能数据处理系统,经济学及统计学分析模型,数据可视化处理系统,文字智能生成系统。
4)平台是目前最快且最为全面提供经济数据图表分析的应用平台。平台可在经济数据发布快速生成和更新准确的经济图表及对应简报,第一时间生成数据透视分析结果,实现了从原始数据到终端图表报告产品的高速自动处理过程。
5)平台具有数据精准筛选及定位的功能。平台可以从其大数据库中精准抓取各类经济数据序列,进行筛选及智能计算与排序,从而在数据的识别方面具有独立的优势及高效率的特点。同时,平台可以筛选出涉密数据,避免涉密信息的对外泄露。
6)平台能大为降低经济分析成本,对经济信息的分析及传播具有革命性的创新意义。由于嵌入了大量的自动化及逻辑判断功能,平台自动进行经济数据分析,能够大量节省高端技术人员的人力成本。同时通过网络自动化发送,快速广泛散布,对经济信息的分析及传播具有创新意义。
7)平台可以在自动生成图形的同时自动生成相关的文字分析判断,加强使用者对经济时局客观、快速把握能力。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.一种数据分析方法,包括:
获取目标领域下的多条数据记录;
将该多条数据记录输入预先构建的增长模型,得到若干增长指标数据;
将该多条数据记录输入预先构建的趋势模型,得到若干趋势指标数据;
基于该多条数据记录、若干增长指标数据和若干趋势指标数据,以及预先构建的风险评估模型,确定所述目标领域的风险评估结果;
基于所述若干增长指标数据、若干趋势指标数据和风险评估结果,生成针对所述目标领域的分析报告,其中包括分析图表和相关文字说明。
2.根据权利要求1所述的方法,其中,获取目标领域下的多条数据记录,包括:
从目标数据源和目标数据库获取若干第一原始数据记录;
基于目标网址爬取若干第二原始数据记录;
基于所述若干第一原始数据记录和若干第二原始数据记录,确定所述多条数据记录。
3.根据权利要求2所述的方法,其中,基于所述若干第一原始数据记录和若干第二原始数据记录,确定所述多条数据记录,包括:
基于所述若干第一原始数据记录和若干第二原始数据记录,计算自定义字段的字段值,归入所述多条数据记录。
4.根据权利要求2所述的方法,其中,基于所述若干第一原始数据记录和若干第二原始数据记录,确定所述多条数据记录,包括:
将所述若干第一原始数据记录和若干第二原始数据记录进行数据清洗和数据修正处理后,归入所述多条数据记录。
5.根据权利要求1所述的方法,其中,所述增长模型包括若干子模型;其中,将该多条数据记录输入预先构建的增长模型,得到若干增长指标数据,包括:
将所述多条数据记录中的第一记录部分输入增长贡献度分解子模型,得到各个分解维度下的各个维度值所对应的贡献度;和/或,
将所述多条数据记录中的第二记录部分输入增长季节调整子模型,得到季节调整后的增长指标数据;和/或,
将所述多条数据记录中的第三记录部分输入增长环比子模型,得到增长环比指标数据;和/或,
将所述多条数据记录中的第三记录部分输入增长同比子模型,得到增长同比指标数据;和/或,
将所述多条数据记录中的第四记录部分输入增长预测子模型,得到下一时间节点的预测指标值。
6.根据权利要求1所述的方法,其中,所述趋势模型包括以下子模型中的一个或多个:热度识别模型、指数化趋势模型、面积叠加模型、线性趋势模型、趋势方向模型、柱状排序模型。
7.根据权利要求1所述的方法,其中,基于该多条数据记录、若干增长指标数据和若干趋势指标数据,以及预先构建的风险评估模型,确定所述目标领域的风险评估结果,包括:
将所述多条数据记录中的至少一部分、若干增长指标值和若干趋势指标值输入预先训练好的风险评分模型,得到风险评分,归入所述风险评估结果。
8.根据权利要求7所述的方法,其中,基于该多条数据记录、若干增长指标数据和若干趋势指标数据,以及预先构建的风险评估模型,确定所述目标领域的风险评估结果,还包括:
基于预先建立的风险分数与响应对策之间的映射关系,确定所述得到的风险评分对应的响应对策,归入所述风险评估结果;和/或,
根据所述风险分数绘制风险热图,归入所述风险评估结果。
9.根据权利要求1所述的方法,其中,基于所述若干增长指标数据、若干趋势指标数据和风险评估结果,生成针对所述目标领域的分析报告,包括:
基于所述增长指标数据、若干趋势指标数据和风险评估结果进行数据可视化处理,生成对应的可视化图表,用于形成所述分析报告;其中,所述数据可视化处理包括以下中的至少一种:图形区域抓取、优化图形选取、色彩智能配置、图形尺寸优化;和/或,
基于所述增长指标数据、若干趋势指标数据和风险评估结果,以及预先建立的文字情景库,生成说明性文字,用于形成所述分析报告。
10.一种数据分析装置,包括:
数据记录获取单元,配置为获取目标领域下的多条数据记录;
增长数据确定单元,配置为将该多条数据记录输入预先构建的增长模型,得到若干增长指标数据;
趋势数据确定单元,配置为将该多条数据记录输入预先构建的趋势模型,得到若干趋势指标数据;
风险数据确定单元,配置为基于该多条数据记录、若干增长指标数据和若干趋势指标数据,以及预先构建的风险评估模型,确定所述目标领域的风险评估结果;
报告生成单元,配置为基于所述若干增长指标数据、若干趋势指标数据和风险评估结果,生成针对所述目标领域的分析报告,其中包括分析图表和相关文字说明。
CN202210221175.XA 2022-03-09 2022-03-09 数据分析方法及装置 Pending CN114297190A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210221175.XA CN114297190A (zh) 2022-03-09 2022-03-09 数据分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210221175.XA CN114297190A (zh) 2022-03-09 2022-03-09 数据分析方法及装置

Publications (1)

Publication Number Publication Date
CN114297190A true CN114297190A (zh) 2022-04-08

Family

ID=80978446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210221175.XA Pending CN114297190A (zh) 2022-03-09 2022-03-09 数据分析方法及装置

Country Status (1)

Country Link
CN (1) CN114297190A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9183527B1 (en) * 2011-10-17 2015-11-10 Redzone Robotics, Inc. Analyzing infrastructure data
CN108108915A (zh) * 2018-01-12 2018-06-01 中国农业科学院农业资源与农业区划研究所 一种农田重金属污染风险评估方法
CN109767830A (zh) * 2018-12-13 2019-05-17 平安医疗健康管理股份有限公司 基于数据分析的医院评价方法及相关产品
CN109934431A (zh) * 2017-12-15 2019-06-25 上海特易信息科技有限公司 一种信用评估方法及系统
CN111861021A (zh) * 2020-07-28 2020-10-30 中国联合网络通信集团有限公司 业务风险预测方法、装置、设备及计算机可读存储介质
CN112562863A (zh) * 2020-12-17 2021-03-26 北京三快在线科技有限公司 流行病监测预警方法、装置、电子设备
CN113052483A (zh) * 2021-04-08 2021-06-29 国网江苏省电力有限公司扬州供电分公司 基于电力大数据的信用分析方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9183527B1 (en) * 2011-10-17 2015-11-10 Redzone Robotics, Inc. Analyzing infrastructure data
CN109934431A (zh) * 2017-12-15 2019-06-25 上海特易信息科技有限公司 一种信用评估方法及系统
CN108108915A (zh) * 2018-01-12 2018-06-01 中国农业科学院农业资源与农业区划研究所 一种农田重金属污染风险评估方法
CN109767830A (zh) * 2018-12-13 2019-05-17 平安医疗健康管理股份有限公司 基于数据分析的医院评价方法及相关产品
CN111861021A (zh) * 2020-07-28 2020-10-30 中国联合网络通信集团有限公司 业务风险预测方法、装置、设备及计算机可读存储介质
CN112562863A (zh) * 2020-12-17 2021-03-26 北京三快在线科技有限公司 流行病监测预警方法、装置、电子设备
CN113052483A (zh) * 2021-04-08 2021-06-29 国网江苏省电力有限公司扬州供电分公司 基于电力大数据的信用分析方法

Similar Documents

Publication Publication Date Title
CN111459700B (zh) 设备故障的诊断方法、诊断装置、诊断设备及存储介质
CN106951925B (zh) 数据处理方法、装置、服务器及系统
CN117056867B (zh) 一种可用于数字孪生的多源异构数据融合方法及系统
CN110674211B (zh) 一种Oracle数据库AWR报告的自动解析方法和设备
CN116611546B (zh) 基于知识图谱的目标研究区域滑坡预测方法及系统
CN111444677A (zh) 基于大数据的阅读模型优化方法、装置、设备及介质
CN115809302A (zh) 元数据处理方法、装置、设备及存储介质
CN111222790A (zh) 风险事件发生概率的预测方法、装置、设备及存储介质
CN110737432A (zh) 一种基于词根表的脚本辅助设计方法及装置
Chakhchoukh et al. Understanding how in-visualization provenance can support trade-off analysis
CN107291749B (zh) 一种数据指标关联关系的确定方法及装置
CN115345600B (zh) 一种rpa流程的生成方法和装置
CN114297190A (zh) 数据分析方法及装置
CN116225848A (zh) 日志监测方法、装置、设备和介质
CN115409541A (zh) 基于数据血缘的卷烟品牌数据处理方法
CN115186738A (zh) 模型训练方法、装置和存储介质
CN112435151A (zh) 一种基于关联分析的政务信息数据处理方法及系统
CN109669996A (zh) 信息动态更新方法及装置
CN113190844B (zh) 一种检测方法、相关方法及相关装置
CN114416988B (zh) 基于自然语言处理的缺陷自动评级及处置建议推送方法
US20160247077A1 (en) System and method for processing raw data
CN117453805B (zh) 一种不确定性数据的可视化分析方法
WO2024065776A1 (en) Method for data processing, apparatus for data processing, electronic device, and storage medium
CN111582498B (zh) 基于机器学习的qa辅助决策方法及系统
Yusop et al. Data Quality Issues in Big Data: A Review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220408