CN111966726B - 基于不同类型客户的自适应数据分析报告生成系统及方法 - Google Patents

基于不同类型客户的自适应数据分析报告生成系统及方法 Download PDF

Info

Publication number
CN111966726B
CN111966726B CN202010711747.3A CN202010711747A CN111966726B CN 111966726 B CN111966726 B CN 111966726B CN 202010711747 A CN202010711747 A CN 202010711747A CN 111966726 B CN111966726 B CN 111966726B
Authority
CN
China
Prior art keywords
data
client
unit
analysis report
data analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010711747.3A
Other languages
English (en)
Other versions
CN111966726A (zh
Inventor
雷炳盛
陈国庆
谢强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Jiyi Network Technology Co ltd
Original Assignee
Wuhan Jiyi Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Jiyi Network Technology Co ltd filed Critical Wuhan Jiyi Network Technology Co ltd
Priority to CN202010711747.3A priority Critical patent/CN111966726B/zh
Publication of CN111966726A publication Critical patent/CN111966726A/zh
Application granted granted Critical
Publication of CN111966726B publication Critical patent/CN111966726B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Abstract

本发明公开了基于不同类型客户的自适应数据分析报告生成系统及方法。该数据分析报告生成系统包括数据处理模块、客户需求整理模块、数据分析模块和前端展示模块;基于该数据分析报告生成系统,本发明通过对数据源进行优化处理,得到了带标签的具有高效数据结构的数据源;并通过对客户类别进行划分,获取相应的客户需求,再进行数据筛选及计算,得到客户需要的各数据指标的统计结果并给出建议,生成相应的数据分析报告,同时导出异常数据,并在前端进行展示,便于客户及时获取所需信息。通过上述方式,本发明仅需将不同类型客户的信息导入,即可简单、快速地划分客户类别,并根据其需求高效地生成数据分析报告,具有较高的应用价值。

Description

基于不同类型客户的自适应数据分析报告生成系统及方法
技术领域
本发明涉及互联网数据分析技术领域,特别是涉及基于不同类型客户的自适应数据分析报告生成系统及方法。
背景技术
数据分析是从大规模的数据中挖掘出有意义的信息,在互联网交互数据日益增长的今天,如何过滤掉无效数据信息对于网站组的价值产生具有重要影响。一份高效的数据分析报告和异常数据可以为决策者们提供数据支撑,以便尽可能地避免资源的流失和浪费,提升自身的价值,这对于网站组来说十分重要。
传统的数据分析方式是由数据分析工程师手动参与,形成个性化的数据分析报告。但在客户量不断增加、网站组的请求日志数量不断增长、客户不断的日常数据分析需求的背景下,传统的数据分析方式将大大增加人员成本和解释成本,甚至在客户达到一定数量时使数据分析报告的产出变成不可行的状态。因此,有必要对传统的数据分析方式进行改进,使数据分析工程师从海量的数据中解放出来,将有限的精力投入到数据分析异常模式挖掘中去,挖掘更多的异常模式,建立一套统一的数据分析平台,并不断更新,提升数据分析的价值,从而降低公司人员成本,提升数据分析的效率。
公开号为CN105160198A的专利提供了一种数据分析报告生成系统和方法。该数据分析报告生成系统包括用于导入源数据的数据导入模块、用于接收用户个性化需求的用户需求接收模块和用于生成分析报告的报告生成模块;该专利通过对用户需求进行了个性化筛选,并将数据导入数据分析系统中,然后按照预先的系统进行计算并导出。但该专利提供的数据报告生成系统和方法中数据标签计算和数据基本统计量缺失,需要手动导入数据;同时,其用户需求的个性化仅为简单地统计每个用户的需求,针对性不集中,导致系统进行分析时计算量过大,报告需要生成两次,整体分析效率较低;此外,该分析系统并不能为客户提供专业建议,实际应用效果并不理想。
有鉴于此,当前仍有必要提供一种数据分析报告生成系统及方法,通过对不同类型客户的个性化需求进行归纳,生成自适应的数据分析报告,以解决上述问题。
发明内容
针对上述现有技术存在的缺陷,本发明的目的在于提供一种基于不同类型客户的自适应数据分析报告生成系统及方法。通过对数据源进行优化处理,得到带标签的具有高效数据结构的数据源,提升整个数据分析报告的高效性和稳定性;并通过对客户进行分类,生成适用于该类客户的数据分析报告,同时导出异常数据信息,帮助客户掌握网站组的异常数据情况,为客户的决策提供数据支持。
为实现上述目的,本发明提供了一种基于不同类型客户的自适应数据分析报告生成系统,包括依次连接的数据处理模块、客户需求整理模块、数据分析模块和前端展示模块;所述数据处理模块用于对数据源进行优化处理,将初始数据源转化为带标签的具有高效数据结构的数据源;所述客户需求整理模块用于获取客户需求,并对客户进行分类;所述数据分析模块用于对数据进行分析并生成对应的数据分析报告;所述前端展示模块用于对数据分析结果、数据分析报告和异常数据进行展示。
进一步地,所述数据处理模块包括数据预处理单元、数据存储单元、标签计算单元和数据输出单元;所述数据预处理单元与所述初始数据源连接,用于对数据进行标准化和分区处理;所述数据存储单元与所述数据预处理单元连接,用于对预处理后的数据进行列式存储,形成高效的数据结构;所述标签计算单元与所述数据预处理单元连接,用于按照预设的计算规则和模型对各数据的标签进行计算,使数据源中的各数据带有标签;所述数据输出单元与所述数据存储单元和所述标签计算单元分别连接,用于将数据整合为带标签的具有高效数据结构的数据源并输出至所述客户需求模块。
进一步地,所述客户需求整理模块包括客户类别设定单元、客户信息收集单元、客户划分单元和数据筛选单元;所述客户类别设定单元内预设有客户的分类方式和各类别对应的客户指标;所述客户信息收集单元用于接受客户提交的信息,并输出至所述客户划分单元;所述客户划分单元与所述客户类别设定单元和所述客户信息收集单元分别连接,用于将收集到的客户信息与预设的客户分类方式进行对比,对客户类别进行划分;所述数据筛选单元与所述客户划分单元连接、所述客户类别设定单元和所述数据输出单元分别连接,用于根据划分的客户类别读取其对应的客户指标,并根据所述客户指标对所述数据输出单元输出的数据进行筛选,得到客户需要的数据。
进一步地,所述数据分析模块包括资源划分单元、数据指标筛选单元、数据指标统计单元、建议生成单元、异常数据统计单元和数据分析报告生成单元,所述建议生成单元与预设接口相连;所述资源划分单元和所述数据指标筛选单元分别用于进行计算资源的分配和数据指标的筛选;所述数据指标统计单元与所述数据指标筛选单元连接,用于根据筛选的数据指标生成计算图,并对计算图中的指标进行组合计算,得到统计结果;所述建议生成单元与所述数据指标统计单元相连,用于根据所述统计结果自动生成建议,生成的建议可以通过所述预设接口进行人工修改;所述异常数据统计单元用于统计并导出异常数据;所述数据分析报告生成单元与所述数据指标统计单元和所述建议生成单元分别连接,用于将所述统计结果与所述生成的建议置于数据分析报告模块中的相应位置,生成数据分析报告。
为实现上述目的,本发明还提供了一种基于不同类型客户的自适应数据分析报告生成方法,包括如下步骤:
S1、获取数据:从数据源获取待分析的数据;
S2、数据处理:对步骤S1获取的数据进行预处理;然后对所述预处理后的数据进行列式存储,并进行数据标签的计算,得到带标签的具有高效数据结构的数据源;
S3、客户需求整理:根据客户提交的信息进行客户划分,得到客户类别;提取所述客户类别对应的客户指标,再根据所述客户指标从步骤S2得到的所述带标签的具有高效数据结构的数据源中筛选出符合条件的数据,并进行存档;
S4、数据分析:根据步骤S3中的所述客户指标分配计算资源,进行数据指标的筛选,并整理出计算图进行数据指标的统计,得到各数据指标的统计结果,并筛选出异常数据;根据所述统计结果对客户情况进行总结,并给出针对性建议;
S5、数据分析报告生成及前端页面展示:将步骤S4得到的所述统计结果和所述针对性建议分别放入数据分析报告模板中的对应位置,生成数据分析报告;并通过前端页面对所述数据分析报告和所述异常数据的下载方式及所述统计结果进行展示。
进一步地,在步骤S2中,所述预处理为流处理,包括对数据的标准化和数据分区处理;所述列式存储的数据格式为Parquet;所述数据标签的计算基于Spark计算框架进行,其数据处理方式包括流处理和批处理。
进一步地,在步骤S4中,所述针对性建议为自动生成,并支持人工修改。
进一步地,在步骤S1中,所述数据源包括PC端和mobile端的互联网交互数据;所述待分析的数据为用户的行为数据。
进一步地,在步骤S3中,所述客户提交的信息包括其部署的环境、所属行业、异常数据时间段和异常点信息。
进一步地,在步骤S4中,所述计算资源包括CPU、GPU和memory;所述数据指标包括但不限于基本统计量、数据分布、参数相关性、攻击时段、攻击量、攻击数据分布;所述统计结果以统计值、表格或图形的形式可视化呈现。
与现有技术相比,本发明的有益效果是:
1、本发明通过对数据源进行优化处理,能够得到带标签的具有高效数据结构的数据源,提升整个数据分析报告的高效性和稳定性;同时,本发明通过对客户进行分类,能够自适应地生成适用于该类客户的数据分析报告,同时导出异常数据信息,帮助客户掌握网站组的异常数据情况,为客户的决策提供数据支持,具有较高地应用价值。
2、本发明能够处理的数据源较为广泛,包括PC端和mobile端,能够满足客户的不同需求;且本发明针对的数据量级高,并支持数据量的扩充,能够实现高效的数据计算和存储。其中,本发明通过在数据入库前先对数据进行预处理(流式处理),能够根据后续数据分析过程需要使用的关键指标和对应的数据类型预先标准化,并对数据进行更加细粒度致的分区,最大程度降低冗余数据的加载和计算,从而提高数据加载和计算的效率。同时,本发明采用的列式存储与当前常用的行式存储相比,不仅能够节约磁盘空间,还能够大幅提升数据的计算效率,使处理后的数据具有更高效的数据结构。此外,本发明基于大规模数据计算平台,对于不同的规则、模型分别采用流处理和批处理进行数据标签计算,使处理后的数据带有标签,为后续的客户数据分析提供了数据基础。
3、本发明根据以往对不同类型客户的数据分析经验,对客户类别的特点进行归纳,并总结出各种不同类型的客户分析需求,从而针对性地切分出各类客户的数据分析要点并整合出对应的数据分析模板,既避免了对所有客户统一的分析方式导致的分析结果与客户需求不完全一致的问题,也避免了对每一个客户单独进行个性化带来的分析效率较低的问题,能够达到较佳的分析效果。此外,根据客户分类得到的客户需求信息,本发明能够自动进行数据过滤,筛选出客户需要的数据信息,并整理出计算图进行统计计算,基于统计计算的结果自动提供建议,生成数据分析报告,从而快速地将数据分析报告和异常数据反馈给客户。
4、本发明提供的基于不同类型客户的自适应数据分析报告生成系统采用“前端+后端”结合的方式完成,仅需要将不同类型客户的信息导入,即可简单、快速地对客户进行类别划分,获取其数据分析需求,并构建与其相适应的数据分析报告。同时,在高效的数据源、客户需求信息自动整理、数据分析以及前端调配的协同作用下,整个数据分析流程十分高效,后期仅仅需要数据分析工程师维护规则、模型和数据分析引擎,大大减少了人工参与,从而在不丢弃数据的条件下有效提高数据分析报告和异常数据的导出效率,延迟性低,便于及时为客户提供数据分析报告及异常数据情况,帮助客户尽快掌握网站组的情况,以满足客户的使用需求。
附图说明
图1是本发明提供的基于不同类型客户的自适应数据分析报告生成方法的结构示意图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。
实施例
本实施例提供了一种基于不同类型客户的自适应数据分析报告生成系统,包括依次连接的数据处理模块、客户需求整理模块、数据分析模块和前端展示模块;所述数据处理模块用于对数据源进行优化处理,将初始数据源转化为带标签的具有高效数据结构的数据源;所述客户需求整理模块用于获取客户需求,并对客户进行分类;所述数据分析模块用于对数据进行分析并生成对应的数据分析报告;所述前端展示模块用于对数据分析结果、数据分析报告和异常数据进行展示。
其中,所述数据处理模块包括数据预处理单元、数据存储单元、标签计算单元和数据输出单元,各单元具体作用如下:
所述数据预处理单元与所述初始数据源连接,用于根据后续数据分析过程需要使用的关键指标和对应的数据类型预先标准化,并对数据进行更加细致的分区,最大程度降低冗余数据的加载和计算,从而提高数据加载和计算的效率。
所述数据存储单元与所述数据预处理单元连接,用于对预处理后的数据进行列式存储,预设的存储格式为Parquet;与当前json格式的行式存储方式相比,Parquet格式不仅对磁盘的占用更低,节约了磁盘空间,还能够大幅提升数据的计算效率,使处理后的数据具有更高效的数据结构。
所述标签计算单元与所述数据预处理单元连接,基于Spark大数据计算平台,对于不同的标签计算规则和模型分别采用流处理和批处理的方式对各数据的标签进行计算,从而使数据源中的各数据带有标签,为后续的客户数据分析提高了数据基础。
所述数据输出单元与所述数据存储单元和所述标签计算单元分别连接,用于将数据整合为带标签的具有高效数据结构的数据源,并输出至所述客户需求模块进行处理。
所述客户需求整理模块包括客户类别设定单元、客户信息收集单元、客户划分单元和数据筛选单元,各单元具体作用如下:
所述客户类别设定单元内预设有客户的分类方式和各类别对应的客户指标;该客户分类方式通过对以往不同类型客户的数据分析经验归纳而成,分类依据包括客户行业、网站组运行环境、异常数据时间段和异常点信息;根据不同的客户分类,为其设定对应的客户指标,并对应生成该类别的数据分析报告模板,以满足该类别客户的个性化需求。
所述客户信息收集单元用于接受客户提交的行业、网站组运行环境、异常数据时间段和异常点信息,并将其输出至所述客户划分单元,进行客户类别划分。
所述客户划分单元与所述客户类别设定单元和所述客户信息收集单元分别连接,用于将收集到的客户信息与预设的客户分类方式进行比对,从而根据客户信息简单、快速地对客户类别进行划分。
所述数据筛选单元与所述客户划分单元连接、所述客户类别设定单元和所述数据输出单元分别连接,用于根据划分的客户类别读取其对应的客户指标,并根据所述客户指标对所述数据输出单元输出的数据进行筛选,得到客户需要的数据。筛选后的数据一方面输入所述数据分析模块进行分析,另一方面输入存储模块进行数据存档,通过对存档的数据进行全部指标统计可供后续复盘使用,便于数据分析专家进行审核。
所述数据分析模块包括资源划分单元、数据指标筛选单元、数据指标统计单元、建议生成单元、异常数据统计单元和数据分析报告生成单元,各单元具体作用如下:
所述资源划分单元用于根据客户所需的指标对CPU、GPU和memory等计算资源进行分配,避免资源的不足和浪费。
所述数据指标筛选单元用于在预设的全部数据指标中筛选出需要的数据指标,以满足客户的需求,并提高数据分析效率。
所述数据指标统计单元与所述数据指标筛选单元连接,基于Spark大数据计算平台,根据筛选的数据指标生成计算图,并以串行或并行的方式对计算图中的各指标进行组合计算,得到统计结果。同时,该计算图内置于大数据计算平台中,能够使得到的统计结果及后续生成的数据分析报告和异常数据更快速地反馈给客户。
所述建议生成单元与所述数据指标统计单元相连,用于根据预设的建议与数据指标统计结果间的关联模型,自动生成相应的建议;所述建议生成单元还与预设的接口相连,基于该接口,数据分析工程师通过对存档的数据及其指标统计结果进行分析后,可以对生成的建议进行人工修改,使最终生成的分析报告具有更高的准确度和信息价值,以满足客户的实际需求。
所述异常数据统计单元根据预设的异常数据阈值对数据指标中的异常指标进行筛选与统计,并导出异常指标对应的异常数据,供客户进行分析处理。
所述数据分析报告生成单元与所述数据指标统计单元和所述建议生成单元分别连接,用于将所述统计结果与所述生成的建议置于该客户类别对应的数据分析报告模块中的相应位置,生成数据分析报告。
上述数据分析报告和异常数据的下载链接以及数据指标统计结果均通过前端展示模块在网页前端进行展示,便于客户方便、快捷地获得所需信息。
基于本实施例提供的基于不同类型客户的自适应数据分析报告生成系统,本实施例还提供了一种基于不同类型客户的自适应数据分析报告生成方法,包括如下步骤:
S1、获取数据
根据客户提供的数据源获取待分析的数据;所述数据源包括PC端和mobile端的互联网交互数据,具体指用户的行为数据,整体数据来源广泛,能够满足客户的不同需求。在本实施例中,分析的数据量达百万级,日志单条磁盘占用在KB级别;在其他实施例中,数据量还可达百万级以上。
S2、数据处理
预处理:以流处理的方式对步骤S1获取的数据进行预处理,根据后续数据分析过程需要使用的关键指标和对应的数据类型将数据预先标准化,并对数据进行更加细致的分区,最大程度降低冗余数据的加载和计算,从而提高数据加载和计算的效率。
列式存储:设置存储格式为Parquet,对所述预处理后的数据进行列式存储;与当前json格式的行式存储方式相比,Parquet格式不仅对磁盘的占用更低,节约了磁盘空间,还能够大幅提升数据的计算效率,使处理后的数据具有更高效的数据结构。
数据标签计算:基于Spark大数据计算平台,对于不同的标签计算规则和模型分别采用流处理和批处理的方式对各数据的标签进行计算,从而使数据源中的各数据带有标签,为后续的客户数据分析提高了数据基础。
数据输出:将源数据整合为带标签的具有高效数据结构的数据源后输出。
S3、客户需求整理
客户划分:收集客户提交的行业、网站组运行环境、异常数据时间段和异常点信息,将其与预设的客户分类方式进行比对,得到客户类别。
数据筛选:提取该客户类别对应的客户指标,再根据该客户指标从步骤S2得到的带标签的具有高效数据结构的数据源中筛选出符合条件的数据。筛选后的数据一方面用于进行数据分析,另一方面进行数据存档,通过对存档的数据进行全部指标统计可供后续复盘使用,便于数据分析专家进行审核。
S4、数据分析
资源分配:根据步骤S3中的所述客户指标对CPU、GPU和memory等计算资源进行分配,避免资源的不足和浪费。
数据指标筛选:在预设的全部数据指标中筛选出客户需要的数据指标;所述预设的全部数据指标包括数据分析工程师感兴趣的指标和客户感兴趣的指标,其中,数据分析工程师感兴趣的指标包括基本统计量、数据分布和参数相关性,客户感兴趣的指标包括攻击时段、攻击量和攻击数据分布。
数据指标统计:根据筛选后的数据指标整理出计算图,进行数据指标的统计;通过以串行或并行的方式对计算图中的各指标进行组合计算,得到各数据指标的统计结果,该统计结果以统计值、表格或图形的形式进行可视化呈现。
导出异常数据并生成建议:对统计结果中超出正常范围的异常数据指标进行筛选,并导出该异常数据指标对应的异常数据;同时,根据上述统计结果对客户情况进行总结,并生成针对性建议,该建议可以由数据分析工程师审核后进行人工修改,使最终生成的分析报告具有更高的准确度和信息价值,以满足客户的实际需求。
S5、数据分析报告生成及前端页面展示
将步骤S4得到的统计结果和所述针对性建议分别放入该客户所在类别对应的数据分析报告模板中的相应位置,生成数据分析报告;并通过前端页面对所述数据分析报告和所述异常数据的下载方式及所述统计结果进行展示,从而帮助客户尽快地掌握网站组地攻击情况,并帮助其挖掘异常行为数据,辅助客户拦截异常的流量,使得网站组的福利等资源分配给优势用户,提升网站组的效益。
通过上述方式,本实施例中百万级的数据分析报告生成和异常数据导出过程仅需要三分钟,能够使客户快速地获得其所需数据,充分满足其使用需求。
综上所述,本发明提供的基于不同类型客户的自适应数据分析报告生成系统包括依次连接的数据处理模块、客户需求整理模块、数据分析模块和前端展示模块;该采用“前端+后端”结合的方式完成,仅需要将不同类型客户的信息导入,即可简单、快速地对客户进行类别划分,获取其数据分析需求,并构建与其相适应的数据分析报告。同时,本发明还提供了基于不同类型客户的自适应数据分析报告生成方法,通过对数据源进行优化处理,得到了带标签的具有高效数据结构的数据源,从而提升整个数据分析报告的高效性和稳定性;并通过对客户类别进行划分,获取相应的客户需求,再进行数据筛选及计算,得到客户需要的各数据指标的统计结果并给出建议,生成相应的数据分析报告,同时导出异常数据,并在前端进行展示,便于客户及时获取所需信息,从而帮助客户掌握网站组的异常数据情况,为客户的决策提供数据支持,具有较高的应用价值。
以上所述仅用以说明本发明的技术方案,而非对其进行限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于不同类型客户的自适应数据分析报告生成方法,其特征在于,包括如下步骤:
S1、获取数据:从数据源获取待分析的数据;
S2、数据处理:对步骤S1获取的数据进行预处理;然后对所述预处理后的数据进行列式存储,并进行数据标签的计算,得到带标签的具有高效数据结构的数据源;
S3、客户需求整理:根据客户提交的信息进行客户划分,得到客户类别;提取所述客户类别对应的客户指标,再根据所述客户指标从步骤S2得到的所述带标签的具有高效数据结构的数据源中筛选出符合条件的数据,并进行存档;
S4、数据分析:根据步骤S3中的所述客户指标分配计算资源,进行数据指标的筛选,并整理出计算图进行数据指标的统计,得到各数据指标的统计结果,并筛选出异常数据;根据所述统计结果对客户情况进行总结,并给出针对性建议;
S5、数据分析报告生成及前端页面展示:将步骤S4得到的所述统计结果和所述针对性建议分别放入数据分析报告模板中的对应位置,生成数据分析报告;并通过前端页面对所述数据分析报告和所述异常数据的下载方式及所述统计结果进行展示。
2.根据权利要求1所述的基于不同类型客户的自适应数据分析报告生成方法,其特征在于:在步骤S2中,所述预处理为流处理,包括对数据的标准化和数据分区处理;所述列式存储的数据格式为Parquet;所述数据标签的计算基于Spark计算框架进行,其数据处理方式包括流处理和批处理。
3.根据权利要求1或2所述的基于不同类型客户的自适应数据分析报告生成方法,其特征在于:在步骤S4中,所述针对性建议为自动生成,并支持人工修改。
4.根据权利要求1所述的基于不同类型客户的自适应数据分析报告生成方法,其特征在于:在步骤S1中,所述数据源包括PC端和mobile端的互联网交互数据;所述待分析的数据为用户的行为数据。
5.根据权利要求1所述的基于不同类型客户的自适应数据分析报告生成方法,其特征在于:在步骤S3中,所述客户提交的信息包括其部署的环境、所属行业、异常数据时间段和异常点信息。
6.根据权利要求1所述的基于不同类型客户的自适应数据分析报告生成方法,其特征在于:在步骤S4中,所述计算资源包括CPU、GPU和memory;所述数据指标包括但不限于基本统计量、数据分布、参数相关性、攻击时段、攻击量、攻击数据分布;所述统计结果以统计值、表格或图形的形式可视化呈现。
7.一种基于不同类型客户的自适应数据分析报告生成系统,其特征在于,用于实现权利要求1所述的方法,包括依次连接的数据处理模块、客户需求整理模块、数据分析模块和前端展示模块;所述数据处理模块用于对数据源进行优化处理,将初始数据源转化为带标签的具有高效数据结构的数据源;所述客户需求整理模块用于获取客户需求,并对客户进行分类;所述数据分析模块用于对数据进行分析并生成对应的数据分析报告;所述前端展示模块用于对数据分析结果、数据分析报告和异常数据进行展示。
8.根据权利要求7所述的基于不同类型客户的自适应数据分析报告生成系统,其特征在于:所述数据处理模块包括数据预处理单元、数据存储单元、标签计算单元和数据输出单元;所述数据预处理单元与所述初始数据源连接,用于对数据进行标准化和分区处理;所述数据存储单元与所述数据预处理单元连接,用于对预处理后的数据进行列式存储,形成高效的数据结构;所述标签计算单元与所述数据预处理单元连接,用于按照预设的计算规则和模型对各数据的标签进行计算,使数据源中的各数据带有标签;所述数据输出单元与所述数据存储单元和所述标签计算单元分别连接,用于将数据整合为带标签的具有高效数据结构的数据源并输出至所述客户需求模块。
9.根据权利要求8所述的基于不同类型客户的自适应数据分析报告生成系统,其特征在于:所述客户需求整理模块包括客户类别设定单元、客户信息收集单元、客户划分单元和数据筛选单元;所述客户类别设定单元内预设有客户的分类方式和各类别对应的客户指标;所述客户信息收集单元用于接受客户提交的信息,并输出至所述客户划分单元;所述客户划分单元与所述客户类别设定单元和所述客户信息收集单元分别连接,用于将收集到的客户信息与预设的客户分类方式进行对比,对客户类别进行划分;所述数据筛选单元与所述客户划分单元连接、所述客户类别设定单元和所述数据输出单元分别连接,用于根据划分的客户类别读取其对应的客户指标,并根据所述客户指标对所述数据输出单元输出的数据进行筛选,得到客户需要的数据。
10.根据权利要求7所述的基于不同类型客户的自适应数据分析报告生成系统,其特征在于:所述数据分析模块包括资源划分单元、数据指标筛选单元、数据指标统计单元、建议生成单元、异常数据统计单元和数据分析报告生成单元,所述建议生成单元与预设接口相连;所述资源划分单元和所述数据指标筛选单元分别用于进行计算资源的分配和数据指标的筛选;所述数据指标统计单元与所述数据指标筛选单元连接,用于根据筛选的数据指标生成计算图,并对计算图中的指标进行组合计算,得到统计结果;所述建议生成单元与所述数据指标统计单元相连,用于根据所述统计结果自动生成建议,生成的建议可以通过所述预设接口进行人工修改;所述异常数据统计单元用于统计并导出异常数据;所述数据分析报告生成单元与所述数据指标统计单元和所述建议生成单元分别连接,用于将所述统计结果与所述生成的建议置于数据分析报告模块中的相应位置,生成数据分析报告。
CN202010711747.3A 2020-07-22 2020-07-22 基于不同类型客户的自适应数据分析报告生成系统及方法 Active CN111966726B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010711747.3A CN111966726B (zh) 2020-07-22 2020-07-22 基于不同类型客户的自适应数据分析报告生成系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010711747.3A CN111966726B (zh) 2020-07-22 2020-07-22 基于不同类型客户的自适应数据分析报告生成系统及方法

Publications (2)

Publication Number Publication Date
CN111966726A CN111966726A (zh) 2020-11-20
CN111966726B true CN111966726B (zh) 2023-09-26

Family

ID=73362590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010711747.3A Active CN111966726B (zh) 2020-07-22 2020-07-22 基于不同类型客户的自适应数据分析报告生成系统及方法

Country Status (1)

Country Link
CN (1) CN111966726B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732824A (zh) * 2021-01-15 2021-04-30 绿瘦健康产业集团有限公司 一种指标数据可视化系统
CN112966015B (zh) * 2021-02-01 2023-08-15 杭州博联智能科技股份有限公司 大数据分析处理和存储方法、装置、设备及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160198A (zh) * 2015-09-28 2015-12-16 深圳华大基因科技服务有限公司 一种数据分析报告生成系统和方法
CN106651221A (zh) * 2017-01-09 2017-05-10 国网宁夏电力公司信息通信公司 基于国网指标体系的通用电力企业数据分析平台
CN107944059A (zh) * 2017-12-29 2018-04-20 深圳市中润四方信息技术有限公司西安分公司 一种基于流计算的用户行为分析方法及系统
CN109597936A (zh) * 2018-11-30 2019-04-09 成都数联铭品科技有限公司 一种新用户筛选系统及方法
CN109976710A (zh) * 2017-12-27 2019-07-05 航天信息股份有限公司 一种数据处理方法及设备
CN110390465A (zh) * 2019-06-18 2019-10-29 深圳壹账通智能科技有限公司 业务数据的风控分析处理方法、装置和计算机设备
CN111178005A (zh) * 2019-12-11 2020-05-19 中国建设银行股份有限公司 数据处理系统、方法及存储介质
CN111311318A (zh) * 2020-02-12 2020-06-19 上海东普信息科技有限公司 用户流失预警的方法、装置、设备及存储介质
CN111325230A (zh) * 2018-12-17 2020-06-23 上海汽车集团股份有限公司 车辆换道决策模型的在线学习方法和在线学习装置
CN111343343A (zh) * 2020-03-10 2020-06-26 中国联合网络通信集团有限公司 市场占有率的统计方法、装置、存储介质及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11449218B2 (en) * 2015-07-17 2022-09-20 Thomson Reuters Enterprise Centre Gmbh Systems and methods for data evaluation and classification
CN109064227A (zh) * 2018-07-30 2018-12-21 广州新趋士网络科技有限公司 一种基于大数据的客户分析系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160198A (zh) * 2015-09-28 2015-12-16 深圳华大基因科技服务有限公司 一种数据分析报告生成系统和方法
CN106651221A (zh) * 2017-01-09 2017-05-10 国网宁夏电力公司信息通信公司 基于国网指标体系的通用电力企业数据分析平台
CN109976710A (zh) * 2017-12-27 2019-07-05 航天信息股份有限公司 一种数据处理方法及设备
CN107944059A (zh) * 2017-12-29 2018-04-20 深圳市中润四方信息技术有限公司西安分公司 一种基于流计算的用户行为分析方法及系统
CN109597936A (zh) * 2018-11-30 2019-04-09 成都数联铭品科技有限公司 一种新用户筛选系统及方法
CN111325230A (zh) * 2018-12-17 2020-06-23 上海汽车集团股份有限公司 车辆换道决策模型的在线学习方法和在线学习装置
CN110390465A (zh) * 2019-06-18 2019-10-29 深圳壹账通智能科技有限公司 业务数据的风控分析处理方法、装置和计算机设备
CN111178005A (zh) * 2019-12-11 2020-05-19 中国建设银行股份有限公司 数据处理系统、方法及存储介质
CN111311318A (zh) * 2020-02-12 2020-06-19 上海东普信息科技有限公司 用户流失预警的方法、装置、设备及存储介质
CN111343343A (zh) * 2020-03-10 2020-06-26 中国联合网络通信集团有限公司 市场占有率的统计方法、装置、存储介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于客户价值的工业电力客户细分研究;胡晓雪;《中国博士学位论文全文数据库 0经济与管理科学辑 》;J150-8 *

Also Published As

Publication number Publication date
CN111966726A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
CN111966726B (zh) 基于不同类型客户的自适应数据分析报告生成系统及方法
CN113064866B (zh) 一种电力业务数据整合系统
CN110851667A (zh) 一种多源头大量数据的整合分析方法及工具
US20160364655A1 (en) System to generate Logical Design for MPP Clusters using self-learning model
Görg et al. Multinational companies, technology spillovers and firm survival: Evidence from Irish manufacturing
CN115271473B (zh) 一种智能多维数据业务指标调度方法
CN112286957A (zh) 基于结构化查询语言的bi系统的api应用方法及系统
CN108073582B (zh) 一种计算框架选择方法和装置
CN110968620A (zh) 一种敏捷数据分析方法
CN113590607A (zh) 一种基于报表因子的电力营销报表实现方法和系统
CN112631754A (zh) 数据处理方法、装置、存储介质及电子装置
CN112990569A (zh) 一种水果价格预测方法
CN112214524A (zh) 一种基于深度数据挖掘的数据评估系统及评估方法
CN107194529B (zh) 基于挖掘技术的配电网可靠性经济效益分析方法及装置
CN115983582A (zh) 一种数据分析方法和能耗管理系统
CN105512237A (zh) 一种复杂结构的数据导入系统
CN116049285A (zh) 一种基于流数据的实时指标计算方法、系统、设备及介质
CN113297289A (zh) 从数据库提取业务数据的方法、装置和电子设备
CN113537758A (zh) 基于大数据技术的制造业高质量发展综合评价方法和系统
CN112825165A (zh) 项目质量管理的方法和装置
CN112711614B (zh) 业务数据管理方法、装置
WO2022252051A1 (zh) 数据处理方法、装置、设备及存储介质
CN115328918A (zh) 一种柔性报表生成方法、装置、电子设备及存储介质
CN118035225A (zh) 大数据实时分析方法及系统
CN115510105A (zh) 一种数据分析系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant