CN114722789A - 数据报表集成方法、装置、电子设备及存储介质 - Google Patents

数据报表集成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114722789A
CN114722789A CN202210361131.7A CN202210361131A CN114722789A CN 114722789 A CN114722789 A CN 114722789A CN 202210361131 A CN202210361131 A CN 202210361131A CN 114722789 A CN114722789 A CN 114722789A
Authority
CN
China
Prior art keywords
report
index
data
dimension
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210361131.7A
Other languages
English (en)
Other versions
CN114722789B (zh
Inventor
黄文娟
黎燕敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210361131.7A priority Critical patent/CN114722789B/zh
Publication of CN114722789A publication Critical patent/CN114722789A/zh
Application granted granted Critical
Publication of CN114722789B publication Critical patent/CN114722789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理领域,揭露一种数据报表集成方法,所述方法包括:获取业务数据,从业务数据中提取出报表数据,识别报表数据中的报表指标,将报表指标的指标聚类,得到聚类指标;获取聚类指标的元数据以及元数据的数据属性,根据数据属性定义聚类指标的核心维度,对核心维度进行衍生得到衍生维度;根据核心维度与衍生维度的分布生成指标报表;判断指标报表是否要拆分;若指标报表需要拆分,拆分指标报表,生成拆分指标报表,将元数据传至拆分指标报表,得第一报表模型;若指标报表不需要拆分,组合指标报表,生成组合指标报表,将元数据传至组合指标报表,得第二报表模型。本发明可以节省数据报表集成的开发时间。

Description

数据报表集成方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种数据报表集成方法、装置、电子设备及存储介质。
背景技术
随着信息社会的发展,报表作为日常信息管理中最常用的工具之一,其是信息系统不可缺少的一部分。在报表中,同一指标存在多种维度,各维度相互关联又不完全相同。例如参训率,包含培训班维度、个人维度、班主任带班维度、培训类型维度、机构维度等,每个维度的指标都是基于同一批学员的考勤数据进行汇总和逻辑运算得到。
此前,所述报表中同一指标的不同维度需要多次开发,才能获得最终想要的数据,并且每次开发都需要在新报表中开辟新指标。由此可见,目前大部分数据报表集成开发的耗费时间较长。
发明内容
本发明提供一种数据报表集成方法,其主要目的在于节省数据报表集成的开发时间。
为实现上述目的,本发明提供的一种数据报表集成方法,包括:
获取业务数据,从所述业务数据中提取出报表数据,识别所述报表数据中的报表指标,并将所述报表指标中的指标进行聚类,得到聚类指标;
获取所述聚类指标对应的元数据,识别所述元数据的数据属性,根据所述数据属性,定义所述聚类指标的核心维度,并对所述核心维度进行衍生,得到衍生维度;
根据所述核心维度与所述衍生维度在所述聚类指标中的分布生成指标报表;
判断所述指标报表是否需要拆分;
若所述指标报表需要拆分,则将所述指标报表进行拆分,生成拆分指标报表,并将所述元数据加载至所述拆分指标报表中,得到第一最终报表模型;
若所述指标报表模型不需要拆分,则将所述指标报表进行组合,生成组合指标报表,并将所述元数据加载至所述组合指标报表中,得到第二最终报表模型。
可选地,所述从所述业务数据中提取出报表数据,包括:
对所述业务数据进行报表数据需求分析,得到报表数据需求;
在所述业务数据中识别符合所述报表数据需求的需求报表数据,得到所述报表数据。
可选地,所述识别所述元数据的数据属性,包括:
通过爬虫提取所述元数据的关键字;
分析所述元数据与所述关键字关联的特征;
将所述特征作为所述数据属性。
可选地,所述根据所述核心维度与所述衍生维度在所述聚类指标中的分布,生成指标报表,包括:
从所述元数据中提取与所述聚类指标对应的核心维度与衍生维度,得到目标核心维度和目标衍生维度;
识别所述聚类指标、所述目标核心维度及所述目标衍生维度之间的递进关系;
根据所述递进关系,按照预设的规则将所述聚类指标、所述核心维度、所述衍生维度填充至预设报表中,生成所述指标报表。
可选地,所述判断所述指标报表是否需要拆分,包括:
检验所述指标报表中每个所述核心维度的一致性;
在存在所述核心维度一致性不相同时,判断所述指标报表需要拆分;
在每个所述核心维度一致性相同时,检验所述指标报表中每个所述衍生维度的一致性;
在存在所述衍生维度一致性不相同时,判断所述指标报表需要拆分;
在每个所述衍生维度一致性相同时,判断所述指标报表不需要拆分。
可选地,所述将所述指标报表进行拆分,生成拆分指标报表,包括:
识别所述指标报表中的异常核心维度;
从所述聚类指标中查询所述异常核心维度的异常指标,及从所述衍生维度中查询所述异常核心维度的异常衍生维度;
根据所述异常核心维度、异常衍生维度、异常指标,生成拆分指标报表。
为了解决上述问题,本发明还提供一种数据报表集成装置,所述模型包括:
所述指标聚类模块,用于获取业务数据,从所述业务数据中提取出报表数据,识别所述报表数据中的报表指标,并将所述报表指标中的指标进行聚类,得到聚类指标;
所述维度衍生模块,用于获取所述聚类指标对应的元数据,识别所述元数据的数据属性,根据所述数据属性,定义所述聚类指标的核心维度,并对所述核心维度进行衍生,得到衍生维度;
所述指标报表生成模块,用于根据所述核心维度与所述衍生维度在所述聚类指标中的分布生成指标报表;
所述拆分判断模块,用于判断所述指标报表是否需要拆分;
所述报表模型生成模块,用于若所述指标报表需要拆分,则将所述指标报表进行拆分,生成拆分指标报表,并将所述元数据加载至所述拆分指标报表中,得到第一最终报表模型;用于若所述指标报表模型不需要拆分,则将所述指标报表进行组合,生成组合指标报表,并将所述元数据加载至所述组合指标报表中,得到第二最终报表模型。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以实现上述所述的数据报表集成。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的数据报表集成方法。
可以看出,本发明实施例中通过从所述业务数据中提取出报表数据,以用于后续生成报表时无需从无限庞大的业务数据中寻找所需要的报表数据,节省了时间开支。进一步地,本发明实施例中通过识别所述报表数据中的报表指标,以用于后续对所述报表数据按照所述报表指标进行分类,以便整齐存放所述报表数据增加所述报表的界面美观度。进一步地,本发明实施例中通过将所述报表指标中的指标进行聚类,以用于减少重复指标的数量,减轻提取数据的负担。进一步地,本发明实施例中通过识别所述元数据的数据属性,以便后续根据所述元数据获取与所述聚类指标有关的维度,防止出现维度未统计遗漏的情况,提高了数据统计的准确率。进一步地,本发明实施例中通过根据所述数据属性,定义所述聚类指标的核心维度以用于通过所述核心维度将所述聚类指标中的所述元数据联系起来,这样可以将原本不相关的所述元数据以所述核心维度为中介建立起一定的联系,以便后续制作报表时数据简单清晰。进一步,本发明实施例中通过对所述核心维度进行衍生,得到衍生维度以用于发掘所述核心维度的数据特征,以便统计所述核心维度的属性特征。本发明实施例中通过所述根据所述核心维度与所述衍生维度在所述聚类指标中的分布,生成指标报表,以用于通过报表的形式标记所述指标、所述核心维度、所述衍生维度之间的关系。本发明实施例中通过判断指标报表是否需要拆分,以用于使所述各个指标报表中的核心维度与所述衍生维度保持一致,以便后续再次用到所述报表时可以直接在编辑原始报表。本发明实施例中通过所述将所述指标报表进行拆分以使所述指标报表的核心维度一致,便于后续管理基于所述核心维度的所述衍生维度。本发明实施例中通过将所述元数据加载至所述拆分指标报表中,以用于通过删去冗余的数据使所述元数据的关键数据保留于所述指标报表中,以此节省数据存储空间与提升数据的简洁度。本发明实施例中通过将所述指标报表进行组合以用于减少重合的所述指标报表的数量,方便后续对所述指标报表进行查找,节省时间开支。因此,本发明实施例节省了数据报表集成的开发时间。
附图说明
图1为本发明一实施例提供的数据报表集成的流程示意图;
图2为本发明一实施例提供的数据报表集成的模块示意图;
图3为本发明一实施例提供的实现数据报表集成的电子设备的内部结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供一种数据报表集成方法。所述数据报表集成方法的执行主体包括但不限于服务端、终端等能够被配置为执行本发明实施例提供的该方法的电子设备中的至少一种。换言之,所述数据报表集成方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的数据报表集成方法的流程示意图。在本发明实施例中,所述数据报表集成包括以下步骤S1-S6:
S1、获取业务数据,从所述业务数据中提取出报表数据,识别所述报表数据中的指标,得到报表指标,并将所述报表指标中的指标进行聚类,得到聚类指标。
本发明实施例中,所述业务数据是指在业务场景下产生的数据,其基于不同的业务场景产生,如在电商行业场景中,所述业务数据可以为营销数据、流量数据、会员数据、交易及服务数据等;在银行业务场景中,所述业务数据可以为客户交易明细、存贷款占比、客户凭证信息等。
进一步地,本发明实施例通过从所述业务数据中提取出报表数据,可以提取出实际业务中生成报表所需要的数据,以便后续生成报表时无需从无限庞大的业务数据中寻找所需要的报表数据,大大节省了时间开支。
本发明一实施例中,所述从所述业务数据中提取出报表数据,包括:对所述业务数据进行报表数据需求分析,得到报表数据需求;在所述业务数据中识别符合所述报表数据需求的需求报表数据,得到所述报表数据。
示例性地,在培训系统中,所述业务数据包括参训率、个人、班主任等,对所述业务数据进行报表数据需求分析,得到报表数据需求有指标、维度、元数据等;在所述业务数据中识别符合报表数据需求的需求报表数据为参训率;将所述参训率从所述业务数据中导出,得到所述报表数据。
进一步地,本发明实施例通过识别所述报表数据中的报表指标,以用于后续对所述报表数据按照所述报表指标进行分类,以便整齐存放所述报表数据增加所述报表的界面美观度。
其中,所述指标是指具体要分析的对象、分析的数据,像销售收入、销售毛利、采购成本、人均产出等数据类型就是指标。比如用户数据相关的指标包括:活跃率、留存率、日新增用户率等;行为数据相关的指标包括访问次数、访问人数、转发率、转化率等;商品数据相关的指标包括付费率、复购率等。
本发明一实施例中所述识别所述报表数据中的指标,包括:识别所述报表数据中的计量单位,提取所述计量单位对应的指标,得到报表指标。
其中,所述计量单位是指为定量表示同种量的大小而约定地定义和采用的特定量各种物理量都有它们的量度单位,并以选定的物质在规定条件显示的数量作为基本量度单位的标准,在不同时期和不同的学科中,基本量的选择可以不同,比如本发明实施例中所述指标可以生产率,所述生产率的计量单位可以为台/(人*年)。
进一步地,本发明实施例通过将所述报表指标中的指标进行聚类,以用于减少重复指标的数量,减轻提取数据的负担。
本发明一实施例中,所述将所述报表指标中的指标进行聚类,包括:分析所述报表指标中名称相同的所述报表指标;利用预设的聚类算法将所述名称相同的所述报表指标进行聚类,得到聚类指标。可选的,所述预设的聚类算法包括k-means算法。
S2、获取所述聚类指标对应的元数据,识别所述元数据的数据属性,根据所述数据属性,定义所述聚类指标的核心维度,并对所述核心维度进行衍生,得到衍生维度。
本发明实施例中,所述元数据是指描述所述指标元素或属性的结构数据,其用于描述指标的元素或属性,比如名称、大小、数据类型等属性,长度、字段、数据列等结构。
进一步地,本发明实施例通过识别所述元数据的数据属性,以便后续根据所述元数据获取与所述聚类指标有关的维度,防止出现维度未统计遗漏的情况,提高了数据统计的准确率。
其中,所述数据属性分为定性和定量两种,前者包括名称、类型、特性等,如土地利用现状、岩石类型、行政区划、某些土壤性状等;后者包括数量和等级,如面积、长度、土地等级等。
本发明一实施例中,所述识别所述元数据的数据属性,包括:通过爬虫提取所述元数据的关键字;分析所述元数据与所述关键字关联的特征;将所述特征作为所述数据属性。
其中,所述爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间经常被称为网页追逐者)是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
示例性地,所述元数据为“是否参训”时,通过爬虫得到所述元数据的关键字为“学员、是、否、参训、教师、不参训”等,分析所述关键字关联的特征得到“学员、参训、教师”为所述数据属性。
本发明实施例中通过根据所述数据属性,定义所述聚类指标的核心维度以用于通过所述核心维度将所述聚类指标中的所述元数据联系起来,这样可以将原本不相关的所述元数据以所述核心维度为中介建立起一定的联系,以便后续制作报表时数据简单清晰。
其中,所述核心维度是指所述数据属性的几个不相关的参数。其中,所述衍生维度是指从核心维度中构建新的特征,其既有所述核心维度的一些特征,又会生出新的特征。
本发明一实施例中,所述根据所述数据属性,定义所述聚类指标的核心维度,包括:根据所述数据属性之间的关联性,提取所述数据属性中与其他数据属性关联性强的强关联性数据属性;将所述强关联数据属性作为所述聚类指标的核心维度。
示例性地,若所述元数据的数据属性为学员、班级、参训等,根据所述学员、班级、参训之间的关联性,得到所述学员为强关联性数据属性,则所述学员为核心维度。
进一步,本发明实施例中通过对所述核心维度进行衍生,得到衍生维度以用于发掘所述核心维度的数据特征,以便统计所述核心维度的属性特征。
本发明一实施例中,所述通过对所述核心维度进行衍生,得到衍生维度,包括:获取所述核心维度的关键字,对所述关键字进行衍生,得到衍生关键字;分析所述衍生关键字是否为所述核心维度的数据特征;在所述衍生关键字为所述核心维度的数据特征时,将所述衍生关键字作为所述核心维度的衍生维度。
示例性地,所述核心维度为学员时,获取所述学员的关键字为姓名、性别、身高等,对所述关键字进行衍生,得到衍生关键字,分析所述衍生关键字是否为所述学员的数据特征,当所述衍生关键字为所述数据特征时,得到所述核心维度的衍生维度为姓名、性别、身高等。
S3、根据所述核心维度与所述衍生维度在所述聚类指标中的分布,生成指标报表。
本发明实施例中通过所述根据所述核心维度与所述衍生维度在所述聚类指标中的分布,生成指标报表,以用于通过报表的形式标记所述指标、所述核心维度、所述衍生维度之间的关系。
其中,所述指标报表是指以所述聚类指标为所述报表的第一层,以基于所述聚类指标的所述核心维度为所述报表的第二层,以基于所述核心维度的所述衍生维度为第三层而生成的。
本发明一实施例中,所述根据所述核心维度与所述衍生维度在所述聚类指标中的分布,生成指标报表,包括:从所述元数据中提取与所述聚类指标对应的核心维度与衍生维度,得到目标核心维度和目标衍生维度;识别所述聚类指标、所述目标核心维度及所述目标衍生维度之间的递进关系;根据所述递进关系,按照预设的规则将所述聚类指标、所述核心维度、所述衍生维度填充至预设报表中,生成所述指标报表。
示例性地,所述预设的规则为以所述聚类指标为列维表头、所述核心维度作为行维表头,在所述列维表头与所述行维表头的交叉口插入所述衍生维度,生成所述指标报表。
S4、判断所述指标报表是否需要拆分。
本发明实施例中通过判断指标报表是否需要拆分,以用于使所述各个指标报表中的核心维度与所述衍生维度保持一致,以便后续再次用到所述报表时可以直接在编辑原始报表。
本发明一实施例中,所述判断所述指标报表是否需要拆分,包括:检验所述指标报表中每个所述核心维度的一致性;在存在所述核心维度一致性不相同时,判断所述指标报表需要拆分;在每个所述核心维度一致性相同时,检验所述指标报表中每个所述衍生维度的一致性;在存在所述衍生维度一致性不相同时,判断所述指标报表需要拆分;在每个所述衍生维度一致性相同时,判断所述指标报表不需要拆分。
S5、若所述指标报表需要拆分,则将所述指标报表进行拆分,生成拆分指标报表,并将所述元数据加载至所述拆分指标报表中,得到第一最终报表模型。
本发明实施例中,在所述指标报表需要拆分,表示所述核心维度及其衍生维度出现异常维度,需要拆分所述异常维度,以使得所述指标报表一致。因此,本发明实施例通过所述将所述指标报表进行拆分以使所述指标报表的核心维度一致,便于后续管理基于所述核心维度的所述衍生维度。
本发明一实施例中,所述将所述指标报表进行拆分,生成拆分指标报表,包括:识别所述指标报表中的异常核心维度;从所述聚类指标中查询所述异常核心维度的异常指标,及从所述衍生维度中查询所述异常核心维度的异常衍生维度;根据所述异常核心维度、异常衍生维度、异常指标,生成拆分指标报表。
本发明实施例中通过将所述元数据加载至所述拆分指标报表中,以用于通过删去冗余的数据使所述元数据的关键数据保留于所述指标报表中,以此节省数据存储空间与提升数据的简洁度。
其中,所述冗余的数据如TXT文件、dat文件中的标点符号、语气词等。
本发明一实施例中,所述将所述元数据加载至所述拆分指标报表中,得到第一最终报表模型,包括:通过编辑器提取所述元数据中的关键信息;将所述关键信息按照聚类指标进行分类,将分类好的所述关键信息加载至所述拆分指标报表中,得到第一最终报表模型。
其中,所述编辑器可以为Microsoft Visual Basic for Applications(VBA),其可以使非程序员能够记录、创建和编辑可在Office应用程序中自动执行任务的宏。
S6、若所述指标报表不需要拆分,则将所述指标报表进行组合,生成组合指标报表,并将所述元数据加载至所述组合指标报表中,得到第二最终报表模型。
本发明实施例中,在所述指标报表不需要拆分,表示所述核心维度及其衍生维度未出现异常,则所述指标一致。因此,本发明实施例通过本发明实施例中通过将所述指标报表进行组合以用于减少重合的所述指标报表的数量,方便后续对所述指标报表进行查找,节省时间开支。
本发明一实施例中,所述将所述指标报表进行组合,生成组合指标报表,包括:从所述指标报表的衍生维度中筛选出异常衍生维度;提取所述衍生维度中的重合衍生维度;
根据所述重合衍生维度、所述异常衍生维度以及所述指标报表对应的聚类指标,生成组合指标报表。
本发明实施例中通过将所述元数据加载至所述拆分指标报表中,以用于通过删去冗余的数据使所述元数据的关键数据保留于所述指标报表中,以此节省数据存储空间与提升数据的简洁度。
本发明一实施例中,所述将所述元数据加载至所述组合指标报表中,得到第二最终报表模型,包括:通过编辑器提取所述元数据中的关键词汇;按照聚类指标分类所述关键词汇,将被分类的所述关键词汇加载至所述拆分指标报表中,得到第二最终报表模型。
其中,所述预设算法是指去重后的衍生维度1*去重后的衍生维度2*......*去重后的言衍生维度n-1*去重后的衍生维度n。
示例性地,若核心维度A的衍生维度为身高、体重、肤色,核心维度B的衍生维度为身高、体重,所述核心维度A与所述核心维度B的衍生维度不一致,将所述一次异常衍生维度即“肤色”提取出来,将所述重合衍生维度即“身高、体重”提取出来,以所述聚类指标为列维表头,以所述异常衍生维度与所述重合衍生维度形成并集构成行维表头,其中行维表头为异常衍生维度1*重合衍生维度2,最后将对应的元数据记载至所述行维与所述列维的交叉口,得到第二最终报表模型。
可以看出,本发明实施例通过从所述业务数据中提取出报表数据,以用于后续生成报表时无需从无限庞大的业务数据中寻找所需要的报表数据,节省了时间开支。进一步地,本发明实施例通过识别所述报表数据中的报表指标,以用于后续对所述报表数据按照所述报表指标进行分类,以便整齐存放所述报表数据增加所述报表的界面美观度。本发明实施例通过将所述报表指标中的指标进行聚类,以用于减少重复指标的数量,减轻提取数据的负担。进一步地,本发明实施例通过识别所述元数据的数据属性,以便后续根据所述元数据获取与所述聚类指标有关的维度,防止出现维度未统计遗漏的情况,提高了数据统计的准确率。进一步地,本发明实施例中通过根据所述数据属性,定义所述聚类指标的核心维度以用于通过所述核心维度将所述聚类指标中的所述元数据联系起来,这样可以将原本不相关的所述元数据以所述核心维度为中介建立起一定的联系,以便后续制作报表时数据简单清晰。进一步,本发明实施例中通过对所述核心维度进行衍生,得到衍生维度以用于发掘所述核心维度的数据特征,以便统计所述核心维度的属性特征。本发明实施例中通过所述根据所述核心维度与所述衍生维度在所述聚类指标中的分布,生成指标报表,以用于通过报表的形式标记所述指标、所述核心维度、所述衍生维度之间的关系。本发明实施例中通过判断指标报表是否需要拆分,以用于使所述各个指标报表中的核心维度与所述衍生维度保持一致,以便后续再次用到所述报表时可以直接在编辑原始报表。本发明实施例通过所述将所述指标报表进行拆分以使所述指标报表的核心维度一致,便于后续管理基于所述核心维度的所述衍生维度。本发明实施例中通过将所述元数据加载至所述拆分指标报表中,以用于通过删去冗余的数据使所述元数据的关键数据保留于所述指标报表中,以此节省数据存储空间与提升数据的简洁度。本发明实施例中通过将所述指标报表进行组合以用于减少重合的所述指标报表的数量,方便后续对所述指标报表进行查找,节省时间开支。因此,本发明实施例节省了数据报表集成的开发时间。
如图2所示,是本发明数据报表集成的功能模块图。
本发明所述数据报表集成100可以安装于电子设备中。根据实现的功能,所述数据集成报表装置可以包括从指标聚类模块101、维度衍生模块102、指标报表生成模块103、拆分判断模块104以及报表模型生成模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备的处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
从所述指标聚类模块101,用于获取业务数据,从所述业务数据中提取出报表数据,识别所述报表数据中的报表指标,并将所述报表指标中的指标进行聚类,得到聚类指标;
所述维度衍生模块102,用于获取所述聚类指标对应的元数据,识别所述元数据的数据属性,根据所述数据属性,定义所述聚类指标的核心维度,并对所述核心维度进行衍生,得到衍生维度;
所述指标报表生成模块103,用于根据所述核心维度与所述衍生维度在所述聚类指标中的分布生成指标报表;
所述拆分判断模块104,用于判断所述指标报表是否需要拆分;
所述报表模型生成模块105,用于若所述指标报表需要拆分,则将所述指标报表进行拆分,生成拆分指标报表,并将所述元数据加载至所述拆分指标报表中,得到第一最终报表模型;
所述报表模型生成模块105,用于若所述指标报表模型不需要拆分,则将所述指标报表进行组合,生成组合指标报表,并将所述元数据加载至所述组合指标报表中,得到第二最终报表模型。
详细地,本发明实施例中所述数据报表集成100中的所述各模块在使用时采用与上述的图1中所述的数据报表集成一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图3所示,是本发明实现数据报表集成的电子设备1的结构示意图。
所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如数据库故障管理程序。
其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备1的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备1的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行数据库故障管理程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如数据库故障管理程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述通信总线12可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
所述通信接口13用于上述电子设备1与其他设备之间的通信,包括网络接口和员工接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备1之间建立通信连接。所述员工接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,员工接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的员工界面。
图3仅示出了具有部件的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利发明范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的数据报表集成程序是多个计算机程序的组合,在所述处理器10中运行时,可以实现:
获取业务数据,从所述业务数据中提取出报表数据,识别所述报表数据中的报表指标,并将所述报表指标中的指标进行聚类,得到聚类指标;
获取所述聚类指标对应的元数据,识别所述元数据的数据属性,根据所述数据属性,定义所述聚类指标的核心维度,并对所述核心维度进行衍生,得到衍生维度;
根据所述核心维度与所述衍生维度在所述聚类指标中的分布,生成指标报表;
判断所述指标报表是否需要拆分;
若所述指标报表需要拆分,则将所述指标报表进行拆分,生成拆分指标报表,并将所述元数据加载至所述拆分指标报表中,得到第一最终报表模型;
若所述指标报表模型不需要拆分,则将所述指标报表进行组合,生成组合指标报表,并将所述元数据加载至所述组合指标报表中,得到第二最终报表模型。
具体地,所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备1的处理器所执行时,可以实现:
获取业务数据,从所述业务数据中提取出报表数据,识别所述报表数据中的报表指标,并将所述报表指标中的指标进行聚类,得到聚类指标;
获取所述聚类指标对应的元数据,识别所述元数据的数据属性,根据所述数据属性,定义所述聚类指标的核心维度,并对所述核心维度进行衍生,得到衍生维度;
根据所述核心维度与所述衍生维度在所述聚类指标中的分布,生成指标报表;
判断所述指标报表是否需要拆分;
若所述指标报表需要拆分,则将所述指标报表进行拆分,生成拆分指标报表,并将所述元数据加载至所述拆分指标报表中,得到第一最终报表模型;
若所述指标报表模型不需要拆分,则将所述指标报表进行组合,生成组合指标报表,并将所述元数据加载至所述组合指标报表中,得到第二最终报表模型。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种数据报表集成方法,其特征在于,所述方法包括:
获取业务数据,从所述业务数据中提取出报表数据,识别所述报表数据中的报表指标,并将所述报表指标中的指标进行聚类,得到聚类指标;
获取所述聚类指标对应的元数据,识别所述元数据的数据属性,根据所述数据属性,定义所述聚类指标的核心维度,并对所述核心维度进行衍生,得到衍生维度;
根据所述核心维度与所述衍生维度在所述聚类指标中的分布生成指标报表;
判断所述指标报表是否需要拆分;
若所述指标报表需要拆分,则将所述指标报表进行拆分,生成拆分指标报表,并将所述元数据加载至所述拆分指标报表中,得到第一最终报表模型;
若所述指标报表不需要拆分,则将所述指标报表进行组合,生成组合指标报表,并将所述元数据加载至所述组合指标报表中,得到第二最终报表模型。
2.如权利要求1所述的数据报表集成方法,其特征在于,所述从所述业务数据中提取出报表数据,包括:
对所述业务数据进行报表数据需求分析,得到报表数据需求;
在所述业务数据中识别符合所述报表数据需求的需求报表数据,得到所述报表数据。
3.如权利要求1所述的数据报表集成方法,其特征在于,所述识别所述元数据的数据属性,包括:
通过爬虫提取所述元数据的关键字;
分析所述元数据与所述关键字关联的特征;
将所述特征作为所述数据属性。
4.如权利要求1所述的数据报表集成方法,其特征在于,所述根据所述核心维度与所述衍生维度在所述聚类指标中的分布,生成指标报表,包括:
从所述元数据中提取与所述聚类指标对应的核心维度与衍生维度,得到目标核心维度和目标衍生维度;
识别所述聚类指标、所述目标核心维度及所述目标衍生维度之间的递进关系;
根据所述递进关系,按照预设的规则将所述聚类指标、所述核心维度、所述衍生维度填充至预设报表中,生成所述指标报表。
5.如权利要求1所述的数据报表集成方法,其特征在于,所述判断所述指标报表是否需要拆分,包括:
检验所述指标报表中每个所述核心维度的一致性;
在存在所述核心维度一致性不相同时,判断所述指标报表需要拆分;
在每个所述核心维度一致性相同时,检验所述指标报表中每个所述衍生维度的一致性;
在存在所述衍生维度一致性不相同时,判断所述指标报表需要拆分;
在每个所述衍生维度一致性相同时,判断所述指标报表不需要拆分。
6.如权利要求1至5中任意一项所述的数据报表集成方法,其特征在于,所述将所述指标报表进行拆分,生成拆分指标报表,包括:
识别所述指标报表中的异常核心维度;
从所述聚类指标中查询所述异常核心维度的异常指标,及从所述衍生维度中查询所述异常核心维度的异常衍生维度;
根据所述异常核心维度、异常衍生维度、异常指标,生成拆分指标报表。
7.如权利要求1所述的数据报表集成方法,其特征在于,所述将所述指标报表进行组合,生成组合指标报表,包括:
从所述指标报表的衍生维度中筛选出异常衍生维度;
提取所述衍生维度中的重合衍生维度;
根据所述重合衍生维度、所述异常衍生维度以及所述指标报表对应的聚类指标,生成组合指标报表。
8.一种数据报表集成装置,其特征在于,所述模型包括:
指标聚类模块,用于获取业务数据,从所述业务数据中提取出报表数据,识别所述报表数据中的报表指标,并将所述报表指标中的指标进行聚类,得到聚类指标;
维度衍生模块,用于获取所述聚类指标对应的元数据,识别所述元数据的数据属性,根据所述数据属性,定义所述聚类指标的核心维度,并对所述核心维度进行衍生,得到衍生维度;
指标报表生成模块,用于根据所述核心维度与所述衍生维度在所述聚类指标中的分布生成指标报表;
拆分判断模块,用于判断所述指标报表是否需要拆分;
报表模型生成模块,用于若所述指标报表需要拆分,则将所述指标报表进行拆分,生成拆分指标报表,并将所述元数据加载至所述拆分指标报表中,得到第一最终报表模型;
所述报表模型生成模块,用于若所述指标报表模型不需要拆分,则将所述指标报表进行组合,生成组合指标报表,并将所述元数据加载至所述组合指标报表中,得到第二最终报表模型。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的数据报表集成方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的数据报表集成方法。
CN202210361131.7A 2022-04-07 2022-04-07 数据报表集成方法、装置、电子设备及存储介质 Active CN114722789B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210361131.7A CN114722789B (zh) 2022-04-07 2022-04-07 数据报表集成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210361131.7A CN114722789B (zh) 2022-04-07 2022-04-07 数据报表集成方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114722789A true CN114722789A (zh) 2022-07-08
CN114722789B CN114722789B (zh) 2024-02-02

Family

ID=82241724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210361131.7A Active CN114722789B (zh) 2022-04-07 2022-04-07 数据报表集成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114722789B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117312319A (zh) * 2023-10-09 2023-12-29 中科院成都信息技术股份有限公司 基于元数据的数据存储方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030135481A1 (en) * 2001-12-07 2003-07-17 Philip Helmes Rules based method and system for project performance monitoring
CN104391986A (zh) * 2014-12-10 2015-03-04 用友软件股份有限公司 业务重分类装置和方法
CN106776822A (zh) * 2016-11-25 2017-05-31 远光软件股份有限公司 集团企业报表数据提取方法及系统
CN111427936A (zh) * 2020-03-31 2020-07-17 苏宁云计算有限公司 报表生成方法、装置、计算机设备和存储介质
CN113450796A (zh) * 2021-06-29 2021-09-28 平安养老保险股份有限公司 语音报表生成方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030135481A1 (en) * 2001-12-07 2003-07-17 Philip Helmes Rules based method and system for project performance monitoring
CN104391986A (zh) * 2014-12-10 2015-03-04 用友软件股份有限公司 业务重分类装置和方法
CN106776822A (zh) * 2016-11-25 2017-05-31 远光软件股份有限公司 集团企业报表数据提取方法及系统
CN111427936A (zh) * 2020-03-31 2020-07-17 苏宁云计算有限公司 报表生成方法、装置、计算机设备和存储介质
CN113450796A (zh) * 2021-06-29 2021-09-28 平安养老保险股份有限公司 语音报表生成方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117312319A (zh) * 2023-10-09 2023-12-29 中科院成都信息技术股份有限公司 基于元数据的数据存储方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114722789B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN115002200A (zh) 基于用户画像的消息推送方法、装置、设备及存储介质
CN113946690A (zh) 潜在客户挖掘方法、装置、电子设备及存储介质
CN114612194A (zh) 产品推荐方法、装置、电子设备及存储介质
CN113887941A (zh) 业务流程生成方法、装置、电子设备及介质
CN114862140A (zh) 基于行为分析的潜力评估方法、装置、设备及存储介质
CN114840531A (zh) 基于血缘关系的数据模型重构方法、装置、设备及介质
CN114722789B (zh) 数据报表集成方法、装置、电子设备及存储介质
CN114841165B (zh) 用户数据分析及展示方法、装置、电子设备及存储介质
CN114637866B (zh) 数字化新媒体的信息管理方法及装置
CN113434397B (zh) 任务系统的测试方法、装置、电子设备及存储介质
CN111553133B (zh) 报表生成方法、装置、电子设备及存储介质
CN115966274A (zh) 问卷题目筛选的方法、装置、电子设备及存储介质
CN115168848A (zh) 基于大数据分析拦截的拦截反馈处理方法
CN115099680A (zh) 风险管理方法、装置、设备及存储介质
CN115310979A (zh) 数据支付方法、装置、电子设备及存储介质
CN111859985A (zh) Ai客服模型测试方法、装置、电子设备及存储介质
CN115392206B (zh) 基于wps/excel快速查询数据方法、装置、设备及存储介质
CN115204679A (zh) 研发项目的效果智能分析方法、装置、电子设备及介质
CN115795135A (zh) 新增对象的重复检测方法、装置、设备及存储介质
CN114721739A (zh) 多维度的账户等级更新方法、装置、设备及介质
CN114661703A (zh) 基于用户画像的智能问答方法、装置、设备及存储介质
CN114817531A (zh) 一种员工职业生涯测评方法、装置、设备及存储介质
CN113887621A (zh) 问答资源调整方法、装置、设备及存储介质
CN112528112A (zh) 数据收集及分析方法、装置、电子设备及存储介质
CN114723488A (zh) 课程推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant