CN114443656A - 一种可定制的自动化数据模型分析工具及其使用方法 - Google Patents

一种可定制的自动化数据模型分析工具及其使用方法 Download PDF

Info

Publication number
CN114443656A
CN114443656A CN202210060993.6A CN202210060993A CN114443656A CN 114443656 A CN114443656 A CN 114443656A CN 202210060993 A CN202210060993 A CN 202210060993A CN 114443656 A CN114443656 A CN 114443656A
Authority
CN
China
Prior art keywords
data
information
field
metadata
data source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210060993.6A
Other languages
English (en)
Inventor
徐瑞
李源
张耀方
孙宏强
张超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Aeronautics Computing Technique Research Institute of AVIC
Original Assignee
Xian Aeronautics Computing Technique Research Institute of AVIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Aeronautics Computing Technique Research Institute of AVIC filed Critical Xian Aeronautics Computing Technique Research Institute of AVIC
Priority to CN202210060993.6A priority Critical patent/CN114443656A/zh
Publication of CN114443656A publication Critical patent/CN114443656A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Stored Programmes (AREA)

Abstract

本申请提供了一种定制的自动化数据模型分析工具及其使用方法,属于数据存储的技术领域,具体包括配置模块、分析元数据模块和输出模块;所述配置模块用于读取数据源文件,根据数据源文件的类型进行参数自动化配置;所述分析元数据模块针对不同类型的数据源文件型号自动抽取形成数据源的元数据结构信息和数据源的表数据,并且对元数据结构信息的字段信息与元数据结构信息的字段信息存储的每一行值进行映射,实现用户建立定制分析模型。所述输出模块用于根据建立的分析模型,调用数据处理算法完成模型的数据填充,并依据业务需求进一步实现信息展示。通过本申请的处理方案,针对结构化数据源和非结构化数据源统一分析,并根据用户需求设置不同的维度数据模型。

Description

一种可定制的自动化数据模型分析工具及其使用方法
技术领域
本申请涉及数据存储的领域,尤其是涉及一种可定制的自动化数据模型分析工具及其使用方法。
背景技术
传统的数据应用开发方式需要在和用户充分沟通的基础上,定义好用户需求的字段内容,字段类型,获取方式,并且数据存储选择关系型数据库存储方式。这种方式适用于需求固定,业务规则变更不频繁,用户掌握一定数据操作能力的基础上。针对当前应用需求频繁变更,数据量大,数据来源复杂的情况,这样的应用方式不灵活,效率低下,并且存在对其它类型数据源不能利用的局限性。随着数字化技术和工业化领域融合的进一步加深,文档型,非关系型数据的利用,以及与关系型数据库数据的融合分析。单纯的基于关系型数据库的数据模型,已不适合当前快速发展的业务需求。
发明内容
有鉴于此,本申请提供一种可定制的自动化数据模型分析工具及其使用方法,解决了现有技术中的问题,针对结构化数据源和非结构化数据源统一分析,并根据用户需求设置不同的维度数据模型。
本申请提供的一种可定制的自动化数据模型分析工具采用如下的技术方案:
一种可定制的自动化数据模型分析工具,其特征在于,包括配置模块、分析元数据模块和输出模块;
所述配置模块用于读取数据源文件,根据数据源文件的类型进行参数自动化配置;
所述分析元数据模块针对不同类型的数据源文件型号自动抽取形成数据源的元数据结构信息和数据源的表数据,并且对元数据结构信息的字段信息与元数据结构信息的字段信息存储的每一行值进行映射,实现用户建立定制分析模型。
所述输出模块用于根据建立的分析模型,调用数据处理算法完成模型的数据填充,并依据业务需求进一步实现信息展示。
可选的,所述分析工具计统一API接口,用于分析提取数据源结构、并对元数据结构信息进行储存,依据配置完成的数据源参数通过API接口调用对应的分析程序。
可选的,所述分析元数据模块构建一种JSON格式的字符数据作为统一的源数据和分析数据的数据交换格式。
可选的,所述分析元数据模块利用JSON结构创建了数据源的元数据结构信息和数据源的表数据,对元数据结构信息的字段信息与元数据结构信息的字段信息存储的每一行值进行映射,实现用户建立定制分析模型。
可选的,所述分析元数据模块分析数据源的数据表的元数据结构信息并存储为特征维度集合,供用户在使用时选择配置。
可选的,所述数据源文定义为结构化数据源文件信息和非结构化数据源文件信息,结构化数据文件信息包括数据库连接参数、数据库的表名、视图名称、查询字段名、查询条件、分组条件和排序规则等,非结构化的数据源信息包括源文件路径地址、文件名、文件后缀名和文件格式。
可选的,所述配置模块读取数据源的数据库的表名,数据库各表的字段名,字段类型,以及数据库各表的数据。
另一方面本申请提供的一种可定制的自动化数据模型分析工具的使用方法采用如下的技术方案:
一种可定制的自动化数据模型工具的使用方法,包括:
步骤一,启动如权利要求上述的可定制的自动化数据模型工具;
步骤二,配置定时调度任务,执行读取属于源文件后台程序;
步骤三,构建JSON格式的字符串存储数据源元数据结构信息中字段类型信息,形成原始表的元数据管理信息,所述元数据管理信息包括字段名称和字段类型;
步骤四,将数元数据管理信息中的每行数据根据字段类型信息的格式构建为一条JSON格式的字符串数据;
步骤五,将每条JSON字符串数据进行组合,形成包含整表数据的JSON数组对象;
步骤六,根据元数据管理信息,选取分析维度字段和事实数据字段,分别生成维度表元数据信息和事实表元数据信息,搭建应用分析数据模型;
步骤七,按照业务规则,定义事实表元数据字段中的值与原始数据字段的业务规则
步骤八,将JSON字符串转化为Hash集合<key,value>格式对象,
步骤九,利用递归算法,调用步骤七操作,并且取步骤三中字段名称集合针对循环遍历取到的每一个字段名称,取Hash集合中的value对象作为该字段名的字段值,经过计算存取到新的字段名下,递归直到JSON数组遍历完毕。
步骤十,调用持久化程序选择不同的存储介质完成事实表数据和维度表数据的保存。
综上所述,本申请包括以下有益技术效果:
1、通过参数配置的方式定义不同类型的数据源,包括关系型数据源和文档型数据源,根据不同的数据源格式调用统一的API接口分析数据源结构,并存储元数据信息。
2、将不同类型的数据源结构数据统一转化为JSON格式的数据并进行保存。
3、通过对JSON格式元数据的分析,自动解析出数据源的属性列,供用户自由选择,从而实现可定制目标,不用提前搜集用户需求,提前定义分析型数据库表结构。
4、设计了一种递归算法,在递归算法中采取分治思想将大的表数据分解为一组小的数据集合,提升了程序的效率,减轻了服务器与终端数据I/O的压力。
5、根据业务要求提供了一种建模方法,实现了业务模型与分析模型的数据转换。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请可定制的自动化数据模型分析工具的使用方法采的流程图;
图2为本申请实施例的原数据源数据模型;
图3为本申请实施例的维度表模型。
具体实施方式
下面结合附图对本申请实施例进行详细描述。
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本申请,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构想,图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
本申请实施例提供一种可定制的自动化数据模型分析工具。
一种可定制的自动化数据模型分析工具,包括配置模块、分析元数据模块和输出模块。
所述配置模块用于读取数据源文件,根据数据源文件的类型进行参数自动化配置;配置模块根据用户的参数选,可以自动化配置结构化数据源和非结构化数据源。
所述数据源文定义为结构化数据源文件信息和非结构化数据源文件信息,结构化数据文件信息包括数据库连接参数、数据库的表名、视图名称、查询字段名、查询条件、分组条件和排序规则等,非结构化的数据源信息包括源文件路径地址、文件名、文件后缀名和文件格式。
所述配置模块读取数据源的数据库的表名,数据库各表的字段名,字段类型,以及数据库各表的数据。
所述分析元数据模块针对不同类型的数据源文件型号自动抽取形成数据源的元数据结构信息和数据源的表数据,并且对元数据结构信息的字段信息与元数据结构信息的字段信息存储的每一行值进行映射,实现用户建立定制分析模型。
具体的,所述分析元数据模块构建一种JSON格式的字符数据作为统一的源数据和分析数据的数据交换格式。利用JSON结构创建了数据源的元数据结构信息和数据源的表数据,对元数据结构信息的字段信息与元数据结构信息的字段信息存储的每一行值进行映射,实现用户建立定制分析模型。述分析元数据模块分析数据源的数据表的元数据结构信息并存储为特征维度集合,供用户在使用时选择配置。
所述输出模块用于根据建立的分析模型,调用数据处理算法完成模型的数据填充,并依据业务需求进一步实现信息展示。
所述分析工具计统一API接口,用于分析提取数据源结构、并对元数据结构信息进行储存,依据配置完成的数据源参数通过API接口调用对应的分析程序。
如图1所示,本申请还公开了一种可定制的自动化数据模型工具的使用方法,包括:
步骤一,启动所述可定制的自动化数据模型工具。
步骤二,配置定时调度任务,执行读取属于源文件后台程序。
步骤三,构建JSON格式的字符串存储数据源表结构中字段类型信息,形成原始表的元数据管理信息,所述元数据管理信息包括字段名称和字段类型,格式为(字段名1:字段类型1,字段名2:字段类型2,...字段名n:字段类型n)。
步骤四,将数元数据管理信息的数据库中的每行数据根据字段类型信息的格式构建为一条JSON格式的字符串数据;即,将数据库表每行数据根据(字段名1:字段值1,字段名2:字段值2...,字段名n:字段值n)方式构造为一条JSON格式的字符串数据。
步骤五,将每条JSON字符串数据进行组合,形成包含整表数据的JSON数组对象;
步骤六:根据元数据管理信息,选取分析维度字段和事实数据字段,分别生成维度表元数据信息和事实表元数据信息,搭建应用分析数据模型;
步骤七:按照业务规则,定义事实表元数据字段中的值与原始数据字段的业务规则
步骤八:将JSON字符串转化为Hash集合<key,value>格式对象,
步骤九:利用递归算法,调用步骤七操作,并且取步骤三中字段名称集合{字段名1,字段名2,...字段名n},针对循环遍历取到的每一个字段名称,取Hash集合中的value对象作为该字段名的字段值,经过计算存取到新的字段名下,递归直到JSON数组遍历完毕。
步骤十:调用持久化程序选择不同的存储介质完成事实表数据和维度表数据的保存。
本申请的分析工具可以根据用户需求自助搭建业务分析模型,实现了数据从操作性业务数据到分析型事实数据的计算和映射。为用户的业务分析需求自助实现提供了一种可能。
具体的,本申请针对结构化数据源和非机构数据源分别给出案例。
1、结构化数据库表:
数据源JDBC:com.microsoft.sqlserver.jdbc.SQLServerDriver。
数据源URL:jdbc:sqlserver://XX:XX;DatabaseName=bpmpridb。
数据源用户名和密码。
2、需要读取的数据库表结构信息:
table产品信息表{
产品型号varchar(30),
产品名称varchar(50),
...
}。
table生产任务表{
课题代号varchar(30),
产品名称varchar(30),
交付数量number,
交付日期Date,
...
}。
...
3、非机构化数据表信息:
excel项目计划表。
字段名(课题代号,项目名称,...)。
4、原数据源数据模型如图2所示,为关系型数据模型。
5、如果是2,通过DatabaseMetaData类的getString("Table_Name零部件")获取结构化数据源的零部件表信息。
6、通过DatabaseMetaData类的getColumns循环遍历表结构字段。
7、将数据源表结构字段名称和字段类型定义为一个JSON格式字符串{"产品型号":varchar(30),"产品名称":varchar(30),...}。
8、如果是3,通过HSSFWorkbook类取表对象,取每一列的字段名称和每一列的表格字段类型,然后循环第6,7步操作。
9、对第7步骤生成的JSON格式字符串,提取元数据信息,供用户创建维度表和事实表表结构。
10、针对查询得到的数据表行集数据,构建JSON格式的{<产品型号:n1>,<产品名称:v1>,...}字符串。
11、将JSON格式的字符串转换为JSON对象,并将整表数据转换为JSON数组对象[{<产品型号:n1>,<产品名称:v1>,...},{<产品型号:n2>,<产品名称:v2>,...}]。
14、根据集合列表类型构造基于JSON的定制化数据存储数组[{"column1":"n1","column2":"v1"...},{"column1":"n2","column2":"v2"...}...{"colu mn1":"nN","column2":"vN",...}]。
15、通过递归算法遍历JSON数组,将取得的JSON对象转换为HashMap<key,value>对象,基于用户需求,设置数据字段名称为columnT,通过HashMap映射取得改列对应的值。
16、生成事实表和维度表模型如图3所示。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种可定制的自动化数据模型分析工具,其特征在于,包括配置模块、分析元数据模块和输出模块;
所述配置模块用于读取数据源文件,根据数据源文件的类型进行参数自动化配置;
所述分析元数据模块针对不同类型的数据源文件型号自动抽取形成数据源的元数据结构信息和数据源的表数据,并且对元数据结构信息的字段信息与元数据结构信息的字段信息存储的每一行值进行映射,实现用户建立定制分析模型。
所述输出模块用于根据建立的分析模型,调用数据处理算法完成模型的数据填充,并依据业务需求进一步实现信息展示。
2.根据权利要求1所述的,其特征在于,所述分析工具计统一API接口,用于分析提取数据源结构、并对元数据结构信息进行储存,依据配置完成的数据源参数通过API接口调用对应的分析程序。
3.根据权利要求1所述的,其特征在于,所述分析元数据模块构建一种JSON格式的字符数据作为统一的源数据和分析数据的数据交换格式。
4.根据权利要求3所述的,其特征在于,所述分析元数据模块利用JSON结构创建了数据源的元数据结构信息和数据源的表数据,对元数据结构信息的字段信息与元数据结构信息的字段信息存储的每一行值进行映射,实现用户建立定制分析模型。
5.根据权利要求3所述的,其特征在于,所述分析元数据模块分析数据源的数据表的元数据结构信息并存储为特征维度集合,供用户在使用时选择配置。
6.根据权利要求1-5中任一项所述的,其特征在于,所述数据源文定义为结构化数据源文件信息和非结构化数据源文件信息,结构化数据文件信息包括数据库连接参数、数据库的表名、视图名称、查询字段名、查询条件、分组条件和排序规则等,非结构化的数据源信息包括源文件路径地址、文件名、文件后缀名和文件格式。
7.根据权利要求6所述的,其特征在于,所述配置模块读取数据源的数据库的表名,数据库各表的字段名,字段类型,以及数据库各表的数据。
8.一种可定制的自动化数据模型工具的使用方法,其特征在于,包括:
步骤一,启动如权利要求1-7中任一项所述的可定制的自动化数据模型工具;
步骤二,配置定时调度任务,执行读取属于源文件后台程序;
步骤三,构建JSON格式的字符串存储数据源元数据结构信息中字段类型信息,形成原始表的元数据管理信息,所述元数据管理信息包括字段名称和字段类型;
步骤四,将数元数据管理信息中的每行数据根据字段类型信息的格式构建为一条JSON格式的字符串数据;
步骤五,将每条JSON字符串数据进行组合,形成包含整表数据的JSON数组对象;
步骤六,根据元数据管理信息,选取分析维度字段和事实数据字段,分别生成维度表元数据信息和事实表元数据信息,搭建应用分析数据模型;
步骤七,按照业务规则,定义事实表元数据字段中的值与原始数据字段的业务规则
步骤八,将JSON字符串转化为Hash集合<key,value>格式对象,
步骤九,利用递归算法,调用步骤七操作,并且取步骤三中字段名称集合针对循环遍历取到的每一个字段名称,取Hash集合中的value对象作为该字段名的字段值,经过计算存取到新的字段名下,递归直到JSON数组遍历完毕。
步骤十,调用持久化程序选择不同的存储介质完成事实表数据和维度表数据的保存。
CN202210060993.6A 2022-01-19 2022-01-19 一种可定制的自动化数据模型分析工具及其使用方法 Pending CN114443656A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210060993.6A CN114443656A (zh) 2022-01-19 2022-01-19 一种可定制的自动化数据模型分析工具及其使用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210060993.6A CN114443656A (zh) 2022-01-19 2022-01-19 一种可定制的自动化数据模型分析工具及其使用方法

Publications (1)

Publication Number Publication Date
CN114443656A true CN114443656A (zh) 2022-05-06

Family

ID=81368209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210060993.6A Pending CN114443656A (zh) 2022-01-19 2022-01-19 一种可定制的自动化数据模型分析工具及其使用方法

Country Status (1)

Country Link
CN (1) CN114443656A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737113A (zh) * 2023-04-23 2023-09-12 中国科学院高能物理研究所 面向海量科学数据的元数据目录管理系统及方法
CN117787924A (zh) * 2024-02-28 2024-03-29 中国航空工业集团公司西安飞机设计研究所 一种飞机设计数据发放数据包发放方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737113A (zh) * 2023-04-23 2023-09-12 中国科学院高能物理研究所 面向海量科学数据的元数据目录管理系统及方法
CN116737113B (zh) * 2023-04-23 2024-01-02 中国科学院高能物理研究所 面向海量科学数据的元数据目录管理系统及方法
CN117787924A (zh) * 2024-02-28 2024-03-29 中国航空工业集团公司西安飞机设计研究所 一种飞机设计数据发放数据包发放方法及系统

Similar Documents

Publication Publication Date Title
CN110929042B (zh) 一种基于电力企业的知识图谱构建和查询方法
CN108038222B (zh) 用于信息系统建模和数据访问的实体-属性框架的系统
CN106933833B (zh) 一种基于空间索引技术的位置信息快速查询方法
CN110618983A (zh) 基于json文档结构的工业大数据多维分析与可视化方法
US10579678B2 (en) Dynamic hierarchy generation based on graph data
CN111159191A (zh) 一种数据处理方法、装置和界面
CN114443656A (zh) 一种可定制的自动化数据模型分析工具及其使用方法
CN103020158A (zh) 一种报表创建方法、装置和系统
CN103500196A (zh) 多并发大数据量环境下excel数据导出方法及其导出装置
CN103177094B (zh) 一种物联网数据清洗方法
CN103577394A (zh) 一种基于双数组搜索树的机器翻译方法和装置
CN111090417A (zh) 二进制文件解析方法、装置、设备及介质
CN102779186B (zh) 一种非结构化数据管理的全过程建模方法
CN103002061A (zh) 一种长域名与短域名互相转化的方法及装置
CN102999600A (zh) 一种嵌入式数据库自动生成方法和系统
CN104615713A (zh) 一种基于多数据库类型的sql执行方法和装置
CN107870949A (zh) 数据分析作业依赖关系生成方法和系统
CN114218218A (zh) 基于数据仓库的数据处理方法、装置、设备及存储介质
CN105426506B (zh) 一种海量动态数据管理方法
CN110647564A (zh) Hive建表方法、电子装置及计算机可读存储介质
CN112650777A (zh) 数据仓库的制作方法、装置、终端设备及计算机存储介质
CN112905642B (zh) 基于csv映射文件将iec61850报告数据存入关系数据库的方法
CN105912723A (zh) 一种自定义字段的存储方法
CN110389953B (zh) 基于压缩图的数据存储方法、存储介质、存储装置和服务器
CN110825744B (zh) 一种基于集群环境的空气质量监测大数据分区存储方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination