CN116842076A

CN116842076A - 一种数据分析方法、装置、分析设备及可读存储介质

Info

Publication number: CN116842076A
Application number: CN202310800255.5A
Authority: CN
Inventors: 肖松明
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2023-07-03
Filing date: 2023-07-03
Publication date: 2023-10-03

Abstract

本发明提供一种数据分析方法、装置、分析设备及可读存储介质，涉及数据分析技术领域。该方法包括：获取检索信息；基于预先构建的元数据图谱，对所述检索信息进行解析处理，获得数据库查询语句，其中，所述数据库查询语句中包含数据库中物理表的属性信息，所述元数据图谱包括：元数据信息和元数据信息之间的关系信息，所述元数据图谱用于指示物理表中的字段与元数据信息的对照关系；使用所述数据库查询语句，进行数据库查询，获得至少一项查询结果；对所述至少一项查询结果进行拼接处理，获得针对所述检索信息的第一目标反馈结果。本发明的方案，解决了现有数据分析方法的自动化程度低的问题。

Description

一种数据分析方法、装置、分析设备及可读存储介质

技术领域

本发明涉及数据分析技术领域，特别是指一种数据分析方法、装置、分析设备及可读存储介质。

背景技术

目前，主流的商业智能(Business Intelligence，BI)工具在使用时，需要针对细分业务场景进行重复繁琐的数据开发和配置，基本上是采用一张事实表编排一个场景的模式，其中，配置过程主要涉及以下步骤：选择数据源，确定目标表；选择字段，做可视化操作；保存发布。

在这种模式下，需要完全基于既定的单一表的空间里，进行多维可视化探索和发布，表之间彼此独立，为了面向特定的统计取数需求，需要不断增加特定场景配置，带来了额外的手工开发投入，日常维护成本加大，而且，需要技术人员提前准备数据，查询分析内容需要预先设定，取数业务逻辑仍需要人工逐一设置，自动化程度低，可扩展性较差。

发明内容

本发明的目的是提供一种数据分析方法、装置、分析设备及可读存储介质，解决了现有数据分析方法的自动化程度低的问题。

为达到上述目的，本发明的实施例提供一种数据分析方法，包括：

获取检索信息；

基于预先构建的元数据图谱，对所述检索信息进行解析处理，获得数据库查询语句，其中，所述数据库查询语句中包含数据库中物理表的属性信息，所述元数据图谱包括：元数据信息和元数据信息之间的关系信息，所述元数据图谱用于指示物理表中的字段与元数据信息的对照关系；

使用所述数据库查询语句，进行数据库查询，获得至少一项查询结果；

对所述至少一项查询结果进行拼接处理，获得针对所述检索信息的第一目标反馈结果。

为达到上述目的，本发明的实施例提供一种数据分析装置，包括：

信息获取模块，用于获取检索信息；

第一处理模块，用于基于预先构建的元数据图谱，对所述检索信息进行解析处理，获得数据库查询语句，其中，所述数据库查询语句中包含数据库中物理表的属性信息，所述元数据图谱包括：元数据信息和元数据信息之间的关系信息，所述元数据图谱用于指示物理表中的字段与元数据信息的对照关系；

数据查询模块，用于使用所述数据库查询语句，进行数据库查询，获得至少一项查询结果；

第二处理模块，用于对所述至少一项查询结果进行拼接处理，获得针对所述检索信息的第一目标反馈结果。

为达到上述目的，本发明的实施例提供一种分析设备，包括处理器和收发机，其中，所述处理器用于：

获取检索信息；

为达到上述目的，本发明的实施例提供一种分析设备，包括收发器、处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令；所述处理器执行程序或指令时实现如上所述的数据分析方法。

为达到上述目的，本发明的实施例提供一种可读存储介质，其上存储有程序或指令，所述程序或指令被处理器执行时实现如上所述的数据分析方法中的步骤。

本发明的上述技术方案的有益效果如下：

本发明实施例的方法，在获取检索信息之后，可以基于预先构建的元数据图谱对检索信息进行解析处理，获得数据库查询语句，进而使用数据库查询语句进行数据库查询，获得至少一项查询结果，对至少一项查询结果进行叠加计算，获得针对检索信息的第一目标反馈结果。如此，可以基于元数据图谱对检索信息进行数据分析，避免了人工设置取数业务逻辑，提高了数据分析的自动化程度，改善了用户使用体验。

附图说明

图1为本发明实施例的数据分析方法的流程图；

图2为本发明实施例的数据分析方法的检索信息输入界面示意图；

图3为本发明实施例的数据分析方法的整体流程图；

图4为本发明实施例的数据分析方法的元数据图谱示意图；

图5为本发明实施例的解析规则示意图；

图6为本发明实施例的检索信息的解析示例图；

图7为本发明实施例的目标物理表的过程示意图；

图8为本发明实施例的第二目标反馈结果的展示界面；

图9为本发明实施例的数据分析装置的结构图；

图10为本发明实施例的用户设备的结构图；

图11为本发明另一实施例的用户设备的结构图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

另外，本文中术语“系统”和“网络”在本文中常可互换使用。

在本申请所提供的实施例中，应理解，“与A相应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

如图1所示，本发明实施例的一种数据分析方法，包括：

步骤101，获取检索信息。

该步骤中，检索信息可以是用户通过输入设备录入的信息。具体的，可以为用户提供可视化界面，用户在界面上输入检索信息时，可以提示用户可输入的检索词。比如，如图2所示，用户在检索框输入检索信息时，系统结合元数据图谱中的知识，填充到下拉列表中进行自动匹配提示，供用户选择检索词，使得用户可以以近自然语言的方式输入关键词进行信息检索。另外，还可以根据常见的用户操作，调整检索信息的优先级，比如点击下拉列表中“年累计订单金额”这个词的用户很少，就可以将该次放到下拉列表的“更多”菜单里，而不是直接展示出来。

步骤102，基于预先构建的元数据图谱，对所述检索信息进行解析处理，获得数据库查询语句，其中，所述数据库查询语句中包含数据库中物理表的属性信息，所述元数据图谱包括：元数据信息和元数据信息之间的关系信息，所述元数据图谱用于指示物理表中的字段与元数据信息的对照关系。

需要说明的是，在执行本发明实施例的数据分析方法之前，可以先构建元数据图谱，这样，可以通过图谱方式对各个元数据信息进行关系表达。

步骤103，使用所述数据库查询语句，进行数据库查询，获得至少一项查询结果。

该步骤中，数据库查询语句为数据库可执行的机器查询语句，找到相应的数据库执行查询后，可以得到至少一项查询结果。

步骤104，对所述至少一项查询结果进行拼接处理，获得针对所述检索信息的第一目标反馈结果。

该步骤中，可以将查询得到的至少一项查询结果进行组合拼接，获得第一目标反馈结果后，可以根据数据特点，选择多种可视化展现方式展示给用户。

该实施例中，在获取检索信息之后，可以基于预先构建的元数据图谱对检索信息进行解析处理，获得数据库查询语句，进而使用数据库查询语句进行数据库查询，获得至少一项查询结果，对至少一项查询结果进行叠加计算，获得针对检索信息的第一目标反馈结果。如此，可以基于元数据图谱对检索信息进行数据分析，避免了人工设置取数业务逻辑，降低了数据分析的使用门槛，提高了数据分析的自动化程度，改善了用户使用体验。

如图3所示，在一具体实施例中，利用本发明实施例提供的数据分析方法构建的系统主要包括：元数据图谱管理模块、词法语义解释器和分析反馈模块，其中，通过元数据图谱管理模块，可以构建统计分析涉及到的多纬表元数据库，用户输入或选择检索信息后，词法语义解释器可以基于元数据信息，进行检索内容的分词、解析和匹配，并根据解析信息翻译成数据库查询语句，分析反馈模块可以执行数据库查询，并将多查询结果进行组合，进而再可以将查询结果通过多种可视化的形式反馈给用户。

可选地，所述元数据信息包括以下至少一项：

指标信息：用于记录指标的标准名称、别名、标准编码、指标类型、指标说明、指标口径、单位、格式化类型、业务域等信息；

维度信息：用于记录维度标准名称、标准编码、上级维度信息(用于级联分析)等信息；

维度值信息：用于记录维度值名称、编码、隶属维度名称、上级维度等信息；

衍生算子信息：用于记录同比、环比、年累计、排名、计数、排序操作等信息；

物理表存储信息：用于记录多维表的存储数据库信息、表类别、记录数、表字段信息以及与元数据映射信息等信息；

同义词信息：用于维护指标值、维度值、维度名称的同义词。

权限信息：用于记录用户能访问哪些维度值或哪些指标。

其中，基于权限信息，可以实现字段级的权限控制。

可选地，所述元数据信息之间的关系信息(即元数据间图谱关系)，包括以下至少一项：

指标信息与维度信息之间的关系信息：即指标与维度关系，通过维度可以追溯到哪些指标与该维度有关联信息，比如，可以看到哪些指标有“产品类型”这个构成维度；

指标信息与衍生算子信息之间的关系信息：即指标与衍生算子关系，指标通过一定规则的计算可以生成新的指标，主要规则包括趋势、构成、业务过滤、质量、业务关联、孪生等；

维度信息和维度信息之间的关系信息：即维度和维度关系，比如，上下级、孪生组合等，常见的有套餐和地域的组合，地区与时间的组合；

维度值信息与维度信息之间的关系信息：即维度值与维度的关系，维度值通过自动获取维度的取值来更新；

权限信息与维度值信息之间的关系信息：即权限与维度值的关系，通过给角色分配不同维度值来设置数据范围权限，比如，为江苏角色用户设置的地区维度的维度值为江苏，从而限制江苏用户只能查看江苏的数据；

权限信息与指标信息之间的关系信息：即权限与指标的关系，通过设置角色查看下载的字段来控制角色所能操作的数据，精确实现字段级别的权限控制。比如，设置产品部角色用户不能查看收入字段权限，从而限制产品部角色用户查看收入数据的权限。

需要说明的是，数据分析是针对结构化数据，进行结构化思维的处理过程，而数据本身彼此独立，不能揭示数据指标、维度内在的联系脉络，无法自动提取分析方法。因此，本发明实施例构建了数据分析的元数据图谱(参见图4)，通过图谱方式对库、表、字段、维度、维度值、权限等元数据进行关系表达，从而实现自主数据统计、智能化探索、信息提取的能力基础，并且实现了字段级的权限控制。

这里，元数据图谱可以通过以下方式实现：使用关系型数据库存储，通过编程实现，比如字典数据结构自建结构体，管理图谱关系；使用开源知识图谱产品实现。

还需要说明的是，本发明实施例中，可以构建数据分析涉及到的多维表元数据库，用于存储指标、维度、维度值、同义词、衍生算子、物理表存储信息等，为用户开放搜索或封闭选择的统计分析，提供动态匹配和解析数据能力。

在一可选实施例中，多维表元数据库的具体配置可参见如下各表格展示的元数据图谱示例：

(1)指标元数据基础信息(即指标信息)如下：

(2)维度基础信息(维度信息)如下：

维度ID	维度名称	维度编码	上级维度	值类型
					20000	省份	AREA_L2		文本
20001	地市	AREA_L3	20000	文本
					20002	区县	AREA_L4	20001	文本
20003	业务大类	BUSI_TYPE		文本

(3)维度值基础信息(即维度值信息)如下：

维度ID	维度值名称	隶属维度编码	上级维度值
				31001	南京	20001	33001
31002	淮安	20001	33001
				32001	云业务	20003
32002	数据业务	20003
				33001	江苏	20000

(4)衍生算子信息

关键词ID	关键词名称	关键词编码
			1	月环比增长	@DERIVED_HB
2	年同比	@DERIVED_MONTH_AGG

(5)物理表存储信息

表ID	表名称	数据库	类别	近期记录数
					10001	DICT_CONTRACT	DB1	清单	100000
10002	DICT_INCOME	DB1	汇总	20000
					10003	DICT_INCOME_APP	DB2	汇总	2000

表字段信息如下：

(6)同义词信息如下：

ID	同义词	标准词
			1	按业务大类分组	业务大类
2	按省份分组	省份
			3	官方产品名称	官网名称

(7)权限信息如下：

可选地，所述基于预先构建的元数据图谱，对所述检索信息进行解析处理，获得数据库查询语句，包括：

对所述检索信息进行分词处理，获得至少一个分词结果；基于所述元数据图谱，将每一个所述分词结果与所述元数据信息进行匹配，获得目标关键词；根据所述目标关键词，生成所述数据库查询语句。

这里，目标关键词可以为树形结构。

该实施例中，针对用户输入的检索信息，具体可以利用词法分词解析器，对检索信息进行分词，将分词得到的分词结果自动识别为指标、维度、维度值等，从而将检索信息解析为元数据图谱中的元素，最终将检索信息转义为人与机器之间的逻辑语言(也就是数据库查询语句)。

如图5所示，在一些实施例中，所述对所述检索信息进行分词处理，获得至少一个分词结果，包括：

基于预设解析规则，按照从左往右的顺序对所述检索信息进行解析，获得所述至少一个分词结果；其中，所述预设解析规则包括以下至少一项：

在所述检索信息中包括算数运算符的情况下，按照所述算数运算符对所述检索信息进行拆分；

在所述检索信息中包括预设修饰符的情况下，按照所述预设修饰符对应的优先级顺序对所述检索信息进行拆分。

需要说明的是，用户在输入检索信息，可以根据界面提示在检索信息中加入需要的算数表达式或修饰符，如+-*/()>>＝<<＝！＝@#等符号，用于拓展计算。

下面，对算术表达式和修饰符的用法进行如下说明：

在一具体实施例中，针对用户输入的检索信息，按照从左往右的顺序进行解析，最终将关键词逐个识别为指标、维度、维度值等，具体实现逻辑如下：

首先，进行算数操作符拆分(例如：+-*/()等)，拆分的结果分别存入list集合中；在list集合中，按照修饰符(例如：&#@等)进行二次分割，并将分割的结果拼入list中。其中，修饰符对应的优先级顺序从高到低依次为：@、&、#。另外，还可以根据修饰符和算数操作符判别维度、维度值和指标。例如，判别规则可以是：修饰符@前面为维度值，@后面为维度，&前面为指标，&后面为维度值，算数操作符前后均为指标等。

其次，采用Jieba自然语言库的精准模式进行分词。在此过程中，可以将元数据图谱中的表、指标、维度、维度值以及同义词等元数据加入到自定义词典中，并设置最高词频，提升匹配度。这样，通过与元数据的匹配，可以去除检索信息中的非关键词，将得到的关键词对照元数据图谱进行匹配翻译，将每个关键词映射到相应指标、维度、维度值等要素。

最后，还可以根据实际查询的完整性，补充默认查询约束，比如增加日期、地域/部门的查询关键词；最终，将list层级输出为树形结构的目标关键词。

在一示例中，对于检索信息：(收入&云主机#环比增长/收入#环比增长)#排名，进行解析处理的过程如图6所示。

可选地，所述根据所述目标关键词，生成所述数据库查询语句，包括：

基于所述元数据图谱，获得所述目标关键词中与所述元数据信息中字段相匹配的至少一个目标字段；生成所述至少一个目标字段对应的查询语段；根据所述目标字段，确定目标物理表；根据所述查询语段，生成所述目标物理表的数据库查询语句。

这里，查询语段即SQL语段，例如：可以用维度生成group by的语段，用维度值生成case when的语段，用指标生成sum()的语段等。

该实施例中，通过对检索信息分词解析后得到的目标关键词与元数据进行匹配，从而自动翻译成通用查询语言(即数据库查询语句)，从而实现多维度的统计分析、下钻上卷等分析操作，避免了人工撰写查询语句，降低了对用户对底层模型结构的熟悉要求，降低了数据分析的技术门槛，提高了数据分析的自动化程度，改善了用户使用体验。其中，还可以利用元数据信息中的同义词信息，在生成数据库查询语句中引入同义词转换，增强解析泛化能力。

通过上述实施例，可以对用户输入或者选择的检索信息，进行关键词解析和校验，基于元数据图谱匹配，将每个关键词映射到相应指标、维度、维度值等要素，生成树形结构的目标关键词，最终将目标关键词转义为人和机器之间的逻辑语言。

在一些实施例中，所述根据所述目标字段，确定目标物理表，包括：

确定所述目标字段中与所述元数据信息中的指标信息相匹配的n个指标字段；

确定每个所述指标字段对应的m个候选物理表，n和m均为整数；

根据所述n个指标字段和每个所述指标字段对应的m个候选物理表，生成第一矩阵，其中，第一矩阵中的元素A(i,j)为0时，表示第j个候选物理表里不包含第i个指标字段，第一矩阵中的元素A(i,j)为1时，表示第j个候选物理表里包含第i个指标字段，i和j均为整数；

在所述第一矩阵中，将值为1的元素对应的候选物理表中的任意两个进行组合，得到至少一个表组合；

选择所述至少一个表组合中的其中一个作为目标物理表。

如图7所示，在一具体实施例中，确定n个原子指标(即指标字段)的m个备选物理表(也即候选物理表)，形成指标字段和候选物理表的二维矩阵：A[n*m]，其中，矩阵中元素A(i,j)为0时，表示第j个候选物理表里不包含第i个指标字段，元素A(i,j)为1时，表示第j个候选物理表里包含第i个指标字段。

则在该矩阵中，最多可能有X＝mⁿ个组合方案，如果A(i,j)＝0，则说明指标i无法从备选表j中取得，那么组合方案X(j,:)无解，需要剔除。在其中一示例中，可以从X个组合方案中，将无解的表组合方案剔除，再将剩余的表组合加入set中进行去重(例如，如果表组合为表2+表2，去重后，该表组合为表2)，之后，对set中每个表的记录数进行求和，得出每个组合方案的成本代价，最后输出成本代价最小的表组合方案。在另一示例中，还可以直接在所述第一矩阵中，直接选取值为1的元素对应的候选物理表，并两两进行组合，得到至少一个表组合，再进一步从得到的表组合中选择成本代价最小的表组合方案。

在一些实施例中，所述选择所述至少一个表组合中的其中一个作为目标物理表，包括：

根据所述表组合中候选物理表对应的记录数，确定每一个所述表组合对应的成本代价；选择所述表组合中成本代价最小的第一表组合，将所述第一表组合对应的候选物理表确定为目标物理表。

这里，候选物理表对应的记录数，也就是候选物理表中所记录的数据的条数。可以理解的是，物理表中的记录数越多，那么查询该物理表的需要成本代价(比如查询时间、内存资源等)也就越大，因此，这里用候选物理表对应的记录数评估表组合的成本代价，选择成本代价最小的第一表组合，并将该表组合中的候选物理表作为目标物理表执行查询时，查询效率较高。

可以理解的是，如果成本代价最小的表组合有多个，可以随机选择(也可以是其他选择策略)其中一个表组合，并从该表组合中确定目标物理表。

该实施例中，能够根据表组合中候选物理表对应的记录数，确定查询数据库的成本代价，从而筛选出符合查询条件且成本代价最小的表组合，进一步确定目标物理表，这样，在同样软硬件环境下，能够提升系统并发查询能力，提升了查询效率。

可选地，所述根据所述表组合中候选物理表对应的记录数，确定每一个所述表组合对应的成本代价，包括以下至少一项：

在所述表组合包括两个不同候选物理表的情况下，所述表组合对应的成本代价为所述表组合中两个候选物理表对应的记录数之和；

在所述表组合包括两个相同候选物理表的情况下，所述表组合对应的成本代价为所述表组合中一个候选物理表对应的记录数。

例如，表1的记录数为20，表2的记录数为200，若表组合为表1+表2的组合，那么采用该表组合查数据时，需要查表1和表2，因此该表组合的成本代价为220(即20+200)；若表组合为表2+表2的组合，那么采用该表组合查数据时，只需要查表2，因此该表组合的成本代价为220。

在一具体实施例中，可以将词法分词解析器输出的树形结构的目标关键词，通过解析翻译机转换成可以数据库可执行的机器查询语句，具体过程介绍如下：

首先，根据目标关键词中的维度、维度值、指标等匹配到元数据图谱中配置的字段，并转义成SQL语段。例如：可以用维度生成group by的语段，用维度值生成case when的语段，用指标生成sum()的语段等。

其次，根据维度和指标向上搜索对应的物理表。由于同一指标可能有多个不同粒度的物理表，这里可以采用基于查询代价(即成本代价)的算法，选择满足查询要求的最佳物理表组合(即第一表组合)，最终根据选出的最佳物理表组合，确定目标物理表，这样，可以减少数据库查询压力，提高查询的并发能力。

可选地，在所述对所述至少一项查询结果进行拼接处理，获得针对所述检索信息的第一目标反馈结果之后，所述方法还包括：

确定所述目标字段中与所述元数据信息中的衍生算子信息相匹配的至少一个衍生算子字段；将所述衍生算子字段与所述n个指标字段进行组合，形成至少一个衍生指标；计算每个所述衍生指标对应的衍生值；将所述第一目标反馈结果和所述衍生值进行拼接，获得第二目标反馈结果。

例如，如图2所示，在一示例中，用户输入的检索信息为：2022年5月江苏移动云业务签约金额和收入金额的环比增长。其中，“环比增长”可以被解析为衍生算子(即@DERIVED_HB)。因此，“环比增长”可以和指标进行组合，形成具体的衍生指标。例如，与指标“签约金额”组合为：签约金额#环比增长(即CONTACT_AMOUNT@DERIVED_HB)，或者，与指标“收入金额”组合为：收入金额#环比增长(即INCOME_AMOUNT@DERIVED_HB)。

另外，可参见图8所示，对于获得的第二目标反馈结果，可以用可视化的展现方式展示给用户。

需要说明的是，本发明实施例还可以针对目标关键词中的衍生算子进行翻译，计算环比增长、年累计值等的衍生值。比如，环比增长，会自动多计算上一统计周期的数据；年累计值，会自动计算从本年1月份以来的数据。

还需要说明的是，现有大多BI工具都是“一表一场景”，对于分散到不同表的指标统计，要么需要做新的表、视图开发形成新表，要么需要使用者使用外部工具，比如EXCEL进行人工拼接。而本发明实施例中，通过构建元数据之间的关系图谱，能够从多数据源多表中实现指标数据的拼接，以及数据的二次计算(即衍生指标对应的衍生值的计算)，如此，能够支撑复杂的查询搜索模式和在线分析模式，而不需要对查询结果进行人工加工，提高了数据分析和取数的效率。

该实施例中，根据用户实际输入的检索信息，还可以计算相关指标的衍生值，或者进行函数或算术表达式的叠加计算，并剔除中间性的计算信息，最终将得到的计算结果与数据库查询结果拼接在一起，以严格满足检索查询的需要。

该实施例中，可以根据数据库返回的数据(即至少一项查询结果)，以BUSI_TYPE(SQL脚本的group by字段)+日期为键值在内存中进行拼接，然后对环比增长进行计算，删减中间数据，形成最终的查询数据(也即第二目标反馈结果)。

如图2所示，在一示例中，用户输入的检索信息为：2022年5月江苏移动云业务签约金额和收入金额的环比增长。首先，通过词法分词解析器将检索信息解析，输出为(2022年5月)(江苏)(移动云)(签约金额)(收入金额)(环比增长)的目标关键词，然后，将目标关键词与元数据信息进行解析和匹配，各个目标关键词对应的解析结果如下：

根据如上解析结果，按指标编码，在物理表存储信息中，逐一查找符合维度编码要求的物理表，查找匹配的结果如下：

根据最优查询代价算法(即上述实施例中根据目标字段确定目标物理表的过程中，确定成本代价最小的表组合所采用的算法)，选择DICT_CONTRACT、DICT_INCOME_APP作为落地查询的数据库表(也就是目标物理表)。

此外，由于检索信息中存在“环比增长”的衍生算子，结合上下文维度信息，需要“2022年4月”的日期值，最终生成两组查询脚本(SQL脚本，也即数据库查询语句)，并通过数据库接口执行数据库查询。其中，生成的两组查询脚本示例如下：

上述实施例中，可以将树形结构的目标关键词，基于元数据图谱进行匹配，解析成可以数据库可执行的机器查询语句(数据库查询语句)。其中，可通过最优查询代价算法，自动从多库表中解析出满足查询要求的最佳物理表组合(即第一表组合)，并定位到相应的数据库(即目标物理表对应的数据库)中执行查询，然后将多个查询结果进行拼接，还可以计算相关指标的衍生值、函数、算术表达式等叠加计算，剔除中间性计算信息，最终实现动态生成机器查询语言。

这样，通过元数据图谱和词法分词解析器，可以构建具有自主数据分析统计和智能化探索能力的系统，解决了传统BI分析中需要技术人员针对场景准备数据，数据分析方法的自动化程度低的问题，降低了数据分析的复杂度和门槛，提高了数据分析的自动化程度，让用户能够通过自然语言的方式进行数据交互分析，使得用户可以聚焦在业务表达上，从而提升整体工作效率。因此，本发明可以应用于各类企业的报表分析系统、大数据平台、业务支撑系统等有数据查询分析类需求的场景中。

该实施例的数据分析方法，在获取检索信息之后，可以基于预先构建的元数据图谱对检索信息进行解析处理，获得数据库查询语句，进而使用数据库查询语句进行数据库查询，获得至少一项查询结果，对至少一项查询结果进行叠加计算，获得针对检索信息的第一目标反馈结果。如此，可以基于元数据图谱对检索信息进行数据分析，避免了人工设置取数业务逻辑，降低了数据分析的使用门槛，提高了数据分析的自动化程度，改善了用户使用体验。

如图9所示，本发明实施例的一种数据分析装置，包括：

信息获取模块910，用于获取检索信息；

第一处理模块920，用于基于预先构建的元数据图谱，对所述检索信息进行解析处理，获得数据库查询语句，其中，所述数据库查询语句中包含数据库中物理表的属性信息，所述元数据图谱包括：元数据信息和元数据信息之间的关系信息，所述元数据图谱用于指示物理表中的字段与元数据信息的对照关系；

数据查询模块930，用于使用所述数据库查询语句，进行数据库查询，获得至少一项查询结果；

第二处理模块940，用于对所述至少一项查询结果进行拼接处理，获得针对所述检索信息的第一目标反馈结果。

可选地，所述第一处理模块920包括：

第一处理子模块，用于对所述检索信息进行分词处理，获得至少一个分词结果；

第二处理子模块，用于基于所述元数据图谱，将每一个所述分词结果与所述元数据信息进行匹配，获得目标关键词；

第三处理子模块，用于根据所述目标关键词，生成所述数据库查询语句。

可选地，所述第一处理子模块包括：

第一解析单元，用于基于预设解析规则，按照从左往右的顺序对所述检索信息进行解析，获得所述至少一个分词结果；

其中，所述预设解析规则包括以下至少一项：

可选地，所述第三处理子模块包括：

第一处理单元，用于基于所述元数据图谱，获得所述目标关键词中与所述元数据信息中字段相匹配的至少一个目标字段；

第二处理单元，用于生成所述至少一个目标字段对应的查询语段；

第三处理单元，用于根据所述目标字段，确定目标物理表；

根据所述查询语段，生成所述目标物理表的数据库查询语句。

可选地，所述第三处理单元包括：

第一处理子单元，用于确定所述目标字段中与所述元数据信息中的指标信息相匹配的n个指标字段；

第二处理子单元，用于确定每个所述指标字段对应的m个候选物理表，n和m均为整数；

第三处理子单元，用于根据所述n个指标字段和每个所述指标字段对应的m个候选物理表，生成第一矩阵，其中，第一矩阵中的元素A(i,j)为0时，表示第j个候选物理表里不包含第i个指标字段，第一矩阵中的元素A(i,j)为1时，表示第j个候选物理表里包含第i个指标字段，i和j均为整数；

第四处理子单元，用于在所述第一矩阵中，将值为1的元素对应的候选物理表中的任意两个进行组合，得到至少一个表组合；

第五处理子单元，用于选择所述至少一个表组合中的其中一个作为目标物理表。

可选地，所述第五处理子单元包括：

第六处理子单元，用于根据所述表组合中候选物理表对应的记录数，确定每一个所述表组合对应的成本代价；

第七处理子单元，用于选择所述表组合中成本代价最小的第一表组合，将所述第一表组合对应的候选物理表确定为目标物理表。

可选地，所述第六处理子单元包括：

第八处理子单元，用于在所述表组合包括两个不同候选物理表的情况下，所述表组合对应的成本代价为所述表组合中两个候选物理表对应的记录数之和；

第九处理子单元，用于在所述表组合包括两个相同候选物理表的情况下，所述表组合对应的成本代价为所述表组合中一个候选物理表对应的记录数。

可选地，所述装置还包括：

第三处理模块，用于确定所述目标字段中与所述元数据信息中的衍生算子信息相匹配的至少一个衍生算子字段；

第四处理模块，用于将所述衍生算子字段与所述n个指标字段进行组合，形成至少一个衍生指标；

第五处理模块，用于计算每个所述衍生指标对应的衍生值；

第六处理模块，用于将所述第一目标反馈结果和所述衍生值进行拼接，获得第二目标反馈结果。

可选地，所述元数据信息包括以下至少一项：

指标信息；

维度信息；

维度值信息；

衍生算子信息；

物理表存储信息；

同义词信息；

权限信息。

可选地，所述元数据信息之间的关系信息，包括以下至少一项：

指标信息与维度信息之间的关系信息；

指标信息与衍生算子信息之间的关系信息；

维度信息和维度信息之间的关系信息；

维度值信息与维度信息之间的关系信息；

权限信息与维度值信息之间的关系信息；

权限信息与指标信息之间的关系信息。

在此需要说明的是，本发明实施例提供的上述数据分析装置，能够实现上述的数据分析方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

如图10所示，本发明实施例的一种分析设备1000，包括处理器1010和收发机1020，其中，所述处理器1010用于：

获取检索信息；

可选地，所述处理器1010在基于预先构建的元数据图谱，对所述检索信息进行解析处理，获得数据库查询语句时，具体用于：

对所述检索信息进行分词处理，获得至少一个分词结果；

基于所述元数据图谱，将每一个所述分词结果与所述元数据信息进行匹配，获得目标关键词；

根据所述目标关键词，生成所述数据库查询语句。

可选地，所述处理器1010在对所述检索信息进行分词处理，获得至少一个分词结果时，具体用于：

基于预设解析规则，按照从左往右的顺序对所述检索信息进行解析，获得所述至少一个分词结果；

其中，所述预设解析规则包括以下至少一项：

可选地，所述处理器1010在根据所述目标关键词，生成所述数据库查询语句时，具体用于：

基于所述元数据图谱，获得所述目标关键词中与所述元数据信息中字段相匹配的至少一个目标字段；

生成所述至少一个目标字段对应的查询语段；

根据所述目标字段，确定目标物理表；

可选地，所述处理器1010在根据所述目标字段，确定目标物理表时，具体用于：

选择所述至少一个表组合中的其中一个作为目标物理表。

可选地，所述处理器1010在选择所述至少一个表组合中的其中一个作为目标物理表时，具体用于：

根据所述表组合中候选物理表对应的记录数，确定每一个所述表组合对应的成本代价；

选择所述表组合中成本代价最小的第一表组合，将所述第一表组合对应的候选物理表确定为目标物理表。

可选地，所述处理器1010在根据所述表组合中候选物理表对应的记录数，确定每一个所述表组合对应的成本代价时，具体用于：

可选地，在所述对所述至少一项查询结果进行拼接处理，获得针对所述检索信息的第一目标反馈结果之后，所述处理器1010还用于：

确定所述目标字段中与所述元数据信息中的衍生算子信息相匹配的至少一个衍生算子字段；

将所述衍生算子字段与所述n个指标字段进行组合，形成至少一个衍生指标；

计算每个所述衍生指标对应的衍生值；

将所述第一目标反馈结果和所述衍生值进行拼接，获得第二目标反馈结果。

可选地，所述元数据信息包括以下至少一项：

指标信息；

维度信息；

维度值信息；

衍生算子信息；

物理表存储信息；

同义词信息；

权限信息。

指标信息与维度信息之间的关系信息；

指标信息与衍生算子信息之间的关系信息；

维度信息和维度信息之间的关系信息；

维度值信息与维度信息之间的关系信息；

权限信息与维度值信息之间的关系信息；

权限信息与指标信息之间的关系信息。

在此需要说明的是，本发明实施例提供的上述分析设备，能够实现上述的数据分析方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

本发明另一实施例的一种分析设备，如图11所示，包括收发器1110、处理器1100、存储器1120及存储在所述存储器1120上并可在所述处理器1100上运行的程序或指令；所述处理器1100执行所述程序或指令时实现上述的数据分析方法。

所述收发器1110，用于在处理器1100的控制下接收和发送数据。

其中，在图11中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器1100代表的一个或多个处理器和存储器1120代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发器1110可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元。针对不同的分析设备，用户接口1130还可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。

处理器1100负责管理总线架构和通常的处理，存储器1120可以存储处理器1100在执行操作时所使用的数据。

本发明实施例的一种可读存储介质，其上存储有程序或指令，所述程序或指令被处理器执行时实现如上所述的数据分析方法中的步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-OnlyMemory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

进一步需要说明的是，此说明书中所描述的终端包括但不限于智能手机、平板电脑等，且所描述的许多功能部件都被称为模块，以便更加特别地强调其实现方式的独立性。

本发明实施例中，模块可以用软件实现，以便由各种类型的处理器执行。举例来说，一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块，举例来说，其可以被构建为对象、过程或函数。尽管如此，所标识模块的可执行代码无需物理地位于一起，而是可以包括存储在不同位里上的不同的指令，当这些指令逻辑上结合在一起时，其构成模块并且实现该模块的规定目的。

实际上，可执行代码模块可以是单条指令或者是许多条指令，并且甚至可以分布在多个不同的代码段上，分布在不同程序当中，以及跨越多个存储器设备分布。同样地，操作数据可以在模块内被识别，并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集，或者可以分布在不同位置上(包括在不同存储设备上)，并且至少部分地可以仅作为电子信号存在于系统或网络上。

在模块可以利用软件实现时，考虑到现有硬件工艺的水平，所以可以以软件实现的模块，在不考虑成本的情况下，本领域技术人员都可以搭建对应的硬件电路来实现对应的功能，所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备，诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。

上述范例性实施例是参考该些附图来描述的，许多不同的形式和实施例是可行而不偏离本发明精神及教示，因此，本发明不应被建构成为在此所提出范例性实施例的限制。更确切地说，这些范例性实施例被提供以使得本发明会是完善又完整，且会将本发明范围传达给那些熟知此项技术的人士。在该些图式中，组件尺寸及相对尺寸也许基于清晰起见而被夸大。在此所使用的术语只是基于描述特定范例性实施例目的，并无意成为限制用。如在此所使用地，除非该内文清楚地另有所指，否则该单数形式“一”、“一个”和“该”是意欲将该些多个形式也纳入。会进一步了解到该些术语“包含”及/或“包括”在使用于本说明书时，表示所述特征、整数、步骤、操作、构件及/或组件的存在，但不排除一或更多其它特征、整数、步骤、操作、构件、组件及/或其族群的存在或增加。除非另有所示，陈述时，一值范围包含该范围的上下限及其间的任何子范围。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据分析方法，其特征在于，包括：

获取检索信息；

2.根据权利要求1所述的方法，其特征在于，所述基于预先构建的元数据图谱，对所述检索信息进行解析处理，获得数据库查询语句，包括：

对所述检索信息进行分词处理，获得至少一个分词结果；

根据所述目标关键词，生成所述数据库查询语句。

3.根据权利要求2所述的方法，其特征在于，所述对所述检索信息进行分词处理，获得至少一个分词结果，包括：

其中，所述预设解析规则包括以下至少一项：

4.根据权利要求2所述的方法，其特征在于，所述根据所述目标关键词，生成所述数据库查询语句，包括：

生成所述至少一个目标字段对应的查询语段；

根据所述目标字段，确定目标物理表；

5.根据权利要求4所述的方法，其特征在于，所述根据所述目标字段，确定目标物理表，包括：

选择所述至少一个表组合中的其中一个作为目标物理表。

6.根据权利要求5所述的方法，其特征在于，所述选择所述至少一个表组合中的其中一个作为目标物理表，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述表组合中候选物理表对应的记录数，确定每一个所述表组合对应的成本代价，包括以下至少一项：

8.根据权利要求5所述的方法，其特征在于，在所述对所述至少一项查询结果进行拼接处理，获得针对所述检索信息的第一目标反馈结果之后，所述方法还包括：

计算每个所述衍生指标对应的衍生值；

9.一种数据分析装置，其特征在于，包括：

信息获取模块，用于获取检索信息；

10.一种分析设备，其特征在于，包括：收发机和处理器；所述处理器用于：

获取检索信息；

11.一种分析设备，包括：收发器、处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令；其特征在于，所述处理器执行所述程序或指令时实现如权利要求1-8任一项所述的数据分析方法。

12.一种可读存储介质，其上存储有程序或指令，其特征在于，所述程序或指令被处理器执行时实现如权利要求1-8任一项所述的数据分析方法中的步骤。