CN116089417A - 信息获取方法、装置、存储介质及计算机设备 - Google Patents
信息获取方法、装置、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN116089417A CN116089417A CN202211477256.2A CN202211477256A CN116089417A CN 116089417 A CN116089417 A CN 116089417A CN 202211477256 A CN202211477256 A CN 202211477256A CN 116089417 A CN116089417 A CN 116089417A
- Authority
- CN
- China
- Prior art keywords
- field
- information
- index
- name
- name information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种信息获取方法、装置、存储介质及计算机设备。该方法包括:获取需要获取指标元数据信息的表,该需要获取指标元数据信息的表为表名称信息中存在预设表关键词的表;获取该需要获取指标元数据信息的表中各字段的字段类型信息,并根据该表中各字段的字段类型信息,从该表中确定出指标字段;获取该指标字段的字段名称信息,并获取该表的表元数据信息;根据该指标字段的字段名称和该表的表元数据信息,得到指标元数据信息。本申请可以实现通过表的相关信息获取指标元数据信息。
Description
技术领域
本申请属于电子技术领域,尤其涉及一种信息获取方法、装置、计算机可读存储介质及计算机设备。
背景技术
数据团队作为业务支持团队,通常给管理层和业务部门提供报表和报告,其在日常工作中经常开发各种报表,包括经营管理类报表,运营明细类报表等。涉及的指标数量大,如果不进行体系化管理,会出现指标数据质量问题。在进行体系化管理时,通常需要获取指标元数据信息,以管理数量极大的指标,因此需要提供获取指标元数据信息的方案。
发明内容
本申请实施例提供一种信息获取方法、装置、计算机可读存储介质及计算机设备,可以实现通过表的相关信息获取指标元数据信息。
第一方面,本申请实施例提供一种信息获取方法,包括:
获取需要获取指标元数据信息的表,所述需要获取指标元数据信息的表为表名称信息中存在预设表关键词的表;
获取所述需要获取指标元数据信息的表中各字段的字段类型信息,并根据所述表中各字段的字段类型信息,从所述表中确定出指标字段;
获取所述指标字段的字段名称信息,并获取所述表的表元数据信息;
根据所述指标字段的字段名称和所述表的表元数据信息,得到指标元数据信息。
第二方面,本申请实施例提供一种信息获取装置,包括:
第一获取模块,用于获取需要获取指标元数据信息的表,所述需要获取指标元数据信息的表为表名称信息中存在预设表关键词的表;
字段确定模块,用于获取所述需要获取指标元数据信息的表中各字段的字段类型信息,并根据所述表中各字段的字段类型信息,从所述表中确定出指标字段;
第二获取模块,用于获取所述指标字段的字段名称信息,并获取所述表的表元数据信息;
信息确定模块,用于根据所述指标字段的字段名称和所述表的表元数据信息,得到指标元数据信息。
第三方面,本申请实施例提供一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现本申请实施例提供的信息获取方法的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,当计算机程序在计算机上运行时,使得所述计算机执行本申请实施例提供的信息获取方法的步骤。
本申请实施例中,通过获取需要获取指标元数据信息的表,所述需要获取指标元数据信息的表为表名称信息中存在预设表关键词的表;获取所述需要获取指标元数据信息的表中各字段的字段类型信息,并根据所述表中各字段的字段类型信息,从所述表中确定出指标字段;获取所述指标字段的字段名称信息,并获取所述表的表元数据信息;根据所述指标字段的字段名称和所述表的表元数据信息,得到指标元数据信息,可以实现通过表的相关信息获取指标元数据信息。
附图说明
下面结合附图,通过对本申请的具体实施方式详细描述,将使本申请的技术方案及其有益效果显而易见。
图1是本申请实施例提供的信息获取方法的第一种流程示意图。
图2是本申请实施例提供的信息获取方法的第一种场景示意图。
图3是本申请实施例提供的信息获取方法的第二种场景示意图。
图4是本申请实施例提供的信息获取方法的第三种场景示意图。
图5是本申请实施例提供的信息获取方法的第四种场景示意图。
图6是本申请实施例提供的信息获取方法的第二种流程示意图。
图7是本申请实施例提供的信息获取装置的结构示意图。
图8是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
应当说明的是,本申请中的术语“第一”和“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是某些实施例还包括没有列出的步骤或模块,或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例提供一种信息获取方法、信息获取装置、存储介质及计算机设备,其中信息获取方法的执行主体可以是本申请实施例提供的信息获取装置,或者集成了该信息获取装置的计算机设备,其中该信息获取装置可以采用硬件或者软件的方式实现。其中,计算机设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑等配置有处理器而具有信息获取能力的设备。
请参阅图1,图1是本申请实施例提供的信息获取方法的第一种流程示意图,流程可以包括:
在步骤101中,获取需要获取指标元数据信息的表,需要获取指标元数据信息的表为表名称信息中存在预设表关键词的表。
数据团队,作为业务支持团队,通常给管理层和业务部门提供报表和报告,其在日常工作中经常开发各种报表,包括经营管理类报表,运营明细类报表等。涉及的指标数量大,如果不进行体系化管理,会出现指标数据质量问题。日常工作中碰到的常见指标问题有:
指标混乱冲突:各部门或各领域有自己的指标开发团队,各自为政,加工大量重复或相似指标,出现相同指标不同口径,导致指标数据混乱和冲突;
指标过度开发:数仓、集市、分析系统加工大量指标数据,但数据信息不透明,用数人员无法了解指标数据全貌,导致指标数据得共享使用受到限制;
指标治理成本高:指标数据全量非常庞大,且指标数据逻辑复杂,治理成本高,齐头并进全量治理成本无法忍受;
数据来源、计算逻辑不清晰:指标数据链路长,依赖广泛,源头数据及链路中相关指标质量无法得到有效保证。
要想解决上述指标问题,需要构建“自上而下”,“自下而上”的指标管理体系,其中“自下而上”的指标管理时主要碰到以下三个问题:
①指标数量庞大,指标数据的管理和维护主要依赖人工梳理,未实现基于规则模型的自动化获取指标元数据的方法;
②指标元数据的更新维护难度大,很难保证其新鲜度,指标元数据信息与实际加工现状存在差异;
对业务人员、IT人员的要求比较高,维护成本比较大。
指标体系架构设计一般结合“自上而下”和“自下而上”的管理模式。
请一并参阅图2和图3,“自上而下”是指基于从管理视角按业务板块对指标进行分类,初步构建指标体系分类框架。通常,分析当前经营分析现状,结合行业发展需要形成全量价值经营下的报表指标分类体系,并以业务部门监管报送、经营分析、绩效管理、收入KPI、管理决策相关报表为重点,梳理指标、报表、维度,形成指标字典、报表库。一般会按照业务线、主题域、业务过程三级目录的方式管理指标。把业务过程中的若干指标分为原子指标、派生指标和复合指标,目的是解决描述同一事实时口径定义不一致的问题。
原子指标:原子指标又称基础指标、根指标,通常是指直接从基础数据(明细数据)统计加工得出的,不可再分的指标,往往按照多个维度进行颗粒化,方便后续更灵活的应用;
衍生指标:在原子指标基础上,对一个或多个维度值进行固化,生成原子指标的一个子集;
复合指标:指具有相同维度的两个以上指标,其度量按照一定的算法进行加工,生成新的度量(指标),但维度保持不变。
自下而上”是指梳理和收集指标,并按照指标分析视角归纳,完善指标分类框架并与指标体系映射构建形成统一口径、定义的指标库。
统一口径,定义的描述性数据一般称为指标元数据信息,能够说明和描述指标数据的信息,通过规范化的指标元数据信息,可以完整、准确的理解、定位指标数据。通常,如图4所示,指标元数据信息包括业务属性、技术属性,管理属性三大属性。
在进行体系化管理时,通常需要获取指标元数据信息,以管理数量极大的指标。而通过人工获取指标元数据信息的方式需要投入大量的人力,基于此,本实施例提供一种信息获取方法,以自动获取指标元数据信息。
本实施例中,首先获取需要获取指标元数据信息的表。其中,需要获取指标元数据信息的表为表名称信息中存在预设表关键词的表。预设表关键词可以由本领域技术人员设置,也可以由计算机设备基于一定规则设置。
例如,假设数据库中存在的表的表名称包括中间表、临时表、测试表、temp表、tmp表、BAK表、BK表,等等,其中,中间表、临时表和测试表不是保存指标字段的表,而temp表、tmp表、BAK表和BK表是保存指标字段的表,因此,可以将“temp表、tmp表、BAK表和BK表”作为预设表关键词,将表名称中存在上述预设表关键词的表确定为需要获取指标元数据信息的表。例如,假设某表的表名称为“xxxtemp表”,则可以确定该表为需要获取指标元数据信息的表。
在步骤102中,获取需要获取指标元数据信息的表中各字段的字段类型信息,并根据表中各字段的字段类型信息,从表中确定出指标字段。
需要说明的是,需要获取指标元数据信息的表中通常存在指标字段和维度字段。而指标字段和维度字段的字段类型信息通常不相同,因此,可以根据需要获取指标元数据信息的表中各字段的字段类型信息,从表中确定出指标字段。其中,指标字段是一个整体的描述,如月度余额、月度金额或年度产品量,等等,维度字段是一个维度性的描述,如银行B1的月度余额、银行B2的月度余额、银行B3的月度余额,等等,或者如地域A1的月度金额、地域A2的月度金额、地域A3的月度金额,等等。
在步骤103中,获取指标字段的字段名称信息,并获取表的表元数据信息。
指标字段的字段名称信息通常指示指标名称,而指标名称为指标元数据信息所包括的信息,因此,本实施例中,可以获取指标字段的字段名称信息。
而为了进一步准确地定位指标数据,也可以获取表的表元数据信息,将其作为指标元数据信息所包括的信息。其中,表的表元数据信息用于说明或描述表。例如,表的元数据信息可以包括:表属主信息、字段类型、加工点、加工SQL,等等。
在步骤104中,根据指标字段的字段名称和表的表元数据信息,得到指标元数据信息。
本实施例中,在获取到指标字段的字段名称和表的表元数据信息之后,可以根据指标字段的字段名称和表的表元数据信息,得到指标元数据信息,从而实现自动获取指标元数据信息。
本实施例中,通过获取需要获取指标元数据信息的表,该需要获取指标元数据信息的表为表名称信息中存在预设表关键词的表;获取该需要获取指标元数据信息的表中各字段的字段类型信息,并根据该表中各字段的字段类型信息,从该表中确定出指标字段;获取该指标字段的字段名称信息,并获取该表的表元数据信息;根据该指标字段的字段名称和该表的表元数据信息,得到指标元数据信息,可以实现通过表的相关信息获取指标元数据信息。
在一可选地实施例中,根据指标字段的字段名称和表的表元数据信息,得到指标元数据信息,包括:
(1)确定表名称信息与指标字段的字段名称信息的相似度;
(2)若相似度小于预设相似度,则根据表名称信息对指标字段的字段名称信息进行调整,使得调整后的指标字段的字段名称信息与表名称信息的相似度大于或等于预设相似度;
(3)将调整后的指标字段的字段名称信息作为指标名称信息;
(4)根据指标名称信息和表的表元数据信息,得到指标元数据信息。
通常,指标字段的字段名称信息与表名称信息的相似度较低时,会存在不同指标元数据信息中的指标名称相同的情形。为了尽可能避免不同指标元数据信息中的指标名称相同,可以确定表名称信息与指标字段的字段名称信息的相似度;在表名称信息与指标字段的字段名称信息的相似度小于预设相似度时,根据根据表名称信息对指标字段的字段名称信息进行调整,使得调整后的指标字段的字段名称信息与表名称信息的相似度大于或等于预设相似度;将调整后的指标字段的字段名称信息作为指标名称信息;根据指标名称信息和表的表元数据信息,得到指标元数据信息。其中,表名称信息与指标字段的字段名称信息的相似度可以为表名称信息和指标字段的字段名称信息中相同的字在表名称信息和指标字段的字段名称信息中字数较多的信息中所占的比例,预设相似度可以由本领域技术人员设置,也可以由计算机设备基于一定规则设置。
例如,假设预设相似度为70%,某表的表名称信息为“结构性存款的月度表”,指标字段的字段名称信息为“存款余额”,则可以确定表名称信息与指标字段的字段名称信息的相似度为22.2%,则可以对指标字段的字段名称信息进行调整,如将指标字段的字段名称信息调整为“结构性存款月度余额”。可以理解的是,该调整后的指标字段的字段名称信息与表的表名称信息的相似度为77.8%,大于预设相似度。
在一可选地实施例中,信息获取方法还包括:
若相似度大于或等于预设相似度,则将指标字段的字段名称作为指标名称信息。
通常,指标字段的字段名称信息与表名称信息的相似度较高时,基本不会存在不同指标元数据信息中的指标名称相同的情形。基于此,若表名称信息与指标字段的字段名称信息的相似度大于或等于预设相似度,则将指标字段的字段名称作为指标名称信息。
例如,假设预设相似度为70%,某表的表名称信息为“结构性存款的月度表”,指标字段的字段名称信息为“结构性存款月度余额”,则可以确定表名称信息与指标字段的字段名称信息的相似度为77.8%,大于预设相似度,因此,可以直接将指标字段的字段名称作为指标名称信息。
在一可选地实施例中,根据表中各字段的字段类型信息,从表中确定出指标字段,包括:
将表中字段类型信息与预设字段类型信息匹配的字段确定为指标字段。
需要说明的是,需要获取指标元数据信息的表中通常存在指标字段和维度字段。而指标字段和维度字段的字段类型信息通常不相同,如指标字段的字段类型信息包括decimal类,而维度字段的字段类型信息包括string类,因此,可以将指标字段的字段类型信息设置为预设字段类型信息,如将decimal类设置为预设字段类型信息,将表中字段类型信息与预设字段类型信息匹配,如与decimal类匹配的字段确定为指标字段。
在一可选地实施例中,根据表中各字段的字段类型信息,从表中确定出指标字段之前,还包括:
获取表中各字段的字段名称信息;
根据表中各字段的字段类型信息,从表中确定出指标字段,包括:
根据表中各字段的字段类型信息和字段名称信息,从表中确定出指标字段。
在一些情形中,在表设计过程中会存在或多或少的不规范情况,基于此,可以结合指标字段的字段类型信息和字段名称信息,从表中确定出指标字段。
在一可选地实施例中,根据表中各字段的字段类型信息和字段名称信息,从表中确定出指标字段,包括:
将表中字段类型信息与预设字段类型信息匹配,且字段名称信息中不存在预设关键词的字段确定为指标字段。
在一些情形中,在表设计过程中会存在或多或少的不规范情况,基于此,可以结合指标字段的字段类型信息和字段名称信息,从表中确定出指标字段。如指标字段的字段类型信息包括decimal类,而维度字段的字段类型信息包括string类,因此,可以将指标字段的字段类型信息设置为预设字段类型信息,如将decimal类设置为预设字段类型信息,如指标字段的字段名称信息包括月度余额、月度金额或年度产品量,等等,维度字段的字段名称信息包括银行B1的月度余额、银行B2的月度余额、银行B3的月度余额,等等,或者如地域A1的月度金额、地域A2的月度金额、地域A3的月度金额,等等,因此,可以将指标字段的字段名称信息设置为预设关键词,如将“月度余额、月度金额或年度产品量”设置为预设关键词。将表中字段类型信息与预设字段类型信息匹配,如与decimal类匹配,且字段名称信息中存在预设关键词,如“月度余额、月度金额或年度产品量”的字段确定为指标字段。
在一可选地实施例中,获取需要获取指标元数据信息的表,包括:
(1)获取多个表;
(2)获取每个表的表名称信息;
(3)将表名称信息中存在预设表关键词的表确定为需要获取指标元数据信息的表。
例如,假设数据库中存在的表,如宽表的表名称包括中间表、临时表、测试表、temp表、tmp表、BAK表、BK表,等等,其中,中间表、临时表和测试表不是保存指标字段的表,而temp表、tmp表、BAK表和BK表是保存指标字段的表,因此,可以将“temp表、tmp表、BAK表和BK表”作为预设表关键词,将表名称中存在上述预设表关键词的表确定为需要获取指标元数据信息的表。例如,假设某表的表名称为“xxxtemp表”,则可以确定该表为需要获取指标元数据信息的表。
在一可选地实施例中,如图5所示,指标元数据信息除了包括上述信息之外,也还可以包括其他信息,上述信息可以通过本申请实施例提供的信息获取方法获取,而其他信息可以通过其他方式获取,此处不作具体限制。
请参阅图6,图6是本申请实施例提供的信息获取方法的第二种流程示意图,流程可以包括:
在步骤201中,获取需要获取指标元数据信息的表,该需要获取指标元数据信息的表为表名称信息中存在预设表关键词的表。
数据团队,作为业务支持团队,通常给管理层和业务部门提供报表和报告,其在日常工作中经常开发各种报表,包括经营管理类报表,运营明细类报表等。涉及的指标数量大,如果不进行体系化管理,会出现指标数据质量问题。日常工作中碰到的常见指标问题有:
指标混乱冲突:各部门或各领域有自己的指标开发团队,各自为政,加工大量重复或相似指标,出现相同指标不同口径,导致指标数据混乱和冲突;
指标过度开发:数仓、集市、分析系统加工大量指标数据,但数据信息不透明,用数人员无法了解指标数据全貌,导致指标数据得共享使用受到限制;
指标治理成本高:指标数据全量非常庞大,且指标数据逻辑复杂,治理成本高,齐头并进全量治理成本无法忍受;
数据来源、计算逻辑不清晰:指标数据链路长,依赖广泛,源头数据及链路中相关指标质量无法得到有效保证。
要想解决上述指标问题,需要构建“自上而下”,“自下而上”的指标管理体系,其中“自下而上”的指标管理时主要碰到以下三个问题:
①指标数量庞大,指标数据的管理和维护主要依赖人工梳理,未实现基于规则模型的自动化获取指标元数据的方法;
②指标元数据的更新维护难度大,很难保证其新鲜度,指标元数据信息与实际加工现状存在差异;
对业务人员、IT人员的要求比较高,维护成本比较大。
指标体系架构设计一般结合“自上而下”和“自下而上”的管理模式。
请一并参阅图2和图3,“自上而下”是指基于从管理视角按业务板块对指标进行分类,初步构建指标体系分类框架。通常,分析当前经营分析现状,结合行业发展需要形成全量价值经营下的报表指标分类体系,并以业务部门监管报送、经营分析、绩效管理、收入KPI、管理决策相关报表为重点,梳理指标、报表、维度,形成指标字典、报表库。一般会按照业务线、主题域、业务过程三级目录的方式管理指标。把业务过程中的若干指标分为原子指标、派生指标和复合指标,目的是解决描述同一事实时口径定义不一致的问题。
原子指标:原子指标又称基础指标、根指标,通常是指直接从基础数据(明细数据)统计加工得出的,不可再分的指标,往往按照多个维度进行颗粒化,方便后续更灵活的应用;
衍生指标:在原子指标基础上,对一个或多个维度值进行固化,生成原子指标的一个子集;
复合指标:指具有相同维度的两个以上指标,其度量按照一定的算法进行加工,生成新的度量(指标),但维度保持不变。
自下而上”是指梳理和收集指标,并按照指标分析视角归纳,完善指标分类框架并与指标体系映射构建形成统一口径、定义的指标库。
统一口径,定义的描述性数据一般称为指标元数据信息,能够说明和描述指标数据的信息,通过规范化的指标元数据信息,可以完整、准确的理解、定位指标数据。通常,如图4所示,指标元数据信息包括业务属性、技术属性,管理属性三大属性。
在进行体系化管理时,通常需要获取指标元数据信息,以管理数量极大的指标。而通过人工获取指标元数据信息的方式需要投入大量的人力,基于此,本实施例提供一种信息获取方法,以自动获取指标元数据信息。
本实施例中,首先获取需要获取指标元数据信息的表。其中,需要获取指标元数据信息的表为表名称信息中存在预设表关键词的表。预设表关键词可以由本领域技术人员设置,也可以由计算机设备基于一定规则设置。
例如,假设数据库中存在的表的表名称包括中间表、临时表、测试表、temp表、tmp表、BAK表、BK表,等等,其中,中间表、临时表和测试表不是保存指标字段的表,而temp表、tmp表、BAK表和BK表是保存指标字段的表,因此,可以将“temp表、tmp表、BAK表和BK表”作为预设表关键词,将表名称中存在上述预设表关键词的表确定为需要获取指标元数据信息的表。例如,假设某表的表名称为“xxxtemp表”,则可以确定该表为需要获取指标元数据信息的表。
在步骤202中,获取该需要获取指标元数据信息的表中各字段的字段类型信息。
在步骤203中,获取该表中各字段的字段名称信息。
在步骤204中,将该表中字段类型信息与预设字段类型信息匹配,且字段名称信息中不存在预设关键词的字段确定为指标字段。
需要说明的是,需要获取指标元数据信息的表中通常存在指标字段和维度字段。而指标字段和维度字段的字段类型信息通常不相同。而在表设计过程中会存在或多或少的不规范情况,基于此,可以结合指标字段的字段类型信息和字段名称信息,从表中确定出指标字段。其中,指标字段是一个整体的描述,如月度余额、月度金额或年度产品量,等等,维度字段是一个维度性的描述,如银行B1的月度余额、银行B2的月度余额、银行B3的月度余额,等等,或者如地域A1的月度金额、地域A2的月度金额、地域A3的月度金额,等等。
例如,指标字段的字段类型信息包括decimal类,而维度字段的字段类型信息包括string类,因此,可以将指标字段的字段类型信息设置为预设字段类型信息,如将decimal类设置为预设字段类型信息,如指标字段的字段名称信息包括月度余额、月度金额或年度产品量,等等,维度字段的字段名称信息包括银行B1的月度余额、银行B2的月度余额、银行B3的月度余额,等等,或者如地域A1的月度金额、地域A2的月度金额、地域A3的月度金额,等等,因此,可以将指标字段的字段名称信息设置为预设关键词,如将“月度余额、月度金额或年度产品量”设置为预设关键词。将表中字段类型信息与预设字段类型信息匹配,如与decimal类匹配,且字段名称信息中存在预设关键词,如“月度余额、月度金额或年度产品量”的字段确定为指标字段。
在步骤205中,获取该指标字段的字段名称信息,并获取该表的表元数据信息。
在步骤206中,确定该表名称信息与该指标字段的字段名称信息的相似度。
在步骤207中,若该相似度小于预设相似度,则根据该表名称信息对该指标字段的字段名称信息进行调整,使得调整后的指标字段的字段名称信息与该表名称信息的相似度大于或等于预设相似度。
在步骤208中,将调整后的指标字段的字段名称信息作为指标名称信息。
在步骤209中,若该相似度大于或等于预设相似度,则将该指标字段的字段名称作为指标名称信息。
通常,指标字段的字段名称信息与表名称信息的相似度较低时,会存在不同指标元数据信息中的指标名称相同的情形。为了尽可能避免不同指标元数据信息中的指标名称相同,可以确定表名称信息与指标字段的字段名称信息的相似度;在表名称信息与指标字段的字段名称信息的相似度小于预设相似度时,根据根据表名称信息对指标字段的字段名称信息进行调整,使得调整后的指标字段的字段名称信息与表名称信息的相似度大于或等于预设相似度;将调整后的指标字段的字段名称信息作为指标名称信息;根据指标名称信息和表的表元数据信息,得到指标元数据信息。其中,表名称信息与指标字段的字段名称信息的相似度可以为表名称信息和指标字段的字段名称信息中相同的字在表名称信息和指标字段的字段名称信息中字数较多的信息中所占的比例,预设相似度可以由本领域技术人员设置,也可以由计算机设备基于一定规则设置。
例如,假设预设相似度为70%,某表的表名称信息为“结构性存款的月度表”,指标字段的字段名称信息为“存款余额”,则可以确定表名称信息与指标字段的字段名称信息的相似度为22.2%,则可以对指标字段的字段名称信息进行调整,如将指标字段的字段名称信息调整为“结构性存款月度余额”。可以理解的是,该调整后的指标字段的字段名称信息与表的表名称信息的相似度为77.8%,大于预设相似度。
通常,指标字段的字段名称信息与表名称信息的相似度较高时,基本不会存在不同指标元数据信息中的指标名称相同的情形。基于此,若表名称信息与指标字段的字段名称信息的相似度大于或等于预设相似度,则将指标字段的字段名称作为指标名称信息。
例如,假设预设相似度为70%,某表的表名称信息为“结构性存款的月度表”,指标字段的字段名称信息为“结构性存款月度余额”,则可以确定表名称信息与指标字段的字段名称信息的相似度为77.8%,大于预设相似度,因此,可以直接将指标字段的字段名称作为指标名称信息。
在步骤210中,根据该指标名称信息和该表的表元数据信息,得到指标元数据信息。
本实施例中,在获取到指标字段的字段名称和表的表元数据信息之后,可以根据指标字段的字段名称和表的表元数据信息,得到指标元数据信息,从而实现自动获取指标元数据信息。
本实施例中,通过获取需要获取指标元数据信息的表,该需要获取指标元数据信息的表为表名称信息中存在预设表关键词的表;获取该需要获取指标元数据信息的表中各字段的字段类型信息;获取该表中各字段的字段名称信息;将该表中字段类型信息与预设字段类型信息匹配,且字段名称信息中不存在预设关键词的字段确定为指标字段;获取该指标字段的字段名称信息,并获取该表的表元数据信息;确定该表名称信息与该指标字段的字段名称信息的相似度;若该相似度小于预设相似度,则根据该表名称信息对该指标字段的字段名称信息进行调整,使得调整后的指标字段的字段名称信息与该表名称信息的相似度大于或等于预设相似度;将调整后的指标字段的字段名称信息作为指标名称信息;若该相似度大于或等于预设相似度,则将该指标字段的字段名称作为指标名称信息;根据该指标名称信息和该表的表元数据信息,得到指标元数据信息,可以实现通过表的相关信息获取指标元数据信息。
请参阅图7,图7为本申请实施例提供的信息获取装置的结构示意图。信息获取装置300包括:第一获取模块301,字段确定模块302,第二获取模块303及信息确定模块304。
第一获取模块301,用于获取需要获取指标元数据信息的表,所述需要获取指标元数据信息的表为表名称信息中存在预设表关键词的表。
字段确定模块302,用于获取所述需要获取指标元数据信息的表中各字段的字段类型信息,并根据所述表中各字段的字段类型信息,从所述表中确定出指标字段。
第二获取模块303,用于获取所述指标字段的字段名称信息,并获取所述表的表元数据信息。
信息确定模块304,用于根据所述指标字段的字段名称和所述表的表元数据信息,得到指标元数据信息。
在一可选地实施例中,信息确定模块304,可以用于:
确定所述表名称信息与所述指标字段的字段名称信息的相似度;
若所述相似度小于预设相似度,则根据所述表名称信息对所述指标字段的字段名称信息进行调整,使得调整后的指标字段的字段名称信息与所述表名称信息的相似度大于或等于预设相似度;
将调整后的指标字段的字段名称信息作为指标名称信息;
根据所述指标名称信息和所述表的表元数据信息,得到指标元数据信息。
在一可选地实施例中,信息确定模块304,可以用于:
若所述相似度大于或等于预设相似度,则将所述指标字段的字段名称作为指标名称信息。
在一可选地实施例中,字段确定模块302,可以用于:
将所述表中字段类型信息与预设字段类型信息匹配的字段确定为指标字段。
在一可选地实施例中,字段确定模块302,可以用于:
获取所述表中各字段的字段名称信息;
根据所述表中各字段的字段类型信息和字段名称信息,从所述表中确定出指标字段。
在一可选地实施例中,信息确定模块304,可以用于:
将所述表中字段类型信息与预设字段类型信息匹配,且字段名称信息中不存在预设关键词的字段确定为指标字段。
在一可选地实施例中,第一获取模块301,可以用于:
获取多个表;
获取每个表的表名称信息;
将表名称信息中存在预设表关键词的表确定为需要获取指标元数据信息的表。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本实施例中,通过第一获取模块301获取需要获取指标元数据信息的表,所述需要获取指标元数据信息的表为表名称信息中存在预设表关键词的表;字段确定模块302获取所述需要获取指标元数据信息的表中各字段的字段类型信息,并根据所述表中各字段的字段类型信息,从所述表中确定出指标字段;第二获取模块303获取所述指标字段的字段名称信息,并获取所述表的表元数据信息;信息确定模块304根据所述指标字段的字段名称和所述表的表元数据信息,得到指标元数据信息,可以实现通过表的相关信息获取指标元数据信息。
此外,本申请实施例还提供一种计算机设备,该计算机设备可以为终端或者服务器,如图8所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备400可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图8中示出的计算机设备400结构并不构成对计算机设备400的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该计算机设备400的控制中心,利用各种接口和线路连接整个计算机设备400的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备400的各种功能和处理数据,从而对计算机设备400进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据计算机设备400的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
计算机设备400还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备400还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备400还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备400中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取需要获取指标元数据信息的表,所述需要获取指标元数据信息的表为表名称信息中存在预设表关键词的表;
获取所述需要获取指标元数据信息的表中各字段的字段类型信息,并根据所述表中各字段的字段类型信息,从所述表中确定出指标字段;
获取所述指标字段的字段名称信息,并获取所述表的表元数据信息;
根据所述指标字段的字段名称和所述表的表元数据信息,得到指标元数据信息。
在一可选地实施例中,处理器401执行所述根据所述指标字段的字段名称和所述表的表元数据信息,得到指标元数据信息时,可以执行:
确定所述表名称信息与所述指标字段的字段名称信息的相似度;
若所述相似度小于预设相似度,则根据所述表名称信息对所述指标字段的字段名称信息进行调整,使得调整后的指标字段的字段名称信息与所述表名称信息的相似度大于或等于预设相似度;
将调整后的指标字段的字段名称信息作为指标名称信息;
根据所述指标名称信息和所述表的表元数据信息,得到指标元数据信息。
在一可选地实施例中,处理器401还可以执行:
若所述相似度大于或等于预设相似度,则将所述指标字段的字段名称作为指标名称信息。
在一可选地实施例中,处理器401执行所述根据所述表中各字段的字段类型信息,从所述表中确定出指标字段时,可以执行:
将所述表中字段类型信息与预设字段类型信息匹配的字段确定为指标字段。
在一可选地实施例中,处理器401执行所述根据所述表中各字段的字段类型信息,从所述表中确定出指标字段之前,还可以执行:
获取所述表中各字段的字段名称信息;
在一可选地实施例中,处理器401执行所述根据所述表中各字段的字段类型信息,从所述表中确定出指标字段时,可以执行:
根据所述表中各字段的字段类型信息和字段名称信息,从所述表中确定出指标字段。
在一可选地实施例中,处理器401执行所述根据所述表中各字段的字段类型信息和字段名称信息,从所述表中确定出指标字段时,可以执行:
将所述表中字段类型信息与预设字段类型信息匹配,且字段名称信息中不存在预设关键词的字段确定为指标字段。
在一可选地实施例中,处理器401执行所述获取需要获取指标元数据信息的表时,可以执行:
获取多个表;
获取每个表的表名称信息;
将表名称信息中存在预设表关键词的表确定为需要获取指标元数据信息的表。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本实施例提供的电子设备,通过获取需要获取指标元数据信息的表,所述需要获取指标元数据信息的表为表名称信息中存在预设表关键词的表;获取所述需要获取指标元数据信息的表中各字段的字段类型信息,并根据所述表中各字段的字段类型信息,从所述表中确定出指标字段;获取所述指标字段的字段名称信息,并获取所述表的表元数据信息;根据所述指标字段的字段名称和所述表的表元数据信息,得到指标元数据信息,可以实现通过表的相关信息获取指标元数据信息。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例还提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例中的各种可选实现方式中提供的方法。
根据本申请的一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中的各种可选实现方式中提供的方法。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的方法中的步骤,因此,可以实现本申请实施例所提供的方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种信息获取方法、装置、计算机设备和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种信息获取方法,其特征在于,包括:
获取需要获取指标元数据信息的表,所述需要获取指标元数据信息的表为表名称信息中存在预设表关键词的表;
获取所述需要获取指标元数据信息的表中各字段的字段类型信息,并根据所述表中各字段的字段类型信息,从所述表中确定出指标字段;
获取所述指标字段的字段名称信息,并获取所述表的表元数据信息;
根据所述指标字段的字段名称和所述表的表元数据信息,得到指标元数据信息。
2.根据权利要求1所述的信息获取方法,其特征在于,所述根据所述指标字段的字段名称和所述表的表元数据信息,得到指标元数据信息,包括:
确定所述表名称信息与所述指标字段的字段名称信息的相似度;
若所述相似度小于预设相似度,则根据所述表名称信息对所述指标字段的字段名称信息进行调整,使得调整后的指标字段的字段名称信息与所述表名称信息的相似度大于或等于预设相似度;
将调整后的指标字段的字段名称信息作为指标名称信息;
根据所述指标名称信息和所述表的表元数据信息,得到指标元数据信息。
3.根据权利要求2所述的信息获取方法,其特征在于,所述方法还包括:
若所述相似度大于或等于预设相似度,则将所述指标字段的字段名称作为指标名称信息。
4.根据权利要求1所述的信息获取方法,其特征在于,所述根据所述表中各字段的字段类型信息,从所述表中确定出指标字段,包括:
将所述表中字段类型信息与预设字段类型信息匹配的字段确定为指标字段。
5.根据权利要求1所述的信息获取方法,其特征在于,所述根据所述表中各字段的字段类型信息,从所述表中确定出指标字段之前,还包括:
获取所述表中各字段的字段名称信息;
所述根据所述表中各字段的字段类型信息,从所述表中确定出指标字段,包括:
根据所述表中各字段的字段类型信息和字段名称信息,从所述表中确定出指标字段。
6.根据权利要求5所述的信息获取方法,其特征在于,所述根据所述表中各字段的字段类型信息和字段名称信息,从所述表中确定出指标字段,包括:
将所述表中字段类型信息与预设字段类型信息匹配,且字段名称信息中不存在预设关键词的字段确定为指标字段。
7.根据权利要求1至6任一项所述的信息获取方法,其特征在于,所述获取需要获取指标元数据信息的表,包括:
获取多个表;
获取每个表的表名称信息;
将表名称信息中存在预设表关键词的表确定为需要获取指标元数据信息的表。
8.一种信息获取装置,其特征在于,包括:
第一获取模块,用于获取需要获取指标元数据信息的表,所述需要获取指标元数据信息的表为表名称信息中存在预设表关键词的表;
字段确定模块,用于获取所述需要获取指标元数据信息的表中各字段的字段类型信息,并根据所述表中各字段的字段类型信息,从所述表中确定出指标字段;
第二获取模块,用于获取所述指标字段的字段名称信息,并获取所述表的表元数据信息;
信息确定模块,用于根据所述指标字段的字段名称和所述表的表元数据信息,得到指标元数据信息。
9.一种计算机设备,其特征在于,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的信息获取方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,当计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至7中任一项所述的信息获取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211477256.2A CN116089417A (zh) | 2022-11-23 | 2022-11-23 | 信息获取方法、装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211477256.2A CN116089417A (zh) | 2022-11-23 | 2022-11-23 | 信息获取方法、装置、存储介质及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116089417A true CN116089417A (zh) | 2023-05-09 |
Family
ID=86212695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211477256.2A Pending CN116089417A (zh) | 2022-11-23 | 2022-11-23 | 信息获取方法、装置、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116089417A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117667946A (zh) * | 2023-12-21 | 2024-03-08 | 上海熵智信息科技有限公司 | 一种通过元数据识别指标的方法 |
-
2022
- 2022-11-23 CN CN202211477256.2A patent/CN116089417A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117667946A (zh) * | 2023-12-21 | 2024-03-08 | 上海熵智信息科技有限公司 | 一种通过元数据识别指标的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8825711B2 (en) | Managing cross-correlated data | |
US7743071B2 (en) | Efficient data handling representations | |
US8713041B2 (en) | Peer to peer (P2P) missing fields and field valuation feedback | |
Reniers et al. | On the state of nosql benchmarks | |
US20130006996A1 (en) | Clustering E-Mails Using Collaborative Information | |
WO2021047373A1 (zh) | 基于大数据的列数据处理方法、设备及介质 | |
EP3470992B1 (en) | Efficient storage and utilization of a hierarchical data set | |
CN111125229A (zh) | 数据血缘生成方法、装置、电子设备 | |
US20200074015A1 (en) | Filtering collaboration activity | |
US9390111B2 (en) | Database insert with deferred materialization | |
EP3042354B1 (en) | Metadata automated system | |
CN111221698A (zh) | 任务数据采集方法与装置 | |
CN114461644A (zh) | 一种数据采集方法、装置、电子设备及存储介质 | |
CN116089417A (zh) | 信息获取方法、装置、存储介质及计算机设备 | |
US10192031B1 (en) | System for extracting information from DICOM structured reports | |
CN114741392A (zh) | 数据查询方法、装置、电子设备及存储介质 | |
US11514236B1 (en) | Indexing in a spreadsheet based data store using hybrid datatypes | |
Afonin | Ontology models for access control systems | |
US20060122963A1 (en) | System and method for performing a data uniqueness check in a sorted data set | |
CN116955856A (zh) | 信息展示方法、装置、电子设备以及存储介质 | |
CN115543428A (zh) | 一种基于策略模板的模拟数据生成方法和装置 | |
CN102779092B (zh) | 引用检查系统和引用检查方法 | |
Kwakye et al. | Merging multidimensional data models: a practical approach for schema and data instances | |
CN114356945A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN111399838A (zh) | 一种基于SparkSQL和物化视图的数据建模方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |