CN114385623A - 数据表获取方法、设备、装置、存储介质及程序产品 - Google Patents
数据表获取方法、设备、装置、存储介质及程序产品 Download PDFInfo
- Publication number
- CN114385623A CN114385623A CN202111444460.XA CN202111444460A CN114385623A CN 114385623 A CN114385623 A CN 114385623A CN 202111444460 A CN202111444460 A CN 202111444460A CN 114385623 A CN114385623 A CN 114385623A
- Authority
- CN
- China
- Prior art keywords
- data table
- created
- vector
- participle
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012545 processing Methods 0.000 claims abstract description 37
- 238000004458 analytical method Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 399
- 230000011218 segmentation Effects 0.000 claims description 57
- 238000013523 data management Methods 0.000 claims description 43
- 238000004590 computer program Methods 0.000 claims description 30
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 8
- 239000002699 waste material Substances 0.000 abstract description 7
- 230000000875 corresponding effect Effects 0.000 description 163
- 230000006870 function Effects 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000007726 management method Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种数据表获取方法、设备、装置、存储介质和程序产品。在本申请实施例中,通过对待创建数据表的字段信息进行语义解析和分词处理得到字段信息包括的分词;根据多个分词查找现有分词中的相似分词以及相似分词所属的数据表,确定与待创建数据表相似的候选数据表;进而,从候选数据表中确定符合预设相似度的目标数据表,以根据目标数据表确定是否需要创建待创建数据表。由于字段信息可以体现待创建数据表的真实结构,根据字段信息包括的分词查找到的数据表的结构与待创建数据表的结构相似度更高。基于此,可以更准确的判断已有的数据表是否可以复用,以及是否需要创建新数据表,有助于节省存储空间和减少资源浪费。
Description
技术领域
本申请涉及数据仓库技术领域,尤其涉及一种数据表获取方法、设备、装置、存储介质及程序产品。
背景技术
数据治理(Data Governance)是企业中涉及数据使用的一整套管理行为,是关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。在企业中,通常使用数据仓库管理企业级数据,在数据治理过程中,可根据数据仓库中的数据表信息,确定对企业级数据进行数据治理的方式,以提升数据表的使用价值。例如,在有数据表创建需求的情况下,可以从数据仓库中获取与待创建数据表具有相似表结构或功能的现有数据表,以复用现有数据表结构或者在现有数据表中扩展新字段,以满足新增数据的需求,避免大量创建新数据表,浪费空间资源。
在传统方案中,为了检索到与待创建数据表具有相似表结构或功能的目标数据表,通常采用根据表名称检索的方式检索目标数据表。然而,随着数据仓库中数据表数量规模的增加,很难对不同业务或跨域应用之间表名称进行统一规范,并且表名称也无法准确反映数据表的结构,基于表名称的检索方式很难快速检索到目标数据表。
发明内容
本申请提供一种数据表获取方法、设备、装置、存储介质及程序产品,以根据待创建数据表的字段信息获取与待创建数据表具有预设相似度的目标数据表,检索结果更加准确。
本申请实施例提供一种数据表获取方法,包括:确定待创建数据表包括的字段信息,所述字段信息可以反映待创建数据表对应的表结构;对所述字段信息进行语义解析和分词处理,得到所述字段信息中包括的至少一个分词;根据所述分词,从数据仓库中检索表结构与所述待创建数据表具有预设相似度的数据表作为目标数据表;根据所述目标数据表,创建所述待创建数据表。
在一可选实施例中,根据所述分词,从数据仓库中检索表结构与所述待创建数据表具有预设相似度的数据表作为目标数据表,包括:针对每个分词,若所述分词存在分词库中,则从向量库中查找与每个分词对应的词向量;若不存在,则为该分词初始化默认的词向量;根据所述分词分别对应的词向量,计算词向量的距离总和并作为待创建数据表对应的表向量;以及根据所述表向量,从数据仓库中检索表结构与所述待创建数据表具有预设相似度的数据表作为目标数据表。
在一可选实施例中,根据所述表向量,从数据仓库中检索表结构与所述待创建数据表具有预设相似度的数据表作为目标数据表,包括:从所述向量库中查找与所述分词分别对应的词向量具有第一预设距离的多个目标词向量;根据分词与词向量的对应关系,从所述分词库中查找与所述多个目标词向量分别对应的多个目标分词;根据数据仓库中的表元数据包括的数据表信息,确定所述多个目标分词分别所属的候选数据表及其对应的表向量;将所述候选数据表中表向量与所述待创建数据表对应的表向量具有第二预设距离的数据表作为目标数据表。
在一可选实施例中,根据所述表向量,从数据仓库中检索表结构与所述待创建数据表具有预设相似度的数据表作为目标数据表,包括:根据所述表向量,从所述向量库中查找与所述表向量具有第二预设距离的目标表向量,并将所述目标表向量对应的数据表作为目标数据表。
在一可选实施例中,根据所述目标数据表,创建所述待创建数据表,包括:根据待创建数据表与所述目标数据表的相似度,若所述目标数据表包括所述待创建数据表的全部字段,则将所述目标数据表作为所述待创建数据表;若所述目标数据表包括所述待创建数据表的部分字段,则在所述目标数据表中新增所述待创建数据表中除所述部分字段之外的字段;以及将新增字段后的所述目标数据表,作为所述待创建数据表。
在一可选实施例中,所述方法还包括:将所述分词中不在所述分词库中的新分词添加到所述分词库中;在对所述新分词初始化默认的词向量之后,还包括:将所述新分词对应的词向量添加到所述向量库中,以及存储所述新分词与其对应的词向量之间的对应关系。
在一可选实施例中,将所述分词中不在分词库中的新分词添加到所述分词库中,包括:在确定所述分词中包括新分词的情况下,直接将所述新分词添加到所述分词库中;或者,周期性获取在指定历史时段内产生的数据库模式定义语句,根据所述数据库模式定义语句确定所述指定历史时段内产生的新分词,并将所述新分词添加到所述分词库中。
在一可选实施例中,定期获取用于创建数据表的数据库模式定义语句,根据所述数据库模式定义语句确定所述多个分词,包括:定期获取用于创建数据表的数据库模式定义语句,根据所述数据库模式定义语句,确定待创建数据表包含的字段信息;对所述字段信息进行语义解析和分词处理,得到所述字段信息中包括的多个分词。
在一可选实施例中,根据所述数据库模式定义语句确定所述指定历史时段内产生的新分词,并将所述新分词添加到所述分词库中,包括:根据数据仓库中的数据表信息,确定数据仓库中已有数据表的字段包括的已有分词;根据所述数据库模式定义语句,确定待创建数据表包含的字段信息,并对所述字段信息进行语义解析和分词处理,得到所述字段信息中包括的至少一个分词;根据所述已有分词和所述字段信息中包括的至少一个分词,确定所述指定历史时段内产生的新分词,并将所述新分词添加到所述分词库中。
在一可选实施例中,将所述新分词对应的词向量添加到所述向量库中,包括:在对所述新分词初始化默认的词向量之后,直接将所述新分词对应的词向量添加到所述向量库中;或者,采用预设算法模型对所述已有分词和所述指定历史时段内产生的新分词进行模型训练,得到每个分词对应的词向量,并将所述词向量更新至向量库中;其中,所述词向量包括新分词对应的词向量。
在一可选实施例中,在所述向量库被更新的情况下,所述方法还包括:根据分词及其对应的词向量,计算每个分词所属的数据表对应的表向量;根据所述表向量更新所述向量库,并存储数据表与其对应的表向量之间的对应关系。
在一可选实施例中,所述向量库中还包括数据表中字段的创建者对应的创建者向量,所述方法还包括:结合数据表与创建者的对应关系,根据各创建者创建的数据表对应的表向量,确定各创建者对应的创建者向量。
在一可选实施例中,所述方法还包括:针对每个数据表,根据各字段包括的分词及其词向量,确定数据表中各字段对应的字段向量;针对每个创建者,将其对应的创建者向量、创建的数据表对应的表向量以及数据表中各字段对应的字段向量,共同作为每个创建者对应的资产向量。
在一可选实施例中,所述方法还包括:根据第一、第二创建者分别对应的第一、第二资产向量,确定所述第一、第二创建者之间的资产关系。
在一可选实施例中,根据第一、第二创建者分别对应的第一、第二资产向量,确定所述第一、第二创建者之间的资产关系,包括以下至少一项:根据所述第一资产向量中各字段向量与所述第二资产向量中各表向量,确定所述第一创建者创建的数据表中各字段与所述第二创建者创建的数据表之间的相似度;根据所述第一资产向量中各字段向量与所述第二资产向量中的创建者向量,确定所述第一创建者创建的数据表中各字段与所述第二创建者之间的相似度;根据所述第一、第二资产向量中分别包括的各表向量,确定所述第一创建者创建的数据表与所述第二创建者创建的数据表之间的相似度;根据所述第一资产向量中各表向量与所述第二资产向量中的创建者向量,确定所述第一创建者创建的数据表与所述第二创建者之间的相似度;根据所述第一、第二资产向量中分别包括的创建者向量,确定所述第一创建者与所述第二创建者之间的相似度。
在一可选实施例中,所述方法还包括:若计算得到的相似度满足预设相似度,则将所述第一、第二资产向量作为相似资产向量,并将所述第一、第二资产向量进行关联存储。
在一可选实施例中,所述方法还包括:根据所述相似资产向量,确定数据仓库中的各数据表之间具有预设相似度的数据表。
本申请实施例还提供一种数据管理设备,包括:显示器、处理器以及存储有计算机程序的存储器;所述处理器,用于执行所述计算机程序,以用于:确定待创建数据表包括的字段信息,所述字段信息可以反映待创建数据表对应的表结构;对所述字段信息进行语义解析和分词处理,得到所述字段信息中包括的至少一个分词;根据所述分词,从数据仓库中检索表结构与所述待创建数据表具有预设相似度的数据表作为目标数据表;根据所述目标数据表,创建所述待创建数据表。
本申请实施例还提供一种数据管理装置,确定模块、第一处理模块、获取模块以及第二处理模块;所述确定模块,用于确定待创建数据表包括的字段信息,所述字段信息可以反映待创建数据表对应的表结构;所述第一处理模块,用于对所述字段信息进行语义解析和分词处理,得到所述字段信息中包括的至少一个分词;所述获取模块,用于根据所述分词,从数据仓库中检索表结构与所述待创建数据表具有预设相似度的数据表作为目标数据表;所述第二处理模块,用于根据所述目标数据表,创建所述待创建数据表。
本申请实施例还提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由数据管理设备的处理器执行时,使得数据管理设备能够执行方法实施例中任一项所述的步骤。
本申请实施例还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现方法实施例中任一项所述的步骤。
在本申请实施例中,通过对待创建数据表的字段信息进行语义解析和分词处理可以得到字段信息包括的分词;进一步,根据多个分词查找现有分词中的相似分词以及相似分词所属的数据表,可以确定与待创建数据表相似的候选数据表;进而,可以从候选数据表中确定符合预设相似度的目标数据表,以根据目标数据表确定是否需要创建待创建数据表。由于字段信息可以体现待创建数据表的真实结构,根据字段信息包括的分词查找到的数据表的结构与待创建数据表的结构相似度更高。基于此,可以更准确的判断已有的数据表是否可以复用,以及是否需要创建新数据表,有助于节省存储空间和减少资源浪费。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理,并不构成对本申请的不当限定。
图1a为本申请实施例提供的一种数据表获取方法的流程图;
图1b为本申请实时提供的数据表获取方法的完整过程对应的流程图;
图2为本申请实施例提供的一种数据管理设备的结构示意图;
图3为本申请实施例提供的一种数据管理装置的结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本申请的技术方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在数据仓库发展到现在,企业级的数据仓库大多使用的Kimball架构的思想对企业中的数据按照维度建模的方式进行管理,以在不同业务中快速创建或检索数据。例如,可从视频数据、文本数据、图片数据等不同类型的维度进行单独管理;又例如,还可以从点击量、互动数据、销售数据等不同功能的维度进行单独管理。然而,随着企业业务的壮大和复杂化,数据仓库中的数据表不断增加,不同业务层之间的有许多数据建设没有再遵循维度建模的思想,底层数据复用性差,上层数据呈现烟囱式的数据建设,导致数据量快速膨胀,消耗了大量的计算和存储资源。
因此,为了缓解企业级数据仓库的资源浪费这一现象,通常为数据仓库中各数据表之间设置相似度,用于反映数据表的结构或功能的相似程度,以在数据建设和存储数据过程中,对现有的数据表进行复用,避免大量创建新的数据表,减少数据仓库的资源浪费。通常,为了一目了然地知晓数据表的结构或功能,创建者在创建数据表时通过会根据数据表的结构或功能对数据表进行命名,也就是说,数据表的表名称在一定程度上体现了数据表的结构或功能,基于此,在创建数据表之前,可根据待创建数据表的表名称检索相似的目标数据表,以根据目标数据表进行数据表建设或存储数据。例如,在想要创建一张与用户信息相关的数据表之前,可在数据管理工具中输入类似“用户信息表”作为表名称;基于此,可将“用户信息”作为关键字,并从数据仓库中检索表名称包含有“用户信息”的数据表作为相似的目标数据表;进一步,根据检索到的目标数据表的表结构,可以判断检索到的目标数据表能否满足待创建数据表的存储需求;若能,可直接利用检索到的目标数据表存储数据,若不能,也可以对检索到的目标数据表做较少的修改,再利用修改后的目标数据表存储数据;这样,无需再创建新的数据表,可以减少数据仓库的资源浪费。
在现有方案中,虽然创建者在创建数据表时会根据数据表的结构或功能来给数据表命名,但是表名称并不能准确的体现数据表的结构或功能,尤其在不同业务或跨域应用的场景中,很难在创建数据表时进行统一的命名规范,因此,基于数据表的表名称确定数据表之间的相似度这种方式并不准确。
为了解决这一问题,本申请实施例提供了一种数据表获取方法,该方法可以根据数据表中的字段信息确定数据表之间的相似度,因为字段信息可以体现数据表的结构,因此,基于字段信息确定数据表的相似度更准确。并且,该方法在确定数据表的相似度时,可以从字段、数据表、创建者等不同维度,确定数据表在不同维度的相似度以及数据表与创建者之间的资产关系,基于此,可为业务服务以及挖掘数据关系提供基础。
图1a为本申请实施例提供的数据表获取方法的流程图,如图1a所示,方法包括:
S1a、确定待创建数据表包括的字段信息,字段信息可以反应带创建数据表对应的表结构;
S2a、对字段信息进行语义解析和分词处理,得到字段信息中包括的至少一个分词;
S3a、根据分词,从数据仓库中检索表结构与待创建数据表具有预设相似度的数据表作为目标数据表;
S4a、根据目标数据表,创建待创建数据表。
在本申请实施例中,上述方法应用于数据地图、建表审核工具、Datablau、OneModel等数据管理工具,在此对方法的执行主体的具体实现形态不做限定。其中,数据管理工具包括数据编辑界面,在有数据表创建需求的情况下,数据管理人员可在数据编辑界面中输入用于创建数据表的数据库模式定义语句,编辑待创建数据表的信息。进一步,数据管理工具可响应数据管理人员的输出操作,获取用于创建数据表的数据库模式定义语句,并识别数据管理人员定义的待创建数据表的信息,以识别其中包括的字段信息。由于字段信息可以反映待创建数据表对应的表结构,基于此,可以对识别到的字段信息进行语义分析和分词处理,得到字段信息中包括的至少一个分词,并根据得到的至少一个分词从数据仓库中检索表结构与待创建数据表具有预设相似度的数据表作为目标数据表,以根据目标数据表创建待创建数据表。
在本申请实施例中,数据仓库中包括各数据表对应的分词库和向量库,分词库用于存储各数据表中包括的分词,分词库中的分词可以作为对识别到的字段信息进行语义分析的分词样本;向量库用于存储分词对应的词向量、数据表对应的表向量以及其他向量。在本申请实施例中,可以根据分词得到分词对应的词向量。可选地,可以采用负采样模型Negative Sampling以及CBOW算法,根据数据仓库中的表元数据确定数据仓库中的各数据表以及各数据表中包括的字段信息,并对各数据表对应的元数据中包括的字段信息进行语义分析,得到元数据中包括的分词。其中,表元数据是数据仓库中数据表的电子式目录,用于描述数据表的属性信息,包括数据表之间的关联关系以及数据表与其中字段的关联关系,还用于描述数据表的存储位置、历史数据、资源查找、文件记录、所属创建者等相关信息。进一步,还可以基于Word2vec或Doc2vec模型计算各分词对应的词向量并将其存储在向量库中,基于此,可以计算各分词对应的词向量之间的距离,则在确定数据表之间的相似度时,可以根据各数据表中包括的分词对应的词向量确定各数据表对应的表向量并将其存储在向量库中,进而根据各数据表的表向量的距离确定各数据表之间的相似度。例如,若两个数据表分别包括的分词对应的词向量的距离总和越小,则这两个数据表相似度越高。
基于上述,在识别到待创建数据表包括的字段信息的情况下,可将识别到的字段信息输入上述算法模型进行语义分析和分词处理,以及对得到的分词与分词库中已有的分词进行相似度计算,检索到与待创建数据表中包括的至少一个分词对应的相似分词,进而,确定包括这些相似分词的数据表,以从中确定目标数据表。
在本申请实施例中,数据仓库中还存储有分词与词向量的对应关系,在从数据仓库中检索表结构与待创建数据表具有预设相似度的数据表作为目标数据表时,可以针对每个分词,判断分词是否存在分词库中;若该分词存在分词库中,则根据分词与词向量的对应关系从向量库中查找与每个分词对应的词向量;若该分词不在分词库中,则为不在分词库中的分词初始化默认的词向量;例如,以分词对应的词向量为5维向量为例,为新分词初始化默认的词向量可以为(0,0,0,0,0)。进一步,可以根据待创建数据表包括的多个分词分别对应的词向量,计算词向量的距离总和并作为待创建数据表对应的表向量;进而,根据待创建数据表的表向量,从数据仓库中检索表结构与待创建数据表具有预设相似度的数据表作为目标数据表。可选地,在定确定预设相似度时,可以判断待创建数据表的表向量与数据仓库中各数据表的表向量的距离是否小于预设值,以确定与待创建数据表相似的目标数据表。
在本申请实施例中,在根据待创建数据表的表向量从数据仓库中检索表结构与待创建数据表具有预设相似度的数据表作为目标数据表时,可以从向量库中查找与待创建数据表包括的至少一个分词分别对应的词向量具有第一预设距离的多个目标词向量,并根据分词与词向量的对应关系,从分词库中查找与多个目标词向量分别对应的多个目标分词;进而,根据数据仓库中的表元数据包括的数据表信息,确定多个目标分词分别所属的候选数据表及其对应的表向量。可选地,在确定候选数据表对应的表向量时,可以根据数据表与表向量的对应关系,从向量库中确定候选数据表对应的表向量。进一步,可以将候选数据表中表向量与待创建数据表对应的表向量具有第二预设距离的数据表作为目标数据表。
在本申请实施例中,在从数据仓库中检索表结构与待创建数据表具有预设相似度的数据表作为目标数据表时,还可以根据待创建数据表的表向量,从向量库中直接查找与待创建数据表的表向量具有第二预设距离的目标表向量,并将目标表向量对应的数据表作为目标数据表。
在本申请实施例中,不限定第一预设距离与第二预设距离的数值关系,第一预设距离与第二预设距离可以相等也可以不等。进一步,也不限定检索出来表向量满足第二预设距离的数据表的个数,可选地,可以是一个或多个,还也可以是0个。在检索出来的数据表是多个的情况下,可从中选择表向量与待创建数据表对应的表向量距离最小的数据表作为目标数据表;在检索出来的数据表是0个的情况下,可以直接创建待创建数据表。关于确定目标数据表的具体方式,可根据检索到的数据表的个数确定。
基于上述,在确定目标数据表的情况下,仓库管理人员在根据目标数据表创建待创建数据表时,若待创建数据表的字段全部包括在目标数据表中,则将目标数据表作为待创建数据表;若待创建数据表的字段部分包括在目标数据表中,则在目标数据表中新增没有包括的待创建数据表中的字段,并将新增字段后的目标数据表作为待创建数据表。其中,目标数据表中包括待创建数据表的字段是指所包括的字段的类型和名称相同,字段在目标数据表和待创建数据表中表示的含义可以相同也可以不同,在此不做限定。
下面以数据仓库管理员想要创建数据表为例,对本申请上述实施例的实现过程进行示例性说明。
假设A类业务数据包括6种数据类型,数据仓库管理员想要创建一张可以存储这6种数据类型的数据表A。在创建数据表A之前,为了确定是否有必要创建数据表A,数据仓库管理人员在数据管理工具提供的数据编辑界面中输入用于创建数据表A的数据库模式定义语句,并对该数据库模式定义语句执行校验操作。数据管理工具在响应到数据仓库管理人员执行的校验操作的情况下,可获取数据库管理人员输入的数据库模式定义语句并对其进行识别,得数据表A包括的字段信息,该字段信息中至少包括各字段的类型和名称。
进一步,数据管理工具可通过预设的算法模型对识别到的字段信息进行语义解析和分词处理,得到字段信息中包括的至少一个分词,并根据分词库判断得到的至少一个分词中是否包括新分词。其中,在得到的至少一个分词中包括新分词的情况下,为新分词初始化默认的词向量,对于包括在分词库中的分词,根据分词与词向量的对应关系,从向量库中获取与至少一个分词中不是新的分词对应的词向量;在得到的至少一个分词中不包括新分词的情况下,则直接根据分词与词向量的对应关系,从向量库中获取与至少一个分词中每个分词对应的词向量。
进一步,根据至少一个分词分别对应的词向量以及分词库中已有分词分别对应的词向量,查找词向量距离小于或等于第一预设距离的词向量作为目标词向量,以及基于分词与词向量的对应关系,从分词库中获取与目标词向量对应的分词作为目标分词;进而,根据数据仓库中的表元数据中的数据表信息,确定多个目标分词分别所属的数据表,并基于数据表与表向量的对应关系,确定表向量与数据表A的表向量之间的距离小于或等于第二预设距离的表向量对应的数据表作为目标数据表;其中,表向量之间的距离小于或等于第二预设距离体现了目标数据表与数据表A的预设相似度。
进一步,数据仓库管理人员可根据检索到的目标数据表的具体信息,确定是否需要创建数据表A;例如,检索到的满足预设相似度的数据表分别为数据表B、数据表C和数据表D;其中,数据表B有10个字段,其中有5个字段与数据表A中的5个字段的类型和名称相同;数据表B有5个字段,这有5个字段与数据表A中的5个字段的类型和名称相同;数据表C有7个字段,其中有4个字段与数据表A中的4个字段的类型和名称相同。基于此,数据仓库管理人员可以选择数据表B或数据表C,并将数据表A中没有包括在目标数据表中的字段添加到所选择的数据表中,这样,不用新建数据表A,对原有的数据表B或数据表C稍作改动即可满足A类业务数据的存储需求。
需要说明的是,本申请实施例并不限定确定目标数据表的具体方式,例如,在上述示例中,在检索到的目标数据表为多个的情况下,数据管理工具可以直接将相似度最高的数据表作为目标数据表返回给数据仓库管理人员查看;另外,在检索到的目标数据表为多个且相似度相当的情况下,数据库管理人员也可以根据多个目标数据表的具体结构,确定选择哪个数据表。例如,在上述示例中数据表B和数据表C均有5个字段与数据表A中的字段相同,但是数据表B本身有10个字段,而数据表C本身只有5个字段,从数据表占用的存储空间均衡角度考虑,可以优选在数据表C中增加字段,以免造成有些数据表字段越来越多的现象。
在本申请实施例中,在识别到至少一个分词中包括新分词的情况下,还可以将新分词添加到分词库中;相应地,在对新分词初始化默认的词向量之后,还可以将新分词对应的词向量添加到向量库中,以及存储新分词与其对应的词向量之间的对应关系。
在本申请实施例中,不限定将新分词添加到分词库中的具体方式,可选地,在确定多个分词中包括新分词的情况下,可以直接将新分词添加到分词库中;或者,周期性获取在指定历史时段内产生的数据库模式定义语句,并根据数据库模式定义语句确定指定历史时段内产生的新分词,将新分词添加到分词库中。可选地,可以根据数据仓库中的数据表信息,确定数据仓库中已有数据表的字段包括的已有分词,以及根据数据库模式定义语句,确定待创建数据表包含的字段信息,并对字段信息进行语义解析和分词处理,得到字段信息中包括的至少一个分词,基于此,可以根据已有分词和字段信息中包括的至少一个分词,确定述指定历史时段内产生的新分词,并将新分词添加到所述分词库中。
在本申请实施例中,也不限定将新分词对应的词向量添加到向量库中的方式,可选地,在确定至少一个分词中包括新分词的情况下,在对新分词初始化默认的词向量之后,可以直接将新分词对应的词向量添加到向量库中;或者,采用预设算法模型对已有分词和指定历史时段内产生的新分词进行模型训练,得到每个分词对应的词向量,并将词向量更新至向量库中;其中,词向量包括新分词对应的词向量。
可选地,在采用预设算法模型对已有分词和指定历史时段内产生的新分词进行模型训练,得到每个分词对应的词向量时,可以定期获取用于创建数据表的数据库模式定义语句,并根据数据库模式定义语句确定待创建数据表包含的字段信息;进一步,可以采用预设的算法识别字段信息中包括的至少一个分词,以及根据数据仓库中的表元数据包括的数据表信息确定数据仓库中已有的字段及其对应的分词,以确定待创建数据表包含的字段信息中是否包括新分词,并在确定包括新分词的情况下,将新分词添加到分词库中。进一步,还可以采用预设的算法模型对字段信息包括的分词进行模型训练,得到多个分词分别对应的词向量,并将得到的词向量更新到向量库中;其中,通过模型训练得到的词向量中包括新分词对应的初始化词向量。
在本申请实施例中,数据仓库中还存储有表向量,则在更新向量库时,还可以根据数据仓库中的表元数据包括的数据表信息,确定至少一个分词分别所属的数据表,以及根据至少一个分词及其对应的词向量,计算至少一个分词分别所属的数据表对应的表向量,并根据至少一个分词所属的数据表对应的表向量更新向量库,以及存储多个分词分别所属的数据表与其对应的表向量之间的对应关系。其中,在至少一个分词中包括新分词的情况下,计算得到的表向量是基于表中原有分词和新分词分别对应的词向量计算得到的表向量。在得到各数据表对应的表向量的情况下,可以根据各数据表对应的表向量计算各数据表之间的相似度,当然,本申请实施例并不限于此。例如,在数据仓库中也可以不存储表向量及其与数据表的对应关系,在计算各数据表之间的相似度时,也可以根据各数据表包括的分词及其对应的词向量,直接计算各数据表之间的相似度。
建。在本申请实施例中,向量库中还包括数据表的创建者对应的创建者向量,基于上述,还可以结合数据表与创建者的对应关系,根据各创建者创建的数据表对应的表向量,确定各创建者对应的创建者向量。在本申请实施例中,不限定确定创建者向量的具体方式,可选地,针对每个创建者,可以将其创建的所有数据表的表向量的均值作为该创建者对应的创建者向量。在本申请实施例中,数据仓库的表元数据中还包括数据表以及数据表中字段与创建者的对应关系,该对应关系一定程度上反映了各创建者与数据表以及数据表中字段之间的资产关系。基于此,本申请实施例还可以针对每个数据表,根据各字段包括的分词及其词向量,确定数据表中各字段对应的字段向量,以及针对每个创建者,将其对应的创建者向量、创建的数据表对应的表向量以及数据表中各字段对应的字段向量,共同作为每个创建者对应的资产向量,并将各创建者对应的各资产向量更新至向量库中,以及存储各创建者与其资产向量之间的对应关系。
基于此,在本申请实施例中,还可以根据第一、第二创建者分别对应的第一、第二资产向量,确定第一、第二创建者之间的资产关系,可选地,可以通过以下至少一种方式确定第一、第二创建者之间的资产关系。
例如,根据第一资产向量中各字段向量与第二资产向量中各表向量,确定第一创建者创建的数据表中各字段与第二创建者创建的数据表之间的相似度;若第一资产向量中各字段向量之和与第二资产向量中各表向量之和,或者,第一资产向量中各字段向量之和的均值与第二资产向量中各表向量之和的均值小于预设距离,则确定第一、第二创建者之间的具有相似的资产关系。
又例如,根据第一资产向量中各字段向量与第二资产向量中的创建者向量,确定第一创建者创建的数据表中各字段与第二创建者之间的相似度;若第一资产向量中各字段向量之和的均值与第二资产向量中的创建者向量小于预设距离,则确定第一、第二创建者之间的具有相似的资产关系。
又例如,根据第一、第二资产向量中分别包括的各表向量,确定第一创建者创建的数据表与第二创建者创建的数据表之间的相似度;若第一、第二资产向量中分别包括的各表向量之和,或者第一、第二资产向量中分别包括的各表向量之和的均值小于预设距离,则确定第一、第二创建者之间的具有相似的资产关系。
又例如,根据第一资产向量中各表向量与第二资产向量中的创建者向量,确定第一创建者创建的数据表与第二创建者之间的相似度;若第一资产向量中各表向量之和的均值与第二资产向量中的创建者向量小于预设距离,则确定第一、第二创建者之间的具有相似的资产关系。
又例如,根据第一、第二资产向量中分别包括的创建者向量,确定第一创建者与第二创建者之间的相似度;若第一、第二资产向量中分别包括的创建者向量小于预设距离,则确定第一、第二创建者之间的具有相似的资产关系。
需要说明的是,在本申请实施例中,可以采用上述任一种或多种方式确定第一、第二创建者之间是否的具有相似的资产关系,在采用多种方式的情况下,还可以为每种方式分配不同的权重,并根据每种方式求得的向量距离与对应的权重,确定多种方式共同对应的向量距离的均值是否小于预设距离,以确定第一、第二创建者之间的具有相似的资产关系;当然并不限于此,为了提升计算速度,还可以采用Annoy算法简化笛卡尔积计算的复杂度,快速得到小于预设距离的资产向量,以确定第一、第二创建者之间的具有相似的资产关系。
基于此,若计算得到的向量距离满足预设相似度,则将第一、第二资产向量作为相似资产向量,并将第一、第二资产向量进行关联存储,以根据该关联关系,为数据关系的挖掘提供基础。例如,若创建者A与创建者B具有相似的资产关系,说明创建者A与创建者B所创建及管理的数据表结构、功能相似,二者在业务上可能管理的相似的数据,在职能所属上可能属于相同的部门。
除此之外,基于具有相似的资产关系的相似资产向量,还可以确定数据仓库中的各数据表之间具有预设相似度的数据表。例如,在数据仓库管理员查找与数据表A具有预设相似度的目标数据表B时,可以直接查找与数据表A具有相似资产关系的多个数据表,并从中确定与数据表A具有预设相似度的目标数据表。
在本申请可选实施例中,在确定相似数据表时,还可以确定相似度的计算方式,例如,计算方式可以为根据资产关系计算或者根据表向量计算,当然也可以为根据数据表中分词对应的分词向量计算、数据表中字段对应的字段向量计算等等;进一步,还可以确定计算方式的来源,例如,可以为来自线上实时计算或者来自离线定期计算。
下面,结合附图对本申请实施例提供的数据表获取方法的完整过程进行示例说明。
图1b为本申请实施例提供的数据表获取方法的完整流程图,其中,数据表获取方法包括线上实时获取和离线获取两部分。
如图1b所示,针对于线上实时获取部分,在响应到数据仓库管理人员在数据管理工具上输入的数据库模式定义语句的情况下,可以根据数据库模式定义语句确定待创建数据表包括的字段信息;进一步,可以采用预设的算法模型对字段信息进行语义解析和分词处理,得到字段信息包括的至少一个分词,并基于分词库中已有的分词,可确定字段信息包括的至少一个分词中是否包括新分词;在确定包括新分词的情况下,可以为新分词初始化默认的词向量,以及根据分词与词向量的对应关系,获取字段信息包括的至少一个分词分别对应的词向量;进一步,可以根据至少一个分词及其对应的词向量,确定与至少一个分词具有第一预设相似度的分词作为目标分词,以及根据目标分词确定目标分词所属的候选数据表,进而,根据候选数据表对应的表向量和待创建数据表的表向量计算候选数据表与待创建数据表的相似度,以从候选数据表中选择与待创建数据表具有第二预设相似度的数据表作为目标数据表。
如图1b所示,针对理想获取部分,可以定期获取数据管理工具上中的数据库模式定义语句,并根据数据库模式定义语句确定待创建数据表包括的字段信息;进一步,可以采用预设算法模型对字段信息进行语义解析和分词处理,得到字段信息包括的多个分词,以及根据数据仓库中表元数据包括的数据表信息,确定数据仓库中已有数据表包括的字段以及字段对应的分词,以确定待创建数据表的字段信息包括的分词中是否包括新分词,并在确定包括新分词的情况下,将新分词添加到分词库中;进一步,可以采用预设的算法模型对多个分词进行模型训练得到多个分词分别对应的词向量,并根据数据仓库中表元数据中的数据表信息,确定至少一个分词分别所属的数据表,以及根据各数据表包括的分词对应的词向量计算各数据表对应的表向量、根据表向量或数据表中字段对应的字段向量计算创建者对应的创建者向量,以及根据各创建者与数据表的对应关系,将表向量、数据表中的字段向量以及创建者向量作为创建者的资产向量;进一步,基于计算得到的向量信息更新向量库,以及更新分词与词向量的对应关系、数据表分别与表向量及创建者向量的对应关系,以及创建者与资产向量的对应关系等;进一步,还可以根据得到的资产向量,计算各数据表之间的相似度以得到各数据表之间对应的相似向量,并向得到的相似向量更新到向量库中,以供线上服务根据相似向量获取相似数据表。
在本申请实施例中,通过对待创建数据表的字段信息进行语义解析和分词处理可以得到字段信息包括的分词;进一步,根据多个分词查找现有分词中的相似分词以及相似分词所属的数据表,可以确定与待创建数据表相似的候选数据表;进而,可以从候选数据表中确定符合预设相似度的目标数据表,以根据目标数据表确定是否需要创建待创建数据表。由于字段信息可以体现待创建数据表的真实结构,根据字段信息包括的分词查找到的数据表的结构与待创建数据表的结构相似度更高。基于此,可以更准确的判断已有的数据表是否可以复用,以及是否需要创建新数据表,有助于节省存储空间和减少资源浪费。
需要说明的是,本申请实施例中离线获取数据表的周期可以按天定时获取,也可以按周定时获取,在此不做限定;上述实施例中的词向量、表向量、创建者向量、资产向量以及相似度向量等向量信息的存储方式,可以统一存储也可以分别存储,在此不做限定。上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤S1a至步骤S5a的执行主体可以为设备A;又比如,步骤S1a的执行主体可以为设备A,步骤S2a至步骤S5a的执行主体可以为设备B;等等。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如S1a、S2a等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
本申请实施例还提供了一种数据管理设备,图2为本申请实施例提供的数据管理设备的结构示意图,如图2所示,数据管理设备包括:处理器21以及存储有计算机程序的存储器22和显示器23。其中,处理器21和存储器22可以是一个或多个。
存储器22,主要用于存储计算机程序,这些计算机程序可被处理器执行,致使处理器控制处理器21使用数据管理设备实现相应功能、完成相应动作或任务。除了存储计算机程序之外,存储器还可被配置为存储其它各种数据以支持在处理器21使用数据管理设备上的操作,这些数据的示例包括用于在处理器21使用数据管理设备上操作的任何应用程序或方法的指令。
存储器22,可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
在本申请实施例中,并不限定处理器21的实现形态,例如可以是但不限于CPU、GPU或MCU等。处理器21可以看作是数据管理设备的控制单元,可用于执行存储器22中存储的计算机程序,以控制数据管理设备实现相应功能、完成相应动作或任务。值得说明的是,根据数据管理设备实现形态以及所处于场景的不同,其所需实现的功能、完成的动作或任务会有所不同;相应地,存储器22中存储的计算机程序也会有所不同,而处理器21执行不同计算机程序可控制数据管理设备实现不同的功能、完成不同的动作或任务。
在一些可选实施例中,如图2所示,数据管理设备还可以包括:通信组件24和电源组件25等其它组件。图2中仅示意性给出部分组件,并不意味着数据管理设备只包括图2所示组件,针对不同的应用需求,数据管理设备还可以包括其他组件,具体可视数据管理设备的产品形态而定。
在本申请实施例中,当处理器21执行存储器22中的计算机程序时,以用于:确定待创建数据表包括的字段信息,字段信息可以反映待创建数据表对应的表结构;对字段信息进行语义解析和分词处理,得到字段信息中包括的至少一个分词;根据分词,从数据仓库中检索表结构与待创建数据表具有预设相似度的数据表作为目标数据表;根据目标数据表,创建待创建数据表。
在一可选实施例中,处理器21在根据分词,从数据仓库中检索表结构与待创建数据表具有预设相似度的数据表作为目标数据表时,用于:针对每个分词,若分词存在分词库中,则从向量库中查找与每个分词对应的词向量;若不存在,则为该分词初始化默认的词向量;根据分词分别对应的词向量,计算词向量的距离总和并作为待创建数据表对应的表向量;以及根据表向量,从数据仓库中检索表结构与待创建数据表具有预设相似度的数据表作为目标数据表。
在一可选实施例中,处理器21在根据表向量,从数据仓库中检索表结构与待创建数据表具有预设相似度的数据表作为目标数据表时,用于:从向量库中查找与分词分别对应的词向量具有第一预设距离的多个目标词向量;根据分词与词向量的对应关系,从分词库中查找与多个目标词向量分别对应的多个目标分词;根据数据仓库中的表元数据包括的数据表信息,确定多个目标分词分别所属的候选数据表及其对应的表向量;将候选数据表中表向量与待创建数据表对应的表向量具有第二预设距离的数据表作为目标数据表。
在一可选实施例中,处理器21在根据表向量,从数据仓库中检索表结构与待创建数据表具有预设相似度的数据表作为目标数据表时,用于:根据表向量,从向量库中查找与表向量具有第二预设距离的目标表向量,并将目标表向量对应的数据表作为目标数据表。
在一可选实施例中,处理器21在根据目标数据表,创建待创建数据表时,用于:根据待创建数据表与目标数据表的相似度,若目标数据表包括待创建数据表的全部字段,则将目标数据表作为待创建数据表;若目标数据表包括待创建数据表的部分字段,则在目标数据表中新增待创建数据表中除部分字段之外的字段;以及将新增字段后的目标数据表,作为待创建数据表。
在一可选实施例中,处理器21还用于将分词中不在分词库中的新分词添加到分词库中,在对新分词初始化默认的词向量之后,还用于:将新分词对应的词向量添加到向量库中,以及存储新分词与其对应的词向量之间的对应关系。
在一可选实施例中,处理器21在将分词中不在分词库中的新分词添加到分词库中时,用于:在确定分词中包括新分词的情况下,直接将新分词添加到分词库中;或者,周期性获取在指定历史时段内产生的数据库模式定义语句,根据数据库模式定义语句确定指定历史时段内产生的新分词,并将新分词添加到分词库中。
在一可选实施例中,处理器21在定期获取用于创建数据表的数据库模式定义语句,根据数据库模式定义语句确定多个分词时,用于:定期获取用于创建数据表的数据库模式定义语句,根据数据库模式定义语句,确定待创建数据表包含的字段信息;对字段信息进行语义解析和分词处理,得到字段信息中包括的多个分词。
在一可选实施例中,处理器21在根据数据库模式定义语句确定指定历史时段内产生的新分词,并将新分词添加到分词库中时,用于:根据数据仓库中的数据表信息,确定数据仓库中已有数据表的字段包括的已有分词;根据数据库模式定义语句,确定待创建数据表包含的字段信息,并对字段信息进行语义解析和分词处理,得到字段信息中包括的至少一个分词;根据已有分词和字段信息中包括的至少一个分词,确定指定历史时段内产生的新分词,并将新分词添加到分词库中。
在一可选实施例中,处理器21在将新分词对应的词向量添加到向量库中时,用于:在对新分词初始化默认的词向量之后,直接将新分词对应的词向量添加到向量库中;或者,采用预设算法模型对已有分词和指定历史时段内产生的新分词进行模型训练,得到每个分词对应的词向量,并将词向量更新至向量库中;其中,词向量包括新分词对应的词向量。
在一可选实施例中,在向量库被更新的情况下,处理器21还用于:根据分词及其对应的词向量,计算每个分词所属的数据表对应的表向量;根据表向量更新向量库,并存储数据表与其对应的表向量之间的对应关系。
在一可选实施例中,向量库中还包括数据表中字段的创建者对应的创建者向量,处理器21还用于:结合数据表与创建者的对应关系,根据各创建者创建的数据表对应的表向量,确定各创建者对应的创建者向量。
在一可选实施例中,处理器21还用于:针对每个数据表,根据各字段包括的分词及其词向量,确定数据表中各字段对应的字段向量;针对每个创建者,将其对应的创建者向量、创建的数据表对应的表向量以及数据表中各字段对应的字段向量,共同作为每个创建者对应的资产向量。
在一可选实施例中,处理器21还用于:根据第一、第二创建者分别对应的第一、第二资产向量,确定第一、第二创建者之间的资产关系。
在一可选实施例中,处理器21在根据第一、第二创建者分别对应的第一、第二资产向量,确定第一、第二创建者之间的资产关系时,至少用于实现以下至少一项:根据第一资产向量中各字段向量与第二资产向量中各表向量,确定第一创建者创建的数据表中各字段与第二创建者创建的数据表之间的相似度;根据第一资产向量中各字段向量与第二资产向量中的创建者向量,确定第一创建者创建的数据表中各字段与第二创建者之间的相似度;根据第一、第二资产向量中分别包括的各表向量,确定第一创建者创建的数据表与第二创建者创建的数据表之间的相似度;根据第一资产向量中各表向量与第二资产向量中的创建者向量,确定第一创建者创建的数据表与第二创建者之间的相似度;根据第一、第二资产向量中分别包括的创建者向量,确定第一创建者与第二创建者之间的相似度。
在一可选实施例中,处理器21还用于:若计算得到的相似度满足预设相似度,则将第一、第二资产向量作为相似资产向量,并将第一、第二资产向量进行关联存储。
在一可选实施例中,处理器21还用于:根据相似资产向量,确定数据仓库中的各数据表之间具有预设相似度的数据表。
本申请实施例还提供一种数据管理装置。例如该数据管理装置可实现为通信控制器(Communication Control Unit,CCU)中的虚拟装置,例如应用程序。如图3所示,该数据管理装置包括确定模块301、第一处理模块302、获取模块303以第二处理模块304;其中,确定模块301用于确定待创建数据表包括的字段信息,该字段信息可以反映待创建数据表对应的表结构;第一处理模块302用于对字段信息进行语义解析和分词处理,得到字段信息中包括的至少一个分词;获取模块303用于根据分词,从数据仓库中检索表结构与待创建数据表具有预设相似度的数据表作为目标数据表;第二处理模块304用于根据目标数据表,创建待创建数据表。
需要说明的是,关于上述数据管理设备的处理器和数据管理装置的各模块执行操作的具体方式已经在有关方法的实施例中进行了详细描述,此处将不做详细阐述说明。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述方法实施例中可由数据管理设备执行的各步骤。
相应地,本申请实施例还提供一种计算机程序产品,包括计算机程序/指令,计算机程序/指令被处理器执行时实现上述方法实施例中可由数据管理设备执行的各步骤。
上述实施例中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G、3G、4G/LTE、5G等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
上述实施例中的显示器包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
上述实施例中的电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
上述实施例中的音频组件,可被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(MIC),当音频组件所在设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种数据表获取方法,其特征在于,包括:
确定待创建数据表包括的字段信息,所述字段信息可以反映待创建数据表对应的表结构;
对所述字段信息进行语义解析和分词处理,得到所述字段信息中包括的至少一个分词;
根据所述分词,从数据仓库中检索表结构与所述待创建数据表具有预设相似度的数据表作为目标数据表;
根据所述目标数据表,创建所述待创建数据表。
2.根据权利要求1所述的方法,其特征在于,根据所述分词,从数据仓库中检索表结构与所述待创建数据表具有预设相似度的数据表作为目标数据表,包括:
针对每个分词,若所述分词存在分词库中,则从向量库中查找与每个分词对应的词向量;
若不存在,则为该分词初始化默认的词向量;
根据所述分词分别对应的词向量,计算词向量的距离总和并作为待创建数据表对应的表向量;以及
根据所述表向量,从数据仓库中检索表结构与所述待创建数据表具有预设相似度的数据表作为目标数据表。
3.根据权利要求2所述的方法,其特征在于,根据所述目标数据表,创建所述待创建数据表,包括:
根据待创建数据表与所述目标数据表的相似度,若所述目标数据表包括所述待创建数据表的全部字段,则将所述目标数据表作为所述待创建数据表;
若所述目标数据表包括所述待创建数据表的部分字段,则在所述目标数据表中新增所述待创建数据表中除所述部分字段之外的字段;以及
将新增字段后的所述目标数据表,作为所述待创建数据表。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将所述分词中不在所述分词库中的新分词添加到所述分词库中;
在对所述新分词初始化默认的词向量之后,还包括:
将所述新分词对应的词向量添加到所述向量库中,以及存储所述新分词与其对应的词向量之间的对应关系。
5.根据权利要求4所述的方法,其特征在于,将所述分词中不在分词库中的新分词添加到所述分词库中,包括:
在确定所述分词中包括新分词的情况下,直接将所述新分词添加到所述分词库中;
或者,周期性获取在指定历史时段内产生的数据库模式定义语句,根据所述数据库模式定义语句确定所述指定历史时段内产生的新分词,并将所述新分词添加到所述分词库中;
相应地,将所述新分词对应的词向量添加到所述向量库中,包括:
在对所述新分词初始化默认的词向量之后,直接将所述新分词对应的词向量添加到所述向量库中;
或者,采用预设算法模型对已有分词和所述指定历史时段内产生的新分词进行模型训练,得到每个分词对应的词向量,并将所述词向量更新至向量库中;其中,所述词向量包括新分词对应的词向量。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
针对每个数据表,根据各字段包括的分词及其词向量,确定数据表中各字段对应的字段向量;
针对每个创建者,结合数据表与创建者的对应关系,根据每个创建者创建的数据表对应的表向量,确定各创建者对应的创建者向量,并将其对应的创建者向量、创建的数据表对应的表向量以及数据表中各字段对应的字段向量,共同作为每个创建者对应的资产向量。
7.一种数据管理设备,其特征在于,包括:显示器、处理器以及存储有计算机程序的存储器;
所述处理器,用于执行所述计算机程序,以用于:
确定待创建数据表包括的字段信息,所述字段信息可以反映待创建数据表对应的表结构;
对所述字段信息进行语义解析和分词处理,得到所述字段信息中包括的至少一个分词;
根据所述分词,从数据仓库中检索表结构与所述待创建数据表具有预设相似度的数据表作为目标数据表;
根据所述目标数据表,创建所述待创建数据表。
8.一种数据管理装置,其特征在于,包括:确定模块、第一处理模块、获取模块以及第二处理模块;
所述确定模块,用于确定待创建数据表包括的字段信息,所述字段信息可以反映待创建数据表对应的表结构;
所述第一处理模块,用于对所述字段信息进行语义解析和分词处理,得到所述字段信息中包括的至少一个分词;
所述获取模块,用于根据所述分词,从数据仓库中检索表结构与所述待创建数据表具有预设相似度的数据表作为目标数据表;
所述第二处理模块,用于根据所述目标数据表,创建所述待创建数据表。
9.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由数据管理设备的处理器执行时,使得数据管理设备能够执行如权利要求1-6中任一项所述方法中的步骤。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1-6中任一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111444460.XA CN114385623A (zh) | 2021-11-30 | 2021-11-30 | 数据表获取方法、设备、装置、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111444460.XA CN114385623A (zh) | 2021-11-30 | 2021-11-30 | 数据表获取方法、设备、装置、存储介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114385623A true CN114385623A (zh) | 2022-04-22 |
Family
ID=81195493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111444460.XA Pending CN114385623A (zh) | 2021-11-30 | 2021-11-30 | 数据表获取方法、设备、装置、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114385623A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115470198A (zh) * | 2022-08-11 | 2022-12-13 | 北京百度网讯科技有限公司 | 数据库的信息处理方法、装置、电子设备及存储介质 |
CN117933206A (zh) * | 2024-03-14 | 2024-04-26 | 武汉数澜科技有限公司 | 业务数据处理方法、装置、设备、存储介质及程序产品 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080140693A1 (en) * | 2006-12-06 | 2008-06-12 | Verizon Data Services Inc. | Apparatus, Method, And Computer Program Product For Synchronizing Data Sources |
US20090089544A1 (en) * | 2007-10-01 | 2009-04-02 | Accenture Global Services Gmbh | Infrastructure for parallel programming of clusters of machines |
CN109766436A (zh) * | 2018-12-04 | 2019-05-17 | 北京明略软件系统有限公司 | 一种数据表的字段与知识库的数据元匹配的方法和装置 |
CN110889286A (zh) * | 2019-10-12 | 2020-03-17 | 平安科技(深圳)有限公司 | 基于数据表的依赖关系识别方法、装置和计算机设备 |
CN110895533A (zh) * | 2019-11-29 | 2020-03-20 | 北京锐安科技有限公司 | 一种表单映射方法、装置、计算机设备和存储介质 |
CN112035480A (zh) * | 2020-08-31 | 2020-12-04 | 中国平安财产保险股份有限公司 | 数据表管理方法、装置、设备及存储介质 |
CN112256698A (zh) * | 2020-10-16 | 2021-01-22 | 美林数据技术股份有限公司 | 一种基于多哈希函数的表关系自动关联方法 |
CN112347320A (zh) * | 2020-11-05 | 2021-02-09 | 杭州数梦工场科技有限公司 | 数据表字段的关联字段推荐方法及装置 |
CN112464640A (zh) * | 2020-10-22 | 2021-03-09 | 浙江大华技术股份有限公司 | 数据要素分析方法、装置、电子装置和存储介质 |
CN113268485A (zh) * | 2021-06-02 | 2021-08-17 | 电信科学技术第十研究所有限公司 | 数据表关联分析方法、装置、设备及存储介质 |
CN113434482A (zh) * | 2021-06-28 | 2021-09-24 | 平安国际智慧城市科技股份有限公司 | 数据迁移方法、装置、计算机设备及存储介质 |
WO2021196934A1 (zh) * | 2020-04-02 | 2021-10-07 | 深圳壹账通智能科技有限公司 | 一种基于字段相似度计算的问题推荐方法、装置和服务器 |
-
2021
- 2021-11-30 CN CN202111444460.XA patent/CN114385623A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080140693A1 (en) * | 2006-12-06 | 2008-06-12 | Verizon Data Services Inc. | Apparatus, Method, And Computer Program Product For Synchronizing Data Sources |
US20090089544A1 (en) * | 2007-10-01 | 2009-04-02 | Accenture Global Services Gmbh | Infrastructure for parallel programming of clusters of machines |
CN109766436A (zh) * | 2018-12-04 | 2019-05-17 | 北京明略软件系统有限公司 | 一种数据表的字段与知识库的数据元匹配的方法和装置 |
CN110889286A (zh) * | 2019-10-12 | 2020-03-17 | 平安科技(深圳)有限公司 | 基于数据表的依赖关系识别方法、装置和计算机设备 |
CN110895533A (zh) * | 2019-11-29 | 2020-03-20 | 北京锐安科技有限公司 | 一种表单映射方法、装置、计算机设备和存储介质 |
WO2021196934A1 (zh) * | 2020-04-02 | 2021-10-07 | 深圳壹账通智能科技有限公司 | 一种基于字段相似度计算的问题推荐方法、装置和服务器 |
CN112035480A (zh) * | 2020-08-31 | 2020-12-04 | 中国平安财产保险股份有限公司 | 数据表管理方法、装置、设备及存储介质 |
CN112256698A (zh) * | 2020-10-16 | 2021-01-22 | 美林数据技术股份有限公司 | 一种基于多哈希函数的表关系自动关联方法 |
CN112464640A (zh) * | 2020-10-22 | 2021-03-09 | 浙江大华技术股份有限公司 | 数据要素分析方法、装置、电子装置和存储介质 |
CN112347320A (zh) * | 2020-11-05 | 2021-02-09 | 杭州数梦工场科技有限公司 | 数据表字段的关联字段推荐方法及装置 |
CN113268485A (zh) * | 2021-06-02 | 2021-08-17 | 电信科学技术第十研究所有限公司 | 数据表关联分析方法、装置、设备及存储介质 |
CN113434482A (zh) * | 2021-06-28 | 2021-09-24 | 平安国际智慧城市科技股份有限公司 | 数据迁移方法、装置、计算机设备及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115470198A (zh) * | 2022-08-11 | 2022-12-13 | 北京百度网讯科技有限公司 | 数据库的信息处理方法、装置、电子设备及存储介质 |
CN115470198B (zh) * | 2022-08-11 | 2023-09-22 | 北京百度网讯科技有限公司 | 数据库的信息处理方法、装置、电子设备及存储介质 |
CN117933206A (zh) * | 2024-03-14 | 2024-04-26 | 武汉数澜科技有限公司 | 业务数据处理方法、装置、设备、存储介质及程序产品 |
CN117933206B (zh) * | 2024-03-14 | 2024-06-25 | 武汉数澜科技有限公司 | 业务数据处理方法、装置、设备、存储介质及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522312B (zh) | 一种数据处理方法、装置、服务器和存储介质 | |
US7886028B2 (en) | Method and system for system migration | |
US11119764B2 (en) | Automated editing task modification | |
US11403347B2 (en) | Automated master data classification and curation using machine learning | |
CN114385623A (zh) | 数据表获取方法、设备、装置、存储介质及程序产品 | |
Gröger et al. | A mobile dashboard for analytics-based information provisioning on the shop floor | |
KR20200046769A (ko) | 보고서 자동 생성 기반의 업무 프로세스 관리 시스템 제공 방법 | |
US20140025411A1 (en) | Automatic configuration of process definition metrics | |
KR102339897B1 (ko) | 보고서 자동 생성 기반의 업무 프로세스 관리 시스템 제공 방법 | |
US20240104009A9 (en) | Generating test data for application performance | |
CN111966335A (zh) | 平台创建方法及装置 | |
US11237951B1 (en) | Generating test data for application performance | |
CN112464625B (zh) | 单据生成方法、装置、计算机设备和存储介质 | |
US11074533B1 (en) | System and method for creating an optimized actionable interface for data access and visualization | |
JPWO2014061229A1 (ja) | 情報システム構築支援装置、情報システム構築支援方法および情報システム構築支援プログラム | |
JPWO2014054230A1 (ja) | 情報システム構築装置、情報システム構築方法および情報システム構築プログラム | |
US11880390B2 (en) | Cognitive impromptu interaction assistant | |
US20190347586A1 (en) | Platform for evaluating and recommending process automations | |
US11017874B2 (en) | Data and memory reorganization | |
CN115221337A (zh) | 数据编织处理方法、装置、电子设备及可读存储介质 | |
KR102547033B1 (ko) | 키워드 인식 기능을 활용하여 사용자가 선택한 방식으로 정보를 제공하는 방법 | |
CN116401704A (zh) | 敏感数据识别方法、电子设备及存储介质 | |
US20230004727A1 (en) | Task-action prediction engine for a task management system | |
KR102436586B1 (ko) | 광고 캠페인에 관한 협업을 지원하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 | |
CN114490644A (zh) | 数据存储方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |