CN112434009A - 端到端的数据探查方法、装置、计算机设备和存储介质 - Google Patents
端到端的数据探查方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112434009A CN112434009A CN202011298500.XA CN202011298500A CN112434009A CN 112434009 A CN112434009 A CN 112434009A CN 202011298500 A CN202011298500 A CN 202011298500A CN 112434009 A CN112434009 A CN 112434009A
- Authority
- CN
- China
- Prior art keywords
- data
- exploration
- index
- probing
- dimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 238000005070 sampling Methods 0.000 claims abstract description 36
- 238000004458 analytical method Methods 0.000 claims abstract description 30
- 230000000007 visual effect Effects 0.000 claims abstract description 6
- 238000004590 computer program Methods 0.000 claims description 11
- 230000002159 abnormal effect Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 238000007405 data analysis Methods 0.000 claims description 6
- 238000000638 solvent extraction Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000011157 data evaluation Methods 0.000 abstract description 5
- 239000000523 sample Substances 0.000 description 25
- 238000004891 communication Methods 0.000 description 9
- 230000005856 abnormality Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013523 data management Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000009545 invasion Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000004141 dimensional analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种端到端的数据探查方法、装置、计算机设备和存储介质,该方法容器化部署于计算机设备,包括:基于数据探查指令获取采样数据;确定所述采样数据对应的探查配置信息,所述探查配置信息包括多个数据探查维度;基于多个所述数据探查维度对所述采样数据进行多维度探查分析,得到多维度探查指标;所述多维度探查指标包括:数据量指标、表复杂度指标、表质量指标和表价值指标;根据预设模板将所述多维度探查指标进行可视化显示。通过本申请,能够从多个维度表征业务数据,充分反映业务数据的特点,从而为下一环节的数据评估和利用提供有效的支撑。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种端到端的数据探查方法、装置、计算机设备和存储介质。
背景技术
数据探查是通过对数据集的查询和分析来达到了解数据特征和数据质量的目的,数据探查是数据治理领域的一个重要环节,可以给数据治理的后续步骤提供有力支撑。数据探查能更多、更好地了解数据,发现源数据情况和问题,从而为下一环节的数据评估和利用提供有效的支撑。
现有的数据探查方法主要针对数据整体或表面特征进行探查,通过编写统计代码或者配置规则的方式实现,无法充分反应数据各个维度的指标信息,对数据的分析不够全面,不能够充分理解数据,难以准确反应数据特征。此外,数据探查方法在实际应用时,需要修改配置参数进行适配运行环境,对现场异种环境的系统依赖性大。
发明内容
本申请实施例提供了一种端到端的数据探查方法、装置、计算机设备和存储介质,以至少解决相关技术中数据分析不全面的问题。
第一方面,本申请实施例提供了一种端到端的数据探查方法,所述端到端的数据探查方法容器化部署于计算机设备,包括以下步骤:
基于数据探查指令获取采样数据;
确定所述采样数据对应的探查配置信息,所述探查配置信息包括多个数据探查维度;
基于多个所述数据探查维度对所述采样数据进行多维度探查分析,得到多维度探查指标;所述多维度探查指标包括:数据量指标、表复杂度指标、表质量指标和表价值指标;
根据预设模板将所述多维度探查指标进行可视化显示。
在其中一些实施例中,所述数据探查指令包括:
数据源连接配置、数据预览和数据分析。
在其中一些实施例中,所述数据探查维度包括:数据量维度、表复杂度维度、表质量维度和表价值维度,则
所述数据量指标包括:表记录数和表字段数;
所述表复杂度指标包括:表主题域和表关联关系;
所述表质量指标包括:表要素异常率、码值完整性和业务字段完整性;
所述表价值指标包括:实时性、数据轨迹和数据关联。
在其中一些实施例中,通过以下步骤进行表主题域划分或表要素异常率识别分析:
获取所述采样数据对应的数据表;
将所述数据表中的元数据与标准值进行规则匹配,得到匹配结果;
根据所述匹配结果统计匹配率,以根据所述匹配率进行表主题域划分或表要素异常率识别。
在其中一些实施例中,通过以下步骤进行表主题域划分或表要素异常率识别分析:
获取所述采样数据对应的数据表;
获取所述数据表中的元数据的隐语义信息,以根据所述隐语义信息进行表主题域划分或表要素异常率识别。
在其中一些实施例中,获取所述数据表中的元数据的隐语义信息,以根据所述隐语义信息进行表主题域划分或表要素异常率识别包括:
对所述数据表中的元数据进行样本标注,得到样本数据;
基于所述样本数据在预训练模型上进行训练,得到优化模型;
基于所述优化模型获取对应的隐语义信息。
在其中一些实施例中,基于多个所述数据探查维度对所述采样数据进行多维度探查分析,得到多维度探查指标之后,还包括:
将所述采样数据和多维度探查指标分层解耦存储至不同的数据库中。
第二方面,本申请实施例提供了一种端到端的数据探查装置,容器化部署于计算机设备,包括:
数据获取单元,用于基于数据探查指令获取采样数据;
探查配置信息确定单元,用于确定所述采样数据对应的探查配置信息,所述探查配置信息包括多个数据探查维度;
探查指标获取单元,用于基于多个所述数据探查维度对所述采样数据进行多维度探查分析,得到多维度探查指标;所述多维度探查指标包括:数据量指标、表复杂度指标、表质量指标和表价值指标;
显示单元,用于根据预设模板将所述多维度探查指标进行可视化显示。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的端到端的数据探查方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的端到端的数据探查方法。
相比于相关技术,本申请实施例提供的端到端的数据探查方法,通过基于多个数据探查维度对采样数据进行多维度探查分析,得到数据量指标、表复杂度指标、表质量指标和表价值指标等多维度探查指标,能够从多个维度表征业务数据,充分反映业务数据的特点,更多、更好的发现源数据情况和问题,在表现力上更显优势,从而为下一环节的数据评估和利用提供有效的支撑。此外,通过将其容器化部署于计算机设备,可以应用于数据治理中,也可单独使用,在实际业务环境中可以方便地部署至任何现场,从而实现对业务系统入侵小、轻量级的端到端探查,不会产生异种环境中的版本依赖的问题。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请其中一个实施例中端到端的数据探查方法的流程示意图;
图2是本申请其中一个优选实施例中端到端的数据探查方法的流程示意图;
图3是本申请其中一个实施例中端到端的数据探查装置的结构框图;
图4是本申请其中一个实施例中计算机设备的结构示意图。
附图说明:301、数据获取单元;302、探查配置信息确定单元;303、探查指标获取单元;304、显示单元;40、总线;41、处理器;42、存储器;43、通信接口。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
随着社会信息化和智能化水平的提高,数据呈现海量化、井喷式爆发式增长,科技创新也越来越依赖于科学的数据综合分析。在大数据时代,大数据真正的意义在于数据分析,即从繁多的数据中找出洞见,并将其应用于实际决策中,让大数据更有价值。
随着大数据的发展,对数据的理解在很大程度上影响到后续的数据处理步骤,而对数据进行数据探查就是理解数据的最有效方式。数据探查通过对数据集的查询和分析来达到了解数据特征和数据质量的目的,对于提高数据质量是非常重要的一个环节。对于企业来说,只有持续的数据质量改进才能推动数据治理体系的完善,为企业数据战略提供坚实的保障。
本实施例提供了一种端到端的数据探查方法。图1是根据本申请实施例的端到端的数据探查方法的流程图,可由计算机设备来执行,如图1所示,该流程包括如下步骤:
步骤S101,基于数据探查指令获取采样数据。
在本实施例中,所述计算机设备可以是手机、PDA、个人计算机、智能家居设备、工作站等,所述计算机设备安装有用以提供所述数据探查方法的应用程序,所述应用程序可以容器化部署于所述计算机设备,以实现对计算机设备中业务系统的数据探查。其中,容器化部署可采用现有的部署方式,其消除了线下开发与线上应用现场的环境差异,无需在与生产环境不同的设备上构建和测试应用程序,不会产生依赖版本的问题。由于容器有自己的文件系统,与计算机设备中的业务系统之间相互隔离,即插即用,可以在实现端到端探查的同时和保证了数据的安全。
其中,所述数据探查指令包括但不限于针对待探查数据的数据源连接信息配置、数据预览、数据分析(单表分析、多表分析、整库分析等)、主题探查等等。
通过解析所述探查指令可以获取对应的采样数据。可选地,考虑到数据的多样性,所述采样数据可以是根据探查指令确定的多源异构的各种数据的集合。其中,多源是指数据的来源可以是多样的,如可以从互联网、物联网或目标数据库(如Oracle、Sql Server、MySQL、Informix、DB2)等多个数据源中获取数据。异构是指数据的属性、维度、格式可以不同。可选地,所述采样数据可以是所述待探查数据的整体或部分,本申请不做具体限定。
步骤S102,确定所述采样数据对应的探查配置信息,所述探查配置信息包括多个数据探查维度;
步骤S103,基于多个所述数据探查维度对所述采样数据进行多维度探查分析,得到多维度探查指标;所述多维度探查指标包括:数据量指标、表复杂度指标、表质量指标和表价值指标。
在本实施例中,可以预先配置探查分析的多个数据探查维度。当获取到采样数据后,基于预设的探查配置信息获取探查分析的多个输出维度,以对其进行多维度的分析探查,从多个维度刻画所述采样数据,得到多维度探查指标。多维度进行探查分析可以有效地定位数据各个层面的数据信息,能够更好地理解数据,为后续的数据利用提供良好的数据基础。
当然,本实施例中多维度探查指标并不限于上述几种,还可以包括数据粒度指标、时间指标、数据敏感度指标等等,可根据业务需求进行自定义设置。
步骤S104,根据预设模板将所述多维度探查指标进行可视化显示。
在本实施例中,分析报告是整个数据探查过程的主要结果产出,在不需要进行前后端开发的前提下,当获取到所述采样数据的多维度探查指标后,将探查分析结果填充进预设的模板,对所述多维度探查指标进行可视化显示,得到探查报告和探查明细数据,实现端到端的数据探查。其中,所述预设模板例如可以预设图表类型(如柱状图、折线图、散点图等)、预设显示维度等。可选地,可以利用开源的可视化工具如Superset工具进行数据可视化显示,Superset有丰富的可视化方法来分析数据,且具有灵活的扩展能力。通过Superset可以快速、便捷的连接Presto进行灵活的数据建模,并创建丰富的可视化图表。
综上,相比于相关技术,本申请实施例提供的端到端的数据探查方法,通过基于多个数据探查维度对采样数据进行多维度探查分析,得到数据量指标、表复杂度指标、表质量指标和表价值指标等多维度探查指标,能够从多个维度表征业务数据,充分反映业务数据的特点,更多、更好的发现源数据情况和问题,在表现力上更显优势,从而为下一环节的数据评估和利用提供有效的支撑。此外,通过将其容器化部署于计算机设备,可以应用于数据治理中,也可单独使用,在实际业务环境中可以方便地部署至任何现场,从而实现对业务系统入侵小、轻量级的端到端探查,不会产生异种环境中的版本依赖的问题。
下面通过优选实施例对本申请实施例进行描述和说明。
在上述实施例的基础上,在其中一些实施例中,所述数据探查维度包括:数据量维度、表复杂度维度、表质量维度和表价值维度。
其中,数据量体现业务量、对后续业务理解和处理进程会产生较大的影响,对应的,所述数据量指标包括:表记录数、表字段数等,进一步的,所述数据量指标还可以包括表记录、表字段对应的字节数,以及表注释量、字段注释量等等。
当数据库的应用时间越久,数据库表的复杂度就越高,所述表复杂度指标包括表主题域等表类别划分、码表识别、表关联关系(即不同数据库表中的数据关联结构)识别等等。
所述表质量指标包括:表要素异常率、码值完整性和业务字段完整性等等。其中,所述表要素异常包括但不限于身份证号异常、手机号异常、车牌号异常或mac异常,所述完整性包括是否为空、是否唯一或是否满足预设约束条件等等。
所述表价值指标包括:实时性、数据轨迹识别、数据关联识别等。其中,所述实时性可通过获取数据采集速度和响应速度来获取,实时性关系到后续不同表之间的数据同步、迁移或实时分析计算等等。所述数据轨迹包括数据的关系特征如包括数据范围、数据种类等,数据轨迹可用于标识数据之间的关系,反应数据上下游的路径信息,可用于数据轨迹追溯。所述数据关联是指数据库的表数据结构,包括但不限于人-人等相同实体间或人-手机号等不同实体间的数据关联,通过数据表关联可以降低表数据获取的时间复杂度,提高灵活性。
可以理解,在本实施例中,数据量指标、表复杂度指标、表质量指标和表价值指标还可以包括更多或更少的子指标,实际应用中所述指标包含的各个子指标可以根据实际应用场景进行设定,在此不做任何限定。
在其中一些实施例中,通过以下步骤进行表主题域划分或表要素异常率识别分析:获取所述采样数据对应的数据表;将所述数据表中的元数据与标准值进行规则匹配,并根据所述匹配结果统计匹配率,以根据所述匹配率进行表主题域划分或表要素异常率识别。
在本实施例中,所述主题域通常是联系较为紧密的数据主题的集合,可以根据业务的关注点将元数据主题划分到不同的主题域。通过将所述数据表中的元数据与标准值进行规则匹配,并根据所述匹配结果统计匹配率,从而根据所述匹配率确定对应元数据所属的主题域,进而根据表主题域的复杂度进行表复杂维度指标探测。其中,所述元数据可以是表名、字段名、表注释、字段注释等元信息,所述标准值可以是国家标准、国际标准或行业标准。
在本实施例中,可通过将所述数据表中的元数据与标准值进行规则匹配,并根据所述匹配结果统计匹配率,将匹配率较低的元数据确定为异常元素。
在其中一些实施例中,通过以下步骤进行表主题域划分或表要素异常率识别分析:获取所述采样数据对应的数据表以及所述数据表中的元数据的隐语义信息,以根据所述隐语义信息进行表主题域划分或表要素异常率识别。其中,隐语义指文本由低维空间转换到高维空间,可以利用自然语言处理(NLP)信息提取技术挖掘所述元数据的隐语义信息,NLP在解决文本过短的数据上有较好的效果。
例如:可通过以下步骤获取所述数据表中的元数据的隐语义信息,一根据所述隐语义信息进行表主题域划分或表要素异常率识别:对所述数据表中的元数据进行样本标注,得到样本数据;基于所述样本数据在预训练模型上进行训练,得到优化模型;基于所述优化模型获取对应的隐语义信息。
当然,也可以利用其他Word2vec、Glove、bert等词向量在预设数据集上进行模型训练,利用训练得到的模型进行隐语义信息识别。本申请不做具体限定。
在上述实施例的基础上,在其中一些实施例中,图2是根据本申请实施例的数据探查方法的优选流程图,如图2所示,该数据探查方法的方法包括如下步骤:
步骤S201,基于数据探查指令获取采样数据;
步骤S202,确定所述采样数据对应的探查配置信息,所述探查配置信息包括多个数据探查维度;
步骤S203,基于多个所述数据探查维度对所述采样数据进行多维度探查分析,得到多维度探查指标;所述多维度探查指标包括:数据量指标、表复杂度指标、表质量指标和表价值指标;
步骤S204,将所述采样数据和多维度探查指标分层解耦存储至不同的数据库中;
步骤S205,根据预设模板将所述多维度探查指标进行可视化显示。
在本实施例中,在对所述采样数据进行多维度探查分析,得到多维度探查指标之后,还包括:将所述采样数据和多维度探查指标分层解耦存储至不同的数据库中。具体的,可以将所述采样数据和所述采样数据对应的数据表中的元数据单独存储至第一预设数据库中,以供多次分析探查使用。将多维度探查指标以及其他关键中间数据单独存储至第二预设数据库中,为后续数据处理时的提供数据评估和利用提供有效的支撑。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种端到端的数据探查装置,容器化部署于计算机设备,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本申请实施例的端到端的数据探查装置的结构框图,如图3所示,该装置包括:数据获取单元301、探查配置信息确定单元302、探查指标获取单元303和显示单元304。
数据获取单元301,用于基于数据探查指令获取采样数据;
探查配置信息确定单元302,用于确定所述采样数据对应的探查配置信息,所述探查配置信息包括多个数据探查维度;
探查指标获取单元303,用于基于多个所述数据探查维度对所述采样数据进行多维度探查分析,得到多维度探查指标;所述多维度探查指标包括:数据量指标、表复杂度指标、表质量指标和表价值指标;
显示单元304,用于根据预设模板将所述多维度探查指标进行可视化显示。
在其中一些实施例中,所述数据探查指令包括:
数据源连接配置、数据预览和数据分析。
在其中一些实施例中,所述数据探查维度包括:数据量维度、表复杂度维度、表质量维度和表价值维度,则
所述数据量指标包括:表记录数和表字段数;
所述表复杂度指标包括:表主题域和表关联关系;
所述表质量指标包括:表要素异常率、码值完整性和业务字段完整性;
所述表价值指标包括:实时性、数据轨迹和数据关联。
在其中一些实施例中,探查指标获取单元303,包括:第一数据表获取模块、规则匹配模块和第一探查模块。
第一数据表获取模块,用于获取所述采样数据对应的数据表;
规则匹配模块,用于将所述数据表中的元数据与标准值进行规则匹配,得到匹配结果;
第一探查模块,用于根据所述匹配结果统计匹配率,以根据所述匹配率进行表主题域划分或表要素异常率识别。
在其中一些实施例中,探查指标获取单元303,还包括:第二数据表获取模块和第二探查模块。
第二数据表获取模块,用于获取所述采样数据对应的数据表;
第二探查模块,用于获取所述数据表中的元数据的隐语义信息,以根据所述隐语义信息进行表主题域划分或表要素异常率识别。
在其中一些实施例中,第二探查模块包括:样本标注模块、模型获取模块和探查模块。
样本标注模块,用于对所述数据表中的元数据进行样本标注,得到样本数据;
模型获取模块,用于基于所述样本数据在预训练模型上进行训练,得到优化模型;
探查模块,用于基于所述优化模型获取对应的隐语义信息。
在其中一个实施例中,所述端到端的数据探查装置,还包括:存储单元。
存储单元,用于将所述采样数据和多维度探查指标分层解耦存储至不同的数据库中。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
另外,结合图1描述的本申请实施例端到端的数据探查方法可以由计算机设备来实现。图4为根据本申请实施例的计算机设备的硬件结构示意图。
计算机设备可以包括处理器41以及存储有计算机程序指令的存储器42。
具体地,上述处理器41可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器42可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器42可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器42可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器42可在数据处理装置的内部或外部。在特定实施例中,存储器42是非易失性(Non-Volatile)存储器。在特定实施例中,存储器42包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器42可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器41所执行的可能的计算机程序指令。
处理器41通过读取并执行存储器42中存储的计算机程序指令,以实现上述实施例中的任意一种端到端的数据探查方法。
在其中一些实施例中,计算机设备还可包括通信接口43和总线40。其中,如图4所示,处理器41、存储器42、通信接口43通过总线40连接并完成相互间的通信。
通信接口43用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信接口43还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线40包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线40包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线40可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线40可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该计算机设备可以基于获取到的程序指令,执行本申请实施例中的端到端的数据探查方法,从而实现结合图1描述的端到端的数据探查方法。
另外,结合上述实施例中的端到端的数据探查方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种端到端的数据探查方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种端到端的数据探查方法,其特征在于,所述端到端的数据探查方法容器化部署于计算机设备,包括以下步骤:
基于数据探查指令获取采样数据;
确定所述采样数据对应的探查配置信息,所述探查配置信息包括多个数据探查维度;
基于多个所述数据探查维度对所述采样数据进行多维度探查分析,得到多维度探查指标;所述多维度探查指标包括:数据量指标、表复杂度指标、表质量指标和表价值指标;
根据预设模板将所述多维度探查指标进行可视化显示。
2.根据权利要求1所述的端到端的数据探查方法,其特征在于,所述数据探查指令包括:
数据源连接配置、数据预览和数据分析。
3.根据权利要求1所述的端到端的数据探查方法,其特征在于,所述数据探查维度包括:数据量维度、表复杂度维度、表质量维度和表价值维度,则
所述数据量指标包括:表记录数和表字段数;
所述表复杂度指标包括:表主题域和表关联关系;
所述表质量指标包括:表要素异常率、码值完整性和业务字段完整性;
所述表价值指标包括:实时性、数据轨迹和数据关联。
4.根据权利要求3所述的端到端的数据探查方法,其特征在于,通过以下步骤进行表主题域划分或表要素异常率识别分析:
获取所述采样数据对应的数据表;
将所述数据表中的元数据与标准值进行规则匹配,得到匹配结果;
根据所述匹配结果统计匹配率,以根据所述匹配率进行表主题域划分或表要素异常率识别。
5.根据权利要求3所述的端到端的数据探查方法,其特征在于,通过以下步骤进行表主题域划分或表要素异常率识别分析:
获取所述采样数据对应的数据表;
获取所述数据表中的元数据的隐语义信息,以根据所述隐语义信息进行表主题域划分或表要素异常率识别。
6.根据权利要求5所述的端到端的数据探查方法,其特征在于,获取所述数据表中的元数据的隐语义信息,以根据所述隐语义信息进行表主题域划分或表要素异常率识别包括:
对所述数据表中的元数据进行样本标注,得到样本数据;
基于所述样本数据在预训练模型上进行训练,得到优化模型;
基于所述优化模型获取对应的隐语义信息。
7.根据权利要求1所述的端到端的数据探查方法,其特征在于,基于多个所述数据探查维度对所述采样数据进行多维度探查分析,得到多维度探查指标之后,还包括:
将所述采样数据和多维度探查指标分层解耦存储至不同的数据库中。
8.一种端到端的数据探查装置,容器化部署于计算机设备,其特征在于,包括:
数据获取单元,用于基于数据探查指令获取采样数据;
探查配置信息确定单元,用于确定所述采样数据对应的探查配置信息,所述探查配置信息包括多个数据探查维度;
探查指标获取单元,用于基于多个所述数据探查维度对所述采样数据进行多维度探查分析,得到多维度探查指标;所述多维度探查指标包括:数据量指标、表复杂度指标、表质量指标和表价值指标;
显示单元,用于根据预设模板将所述多维度探查指标进行可视化显示。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的端到端的数据探查方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任一项所述的端到端的数据探查方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011298500.XA CN112434009A (zh) | 2020-11-19 | 2020-11-19 | 端到端的数据探查方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011298500.XA CN112434009A (zh) | 2020-11-19 | 2020-11-19 | 端到端的数据探查方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112434009A true CN112434009A (zh) | 2021-03-02 |
Family
ID=74694294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011298500.XA Pending CN112434009A (zh) | 2020-11-19 | 2020-11-19 | 端到端的数据探查方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434009A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115277491A (zh) * | 2022-06-15 | 2022-11-01 | 中国联合网络通信集团有限公司 | 异常数据的确定方法、装置及计算机可读存储介质 |
CN117648339A (zh) * | 2024-01-29 | 2024-03-05 | 杭州硕磐智能科技有限公司 | 一种数据探查方法、装置、服务器及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109446221A (zh) * | 2018-10-29 | 2019-03-08 | 北京百分点信息科技有限公司 | 一种基于语义分析的交互式数据探查方法 |
CN110442620A (zh) * | 2019-08-05 | 2019-11-12 | 赵玉德 | 一种大数据探索和认知方法、装置、设备以及计算机存储介质 |
CN111078761A (zh) * | 2019-12-27 | 2020-04-28 | 天津幸福生命科技有限公司 | 数据探查方法、装置、设备及存储介质 |
-
2020
- 2020-11-19 CN CN202011298500.XA patent/CN112434009A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109446221A (zh) * | 2018-10-29 | 2019-03-08 | 北京百分点信息科技有限公司 | 一种基于语义分析的交互式数据探查方法 |
CN110442620A (zh) * | 2019-08-05 | 2019-11-12 | 赵玉德 | 一种大数据探索和认知方法、装置、设备以及计算机存储介质 |
CN111078761A (zh) * | 2019-12-27 | 2020-04-28 | 天津幸福生命科技有限公司 | 数据探查方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
王子岚等: "基于隐语义模型的推荐算法研究", 《吉林化工学院学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115277491A (zh) * | 2022-06-15 | 2022-11-01 | 中国联合网络通信集团有限公司 | 异常数据的确定方法、装置及计算机可读存储介质 |
CN115277491B (zh) * | 2022-06-15 | 2023-06-06 | 中国联合网络通信集团有限公司 | 异常数据的确定方法、装置及计算机可读存储介质 |
CN117648339A (zh) * | 2024-01-29 | 2024-03-05 | 杭州硕磐智能科技有限公司 | 一种数据探查方法、装置、服务器及存储介质 |
CN117648339B (zh) * | 2024-01-29 | 2024-05-14 | 杭州硕磐智能科技有限公司 | 一种数据探查方法、装置、服务器及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA3098802C (en) | Systems and methods for generating a contextually and conversationally correct response to a query | |
Alipour et al. | A contextual approach towards more accurate duplicate bug report detection | |
Hindle et al. | A contextual approach towards more accurate duplicate bug report detection and ranking | |
US10146862B2 (en) | Context-based metadata generation and automatic annotation of electronic media in a computer network | |
US11521603B2 (en) | Automatically generating conference minutes | |
US11361030B2 (en) | Positive/negative facet identification in similar documents to search context | |
US10956469B2 (en) | System and method for metadata correlation using natural language processing | |
CN110196834A (zh) | 一种用于数据项、文件、数据库的对标方法和系统 | |
CN111782824A (zh) | 信息查询方法、装置、系统和介质 | |
CN115827895A (zh) | 一种漏洞知识图谱处理方法、装置、设备及介质 | |
CN112434009A (zh) | 端到端的数据探查方法、装置、计算机设备和存储介质 | |
Thomas | Mining unstructured software repositories using ir models | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
US11669556B1 (en) | Method and system for document retrieval and exploration augmented by knowledge graphs | |
US9881078B2 (en) | Providing known distribution patterns associated with specific measures and metrics | |
CN113901169A (zh) | 信息处理方法、装置、电子设备及存储介质 | |
CN116860311A (zh) | 脚本分析方法、装置、计算机设备及存储介质 | |
CN108021595A (zh) | 检验知识库三元组的方法及装置 | |
US9286349B2 (en) | Dynamic search system | |
US10417439B2 (en) | Post-hoc management of datasets | |
US10409871B2 (en) | Apparatus and method for searching information | |
US11068376B2 (en) | Analytics engine selection management | |
Charles et al. | Data Quality Assessment in Europeana: Metrics for Multilinguality. | |
Wu et al. | Design of a computer-based legal information retrieval system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210302 |