CN118035180A - 元数据补全方法及装置 - Google Patents
元数据补全方法及装置 Download PDFInfo
- Publication number
- CN118035180A CN118035180A CN202410159090.2A CN202410159090A CN118035180A CN 118035180 A CN118035180 A CN 118035180A CN 202410159090 A CN202410159090 A CN 202410159090A CN 118035180 A CN118035180 A CN 118035180A
- Authority
- CN
- China
- Prior art keywords
- metadata
- model
- samples
- file
- complementing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000000295 complement effect Effects 0.000 claims abstract description 29
- 238000010801 machine learning Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 19
- 230000015654 memory Effects 0.000 claims description 27
- 238000011156 evaluation Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 4
- 230000000737 periodic effect Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 3
- 238000013523 data management Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 241001178520 Stomatepia mongo Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004138 cluster model Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/162—Delete operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种元数据补全方法及装置,所述方法包括:获取待补全的元数据文件;将所述元数据文件,输入预训练的元数据补全模型,以使所述元数据补全模型针对所述元数据文件进行补全;其中,所述元数据补全模型包括针对若干预处理的元数据样本进行训练得到的机器学习模型。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种元数据补全方法及装置。
背景技术
在当今大数据时代,各种形式的数据正在以爆炸式增长的趋势呈现。然而,许多数据存在着缺失元数据的问题,元数据即描述数据内容、质量、格式、来源和使用方法等信息的数据。缺失元数据会给数据管理和分析带来很大的困难,影响数据的有效性和可用性,从而可能导致错误的决策。
目前,大多数数据库管理员需要手动完成元数据的维护和补全,这既费时又费力,同时也存在着人为错误的问题。
发明内容
本申请提供一种元数据补全方法,所述方法包括:
获取待补全的元数据文件;
将所述元数据文件,输入预训练的元数据补全模型,以使所述元数据补全模型针对所述元数据文件进行补全;
其中,所述元数据补全模型包括针对若干预处理的元数据样本进行训练得到的机器学习模型。
可选的,所述方法还包括:
获取包含若干元数据样本的数据集;
将所述数据集输入元数据补全模型进行无监督训练,以使所述元数据补全模型提取所述数据集中元数据样本的样本特征,并将所述样本特征进行聚类;
针对聚类结果进行评估,并根据评估结果调整所述元数据补全模型的模型参数。
可选的,所述数据集包括完整的元数据样本以及缺失的元数据样本,所述方法还包括:
针对所述缺失的元数据样本中缺失的元数据进行补全,和/或,删除所述缺失的元数据样本。
可选的,所述方法还包括:
连接目标数据库,周期性的获取所述目标数据库的元数据文件;
确定所述目标数据库的元数据文件是否完整;
如果所述目标数据库的元数据文件不完整,将所述元数据文件,输入预训练的元数据补全模型,以使所述元数据补全模型针对所述元数据文件进行补全。
本申请提供一种元数据补全装置,所述装置包括:
元数据获取单元,用于获取待补全的元数据文件;
元数据补全单元,用于将所述元数据文件,输入预训练的元数据补全模型,以使所述元数据补全模型针对所述元数据文件进行补全;
其中,所述元数据补全模型包括针对若干预处理的元数据样本进行训练得到的机器学习模型。
可选的,所述装置还包括:
模型训练单元,用于获取包含若干元数据样本的数据集;
将所述数据集输入元数据补全模型进行无监督训练,以使所述元数据补全模型提取所述数据集中元数据样本的样本特征,并将所述样本特征进行聚类;
针对聚类结果进行评估,并根据评估结果调整所述元数据补全模型的模型参数。
可选的,所述数据集包括完整的元数据样本以及缺失的元数据样本,所述装置还包括:
样本预处理单元,用于针对所述缺失的元数据样本中缺失的元数据进行补全,和/或,删除所述缺失的元数据样本。
可选的,所述装置还包括:
周期性补全单元,用于连接目标数据库,周期性的获取所述目标数据库的元数据文件;
确定所述目标数据库的元数据文件是否完整;
如果所述目标数据库的元数据文件不完整,将所述元数据文件,输入预训练的元数据补全模型,以使所述元数据补全模型针对所述元数据文件进行补全。
本申请还提供一种电子设备,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;
所述存储器中存储机器可读指令,所述处理器通过调用所述机器可读指令,执行上述方法。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,实现上述方法。
在以上实施例记载的方案中,利用机器学习模型,将元数据文件输入到预训练的机器学习模型中进行补全。所述机器学习模型能够根据已有的样本数据,自动推断和补全所述元数据文件中缺失的元数据信息。通过这种自动化的方式,可以节省时间和精力,同时降低人为错误的风险,提高数据库元数据的完备率,进而可以提升数据管理和分析的效率和准确性。
附图说明
图1是一示例性实施例提供的一种元数据补全方法的流程示意图。
图2是一示例性的实施例提供的一种元数据补全装置所在电子设备的硬件结构图。
图3是一示例性的实施例提供的一种元数据补全装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
请参见图1,图1是一示例性实施例提供的一种元数据补全方法的流程示意图。所述方法可以包括以下步骤:
步骤102,获取待补全的元数据文件。
在本说明书中,元数据文件是包含描述数据的数据的文件。所述元数据文件可以提供关于数据的信息,例如数据的结构、格式、内容、来源、质量、使用方法等。
获取元数据文件的具体方式,在本说明书中不做具体限定。例如,许多数据库系统都提供了用于获取元数据信息的接口或命令。通过这些接口,可以查询数据库中的表、列、索引、约束等结构信息,获取其元数据文件。又例如,数据集成工具可以帮助收集和整合多个数据源的元数据信息。这些工具可以扫描数据源,提取相关的元数据,并生成相应的元数据文件。又例如,某些数据源(如API、文件系统)可能提供了获取元数据的接口。通过调用这些接口,可以获取数据源中的元数据信息。
步骤104;将所述元数据文件,输入预训练的元数据补全模型,以使所述元数据补全模型针对所述元数据文件进行补全;其中,所述元数据补全模型包括针对若干预处理的元数据样本进行训练得到的机器学习模型。
元数据补全是指在已有的数据集中,对其中缺失或不完整的元数据进行补充和完善。在实际应用中,由于数据来源的多样性和数据采集的不完备性,元数据文件中可能存在一些元数据缺失或不完整的情况。这些缺失或不完整的元数据会影响数据的可用性和价值,因此需要进行补全。
在本说明书中,可以将所述元数据文件,输入预训练的元数据补全模型,以使所述元数据补全模型针对所述元数据文件进行补全。
其中,所述元数据补全模型具体可以是基于机器学习算法建立的模型。所述机器学习算法具体可以是线性回归、决策树、随机森林、支持向量机、神经网络等等,在本说明书中不做具体限定。
在进行机器学习之前,需要获取包含若干元数据的数据集,并针对该数据集进行预处理。所述预处理具体可以包括针对数据集中不完整的元数据进行补全等等。
进一步可以针对所述数据集进行特征提取,提取所述数据集中的数据特征。这可能包括数据清洗、特征选择、特征变换等步骤,以确保输入模型的特征能够更好地表示元数据的特点。
然后可以将所述数据集输入所述机器学习中进行训练,训练完成后,可以对训练好的模型进行评估,评估指标可以包括均方误差(MSE)、平均绝对误差(MAE)等。评估结果可以帮助判断模型的性能和泛化能力。
进一步可以根据评估结果和实际需求,对模型进行优化和调参,以提高模型的性能和准确度。
当模型训练完成后,可以使用训练好的模型对缺失或不完整的元数据进行预测和补全。将待补全的数据作为输入,模型会输出预测的元数据值。
在一种实施方式中,可以获取包含若干元数据样本的数据集,并通过无监督的方式进行训练。由所述机器学习模型提取所述数据集中元数据样本的样本特征,并将所述样本特征进行聚类。进一步可以针对聚类结果进行评估,并根据评估结果调整所述元数据补全模型的模型参数。
获取包含若干元数据样本的数据集的具体方式可以根据实际情况和需求进行选择。例如,可以从数据库系统中提取包含元数据的样本数据。可以通过执行查询语句或使用数据库工具来获取所需的元数据样本。又例如,对文件系统进行扫描,提取包含元数据的文件样本。可以使用文件系统的API或者专门的文件管理工具来遍历文件系统并获取元数据信息。又例如,可以使用专门的数据采集工具来获取元数据样本。这些工具可以根据配置或规则自动抓取目标数据源中的元数据,并将其保存为数据集。
所述机器学习模型提取所述数据集中元数据样本的样本特征的具体方式,在本说明书中不做具体限定。具体的特征提取方法可以根据实际需求和数据特点选择,例如可以使用统计特征(如平均值、方差)、文本特征(如词频、TF-IDF)等等。
如果数据集中的特征较多,可以使用特征选择技术来减少特征的维度。常见的特征选择方法包括方差选择、相关性分析、正则化等,目的是选择最具代表性和重要性的特征。
进一步可以根据实际需求选择选择适当的聚类算法。常见的聚类算法包括K-means、层次聚类、DBSCAN等。不同的算法有不同的适用场景和特点,需要根据数据集的大小、特征的性质以及聚类结果的要求来选择合适的算法。
将提取到的样本特征输入到所述所选的聚类算法中,进行模型训练。聚类算法会根据样本间的相似性将它们分为不同的簇群。
对聚类结果进行评估,可以使用内部指标(如轮廓系数、Davies-Bouldin指数)或外部指标(如兰德指数、互信息)来评估聚类的效果。评估结果可以帮助确定聚类模型的质量和适用性,并一步调整所述机器学习模型的模型参数。
在一种实施方式中,所述数据集可以包括完整的元数据样本以及缺失的元数据样本。
针对完整的元数据样本,可以不做处理,直接用于训练。针对不完整的数据样本,需要进行预处理。
如果缺失的元数据样本中,数据缺失的比例较小且对整体数据集影响不大,可以选择删除含有缺失值的样本。这种方法适用于数据集规模较大,数据缺失比例较小的情况。
反之,可以针对所述缺失的元数据样本中缺失的元数据进行补全。
例如,可以使用均值、中位数或众数来填充缺失值。除此之外,也可以使用插值法填充缺失值。插值法是通过已知的数据点来预测缺失值。常见的插值方法包括线性插值、多项式插值、样条插值等。这些方法可以基于时间序列、空间关系或其他相关属性进行插值。
也可以使用回归模型来预测缺失值。可以根据已有的特征和目标变量,建立回归模型,并利用该模型来预测缺失值。这种方法适用于缺失值与其他特征之间存在相关性的情况。
在一种实施方式中,可以将所述元数据补全方法应用于数据库,周期性的检查元数据是否完整,并自动补全。
在实际应用中,可以确定要连接和获取元数据的目标数据库。这可以是关系型数据库(如MySQL、Oracle)、文档数据库(如MongoDB)、列式数据库(如HBase)或其他类型的数据库。
根据目标数据库的类型和配置要求,设置连接所需的参数,如主机名、端口号、用户名、密码等。使用适当的数据库连接库或驱动程序来建立与数据库的连接。
使用配置好的连接参数,通过编程语言提供的数据库连接接口或工具,建立与目标数据库的连接。确保连接的可靠性和安全性。
进一步可以根据需要获取的元数据信息,编写相应的查询语句。查询语句的具体内容取决于目标数据库的结构和支持的查询语言(如SQL)。
使用建立的数据库连接,执行编写的查询语句,从目标数据库中检索所需的元数据信息。可以通过执行单个查询语句或多个查询语句的组合来获取完整的元数据。
从查询结果中提取所需的元数据信息,并进行必要的处理和转换。根据需求,可以将元数据保存到本地文件系统、其他数据库、数据仓库或云存储等位置。
根据需要,设置周期性任务来定期执行上述步骤。可以使用计划任务(如Cron)或调度工具(如Airflow)来自动化任务的执行。
在获取元数据文件后,可以确定元数据文件中的元数据是否完整。
在实际应用中,可以检查元数据文件的结构是否符合预期。确保文件中包含所需的字段和信息,并且没有缺失或异常的部分。比较文件结构与预定义的元数据模型或规范,确保其一致性。
对于每个字段,检查其是否存在缺失值或异常值。确保每个字段都有有效的值,并且没有未填充的空白或占位符。可以使用统计方法、数据质量工具或编程语言的函数来进行检查。
检查元数据文件中的字段数据类型是否符合预期。确保每个字段的数据类型与预定义的元数据模型或规范一致。例如,日期字段应该是日期类型,数值字段应该是数值类型等。
对于需要唯一性的字段(如主键),检查其是否满足唯一性约束。确保没有重复的值存在于这些字段中,以避免数据冗余或错误。
如果元数据文件中存在关联或引用其他数据集或表的字段,还可以检查这些字段的参照完整性。确保引用的数据集或表存在,并且关联字段的值与被引用字段的值一致。
如果所述元数据文件不完整,可以将所述元数据文件,输入预训练的元数据补全模型,以使所述元数据补全模型针对所述元数据文件进行补全。
在以上实施例记载的方案中,利用机器学习模型,将元数据文件输入到预训练的机器学习模型中进行补全。所述机器学习模型能够根据已有的样本数据,自动推断和补全所述元数据文件中缺失的元数据信息。通过这种自动化的方式,可以节省时间和精力,同时降低人为错误的风险,提高数据库元数据的完备率,进而可以提升数据管理和分析的效率和准确性。
上述元数据补全方法的实施例对应的,本说明书还提供了元数据补全装置的实施例。
请参见图2,图2是一示例性的实施例示出的一种代码异常检测装置所在电子设备的硬件结构图。在硬件层面,该设备包括处理器202、内部总线204、网络接口206、内存208以及非易失性存储器210,当然还可能包括其他业务所需要的硬件。本说明书一个或多个实施例可以基于软件方式来实现,比如由处理器202从非易失性存储器210中读取对应的计算机程序到内存208中然后运行。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参见图3,图3是一示例性的实施例示出的一种元数据补全装置的框图。元数据补全装置可以应用于图2所示的电子设备中,以实现本说明书的技术方案。其中,上述元数据补全装置可以包括:
元数据获取单元302,用于获取待补全的元数据文件;
元数据补全单元304,用于将所述元数据文件,输入预训练的元数据补全模型,以使所述元数据补全模型针对所述元数据文件进行补全;
其中,所述元数据补全模型包括针对若干预处理的元数据样本进行训练得到的机器学习模型。
在本实施例中,所述装置还包括:
模型训练单元,用于获取包含若干元数据样本的数据集;
将所述数据集输入元数据补全模型进行无监督训练,以使所述元数据补全模型提取所述数据集中元数据样本的样本特征,并将所述样本特征进行聚类;
针对聚类结果进行评估,并根据评估结果调整所述元数据补全模型的模型参数。
在本实施例中,所述数据集包括完整的元数据样本以及缺失的元数据样本,所述装置还包括:
样本预处理单元,用于针对所述缺失的元数据样本中缺失的元数据进行补全,和/或,删除所述缺失的元数据样本。
在本实施例中,所述装置还包括:
周期性补全单元,用于连接目标数据库,周期性的获取所述目标数据库的元数据文件;
确定所述目标数据库的元数据文件是否完整;
如果所述目标数据库的元数据文件不完整,将所述元数据文件,输入预训练的元数据补全模型,以使所述元数据补全模型针对所述元数据文件进行补全。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例只是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本说明书所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
本说明书还提供了一种计算机可读存储介质的实施例。所述计算机可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,可以实现本说明书中任意一个实施例提供的所述元数据补全方法。
本说明书实施例提供的计算机可读存储介质具体可以包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存储器)、EPROM(Erasable Programmable Read-OnlyMemory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable ProgrammableRead-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光纤卡片。也就是,可读存储介质包括可以存储或传输信息的可读介质。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
在一个典型的配置中,计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。
Claims (10)
1.一种元数据补全方法,所述方法包括:
获取待补全的元数据文件;
将所述元数据文件,输入预训练的元数据补全模型,以使所述元数据补全模型针对所述元数据文件进行补全;
其中,所述元数据补全模型包括针对若干预处理的元数据样本进行训练得到的机器学习模型。
2.根据权利要求1所述的方法,所述方法还包括:
获取包含若干元数据样本的数据集;
将所述数据集输入元数据补全模型进行无监督训练,以使所述元数据补全模型提取所述数据集中元数据样本的样本特征,并将所述样本特征进行聚类;
针对聚类结果进行评估,并根据评估结果调整所述元数据补全模型的模型参数。
3.根据权利要求2所述的方法,所述数据集包括完整的元数据样本以及缺失的元数据样本,所述方法还包括:
针对所述缺失的元数据样本中缺失的元数据进行补全,和/或,删除所述缺失的元数据样本。
4.根据权利要求1所述的方法,所述方法还包括:
连接目标数据库,周期性的获取所述目标数据库的元数据文件;
确定所述目标数据库的元数据文件是否完整;
如果所述目标数据库的元数据文件不完整,将所述元数据文件,输入预训练的元数据补全模型,以使所述元数据补全模型针对所述元数据文件进行补全。
5.一种元数据补全装置,所述装置包括:
元数据获取单元,用于获取待补全的元数据文件;
元数据补全单元,用于将所述元数据文件,输入预训练的元数据补全模型,以使所述元数据补全模型针对所述元数据文件进行补全;
其中,所述元数据补全模型包括针对若干预处理的元数据样本进行训练得到的机器学习模型。
6.根据权利要求5所述的装置,所述装置还包括:
模型训练单元,用于获取包含若干元数据样本的数据集;
将所述数据集输入元数据补全模型进行无监督训练,以使所述元数据补全模型提取所述数据集中元数据样本的样本特征,并将所述样本特征进行聚类;
针对聚类结果进行评估,并根据评估结果调整所述元数据补全模型的模型参数。
7.根据权利要求6所述的装置,所述数据集包括完整的元数据样本以及缺失的元数据样本,所述装置还包括:
样本预处理单元,用于针对所述缺失的元数据样本中缺失的元数据进行补全,和/或,删除所述缺失的元数据样本。
8.根据权利要求5所述的装置,所述装置还包括:
周期性补全单元,用于连接目标数据库,周期性的获取所述目标数据库的元数据文件;
确定所述目标数据库的元数据文件是否完整;
如果所述目标数据库的元数据文件不完整,将所述元数据文件,输入预训练的元数据补全模型,以使所述元数据补全模型针对所述元数据文件进行补全。
9.一种电子设备,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;
所述存储器中存储机器可读指令,所述处理器通过调用所述机器可读指令,执行权利要求1-4任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,实现权利要求1-4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410159090.2A CN118035180A (zh) | 2024-02-04 | 2024-02-04 | 元数据补全方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410159090.2A CN118035180A (zh) | 2024-02-04 | 2024-02-04 | 元数据补全方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118035180A true CN118035180A (zh) | 2024-05-14 |
Family
ID=90997752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410159090.2A Pending CN118035180A (zh) | 2024-02-04 | 2024-02-04 | 元数据补全方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118035180A (zh) |
-
2024
- 2024-02-04 CN CN202410159090.2A patent/CN118035180A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10685044B2 (en) | Identification and management system for log entries | |
CN110163261B (zh) | 不平衡数据分类模型训练方法、装置、设备及存储介质 | |
CA3088899C (en) | Systems and methods for preparing data for use by machine learning algorithms | |
US10482174B1 (en) | Systems and methods for identifying form fields | |
CN110457302B (zh) | 一种结构化数据智能清洗方法 | |
US11157816B2 (en) | Systems and methods for selecting and generating log parsers using neural networks | |
CN109634924B (zh) | 基于机器学习的文件系统参数自动调优方法及系统 | |
US11416531B2 (en) | Systems and methods for parsing log files using classification and a plurality of neural networks | |
US20180113928A1 (en) | Multiple record linkage algorithm selector | |
CN111612041A (zh) | 异常用户识别方法及装置、存储介质、电子设备 | |
CN112527970B (zh) | 数据字典标准化处理方法、装置、设备及存储介质 | |
CN112016318B (zh) | 基于解释模型的分诊信息推荐方法、装置、设备及介质 | |
US20220229854A1 (en) | Constructing ground truth when classifying data | |
Karrar | The effect of using data pre-processing by imputations in handling missing values | |
US11922289B1 (en) | Machine learning-based systems and methods for on-demand generation of anonymized and privacy-enabled synthetic datasets | |
CN112070550A (zh) | 基于搜索平台的关键词确定方法、装置、设备及存储介质 | |
Satish et al. | Big data processing with harnessing hadoop-MapReduce for optimizing analytical workloads | |
CN110083731B (zh) | 图像检索方法、装置、计算机设备及存储介质 | |
CN117951118B (zh) | 岩土工程勘察大数据归档方法及系统 | |
US11755671B2 (en) | Projecting queries into a content item embedding space | |
CN118035180A (zh) | 元数据补全方法及装置 | |
CN117077680A (zh) | 问答意图识别方法及装置 | |
CN114881761A (zh) | 相似样本的确定方法与授信额度的确定方法 | |
US11775757B2 (en) | Automated machine-learning dataset preparation | |
US20240231678A9 (en) | Automated data archival framework using artificial intelligence techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |