CN116541752B - 元数据管理方法、装置、计算机设备及存储介质 - Google Patents
元数据管理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN116541752B CN116541752B CN202310825058.9A CN202310825058A CN116541752B CN 116541752 B CN116541752 B CN 116541752B CN 202310825058 A CN202310825058 A CN 202310825058A CN 116541752 B CN116541752 B CN 116541752B
- Authority
- CN
- China
- Prior art keywords
- metadata
- fields
- training
- data
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007726 management method Methods 0.000 title claims abstract description 65
- 238000004458 analytical method Methods 0.000 claims abstract description 80
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims description 83
- 238000012360 testing method Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 21
- 238000012795 verification Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 4
- 238000013523 data management Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了元数据管理方法、装置、计算机设备及存储介质。所述方法包括:获取待分析元数据;将所述待分析元数据输入至元数据智能分析模型中进行元数据中的关键信息的处理,自动生成对应的元数据标签和注释,以得到分析结果;输出所述分析结果。通过实施本发明实施例的方法可实现智能化、自动化地管理元数据,提高数据管理的效率和精度。
Description
技术领域
本发明涉及数据管理方法,更具体地说是指元数据管理方法、装置、计算机设备及存储介质。
背景技术
在现代信息化时代,数据处理和管理已经成为企业和组织中不可或缺的一部分。而元数据管理作为数据管理中的重要一环,主要用于描述和管理数据的属性、结构和关系,为数据的使用和共享提供了重要的支持。
对于目前的元数据管理方法,对于一些简单的数据可进行智能分类,对于一些复杂的数据只能人工筛选出来,并依据经验进行分类,无法做到智能和自动化管理元数据。
因此,有必要设计一种新的方法,实现智能化、自动化地管理元数据,提高数据管理的效率和精度。
发明内容
本发明的目的在于克服现有技术的缺陷,提供元数据管理方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:元数据管理方法,包括:
获取待分析元数据;
将所述待分析元数据输入至元数据智能分析模型中进行元数据中的关键信息的处理,自动生成对应的元数据标签和注释,以得到分析结果;
输出所述分析结果;
其中,所述元数据智能分析模型是通过带有提示词信息的数据库内的字段作为样本集训练大语言模型所得的;
所述元数据智能分析模型是通过带有提示词信息的数据库内的字段作为样本集训练大语言模型所得的,包括:
获取目标数据库中的多个字段,从所述字段中确定并收集各类任务所需的数据信息;
对所述数据信息生成包含提示词信息的数据集,以得到样本集;
划分所述样本集,以得到训练集以及测试集;
根据训练集以及测试集对大语言模型进行训练和验证,以得到元数据智能分析模型。
其进一步技术方案为:所述获取目标数据库中的多个字段,从所述字段中确定并收集各类任务所需的数据信息,包括:
从所述目标数据库中抽取多个数据表格,并从所述数据表格中提取多个字段;
确定任务类型,并从多个字段确定各类任务所需的数据信息;
其中,任务类型包括元数据的自动化管理,元数据的自动分类、自动补全、自动验证。
其进一步技术方案为:所述对所述数据信息生成包含提示词信息的数据集,以得到样本集,包括:
将所述数据信息拼接成文本形式,以得到文本内容;
在所述文本内容中设置包含提示词信息的标签,以得到样本集。
其进一步技术方案为:所述根据训练集以及测试集对大语言模型进行训练和验证,以得到元数据智能分析模型,包括:
根据训练集微调大语言模型;
根据训练集训练打分模型;
利用测试集以及所述打分模型对大语言模型的输出进行反馈,并重新训练所述大语言模型,直至所述大语言模型收敛。
本发明还提供了元数据管理装置,包括:
获取单元,用于获取待分析元数据;
分析单元,用于将所述待分析元数据输入至元数据智能分析模型中进行元数据中的关键信息的处理,自动生成对应的元数据标签和注释,以得到分析结果;
输出单元,用于输出所述分析结果;
模型生成单元,用于通过带有提示词信息的数据库内的字段作为样本集训练大语言模型,以得到元数据智能分析模型;
所述模型生成单元包括:
信息确定子单元,用于获取目标数据库中的多个字段,从所述字段中确定并收集各类任务所需的数据信息;
样本集生成子单元,用于对所述数据信息生成包含提示词信息的数据集,以得到样本集;
划分子单元,用于划分所述样本集,以得到训练集以及测试集;
训练与验证子单元,用于根据训练集以及测试集对大语言模型进行训练和验证,以得到元数据智能分析模型。
其进一步技术方案为:所述信息确定子单元包括:
字段提取模块,用于从所述目标数据库中抽取多个数据表格,并从所述数据表格中提取多个字段;
数据信息确定模块,用于确定任务类型,并从多个字段确定各类任务所需的数据信息;其中,任务类型包括元数据的自动化管理,元数据的自动分类、自动补全、自动验证。
其进一步技术方案为:所述样本集生成子单元包括:
拼接模块,用于将所述数据信息拼接成文本形式,以得到文本内容;
标签设置模块,用于在所述文本内容中设置包含提示词信息的标签,以得到样本集。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过将待分析元数据输入至元数据智能分析模型中进行元数据中的关键信息的处理,自动生成对应的元数据标签和注释,形成待分析数据的提示词信息,以便于利用提示词信息进行管理,实现智能化、自动化地管理元数据,提高数据管理的效率和精度。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的元数据管理方法的应用场景示意图;
图2为本发明实施例提供的元数据管理方法的流程示意图;
图3为本发明实施例提供的元数据管理方法的子流程示意图;
图4为本发明实施例提供的元数据管理方法的子流程示意图;
图5为本发明实施例提供的元数据管理方法的子流程示意图;
图6为本发明实施例提供的元数据管理方法的子流程示意图;
图7为本发明实施例提供的元数据管理装置的示意性框图;
图8为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的元数据管理方法的应用场景示意图。图2为本发明实施例提供的元数据管理方法的示意性流程图。该元数据管理方法应用于服务器中。该服务器与终端进行数据交互,通过从终端获取待分析元数据,并利用元数据智能分析模型进行关键信息,自动生成对应的元数据标签和注释,也就是提示词信息,形成分析结果,呈现于终端上,能够将元数据自动化管理系统中的各类任务,转换为文本生成问题,并通过将上述元数据智能分析模型嵌入到元数据管理系统中,实现数据库领域的元数据的自动化管理以及元数据的自动分类、自动补全、自动验证等操作,提高数据管理的效率和精度。
具体地,元数据来自于数据库中,特别是企业的关系型数据库,包括Oracle、MySQL、Microsoft SQL Server和PostgreSQL等。
图2是本发明实施例提供的元数据管理方法的流程示意图。如图2所示,该方法包括以下步骤S110至S130。
S110、获取待分析元数据。
在本实施例中,待分析元数据是指需要生成提示词的元数据,以便于利用提示词进行自动分类、自动补全、自动验证等操作。
S120、将所述待分析元数据输入至元数据智能分析模型中进行元数据中的关键信息的处理,自动生成对应的元数据标签和注释,以得到分析结果。
在本实施例中,分析结果是指待分析元数据对应的标签和注释,也就是提示词的内容。
其中,所述元数据智能分析模型是通过带有提示词信息的数据库内的字段作为样本集训练大语言模型所得的。
具体地,处理成模型输出所需的文本格式,比如对于表二中的元数据注释可以处理成:
“|字段名|数据类型|描述|
|-|-|-|
| ygxm |字符型|员工姓名|
| ygxb |字符型|员工性别|
| ygbm |整数型|员工编码|
| ygjb |整数型|员工级别|
| ksdm |整数型|科室代码”。
在一实施例中,请参阅图3,上述的述元数据智能分析模型是通过带有提示词信息的数据库内的字段作为样本集训练大语言模型所得的可包括步骤S121~S124。
S121、获取目标数据库中的多个字段,从所述字段中确定并收集各类任务所需的数据信息。
在本实施例中,字段包括字段名、字段内容和字段注释等;数据信息包括各类任务相关的数据,比如对于字段级别的自动注释任务,数据信息包括字段名、字段内容、字段注释等;对于表级别的自动注释任务,数据信息包括表名、表内容等。
在一实施例中,请参阅图4,上述的步骤S121可包括步骤S1211~ S1212。
S1211、从所述目标数据库中抽取多个数据表格,并从所述数据表格中提取多个字段。
在本实施例中,目标数据库是指待管理的数据库,可以是现有的业务系统数据库,主要是企业的关系型数据库,包括Oracle、MySQL、Microsoft SQL Server和PostgreSQL等;为了实现基于大语言模型的元数据管理,需要在数据库中收集有助于大语言模型训练的数据信息。例如,如果希望通过大语言模型进行字段级别的元数据自动注释任务,需要收集字段信息,包括字段名、字段内容和字段注释等。如果是表级别的元数据自动注释任务,则需要收集表级别的信息,例如表名、表注释等。通过收集这些数据信息,可以为大语言模型的训练提供必要的支持,并最终实现对元数据的智能化管理和自动化处理。
S1212、确定任务类型,并从多个字段确定各类任务所需的数据信息;
其中,任务类型包括元数据的自动化管理,元数据的自动分类、自动补全、自动验证。
具体地,可以采用多种方式进行数据信息收集。例如,可以使用数据抽取工具、数据清洗工具等工具从数据库中获取字段,然后进行筛选和预处理,最终得到大语言模型所需的数据信息。此外,也可以通过编写程序直接访问数据库,并将数据库中的数据信息提取出来。无论使用何种方式,目标都是收集有助于大语言模型训练的数据信息,为元数据管理系统提供必要的支持。
在收集数据信息的过程中,需要注意保护数据的安全性和隐私性。可以采用数据脱敏、数据加密等方式来保护数据的安全性,避免敏感信息泄露。另外,也需要注意遵守相关的法律法规和隐私政策,保护用户的隐私权益。
在一种可能的实现方式中,以表级别元数据自动注释任务为例,需要收集表的数据信息以及对应的元数据注释。
抽取到数据信息,如表1所示。
表1. 数据信息
ygxm | ygxb | ygbm | ygjb | ksdm |
张*三 | 男 | 12477 | 1 | 1001 |
李*四 | 女 | 12478 | 2 | 1002 |
王*五 | 男 | 12479 | 3 | 1001 |
周*六 | 女 | 12480 | 4 | 1002 |
对应的元数据注释,如表2所示。
表2. 元数据注释
字段名 | 数据类型 | 描述 |
ygxm | 字符型 | 员工姓名 |
ygxb | 字符型 | 员工性别 |
ygbm | 整数型 | 员工编码 |
ygjb | 整数型 | 员工级别 |
ksdm | 整数型 | 科室代码 |
S122、对所述数据信息生成包含提示词信息的数据集,以得到样本集。
在本实施例中,样本集是指带有提示词信息的数据集。
在一实施例中,请参阅图5,上述的步骤S122可包括步骤S1221~S1222。
S1221、将所述数据信息拼接成文本形式,以得到文本内容。
在本实施例中,文本内容是指按照设定的格式将数据信息拼接形成文本。
S1222、在所述文本内容中设置包含提示词信息的标签,以得到样本集。
在本实施例中,提示词信息是指数据的类型以及对应的注释,也就是处理的过程。
在确定大语言模型所需的数据信息时,还需要考虑如何处理数据中存在的缺失值、重复值和异常值等情况,这些情况也需要作为提示词信息的一部分,提供给大语言模型进行处理。
举个例子:提示词信息为“识别出下表中的元数据,并标注类型和注释,以表格的形式返回。”、“识别出下表中的元数据,并标注分类,分类类型包含医疗相关的所有分类,以表格的形式返回”。用于模型更好的区分任务。
提示词信息应该尽可能地完整和准确,避免信息的遗漏和误差对大语言模型的训练产生负面影响。
对于表1和表2的表级别元数据自动注释任务收集的数据信息,可以转换为文本的形式:
“识别出下表中的元数据,并标注类型和注释,以表格的形式返回,即样本集的模式。
|jlxh|jzhm|blbh|xmxh|xmmc|
|-|-|-|-|-|-|-|-|-|-|-|-|
|158266|109|12477|1028|成功次数|
|158267|109|12478|1027|抢救次数|
|158268|109|12479|1001|入院后确诊日期|
|158269|109|12480|602|医嘱转社区接收医疗机构|”
S123、划分所述样本集,以得到训练集以及测试集。
在本实施例中,按预设比例从所述包含提示词信息的数据集中划分所述训练样本和所述验证样本。
一般来说,在使用包含提示词信息的数据集进行大语言模型训练时,需要将数据集划分为训练集和验证集。其中,训练集用于训练模型,验证集用于调节模型的超参数,并进行模型的选择。
在本实施例中,按8:2的比例划分成训练样本A和测试样本B。
S124、根据训练集以及测试集对大语言模型进行训练和验证,以得到元数据智能分析模型。
在本实施例中,确定训练样本和验证样本之后,可以根据训练样本和验证样本对初始的大语言模型进行训练和验证,得到元数据智能分析模型,该元数据智能分析模型能够实现元数据的自动化管理以及元数据的自动分类、自动补全、自动验证等操作。
在一实施例中,请参阅图6,上述的步骤S124可包括步骤S1241~S1243。
具体地,整体模型训练步骤参考[InstructGPT]https://arxiv.org/pdf/2203.02155.pdf。
S1241、根据训练集微调大语言模型。
在本实施例中,微调的目的是调整大语言模型的参数,使其能够更好地适应元数据管理系统中的数据信息,从而提高大语言模型的预测准确度。
S1242、根据训练集训练打分模型;
在本实施例中,在微调大语言模型之后,需要训练一个打分模型,以评估大语言模型的输出结果。
具体地,打分模型是一个输入为文本信息,输出为评估结果的模型。
比如输入:
“请给下面问答的得分:
问:识别出下表中的元数据,并标注类型和注释,以表格的形式返回。
<表格>
答:
<表格>”
输出为:“5分”。
S1243、利用测试集以及所述打分模型对大语言模型的输出进行反馈,并重新训练所述大语言模型,直至所述大语言模型收敛。
在本实施例中,在训练好打分模型之后,可以利用打分模型对大语言模型的输出进行反馈,然后重新训练大语言模型,进行强化学习,重新训练的目的是根据打分模型的反馈来调整大语言模型的参数,从而进一步提高其准确度和可信度。
S130、输出所述分析结果。
在本实施例中,输出所述分析结果至终端,并在终端以图表形式展示所述分析结果。
在本实施例中,对于采集到的数据信息可以支持多种数据存储方式,例如关系数据库和分布式文件系统等。大语言模型为元数据自动生成标签和注释,实现元数据的自动化管理,提高元数据的可读性和管理效率;后续可通过关键字、属性等方式,调用大语言模型对元数据进行查询,并返回相关结果,将分析结果以图表等形式展示,方便用户对元数据进行分析和管理,并提供交互式的数据操作功能,以支持用户更深入地了解和利用元数据。大语言模型可对采集到的数据进行自动分类、自动补全和自动验证等操作,提高元数据的质量和可靠性。
举个例子:首先,当用户点击“自动分类”按钮后,获取输入信息,拼接成文本的格式,例如:
“识别出下表中的元数据,并标注分类,分类类型包含医疗相关的所有分类,以表格的形式返回。
表格信息如下:
|jlxh|jzhm|blbh|xmxh|xmmc|
|-|-|-|-|-|-|-|-|-|-|-|-|
|158266|109|12477|1028|成功次数|
|158267|109|12478|1027|抢救次数|
|158268|109|12479|1001|入院后确诊日期|
|158269|109|12480|602|医嘱转社区接收医疗机构|”
然后,将上面的文本输入到大语言模型中,得到模型的输出,例如:
“
|字段名|分类类型|
|-|-|
| jlxh|第一类|
| zhm |第二类|
| blbh |第三类|
| xmxh |第四类|
| xmmc |第一类|
”
最后,对模型输出进行解析并展示。
上述的元数据管理方法,通过将待分析元数据输入至元数据智能分析模型中进行元数据中的关键信息的处理,自动生成对应的元数据标签和注释,形成待分析数据的提示词信息,以便于利用提示词信息进行管理,实现智能化、自动化地管理元数据,提高数据管理的效率和精度。
图7是本发明实施例提供的一种元数据管理装置300的示意性框图。如图7所示,对应于以上元数据管理方法,本发明还提供一种元数据管理装置300。该元数据管理装置300包括用于执行上述元数据管理方法的单元,该装置可以被配置于服务器中。具体地,请参阅图7,该元数据管理装置300包括获取单元301、分析单元302以及输出单元303。
获取单元301,用于获取待分析元数据;分析单元302,用于将所述待分析元数据输入至元数据智能分析模型中进行元数据中的关键信息的处理,自动生成对应的元数据标签和注释,以得到分析结果;输出单元303,用于输出所述分析结果。
在一实施例中,还包括模型生成单元,用于通过带有提示词信息的数据库内的字段作为样本集训练大语言模型,以得到元数据智能分析模型。
在一实施例中,所述模型生成单元包括信息确定子单元、样本集生成子单元、划分子单元以及训练与验证子单元。
信息确定子单元,用于获取目标数据库中的多个字段,从所述字段中确定并收集各类任务所需的数据信息;样本集生成子单元,用于对所述数据信息生成包含提示词信息的数据集,以得到样本集;划分子单元,用于划分所述样本集,以得到训练集以及测试集;训练与验证子单元,用于根据训练集以及测试集对大语言模型进行训练和验证,以得到元数据智能分析模型。
在一实施例中,所述信息确定子单元包括字段提取模块以及数据信息确定模块。
字段提取模块,用于从所述目标数据库中抽取多个数据表格,并从所述数据表格中提取多个字段;数据信息确定模块,用于确定任务类型,并从多个字段确定各类任务所需的数据信息;其中,任务类型包括元数据的自动化管理,元数据的自动分类、自动补全、自动验证。
在一实施例中,所述样本集生成子单元包括拼接模块以及标签设置模块。
拼接模块,用于将所述数据信息拼接成文本形式,以得到文本内容;标签设置模块,用于在所述文本内容中设置包含提示词信息的标签,以得到样本集。
在一实施例中,所述训练与验证子单元包括微调模块、训练模块以及反馈模块。
微调模块,用于根据训练集微调大语言模型;训练模块,用于根据训练集训练打分模型;反馈模块,用于利用测试集以及所述打分模型对大语言模型的输出进行反馈,并重新训练所述大语言模型,直至所述大语言模型收敛。
在一实施例中,所述输出单元303,用于输出所述分析结果至终端,并在终端以图表形式展示所述分析结果。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述元数据管理装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述元数据管理装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图8所示的计算机设备上运行。
请参阅图8,图8本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图8,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种元数据管理方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种元数据管理方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取待分析元数据;将所述待分析元数据输入至元数据智能分析模型中进行元数据中的关键信息的处理,自动生成对应的元数据标签和注释,以得到分析结果;输出所述分析结果。
其中,所述元数据智能分析模型是通过带有提示词信息的数据库内的字段作为样本集训练大语言模型所得的。
在一实施例中,处理器502在实现所述元数据智能分析模型是通过带有提示词信息的数据库内的字段作为样本集训练大语言模型所得的步骤时,具体实现如下步骤:
获取目标数据库中的多个字段,从所述字段中确定并收集各类任务所需的数据信息;对所述数据信息生成包含提示词信息的数据集,以得到样本集;划分所述样本集,以得到训练集以及测试集;根据训练集以及测试集对大语言模型进行训练和验证,以得到元数据智能分析模型。
在一实施例中,处理器502在实现所述获取目标数据库中的多个字段,从所述字段中确定并收集各类任务所需的数据信息步骤时,具体实现如下步骤:
从所述目标数据库中抽取多个数据表格,并从所述数据表格中提取多个字段;确定任务类型,并从多个字段确定各类任务所需的数据信息;其中,任务类型包括元数据的自动化管理,元数据的自动分类、自动补全、自动验证。
在一实施例中,处理器502在实现所述对所述数据信息生成包含提示词信息的数据集,以得到样本集步骤时,具体实现如下步骤:
将所述数据信息拼接成文本形式,以得到文本内容;在所述文本内容中设置包含提示词信息的标签,以得到样本集。
在一实施例中,处理器502在实现所述根据训练集以及测试集对大语言模型进行训练和验证,以得到元数据智能分析模型步骤时,具体实现如下步骤:
根据训练集微调大语言模型;根据训练集训练打分模型;利用测试集以及所述打分模型对大语言模型的输出进行反馈,并重新训练所述大语言模型,直至所述大语言模型收敛。
在一实施例中,处理器502在实现所述输出所述分析结果步骤时,具体实现如下步骤:
输出所述分析结果至终端,并在终端以图表形式展示所述分析结果。
应当理解,在本申请实施例中,处理器502可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
获取待分析元数据;将所述待分析元数据输入至元数据智能分析模型中进行元数据中的关键信息的处理,自动生成对应的元数据标签和注释,以得到分析结果;输出所述分析结果。
其中,所述元数据智能分析模型是通过带有提示词信息的数据库内的字段作为样本集训练大语言模型所得的。
在一实施例中,所述处理器在执行所述计算机程序而实现所述元数据智能分析模型是通过带有提示词信息的数据库内的字段作为样本集训练大语言模型所得的步骤时,具体实现如下步骤:
获取目标数据库中的多个字段,从所述字段中确定并收集各类任务所需的数据信息;对所述数据信息生成包含提示词信息的数据集,以得到样本集;划分所述样本集,以得到训练集以及测试集;根据训练集以及测试集对大语言模型进行训练和验证,以得到元数据智能分析模型。
在一实施例中,所述处理器在执行所述计算机程序而实现所述获取目标数据库中的多个字段,从所述字段中确定并收集各类任务所需的数据信息步骤时,具体实现如下步骤:
从所述目标数据库中抽取多个数据表格,并从所述数据表格中提取多个字段;确定任务类型,并从多个字段确定各类任务所需的数据信息;其中,任务类型包括元数据的自动化管理,元数据的自动分类、自动补全、自动验证。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述数据信息生成包含提示词信息的数据集,以得到样本集步骤时,具体实现如下步骤:
将所述数据信息拼接成文本形式,以得到文本内容;在所述文本内容中设置包含提示词信息的标签,以得到样本集。
在一实施例中,所述处理器在执行所述计算机程序而实现所述根据训练集以及测试集对大语言模型进行训练和验证,以得到元数据智能分析模型步骤时,具体实现如下步骤:
根据训练集微调大语言模型;根据训练集训练打分模型;利用测试集以及所述打分模型对大语言模型的输出进行反馈,并重新训练所述大语言模型,直至所述大语言模型收敛。
在一实施例中,所述处理器在执行所述计算机程序而实现所述输出所述分析结果步骤时,具体实现如下步骤:
输出所述分析结果至终端,并在终端以图表形式展示所述分析结果。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.元数据管理方法,其特征在于,包括:
获取待分析元数据;
将所述待分析元数据输入至元数据智能分析模型中进行元数据中的关键信息的处理,自动生成对应的元数据标签和注释,以得到分析结果;
输出所述分析结果;
其中,所述元数据智能分析模型是通过带有提示词信息的数据库内的字段作为样本集训练大语言模型所得的;
所述元数据智能分析模型是通过带有提示词信息的数据库内的字段作为样本集训练大语言模型所得的,包括:
获取目标数据库中的多个字段,从所述字段中确定并收集各类任务所需的数据信息;
对所述数据信息生成包含提示词信息的数据集,以得到样本集;
划分所述样本集,以得到训练集以及测试集;
根据训练集以及测试集对大语言模型进行训练和验证,以得到元数据智能分析模型;
其中,所述对所述数据信息生成包含提示词信息的数据集,以得到样本集,包括:
将所述数据信息拼接成文本形式,以得到文本内容;
在所述文本内容中设置包含提示词信息的标签,以得到样本集。
2.根据权利要求1所述的元数据管理方法,其特征在于,所述获取目标数据库中的多个字段,从所述字段中确定并收集各类任务所需的数据信息,包括:
从所述目标数据库中抽取多个数据表格,并从所述数据表格中提取多个字段;
确定任务类型,并从多个字段确定各类任务所需的数据信息;
其中,任务类型包括元数据的自动化管理,元数据的自动分类、自动补全、自动验证。
3.根据权利要求1所述的元数据管理方法,其特征在于,所述获取目标数据库中的多个字段,从所述字段中确定并收集各类任务所需的数据信息,包括:
从所述目标数据库中抽取多个数据表格,并从所述数据表格中提取多个字段;
确定任务类型,并从多个字段确定各类任务所需的数据信息;
其中,任务类型包括元数据的自动化管理,元数据的自动分类、自动补全、自动验证。
4.根据权利要求1所述的元数据管理方法,其特征在于,所述根据训练集以及测试集对大语言模型进行训练和验证,以得到元数据智能分析模型,包括:
根据训练集微调大语言模型;
根据训练集训练打分模型;
利用测试集以及所述打分模型对大语言模型的输出进行反馈,并重新训练所述大语言模型,直至所述大语言模型收敛。
5.根据权利要求1所述的元数据管理方法,其特征在于,所述输出所述分析结果,包括:
输出所述分析结果至终端,并在终端以图表形式展示所述分析结果。
6.元数据管理装置,其特征在于,包括:
获取单元,用于获取待分析元数据;
分析单元,用于将所述待分析元数据输入至元数据智能分析模型中进行元数据中的关键信息的处理,自动生成对应的元数据标签和注释,以得到分析结果;
输出单元,用于输出所述分析结果;
模型生成单元,用于通过带有提示词信息的数据库内的字段作为样本集训练大语言模型,以得到元数据智能分析模型;
其中,所述模型生成单元包括:
信息确定子单元,用于获取目标数据库中的多个字段,从所述字段中确定并收集各类任务所需的数据信息;
样本集生成子单元,用于对所述数据信息生成包含提示词信息的数据集,以得到样本集;
划分子单元,用于划分所述样本集,以得到训练集以及测试集;
训练与验证子单元,用于根据训练集以及测试集对大语言模型进行训练和验证,以得到元数据智能分析模型;
其中,所述对所述数据信息生成包含提示词信息的数据集,以得到样本集,包括:
将所述数据信息拼接成文本形式,以得到文本内容;
在所述文本内容中设置包含提示词信息的标签,以得到样本集。
7.根据权利要求5所述的元数据管理装置,其特征在于,所述信息确定子单元包括:
字段提取模块,用于从所述目标数据库中抽取多个数据表格,并从所述数据表格中提取多个字段;
数据信息确定模块,用于确定任务类型,并从多个字段确定各类任务所需的数据信息;其中,任务类型包括元数据的自动化管理,元数据的自动分类、自动补全、自动验证。
8.根据权利要求6所述的元数据管理装置,其特征在于,所述样本集生成子单元包括:
拼接模块,用于将所述数据信息拼接成文本形式,以得到文本内容;
标签设置模块,用于在所述文本内容中设置包含提示词信息的标签,以得到样本集。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310825058.9A CN116541752B (zh) | 2023-07-06 | 2023-07-06 | 元数据管理方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310825058.9A CN116541752B (zh) | 2023-07-06 | 2023-07-06 | 元数据管理方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116541752A CN116541752A (zh) | 2023-08-04 |
CN116541752B true CN116541752B (zh) | 2023-09-15 |
Family
ID=87444002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310825058.9A Active CN116541752B (zh) | 2023-07-06 | 2023-07-06 | 元数据管理方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116541752B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116975401A (zh) * | 2023-09-19 | 2023-10-31 | 杭州美创科技股份有限公司 | 数据库字段识别方法、装置、计算机设备及存储介质 |
CN116975042A (zh) * | 2023-09-20 | 2023-10-31 | 北方健康医疗大数据科技有限公司 | 一种基于智能体的数据智能分析系统及方法 |
CN118014011B (zh) * | 2024-04-07 | 2024-07-05 | 蚂蚁科技集团股份有限公司 | 大语言模型训练及训练数据构建方法、装置、设备、介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6092043A (en) * | 1992-11-13 | 2000-07-18 | Dragon Systems, Inc. | Apparatuses and method for training and operating speech recognition systems |
CA2690174A1 (en) * | 2009-01-13 | 2010-07-13 | Crim (Centre De Recherche Informatique De Montreal) | Identifying keyword occurrences in audio data |
CN110704624A (zh) * | 2019-09-30 | 2020-01-17 | 武汉大学 | 一种地理信息服务元数据文本多层级多标签分类方法 |
CN114265967A (zh) * | 2022-03-01 | 2022-04-01 | 中国光大银行股份有限公司 | 一种敏感数据安全等级标注方法及装置 |
CN114625732A (zh) * | 2022-02-09 | 2022-06-14 | 杭州未名信科科技有限公司 | 基于结构化查询语言sql的查询方法和系统 |
US11416754B1 (en) * | 2021-10-20 | 2022-08-16 | Mckinsey & Company, Inc. | Automated cloud data and technology solution delivery using machine learning and artificial intelligence modeling |
CN115168402A (zh) * | 2022-07-08 | 2022-10-11 | 支付宝(杭州)信息技术有限公司 | 训练序列生成模型的方法及装置 |
CN116089873A (zh) * | 2023-02-10 | 2023-05-09 | 北京百度网讯科技有限公司 | 模型训练方法、数据分类分级方法、装置、设备及介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210054800A (ko) * | 2019-11-06 | 2021-05-14 | 엘지전자 주식회사 | 사용자의 음성샘플 수집 |
US11874937B2 (en) * | 2020-12-30 | 2024-01-16 | Atlassian Pty Ltd | Apparatuses, methods, and computer program products for programmatically parsing, classifying, and labeling data objects |
CN113962315B (zh) * | 2021-10-28 | 2023-12-22 | 北京百度网讯科技有限公司 | 模型预训练方法、装置、设备、存储介质以及程序产品 |
-
2023
- 2023-07-06 CN CN202310825058.9A patent/CN116541752B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6092043A (en) * | 1992-11-13 | 2000-07-18 | Dragon Systems, Inc. | Apparatuses and method for training and operating speech recognition systems |
CA2690174A1 (en) * | 2009-01-13 | 2010-07-13 | Crim (Centre De Recherche Informatique De Montreal) | Identifying keyword occurrences in audio data |
CN110704624A (zh) * | 2019-09-30 | 2020-01-17 | 武汉大学 | 一种地理信息服务元数据文本多层级多标签分类方法 |
US11416754B1 (en) * | 2021-10-20 | 2022-08-16 | Mckinsey & Company, Inc. | Automated cloud data and technology solution delivery using machine learning and artificial intelligence modeling |
CN114625732A (zh) * | 2022-02-09 | 2022-06-14 | 杭州未名信科科技有限公司 | 基于结构化查询语言sql的查询方法和系统 |
CN114265967A (zh) * | 2022-03-01 | 2022-04-01 | 中国光大银行股份有限公司 | 一种敏感数据安全等级标注方法及装置 |
CN115168402A (zh) * | 2022-07-08 | 2022-10-11 | 支付宝(杭州)信息技术有限公司 | 训练序列生成模型的方法及装置 |
CN116089873A (zh) * | 2023-02-10 | 2023-05-09 | 北京百度网讯科技有限公司 | 模型训练方法、数据分类分级方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
面向创新设计的专利知识抽取方法;马建红;张明月;赵亚男;;计算机应用(02);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116541752A (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116541752B (zh) | 元数据管理方法、装置、计算机设备及存储介质 | |
Johann et al. | Safe: A simple approach for feature extraction from app descriptions and app reviews | |
WO2021068601A1 (zh) | 病历检测方法、装置、设备及存储介质 | |
US10929348B2 (en) | Method and system for large scale data curation | |
US8630989B2 (en) | Systems and methods for information extraction using contextual pattern discovery | |
US20200257659A1 (en) | Method and apparatus for determing description information, electronic device and computer storage medium | |
US9621601B2 (en) | User collaboration for answer generation in question and answer system | |
CN110619506B (zh) | 一种岗位画像生成方法、岗位画像生成装置及电子设备 | |
US9146987B2 (en) | Clustering based question set generation for training and testing of a question and answer system | |
US20060179050A1 (en) | Probabilistic model for record linkage | |
CN113724848A (zh) | 基于人工智能的医疗资源推荐方法、装置、服务器及介质 | |
AU2011247830A1 (en) | Method and system for generating text | |
CN112289454B (zh) | 临床数据的打标签方法及装置、存储介质、终端 | |
US20200293528A1 (en) | Systems and methods for automatically generating structured output documents based on structural rules | |
CN116611074A (zh) | 安全信息审查方法、设备、存储介质及装置 | |
US20200279417A1 (en) | Generating a probabilistic graphical model with causal information | |
CN116992839B (zh) | 病案首页自动生成方法、装置及设备 | |
US8676800B2 (en) | Method and system for generating text | |
CN115547466A (zh) | 基于大数据的医疗机构登记评审系统及其方法 | |
US20220374401A1 (en) | Determining domain and matching algorithms for data systems | |
US11816112B1 (en) | Systems and methods for automated process discovery | |
CN117114142B (zh) | 基于ai的数据规则表达式生成方法、装置、设备及介质 | |
Agrawal et al. | Analysis and recommendation system-based on PRISMA checklist to write systematic review | |
CN117112732A (zh) | 一种基于llm多表自适应选择的nl2sql方法 | |
CN116627988A (zh) | 一种基于规则配置的患者主索引系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |