CN116842021B - 基于ai生成式技术的数据字典标准化方法、设备及介质 - Google Patents

基于ai生成式技术的数据字典标准化方法、设备及介质 Download PDF

Info

Publication number
CN116842021B
CN116842021B CN202310866248.5A CN202310866248A CN116842021B CN 116842021 B CN116842021 B CN 116842021B CN 202310866248 A CN202310866248 A CN 202310866248A CN 116842021 B CN116842021 B CN 116842021B
Authority
CN
China
Prior art keywords
target
name
field
data
names
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310866248.5A
Other languages
English (en)
Other versions
CN116842021A (zh
Inventor
刘迪
刘晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Encore Beijing Information Technology Co ltd
Original Assignee
Encore Beijing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Encore Beijing Information Technology Co ltd filed Critical Encore Beijing Information Technology Co ltd
Priority to CN202310866248.5A priority Critical patent/CN116842021B/zh
Publication of CN116842021A publication Critical patent/CN116842021A/zh
Application granted granted Critical
Publication of CN116842021B publication Critical patent/CN116842021B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据处理技术领域,具体公开了基于AI生成式技术的数据字典标准化方法、设备及介质,包括:获取数据集;通过所述数据集训练transformer模型对输入向量与输出向量之间的映射关系,以更新transformer模型的参数并保存;将数据库包含目标表名、目标字段名和目标字段类型的目标名称组输入训练后的transformer模型,以获得新字段名;通过新字段名替换所述数据库中的目标字段名;具有如下优点:通过生成式模型捕捉文本中的语义和结构信息,能够生成更加规范和一致的字段名,提高数据字典标准化的质量,相比传统的规则或模式匹配方法,能够做到在处理复杂和多样的文本数据时,具有更高的准确性和鲁棒性。

Description

基于AI生成式技术的数据字典标准化方法、设备及介质
技术领域
本发明涉及数据处理技术领域,具体而言,涉及基于AI生成式技术的数据字典标准化方法。
背景技术
随着数据治理工作的重要程度逐步提升和数据管理成熟度评估方法的落地,越来越多的企业通过不同的策略开展数据治理的工作。在数据治理工作中最开始的步骤是对企业内部数据的盘点工作,摸清各类系统中都有哪些数据以及数据质量如何。在这个过程中,由于历史存量的系统中存在大量的数据库表结构命名不规范、不一致、未命名等问题,导致盘点的过程中存在大量的人工梳理工作。通过数据标准词库的构建和数据标准自动落标、对标流程的建设,仅能解决在数据库表结构名称存在且达到一定程度规范化的基础上,才能够顺畅地执行。而在构建标准词库之前,还是需要通过人工的方式和模糊匹配的方式执行,以此种方式处理时,存量的系统中包含大量的命名缺失和命名不规范的问题仍然需要耗费大量的人工解决。
现有技术中对上述数据的处理,通常有以下的手段:
(1)获取表中文名称、字段中文名称和物理数据类型到Excel表格或其他系统中。
(2)通过模糊匹配的功能,找到相同或类似的结果。
(3)人工确认结果是否准确或从推荐的结果中选择一个合适的结果。
针对上述提出的技术手段,存在如下实际问题:
根据不同的设计习惯,很多时候字段中文名称中可能会包含类似于代码枚举值的场景,例如:字段中文名称“手续费标志1.现金2.转帐3.不收”中“1.现金2.转帐3.不收”就是枚举值,1代表现金、2代表转账、3代表不收。这种情况会极大地影响传统的匹配和推荐结果。
人工方式不符合命名规范和不准确的问题,例如,“是否收到990报文”从含义的角度可以理解存储的数据是什么,但是缺少了一定命名规范的限制,无法理解存储的数据是否符合规范,假如,规范中定义了数据值是“Y”或“N”的情况,都需要在字段中文名称的最后添加“标志”两个字作为分类词使用,那么通过名称就可以明确判断数据值的类型。此类问题,在人工命名的过程中都有可能存在偏差。
为此提出基于AI生成式技术的数据字典标准化方法,以解决上述提出的问题。
发明内容
本发明旨在提供基于AI生成式技术的数据字典标准化方法,以解决或改善上述技术问题中的至少之一。
有鉴于此,本发明的第一方面在于提供基于AI生成式技术的数据字典标准化方法。
本发明的第二方面在于提供一种电子设备。
本发明的第三方面在于提供一种计算机可读存储介质。
本发明的第一方面提供了基于AI生成式技术的数据字典标准化方法,包括如下步骤:获取数据集;通过所述数据集训练transformer模型对输入向量与输出向量之间的映射关系,以更新transformer模型的参数并保存;将数据库包含目标表名、目标字段名和目标字段类型的目标名称组输入训练后的transformer模型,以获得新字段名;通过新字段名替换所述数据库中的目标字段名。
进一步地,所述数据集包含多个数据库的表名、字段名、字段类型的数据。
进一步地,所述的通过所述数据集训练transformer模型对输入输出向量之间的映射关系学习的步骤,具体包括:通过所述数据集获得名称组与数字的映射关系的索引序列;设置训练参数;将所述索引序列输入所述transformer模型进行迭代训练,以更新所述transformer模型的参数。
进一步地,所述的通过所述数据集获得名称组与数字的映射关系的索引序列,具体包括:获取表征中文字符与数字的映射关系的字表;对所述名称组中的表名和字段名的中文名、字段类型以字符为单位进行分割,然后组合形成数字索引;根据所述名称组和数字索引,生成表征名称组和数字的映射关系的索引序列。
进一步地,所述的将数据库中目标表名、字段名和目标字段类型的目标名称组输入训练后的transformer模型,以获得新字段名,具体包括:对所述数据库中包含目标表名、目标字段名和目标字段类型的目标名称组进行处理,以生成表征目标名称组与数字的映射关系的目标索引序列;将所述目标索引序列输入训练后的transformer模型,以对所述目标索引序列中的目标字段名更新为新字段名。
进一步地,所述的对所述数据库中目标表名、目标字段名和目标字段类型的数据进行处理,具体包括:通过SQL语句查询,在所述数据库中获取目标表名、目标字段名和目标字段类型的数据;通过逗号分别分割目标表名和目标字段名的中文名、字段类型,然后组成字符串;将包括逗号的字符串进行索引性编码,并根据所述字表生成表征目标名称组与数字的映射关系的目标索引序列。
进一步地,所述的设置训练参数,具体包括:将所述transformer模型的损失函数设置为CrossEntropy函数,将学习率设置为1e-5,将transformer模型的优化器设置为Adam。
本发明的第二方面提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本发明的第三方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本发明与现有技术相比所具有的有益效果:
通过生成式模型捕捉文本中的语义和结构信息,能够生成更加规范和一致的字段名,提高数据字典标准化的质量,相比传统的规则或模式匹配方法,能够做到在处理复杂和多样的文本数据时,具有更高的准确性和鲁棒性;
采用预训练的多层transformer模型,避免了与庞大的标准数据库元数据逐个比对所需的过长时间,从而显著提高数据字典标准化的响应速度和效率,能够在较短的时间内完成同样规模的数据字典标准化任务;
实现了高度自动化和智能化的数据字典标准化过程,减少了人工干预和维护的需求,从而节省了人力资源和时间成本。这使得企业能够将更多的精力投入到核心业务和创新领域;
不依赖于内部标准数据库的存在和完备性,可以适应各种不同的业务数据库字段标准化需求,甚至可以满足没有标准数据库的公司的标准化需求,使得在实际应用场景中具有更广泛的适用性和灵活性。
根据本发明的实施例的附加方面和优点将在下面的描述部分中变得明显,或通过根据本发明的实施例的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明的方法流程图;
图2为本发明的一个字表示例图;
图3为本发明的另一个字表示例图;
图4为本发明的一种电子设备的结构示意图。
具体实施方式
为了可以更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
请参阅图1-4,下面描述本发明一些实施例的基于AI生成式技术的数据字典标准化方法、设备及介质。
本发明第一方面的实施例提出了基于AI生成式技术的数据字典标准化方法。在本发明的一些实施例中,如图1-3所示,提供了基于AI生成式技术的数据字典标准化方法,该基于AI生成式技术的数据字典标准化方法包括:
获取数据集;
通过数据集训练transformer模型对输入输出向量之间的映射关系,以更新transformer模型的参数并保存;
将数据库中表名、字段名和字段类型的数据输入训练后的transformer模型,以获得新字段名;
通过新字段名替换数据库中的字段名。
原本的相似度匹配方法,先要有一堆标准的短语,然后获取数据库里的原始字段名,对一堆标准短语里搜素,进行相似性比对,这么做是很依赖标准短语的数量和质量的,这个在不同客户那里参差不齐,本发明提供的基于AI生成式技术的数据字典标准化方法,并不依赖于内部标准数据库的存在和完备性,因此可以适应各种不同的业务数据库字段标准化需求,甚至可以满足没有标准数据库的公司的标准化需求。
通过使用预训练的多层transformer模型,本发明可以避免与庞大的标准数据库元数据逐个比对所需的过长时间,从而显著提高数据字典标准化的响应速度和效率。
本发明采用的生成式方法能够更好地捕捉文本中的语义和结构信息,从而生成更加规范和一致的字段名,提高数据字典标准化的质量。
上述任一实施例中,数据集包含多个数据库的表名、原始字段名、字段类型的数据。
在该实施例中,查询应该包括要获取的表名、字段名以及字段类型,以便在后续步骤中进行处理。
上述任一实施例中,通过数据集训练transformer模型对输入输出向量之间的映射关系学习的步骤,具体包括:
通过数据集获得原始字段名与数字的映射关系的索引序列;
设置训练参数;
将索引序列输入transformer模型进行迭代训练,以更新transformer模型的参数。
在该实施例中,将每个字符的索引序列输入多层transformer模型进行训练:将上一步中生成的索引序列输入到预训练的多层transformer模型中,调整好模型的输入输出格式后,进行对输入输出向量之间的映射关系学习,形成全新的模型参数,可以捕捉语义之间的关联,模型调参与迭代,以及模型保存。
上述任一实施例中,通过数据集获得原始字段名与数字的映射关系的索引序列,具体包括:
对中文字符进行标注,以获得表征中文字符与数字的映射关系的字表;
对表名、字段名和字段类型的中文名以字符为单位进行分割,然后组合形成原始字段名;
根据原始字段名和字表,生成表征原始字段名和数字的映射关系的索引序列。
在该实施例中,收集数据:首先,收集足够多的数据,包含多个系统,多个数据库的表名、原始字段名、字段类型信息,共5万2千条;
人工标注:通过业务专家,参考行业规范进行数据字典的人工标准化,产生标准字段中文名;
将文本数据根据字表进行简单的索引性embedding:这一步的目的是将原始文本数据转换成适合输入模型的形式。先用逗号分割表中文名、字段中文名、字段类型,组合成为字符串,再将包括逗号在内的完整字符串进行索引性embedding的简单编码。即根据预先训练的模型的字表,将文本中的每个字符转换成对应的索引。这样就得到了一个索引序列,代表原始字段名。
上述任一实施例中,将数据库中表名、字段名和字段类型的数据输入训练后的transformer模型,以获得新字段名,具体包括:
对数据库中表名、字段名和字段类型的数据进行处理,以生成包含原目标字段名的目标索引序列;
将索引序列输入训练后的transformer模型,以对索引序列中的原目标字段名更新为新字段名。
在该实施例中,将每个字符的token id输入多层transformer模型:将上一步中生成的索引序列输入到之前模型训练中得到的多层transformer模型中。模型可以捕捉文本中的语义和结构信息,生成更加标准化的字段名token;
经过模型计算将输出的新token id通过字表转换回中文字符:在经过模型计算后,将获得一个新的token id序列。需要将这些新token id通过字表映射回相应的中文字符,从而得到标准化的字段名。
上述任一实施例中,对数据库中表名、字段名和字段类型的数据进行处理,具体包括:
通过SQL语句查询,在数据库中获取表名、字段名和字段类型的数据;
通过逗号分别分割表的中文名、字段的中文名和字段类型,然后组成字符串;
将包括逗号的字符串进行索引性编码,并根据字表生成目标索引序列。
在该实施例中,连接数据库:首先,与数据库建立连接,以便从中获取数据。这通常可以通过使用相应的数据库连接方法并提供数据库的URL、用户名和密码来完成。
获取一条数据(表名、字段名、字段类型):通过SQL语句查询,从数据库中提取所需的数据。查询应该包括要获取的表名、字段名以及字段类型,以便在后续步骤中进行处理。
将文本数据根据字表进行简单的索引性embedding:这一步的目的是将原始文本数据转换成适合输入模型的形式。先用逗号分割表中文名、字段中文名、字段类型,组合成为字符串,再将包括逗号在内的完整字符串进行索引性embedding的简单编码。即根据预先训练的模型的字表,将文本中的每个字符转换成对应的索引。这样就得到了一个索引序列,代表原始字段名。
具体地,关联方名单表,担任的职务,VARCHAR(90)—————————————>234,241,443,212,342,4566,22,129,293,1122,34,783,22,31,11,43,56,11,43,141,9,0,142。
上述任一实施例中,设置训练参数,具体包括:
将transformer模型的损失函数设置为CrossEntropy函数,将学习率设置为1e-5,将transformer模型的优化器设置为Adam;
对输入transformer模型的索引序列的数据切分为长度为256的序列,每个batch包含16个序列。模型在10,000个epoch内进行训练,每个epoch包含1000个步骤。
具体地,在实际应用中的转化关系为下表:
本发明提出的基于AI生成式技术的数据字典标准化方法,能够把词向量匹配类的最高65%的标准化精度,提升到了80%;
在当前的任务场景中,目标是对元数据进行标准化处理。输入是由各种来源提供的元数据,如数据库表、系统日志等,包括表的名称、字段的名称和数据类型等信息。输出是对这些元数据进行标准化后的结果,即符合行业规范的标准化中文名。对于每个输入实例,都有一个预期的正确输出,也就是该元数据的正确标准化结果。在这个过程中,目标是让模型学会如何将原始的元数据转化为标准化的形式。
在这个任务中,使用精度作为评估模型性能的主要指标。精度是指模型预测为正类(在这里,正类表示的是正确标准化的实例)的实例中,有多少被预测正确。具体的计算公式为:
精度=TP/(TP+FP)
其中,TP(True Positives)是模型正确预测为正类的实例数,FP(FalsePositives)是模型错误预测为正类的实例数。由此,精度可以衡量模型在所有预测为正确标准化的实例中,有多少是真正正确的。
使用Transformer模型可以提高任务的精度。这是因为Transformer模型能够更好地理解单词的上下文信息,并能处理更复杂的语句结构。Transformer模型的自注意力机制使得模型在处理一个单词时,可以考虑到与它相关的所有上下文信息。这使得它在理解元数据的含义,以及如何将其转化为标准化形式时更为准确。因此,通过使用Transformer模型,可以实现更高的元数据标准化精度,从而提高数据字典的质量和一致性,进一步提升数据治理的效率和效果。
本发明第一方面的另一个实施例提出了基于AI生成式技术的数据字典标准化方法。在本发明的一些实施例中,如图1-2所示,提供了基于AI生成式技术的数据字典标准化方法,该基于AI生成式技术的数据字典标准化方法包括:
(1)数据收集与预处理:
收集业务数据库中的数据,包括表名、字段名、字段类型等信息。
对收集到的数据进行预处理,包括数据清洗、去除异常值、统一编码格式等。
(2)数据标注与拆分:
对数据进行人工标注,生成符合行业规范的标准字段中文名称。
将数据集拆分为训练集、验证集和测试集,以便后续进行模型训练、验证和测试。
(3)算法选择:
选择一个适合生成式任务的算法,采用NLP行业内最先进的基于Transformer架构的生成预训练式算法。
(4)模型构建:
使用所选算法构建一个生成式模型,设定相关参数,如batch、学习率等。
根据任务需求,对模型进行微调,以提高生成标准字段名的准确性和规范性。
(5)模型训练:
使用训练集对模型进行训练,可以采用GPU或TPU加速训练过程。
在训练过程中,监控模型在验证集上的性能,调整超参数以优化模型性能。
(6)模型验证与测试:
使用验证集对模型进行验证,评估模型的泛化能力。
对于Transformer模型,则有下述处理步骤:
输入编码:在最开始,输入文本会经过词嵌入处理,转化为数值向量。另外,为了使模型能够考虑到单词在句子中的位置,还会对每个单词添加位置编码。词嵌入和位置编码的结果会被相加,作为Transformer的输入;
自注意力机制(Self-Attention):自注意力机制使Transformer模型能够在处理一个单词时,同时考虑到与它相关的其他单词。具体来说,对于输入中的每个单词,模型都会计算出一个分数,反映出该单词与其他单词之间的关联程度。然后,这些分数会被用来对输入的特征进行加权平均,得到新的特征表示;
源注意力(SourceAttention)和目标注意力(TargetAttention):源注意力和目标注意力是在自注意力的基础上,针对序列生成任务进行的优化。在源注意力中,模型在生成每个单词时,会考虑到全部的输入信息。而在目标注意力中,模型只会考虑到之前已经生成的单词,而不会考虑到后面的单词。这样做的目的是为了保证生成过程的自然性,使得每个单词都只依赖于它之前的单词;
层归一化和前馈神经网络:自注意力的输出会通过一个层归一化(LayerNormalization)过程,以减少训练过程中可能出现的数值不稳定性。然后,这些输出会被送入一个前馈神经网络中进行进一步处理。这个前馈神经网络包含两层全连接层,中间有一个ReLU激活函数;
输出:最后,模型的输出会经过一个线性层和一个softmax激活函数,以得到每个单词对应的概率分布。这个概率分布可以用来在序列生成任务中,选择最可能的下一个单词;
以上就是一个基本的Transformer模型的工作过程。通过组合和堆叠多个这样的Transformer层,可以构建出非常强大的模型,用于处理各种复杂的自然语言处理任务。
在测试集上对模型进行测试,评估模型在实际应用场景中的性能。
本发明第一方面的另一个实施例提出的基于AI生成式技术的数据字典标准化方法,高质量的标准化结果:本发明通过生成式模型捕捉文本中的语义和结构信息,能够生成更加规范和一致的字段名,提高数据字典标准化的质量。相比传统的规则或模式匹配方法,本发明在处理复杂和多样的文本数据时,具有更高的准确性和鲁棒性。
提高处理效率:本发明采用预训练的多层transformer模型,避免了与庞大的标准数据库元数据逐个比对所需的过长时间,从而显著提高数据字典标准化的响应速度和效率。相较于背景技术,本发明能够在较短的时间内完成同样规模的数据字典标准化任务。
节省资源:由于本发明实现了高度自动化和智能化的数据字典标准化过程,减少了人工干预和维护的需求,从而节省了人力资源和时间成本。这使得企业能够将更多的精力投入到核心业务和创新领域。
灵活适应性:本发明的方法不依赖于内部标准数据库的存在和完备性,可以适应各种不同的业务数据库字段标准化需求,甚至可以满足没有标准数据库的公司的标准化需求。这使得本发明在实际应用场景中具有更广泛的适用性和灵活性。
本发明第二方面的实施例提出了电子设备。在本发明的一些实施例中,如图4所示,提供了电子设备,该电子设备包括:可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备3可以包括但不仅限于处理器301和存储器302。本领域技术人员可以理解,图4仅仅是电子设备3的示例,并不构成对电子设备3的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器301可以是中央处理单元(CentralProcessing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Dig i ta l Sig na l P r o c e s s o r,D S P)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器302可以是电子设备3的内部存储单元,例如,电子设备3的硬盘或内存。存储器302也可以是电子设备3的外部存储设备,例如,电子设备3上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器302还可以既包括电子设备3的内部存储单元也包括外部存储设备。存储器302用于存储计算机程序以及电子设备所需的其它程序和数据。
本发明第三方面的实施例提出了计算机可读存储介质。在本发明的一些实施例中,提供了计算机可读存储介质,该计算机可读存储介质被处理器301执行时实现上述方法的步骤,因此本发明第三方面提供的计算机可读存储介质具有上述步骤的全部技术效果,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
在本公开所提供的实施例中,应该理解到,所揭露的装置/电子设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/电子设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机
程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围,均应包含在本公开的保护范围之内。

Claims (4)

1.基于AI生成式技术的数据字典标准化方法,其特征在于,包括如下步骤:
获取数据集;
通过所述数据集训练transformer模型对输入向量与输出向量之间的映射关系,以更新transformer模型的参数并保存;
将数据库包含目标表名、目标字段名和目标字段类型的目标名称组输入训练后的transformer模型,以获得新字段名;
通过新字段名替换所述数据库中的目标字段名,
所述的通过所述数据集训练transformer模型对输入输出向量之间的映射关系学习的步骤,具体包括:
通过所述数据集获得名称组与数字的映射关系的索引序列;
设置训练参数;
将所述索引序列输入所述transformer模型进行迭代训练,以更新所述transformer模型的参数;
所述的通过所述数据集获得名称组与数字的映射关系的索引序列,具体包括:
获取表征中文字符与数字的映射关系的字表;
对所述名称组中的表名和字段名的中文名、字段类型以字符为单位进行分割,然后组合形成数字索引;
根据所述名称组和数字索引,生成表征名称组和数字的映射关系的索引序列;
所述的将数据库中目标表名、字段名和目标字段类型的目标名称组输入训练后的transformer模型,以获得新字段名,具体包括:
对所述数据库中包含目标表名、目标字段名和目标字段类型的目标名称组进行处理,以生成表征目标名称组与数字的映射关系的目标索引序列;
将所述目标索引序列输入训练后的transformer模型,以对所述目标索引序列中的目标字段名更新为新字段名;
所述的对所述数据库中目标表名、目标字段名和目标字段类型的数据进行处理,具体包括:
通过SQL语句查询,在所述数据库中获取目标表名、目标字段名和目标字段类型的数据;
通过逗号分别分割目标表名和目标字段名的中文名、字段类型,然后组成字符串;
将包括逗号的字符串进行索引性编码,并根据所述字表生成表征目标名称组与数字的映射关系的目标索引序列;
所述的设置训练参数,具体包括:
将所述transformer模型的损失函数设置为CrossEntropy函数,将学习率设置为1e-5,将transformer模型的优化器设置为Adam。
2.根据权利要求1所述的基于AI生成式技术的数据字典标准化方法,其特征在于,所述数据集包含多个数据库的表名、字段名、字段类型的数据。
3.一种电子设备,包括存储器、处理器以及储存在所述存储器中并且能够在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至2中任一项所述方法的步骤。
4.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至2中任一项所述方法的步骤。
CN202310866248.5A 2023-07-14 2023-07-14 基于ai生成式技术的数据字典标准化方法、设备及介质 Active CN116842021B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310866248.5A CN116842021B (zh) 2023-07-14 2023-07-14 基于ai生成式技术的数据字典标准化方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310866248.5A CN116842021B (zh) 2023-07-14 2023-07-14 基于ai生成式技术的数据字典标准化方法、设备及介质

Publications (2)

Publication Number Publication Date
CN116842021A CN116842021A (zh) 2023-10-03
CN116842021B true CN116842021B (zh) 2024-04-26

Family

ID=88172442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310866248.5A Active CN116842021B (zh) 2023-07-14 2023-07-14 基于ai生成式技术的数据字典标准化方法、设备及介质

Country Status (1)

Country Link
CN (1) CN116842021B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858834A (zh) * 2020-07-30 2020-10-30 平安国际智慧城市科技股份有限公司 基于ai的案件争议焦点确定方法、装置、设备及介质
CN112287005A (zh) * 2020-10-22 2021-01-29 北京锐安科技有限公司 一种数据处理方法、装置、服务器及介质
CN112597124A (zh) * 2020-11-30 2021-04-02 新华三大数据技术有限公司 一种数据字段映射方法、装置及存储介质
CN112883737A (zh) * 2021-03-03 2021-06-01 山东大学 基于中文命名实体识别的机器人语言指令分析方法及系统
CN113723103A (zh) * 2021-08-26 2021-11-30 北京理工大学 融合多源知识的中文医学命名实体和词性联合学习方法
CN114582449A (zh) * 2022-01-17 2022-06-03 内蒙古大学 基于XLNet-BiGRU-CRF模型的电子病历命名实体标准化方法和系统
CN114996388A (zh) * 2022-07-18 2022-09-02 湖南创星科技股份有限公司 一种诊断名称标准化的智能匹配方法及系统
CN115080644A (zh) * 2022-06-08 2022-09-20 国网甘肃省电力公司 一种电网资源业务中台及其电网信息模型构建方法
US11461687B1 (en) * 2020-06-09 2022-10-04 The Travelers Indemnity Company Automated data modeling for abbreviations utilizing fuzzy reasoning logic
CN116089258A (zh) * 2022-10-26 2023-05-09 建信金融科技有限责任公司 数据迁移测试方法、装置、设备、存储介质及程序产品

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11556508B1 (en) * 2020-06-08 2023-01-17 Cigna Intellectual Property, Inc. Machine learning system for automated attribute name mapping between source data models and destination data models
US11698906B2 (en) * 2020-08-26 2023-07-11 Jpmorgan Chase Bank, N.A. Method and apparatus for automatically mapping physical data models/objects to logical data models and business terms
US11615120B2 (en) * 2021-06-03 2023-03-28 Sap Se Numeric embeddings for entity-matching

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11461687B1 (en) * 2020-06-09 2022-10-04 The Travelers Indemnity Company Automated data modeling for abbreviations utilizing fuzzy reasoning logic
CN111858834A (zh) * 2020-07-30 2020-10-30 平安国际智慧城市科技股份有限公司 基于ai的案件争议焦点确定方法、装置、设备及介质
CN112287005A (zh) * 2020-10-22 2021-01-29 北京锐安科技有限公司 一种数据处理方法、装置、服务器及介质
CN112597124A (zh) * 2020-11-30 2021-04-02 新华三大数据技术有限公司 一种数据字段映射方法、装置及存储介质
CN112883737A (zh) * 2021-03-03 2021-06-01 山东大学 基于中文命名实体识别的机器人语言指令分析方法及系统
CN113723103A (zh) * 2021-08-26 2021-11-30 北京理工大学 融合多源知识的中文医学命名实体和词性联合学习方法
CN114582449A (zh) * 2022-01-17 2022-06-03 内蒙古大学 基于XLNet-BiGRU-CRF模型的电子病历命名实体标准化方法和系统
CN115080644A (zh) * 2022-06-08 2022-09-20 国网甘肃省电力公司 一种电网资源业务中台及其电网信息模型构建方法
CN114996388A (zh) * 2022-07-18 2022-09-02 湖南创星科技股份有限公司 一种诊断名称标准化的智能匹配方法及系统
CN116089258A (zh) * 2022-10-26 2023-05-09 建信金融科技有限责任公司 数据迁移测试方法、装置、设备、存储介质及程序产品

Also Published As

Publication number Publication date
CN116842021A (zh) 2023-10-03

Similar Documents

Publication Publication Date Title
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN111814466A (zh) 基于机器阅读理解的信息抽取方法、及其相关设备
CN110580308B (zh) 信息审核方法及装置、电子设备、存储介质
CN110795525A (zh) 文本结构化方法、装置、电子设备及计算机可读存储介质
CN110597844B (zh) 异构数据库数据统一访问方法及相关设备
CN112101010B (zh) 一种基于bert的电信行业oa办公自动化文稿审核的方法
CN112560486A (zh) 基于多层神经网络的电力实体识别方法、存储介质和设备
Hwang et al. Cost-effective end-to-end information extraction for semi-structured document images
CN112100413A (zh) 一种跨模态的哈希检索方法
CN114372475A (zh) 一种基于RoBERTa模型的网络舆情情感分析方法及系统
CN115186654B (zh) 一种公文文本摘要生成方法
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN114818643A (zh) 一种保留特定业务信息的日志模板提取方法
CN109446522B (zh) 一种试题自动分类系统及方法
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
CN116842021B (zh) 基于ai生成式技术的数据字典标准化方法、设备及介质
CN117151095A (zh) 一种基于案情的处置预案生成方法
CN114820134A (zh) 一种商品信息召回方法、装置、设备和计算机存储介质
CN114610882A (zh) 一种基于电力短文本分类的异常设备编码检测方法和系统
CN112597208A (zh) 企业名称检索方法、企业名称检索装置及终端设备
CN117573956B (zh) 元数据管理方法、装置、设备及存储介质
US20230297648A1 (en) Correlating request and response data using supervised learning
CN110059314A (zh) 一种基于增强学习的关系抽取方法
CN114818644B (zh) 文本模板生成方法、装置、设备及存储介质
CN117408679B (zh) 一种运维场景信息的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant