CN116719875A - 一种数据标准化维护方法、系统、设备及介质 - Google Patents
一种数据标准化维护方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN116719875A CN116719875A CN202310994944.4A CN202310994944A CN116719875A CN 116719875 A CN116719875 A CN 116719875A CN 202310994944 A CN202310994944 A CN 202310994944A CN 116719875 A CN116719875 A CN 116719875A
- Authority
- CN
- China
- Prior art keywords
- name
- field information
- term
- word
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012423 maintenance Methods 0.000 title claims abstract description 24
- 230000014509 gene expression Effects 0.000 claims abstract description 17
- 150000001875 compounds Chemical class 0.000 claims description 42
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012795 verification Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000013500 data storage Methods 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 abstract description 6
- 238000012545 processing Methods 0.000 abstract description 5
- 238000006243 chemical reaction Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于词库处理技术领域,具体公开了一种数据标准化维护方法、系统、设备及介质,包括:获取待校验数据库的字段信息;构建包含用语与名称的关联关系的标准词库,对字段信息和用语进行匹配;若字段信息和用语匹配,校验字段信息的名称,根据校验的结果并通过关联关系更新字段信息的名称;若字段信息和用语不匹配,将字段信息作为用语并命名名称,以更新标准词库和待校验数据库中的字段信息;具有如下优点:保证标准词库数据结构的统一和一致性,避免出现标准词库内部标准不一致的问题,提升数据标准化的规范性。采用标准词库进行数据转化,获得不同数据库之间统一的命名、数据格式,能够减少数据集成的复杂度,满足业务需求。
Description
技术领域
本发明涉及词库处理技术领域,具体而言,涉及一种数据标准化维护方法、系统、设备及介质。
背景技术
在信息系统的建设过程中,数据具有统一的命名、格式便于数据的存储、流通,也能够更好地满足业务需求。但在系统运行过程中,可能出现数据格式标准变化的情况。并且,基于数据库工具的不同、数据命名规则的不同等原因,不同数据库之间往往不能形成数据命名、格式的一致性,这给数据集成带来了一定的困难。
为此提出一种数据标准化维护方法,以解决上述提出的问题。
发明内容
本发明旨在提供数据标准化维护方法,以解决或改善上述技术问题中的至少之一。
有鉴于此,本发明的第一方面在于提供一种数据标准化维护方法。
本发明的第二方面在于提供一种维护系统。
本发明的第三方面在于提供一种电子设备。
本发明的第四方面在于提供一种计算机可读存储介质。
本发明的第一方面提供了数据标准化维护方法,包括如下步骤:获取待校验数据库的字段信息;构建包含用语与名称的关联关系的标准词库,对所述字段信息和用语进行匹配;若所述字段信息和用语匹配,校验所述字段信息的名称,根据校验的结果并通过所述关联关系更新所述字段信息的名称;若所述字段信息和用语不匹配,将所述字段信息作为用语并命名名称,以更新所述标准词库和待校验数据库中的所述字段信息。
进一步地,所述的构建包含用语与名称的关联关系的所述标准词库的步骤,包括:根据预设规则拆分所述用语,以获得单一词和由单一词组成的复合词;将所有所述单一词去重处理,对去重后的所述单一词分别命名名称;根据所述单一词和名称的关联关系,以所述单一词为单位对所有所述复合词和用语命名名称;根据所述单一词、复合词和用语与名称的关联关系构建所述标准词库。
进一步地,所述的构建包含用语与名称的关联关系的所述标准词库的步骤,还包括:遍历所述标准词库所有所述单一词,筛选能够作为分类词的所述单一词;根据每个筛选后的所述单一词,分别在所述标准词库内构建用于储存与当前所述单一词为同义词的域。
进一步地,所述的校验所述字段信息的名称的步骤,包括:根据所述用语与名称的关联关系,以所述单一词的名称为单位,校验所述字段信息的名称与用语的名称是否相同。
进一步地,所述的根据校验的结果并通过所述关联关系更新所述字段信息的名称的步骤,包括:若所述字段信息的名称与用语的名称相同,则不更新当前所述字段信息的名称;若所述字段信息的名称与用语的名称不相同,则根据当前所述用语的名称更新所述字段信息的名称。
进一步地,所述的将所述字段信息作为用语并命名名称的步骤,包括:根据所述预设规则拆分所述字段信息,以获得待处理的单一词和由单一词组成的复合词;在所有待处理的单一词中,获取为禁用词的单一词并删除,以及获取在所述标准词库中具有同义词的单一词并在所述字段信息中将当前单一词转化同义词对应的单一词;对待处理的单一词命名名称,以所述单一词为单位对待处理的所述复合词、字段信息及字段信息对应用语命名名称。
进一步地,所述的将所述字段信息作为用语并命名名称的步骤,还包括:设定预设长度,当所述字段信息对应用语的名称长度超过所述预设长度时,缩减当前所述名称并将字段信息对应用语划定为非标准用语;其中,所述非标准用语在所述标准词库中不进行拆分。
本发明的第二方面提供了一种维护系统,包括:数据获取模块,用于获取待校验数据库的字段信息,并进行字段信息的预处理;所述预处理包含字段信息去重和删除特殊符号;数据标注模块,用于对字段信息作为用语命名名称,并建立用语与名称之间的关联关系;数据储存模块,用于存储用语与名称的关联关系。
本发明的第三方面提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本发明的第四方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本发明与现有技术相比所具有的有益效果:
能够维持标准词库的长期稳定性,保证标准词库数据结构的统一和一致性,避免出现标准词库内部标准不一致的问题,提升数据标准化的规范性。
采用标准词库进行数据转化,获得不同数据库之间统一的命名、数据格式,能够减少数据集成的复杂度,满足业务需求。
根据本发明的实施例的附加方面和优点将在下面的描述部分中变得明显,或通过根据本发明的实施例的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明的方法步骤流程图;
图2为本发明的一种电子设备的结构示意图。
具体实施方式
为了可以更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
请参阅图1-2,下面描述本发明一些实施例的一种数据标准化维护方法、系统、设备及介质。
本发明第一方面的实施例提出了数据标准化维护方法。在本发明的一些实施例中,如图1所示,该方法包括:
S1,获取待校验数据库的字段信息。
S2,构建包含用语与名称的关联关系的标准词库,对字段信息和用语进行匹配。
上述标准词库的构建,具体包括如下步骤:
S201,根据预设规则拆分用语,以获得单一词和由单一词组成的复合词。
具体而言,上述的名称为英文缩写,单一词是标准词库中最小粒度的词,如客户、名称。复合词由单一词构成,通常为常用的单一词组合,如客户名称、客户编码。用语由单一词、复合词构成,如个人客户名称、企业客户名称。
S202,将所有单一词去重处理,对去重后的单一词分别命名名称。
由于在每个用语均能拆分出多个单一词或复合词,因此在所有语句拆分后容易造成单一词或复合词的重复,因此在命名之前需要进行去重处理,以便每个单一词或复合词在命名中都是独一无二的,避免重复命名。
进一步地,单一词与复合词之间是多对多的关系,一个单一词可构成不同的复合词,一个复合词可由多个单一词构成。
S203,根据单一词和名称的关联关系,以单一词为单位对所有复合词和用语命名名称。
由上述可知,由于数据库中通常采用词语的英文缩写表示数据名称,但一个中文名称可能对应多个英文名称,这就可能导致同一个中文名称在不同词语中对应的英文缩写不同。比如,“关联”为“Relevancy”,但其在“关联方”中对应“Affiliated Party”,在“关联关系”中对应“Relevancy Relationship”,在“关联用户”中对应“Associated User”,这样不利于数据的统一管理。因此,本实施例通过定义复合词,将常用的单一词的组合固定为复合词的形式,有利于数据格式的统一,便于以后的管理。
S204,根据单一词、复合词和用语与名称的关联关系构建标准词库。
这里,单一词与其名称、复合词与其名称、用语与其名称之间均存在特定的关联关系,在标准词库中不仅记录单一词、复合词和用语,也需要记载单一词、复合词和用语与名称之间的关联关系。标准词库作为数据格式统一的模板,示出了数据存储的格式标准,可用于数据集成过程中对各式各样数据库中数据的统一转化。同时,为了保证该格式标准的稳定性、可持续性,在对标准词库进行更新的过程中,也需要按照特定的逻辑进行,以免破坏标准词库的格式标准。
S205,遍历标准词库所有单一词,筛选能够作为分类词的单一词。
单一词中能够对数据进行分类的特殊单词称为分类词,比如类型、标志、地址,其他为非分类词。基于用语中是否包含分类词,可将用语分为属性用语和实体用语。属性用语的最后一个词必须是分类词,而实体用语不作要求。
S206,根据每个筛选后的单一词,分别在标准词库内构建用于储存与当前单一词为同义词的域。
由上述可知,分类词与域相关联,进一步地,包含分类词的用语也与域相关联。域用于定义数据类型,比如varchar、date,性质相同的用语的域相同,比如个人客户名称、企业客户名称的域均为varchar,因此域可用于规范和统一数据类型。但基于用语的需求不同,其数据长度可能不同,比如个人客户名称的域为varchar(10)、企业客户名称的域均为varchar(30)。
域只能从被定义为分类词的单词中进行选择引用,且只能引用一个分类词使用,不允许对域的中文进行拆分。域包含数据类型、长度、精度等信息。分类词和域之间是一对多的关系,允许存在名称相同但是数据类型、长度、精度不同的域。比如,“名称”按长度可以分为多个域,可以是长度100的,也可以是长度200的。
属性用语必须关联域,且根据包含的最后一个分类词来关联引用该分类词定义的域,使用域的数据约束作为自己的数据约束。由于可能存在同名但是数据类型不同的域,可使用默认的域,也可另行指定,限制在中文名称相同的范围内进行指定变更。实体用语主要是为了表示对实体/表的命名,因此无需关联域。
进一步地,基于域能否与代码相关联,可将域分为基础型域和代码型域。代码表示域中可以使用的枚举值的范围。比如,“性别”是一个单一词,且为分类词,其可以定义一个域,在存储性别数据时,可使用“F”表示女性,“M”表示男性,这种可以从已管理的代码中定义枚举值的,即表示代码型域。而不能定义枚举值的,表示基础型域。
S3,若字段信息和用语匹配,校验字段信息的名称,根据校验的结果并通过关联关系更新字段信息的名称。
上述的步骤S3,具体包括如下步骤:
S301,根据用语与名称的关联关系,以单一词的名称为单位,校验字段信息的名称与用语的名称是否相同。
在标准词库构建的初期,标准词库中可能包含如表1所示词语:
表1
单词中文名称 | 单词英文名称 | 单词英文缩写 |
客户 | Customer | CUST |
名称 | Name | NM |
个人 | Personal | PRSNL |
企业 | Enterprise | ENTRPRS |
此时,创建“个人客户名称”的用语时,该用语结构为“个人+客户+名称”,因此得到的英文缩写是 PRSNL_CUST_NM。
由于“名称”可以是客户的名称、产品的名称、渠道的名称等很多场景,名称本身允许的数据长度也各不相同,客户的名称可能与产品名称长度差别很多,即使在客户当中,个人客户的名称和企业客户的名称长度也不相同。因此,为了使用的便利性,在当前标准词库中不包含“客户名称”的复合词的前提下,可以将“客户名称”定义为一个复合词。
若不要求对更新的复合词进行分词校验的话,它的定义可以如表2所示:
表2
单词中文名称 | 单词英文名称 | 单词英文缩写 |
客户名称 | Customer Name | CNM |
此时,再添加一个“企业客户名称”的用语时,该用语结构为“企业+客户名称”,因此得到的英文缩写是“ENTRPRS_CNM”。
在这种情况下,该用语的英文缩写与之前定义的“个人客户名称”的“PRSNL_CUST_NM”,其客户名称部分的英文缩写不一致,这就出现了数据库中数据格式不一致的问题。而由于之前的用语的英文缩写已经在系统代码中大范围使用而难以修改,就会产生标准词库不再标准的现象。
因此,为了解决这个问题,需要在复合词添加时进行分词,与当前词库中的单一词保持统一的英文缩写,确保在日后维护管理工作中标准的一致性。
且在校验中,对字段信息的名称与用语的名称以单一词的名称为单位进行比对,若完全相同则视为字段信息的名称与用语的名称是相同。
S302,若字段信息的名称与用语的名称相同,则不更新当前字段信息的名称。
具体而言,若字段信息的名称与用语的名称以单一词的名称为单位,在校验后完全相同,则视为字段信息的名称符合标准词库的要求。
S303,若字段信息的名称与用语的名称不相同,则根据当前用语的名称更新字段信息的名称。
具体而言,若字段信息的名称与用语的名称以单一词的名称为单位,在校验后存在不同的地方,则视为字段信息的名称不符合标准词库的要求,直接在待校验数据库中将用语的名称对字段信息的名称进行替换即可。
S4,若字段信息和用语不匹配,将字段信息作为用语并命名名称,以更新标准词库和待校验数据库中的字段信息。
上述的将字段信息作为用语并命名名称的步骤,具体包括:
根据预设规则拆分字段信息,以获得待处理的单一词和由单一词组成的复合词。
在所有待处理的单一词中,获取为禁用词的单一词并删除,以及获取在所述标准词库中具有同义词的单一词并在所述字段信息中将当前单一词转化同义词对应的单一词。
具体地,若待处理的单一词与标准词库中的单一词为同义词,则无需更新标准词库,或待处理的单一词是预设的禁用词,则不能更新标准词库。禁用词是系统内置的逻辑规则,禁止在用语中使用的单词。除此之外的其他情况,则可对待处理的单一词进行校验后添加至标准词库中。同理,待处理的复合词、用语拆分得到的单一词在不是标准词库中单一词的同义词、禁用词的情况下,可经过校验后添加至标准词库中。
对待处理的单一词命名名称,以单一词为单位对待处理的复合词、字段信息及字段信息对应用语命名名称。
设定预设长度,当字段信息对应用语的名称长度超过预设长度时,缩减当前名称并将字段信息对应用语划定为非标准用语;其中,所述非标准用语在所述标准词库中不进行拆分。
这里,使用单词的英文缩写拼接生成用语的英文缩写,并作为数据库字段的命名,可能会受到数据库中对字段命名的长度限制。比如Oracle数据库的字段名称长度不能超过32位。如果超过这个长度,就需要修改单词的英文缩写长度,以缩短用语的英文缩写长度。但该单词若已经在应用中,其修改就会产生较大的影响范围,从而出现修改困难的情况。因此,若存在用语超长的情况,需要通过定义非标准用语的方式解决,这种情况下无需将用语与单词之间建立关系。
另外,限制使用复合词作为缩短用语英文缩写长度的手段使用,且将单一词的长度定义得相对合理,限制用语所拆分单词的数量,从一定程度来说会极大地减少出现字段英文缩写超长的情况。
在上述实施例中,更新标准词库中的单一词之前,还需对标准词库中待添加的单一词进行校验,比如拆词检查,以确定待添加的单一词不是复合词,确保不存在误将复合词定义为单一词的情况。
在该实施例中,更新标准词库中的复合词之前,还需对标准词库中待添加的复合词进行校验,比如使用单一词对复合词进行分词和检查,以确定待添加的复合词是由标准词库中的单一词构成的。或者,也可对拆词结果进行人工确认,以实现二次校验。这种强制使用单一词组合生成复合词的方式,能够保障标准词库数据结构的统一和稳定性。
综上,本发明提供的数据标准化维护方法,能够维持标准词库的长期稳定性,保证标准词库数据结构的统一和一致性,避免出现标准词库内部标准不一致的问题,提升数据标准化的规范性;采用标准词库进行数据转化,获得不同数据库之间统一的命名、数据格式,能够减少数据集成的复杂度,满足业务需求。
本发明第二方面的实施例提出了维护系统。在本发明的一些实施例中,该维护系统包括:
数据获取模块,用于获取待校验数据库的字段信息,并进行字段信息的预处理;所述预处理包含字段信息去重和删除特殊符号;
数据标注模块,用于对字段信息作为用语命名名称,并建立用语与名称之间的关联关系;
数据储存模块,用于存储用语与名称的关联关系。
本发明提供的数据维护系统,通过明确建立各类词库要素之间的关联关系,能够提高词库对象的质量,提高标准词库的易用性,确保标准词库中各类对象的长期保鲜,同时,通过使用标准词库可以使各类数据库字段信息和数据类型的一致性,提高系统的标准化程度,降低系统集成的难度。作为数据资产的角度来说,通过词库建立各类数据资产之间的关联关系,最终便于从企业级角度更好地理解数据。
本发明第三方面的实施例提出了电子设备。在本发明的一些实施例中,如图2所示,提供了电子设备,该电子设备包括:可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备3可以包括但不仅限于处理器301和存储器302。本领域技术人员可以理解,图2仅仅是电子设备3的示例,并不构成对电子设备3的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器301可以是中央处理单元(CentralProcessing Unit,CPU),也可以是其它通 用处 理 器 、数 字 信号处 理 器(Dig i ta l Sig na l P r o c e s s o r ,D SP)、专 用集 成电 路(Application Specific Integrated Circuit ,ASIC)、现场可编程门阵列(Field-ProgrammableGate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器302可以是电子设备3的内部存储单元,例如,电子设备3的硬盘或内存。存储器302也可以是电子设备3的外部存储设备,例如,电子设备3上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器302还可以既包括电子设备3的内部存储单元也包括外部存储设备。存储器302用于存储计算机程序以及电子设备所需的其它程序和数据。
本发明第四方面的实施例提出了计算机可读存储介质。在本发明的一些实施例中,提供了计算机可读存储介质,该计算机可读存储介质被处理器301执行时实现上述方法的步骤,因此本发明第四方面提供的计算机可读存储介质具有上述步骤的全部技术效果,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
在本公开所提供的实施例中,应该理解到,所揭露的装置/电子设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/电子设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机
程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围,均应包含在本公开的保护范围之内。
Claims (10)
1.一种数据标准化维护方法,其特征在于,包括如下步骤:
获取待校验数据库的字段信息;
构建包含用语与名称的关联关系的标准词库,对所述字段信息和用语进行匹配;
若所述字段信息和用语匹配,校验所述字段信息的名称,根据校验的结果并通过所述关联关系更新所述字段信息的名称;
若所述字段信息和用语不匹配,将所述字段信息作为用语并命名名称,以更新所述标准词库和待校验数据库中的所述字段信息。
2.根据权利要求1所述的数据标准化维护方法,其特征在于,所述的构建包含用语与名称的关联关系的所述标准词库的步骤,包括:
根据预设规则拆分所述用语,以获得单一词和由单一词组成的复合词;
将所有所述单一词去重处理,对去重后的所述单一词分别命名名称;
根据所述单一词和名称的关联关系,以所述单一词为单位对所有所述复合词和用语命名名称;
根据所述单一词、复合词和用语与名称的关联关系构建所述标准词库。
3.根据权利要求2所述的数据标准化维护方法,其特征在于,所述的构建包含用语与名称的关联关系的所述标准词库的步骤,还包括:
遍历所述标准词库所有所述单一词,筛选能够作为分类词的所述单一词;
根据每个筛选后的所述单一词,分别在所述标准词库内构建用于储存与当前所述单一词为同义词的域。
4.根据权利要求2所述的数据标准化维护方法,其特征在于,所述的校验所述字段信息的名称的步骤,包括:
根据所述用语与名称的关联关系,以所述单一词的名称为单位,校验所述字段信息的名称与用语的名称是否相同。
5.根据权利要求4所述的数据标准化维护方法,其特征在于,所述的根据校验的结果并通过所述关联关系更新所述字段信息的名称的步骤,包括:
若所述字段信息的名称与用语的名称相同,则不更新当前所述字段信息的名称;
若所述字段信息的名称与用语的名称不相同,则根据当前所述用语的名称更新所述字段信息的名称。
6.根据权利要求3所述的数据标准化维护方法,其特征在于,所述的将所述字段信息作为用语并命名名称的步骤,包括:
根据所述预设规则拆分所述字段信息,以获得待处理的单一词和由单一词组成的复合词;
在所有待处理的单一词中,获取为禁用词的单一词并删除,以及获取在所述标准词库中具有同义词的单一词并在所述字段信息中将当前单一词转化同义词对应的单一词;
对待处理的单一词命名名称,以所述单一词为单位对待处理的所述复合词、字段信息及字段信息对应用语命名名称。
7.根据权利要求6所述的数据标准化维护方法,其特征在于,所述的将所述字段信息作为用语并命名名称的步骤,还包括:
设定预设长度,当所述字段信息对应用语的名称长度超过所述预设长度时,缩减当前所述名称并将字段信息对应用语划定为非标准用语;
其中,所述非标准用语在所述标准词库中不进行拆分。
8.用于实施如权利要求1-7中任一项所述数据标准化维护方法的一种维护系统,其特征在于,包括:
数据获取模块,用于获取待校验数据库的字段信息,并进行字段信息的预处理;所述预处理包含字段信息去重和删除特殊符号;
数据标注模块,用于对字段信息作为用语命名名称,并建立用语与名称之间的关联关系;
数据储存模块,用于存储用语与名称的关联关系。
9.一种电子设备,包括存储器、处理器以及储存在所述存储器中并且能够在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310994944.4A CN116719875B (zh) | 2023-08-09 | 2023-08-09 | 一种数据标准化维护方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310994944.4A CN116719875B (zh) | 2023-08-09 | 2023-08-09 | 一种数据标准化维护方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116719875A true CN116719875A (zh) | 2023-09-08 |
CN116719875B CN116719875B (zh) | 2023-12-26 |
Family
ID=87870083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310994944.4A Active CN116719875B (zh) | 2023-08-09 | 2023-08-09 | 一种数据标准化维护方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116719875B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118377605A (zh) * | 2024-06-26 | 2024-07-23 | 恒生电子股份有限公司 | 任务调度模型构建方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020259147A1 (zh) * | 2019-06-28 | 2020-12-30 | 深圳前海微众银行股份有限公司 | 一种字段信息检验方法及装置 |
CN113642327A (zh) * | 2021-10-14 | 2021-11-12 | 中国光大银行股份有限公司 | 一种标准知识库的构建方法及装置 |
CN113849607A (zh) * | 2021-10-14 | 2021-12-28 | 中国光大银行股份有限公司 | 数据标准化的方法以及标准化模型的生成方法及装置 |
CN114091426A (zh) * | 2020-10-19 | 2022-02-25 | 北京沃东天骏信息技术有限公司 | 一种处理数据仓库中字段数据的方法和装置 |
-
2023
- 2023-08-09 CN CN202310994944.4A patent/CN116719875B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020259147A1 (zh) * | 2019-06-28 | 2020-12-30 | 深圳前海微众银行股份有限公司 | 一种字段信息检验方法及装置 |
CN114091426A (zh) * | 2020-10-19 | 2022-02-25 | 北京沃东天骏信息技术有限公司 | 一种处理数据仓库中字段数据的方法和装置 |
CN113642327A (zh) * | 2021-10-14 | 2021-11-12 | 中国光大银行股份有限公司 | 一种标准知识库的构建方法及装置 |
CN113849607A (zh) * | 2021-10-14 | 2021-12-28 | 中国光大银行股份有限公司 | 数据标准化的方法以及标准化模型的生成方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118377605A (zh) * | 2024-06-26 | 2024-07-23 | 恒生电子股份有限公司 | 任务调度模型构建方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116719875B (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9280569B2 (en) | Schema matching for data migration | |
US8108367B2 (en) | Constraints with hidden rows in a database | |
CN113032362B (zh) | 数据血缘分析方法、装置、电子设备和存储介质 | |
JP5306359B2 (ja) | 複数言語によるデータ記録を関連付ける方法およびシステム | |
US9721009B2 (en) | Primary and foreign key relationship identification with metadata analysis | |
US20080301162A1 (en) | Data conversion environment | |
US20210110278A1 (en) | Enterprise knowledge graph | |
CN116719875B (zh) | 一种数据标准化维护方法、系统、设备及介质 | |
CN109726298A (zh) | 适用于科技文献的知识图谱构建方法、系统、终端及介质 | |
CN110597844B (zh) | 异构数据库数据统一访问方法及相关设备 | |
CN113254457B (zh) | 一种对账方法、系统及计算机可读存储介质 | |
CN117112590A (zh) | 一种生成结构性查询语言的方法和数据查询设备 | |
CN114091426A (zh) | 一种处理数据仓库中字段数据的方法和装置 | |
US20080294673A1 (en) | Data transfer and storage based on meta-data | |
CN117633141A (zh) | 业务知识检索库构建方法、装置、电子设备及存储介质 | |
US20070198543A1 (en) | Method and apparatus for pre-processing mapping information for efficient decomposition of XML documents | |
CN112612818B (zh) | 一种数据处理方法及装置、计算设备和存储介质 | |
CN110750509A (zh) | 一种企业名称查重方法及装置、设备、介质 | |
US11630852B1 (en) | Machine learning-based clustering model to create auditable entities | |
JP2022153339A (ja) | データベースシステムにおけるレコードマッチング(データベースシステムにおけるレコードマッチングのコンピュータ実装方法、コンピュータプログラム、コンピュータシステム) | |
CN114461606A (zh) | 数据存储方法、装置、计算机设备及存储介质 | |
CN116303478B (zh) | 一种关系型数据库Schema管理系统及方法 | |
CN114722109B (zh) | 数据导入方法、系统、设备及存储介质 | |
CN117763059B (zh) | 一种数据仓库和数据集市的模型构建方法及系统 | |
CN115794827B (zh) | 一种数据表结构管理系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 6-9, Room 1401, 14th Floor, Building 2, No. 6 Lize West Street, Chaoyang District, Beijing, 100020 Applicant after: Encore (Beijing) Information Technology Co.,Ltd. Address before: No. 01, 21st Floor, Building 1, No. 36 Xiaoyun Road, Chaoyang District, Beijing 100027 Applicant before: Encore (Beijing) Information Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |