CN112527970B - 数据字典标准化处理方法、装置、设备及存储介质 - Google Patents

数据字典标准化处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112527970B
CN112527970B CN202011551746.3A CN202011551746A CN112527970B CN 112527970 B CN112527970 B CN 112527970B CN 202011551746 A CN202011551746 A CN 202011551746A CN 112527970 B CN112527970 B CN 112527970B
Authority
CN
China
Prior art keywords
record
data
target
similarity
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011551746.3A
Other languages
English (en)
Other versions
CN112527970A (zh
Inventor
李佳妮
刘威浩
黄炜
周骏
谢华雯
陆燕
徐宏杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Pudong Development Bank Co Ltd
Original Assignee
Shanghai Pudong Development Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Pudong Development Bank Co Ltd filed Critical Shanghai Pudong Development Bank Co Ltd
Priority to CN202011551746.3A priority Critical patent/CN112527970B/zh
Publication of CN112527970A publication Critical patent/CN112527970A/zh
Application granted granted Critical
Publication of CN112527970B publication Critical patent/CN112527970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供了一种数据字典标准化处理方法、装置、设备及存储介质,该方法包括:确认数据字典中目标字段下的当前字段值是否与数据标准中对应字段下的字段值全字匹配;当所述当前字段值不与所述对应字段下的任何字段值全字匹配时,获取第一记录与所述数据标准中每条记录在指定特征下的相似度;所述第一记录为所述当前字段值在所述数据字典中对应的记录;根据所述相似度确定所述数据标准中与所述第一记录匹配的目标记录;读取所述第一记录和所述目标记录,并在将其拼接为一条记录后写入目标数据表;按照预设的标准化处理逻辑对所述目标数据表中的记录进行自动处理。本说明书实施例可以提高数据字典标准化处理的效率和准确性。

Description

数据字典标准化处理方法、装置、设备及存储介质
技术领域
本说明书涉及数据处理技术领域,尤其是涉及一种数据字典标准化处理方法、装置、设备及存储介质。
背景技术
数据字典(Data dictionary)是指对数据的数据项、数据结构、数据流、数据存储、处理逻辑等进行定义和描述,是对数据流程图中的各个元素做出详细的定义和描述,使用数据字典为简单的建模项目。简而言之,数据字典是描述数据的信息集合,是对系统中使用的所有数据元素的定义的集合。数据字典对于应用系统的数据库开发等具有重要意义。
为了有利于保证数据字典的正确性并符合相关标准要求,数据字典一般需要进行标准化处理。传统的数据字典标准化处理主要通过人工处理实现,即通过人工方式将数据字典与数据标准进行对比匹配。显然,这种人工处理的方式效率低且容易出错。
发明内容
本说明书实施例的目的在于提供一种数据字典标准化处理方法、装置、设备及存储介质,以提高数据字典标准化处理的效率和准确性。
为达到上述目的,一方面,本说明书实施例提供了一种数据字典标准化处理方法,包括:
确认数据字典中目标字段下的当前字段值是否与数据标准中对应字段下的字段值全字匹配;
当所述当前字段值不与所述对应字段下的任何字段值全字匹配时,获取第一记录与所述数据标准中每条记录在指定特征下的相似度;所述第一记录为所述当前字段值在所述数据字典中对应的记录;
根据所述相似度确定所述数据标准中与所述第一记录匹配的目标记录;
读取所述第一记录和所述目标记录,并在将其拼接为一条记录后写入目标数据表;
按照预设的标准化处理逻辑对所述目标数据表中的记录进行自动处理。
本说明书一实施例中,所述数据字典标准化处理方法还包括:
当所述当前字段值与所述对应字段下的一个字段值全字匹配时,读取第一记录和第二记录,并在将其拼接为一条记录后写入所述目标数据表;所述第二记录为所述一个字段值在所述数据标准中对应的记录。
本说明书一实施例中,所述获取第一记录与所述数据标准中每条记录在指定特征下的相似度,包括:
对所述第一记录中指定字段进行向量化,获得第一向量;
对所述数据标准中每条记录中指定字段进行向量化,对应获得所述每条记录中指定字段的第二向量;
确定所述第一向量与所述每条记录中指定字段的第二向量的相似度,形成相似度集合。
本说明书一实施例中,所述根据所述相似度确定所述数据标准中与所述第一记录匹配的目标记录,包括:
确定相似度集合中的最大值;
确认所述最大值是否大于相似度阈值;
当所述最大值大于所述相似度阈值时,将所述数据标准中与所述最大值对应的记录,作为与所述第一记录匹配的目标记录。
本说明书一实施例中,所述获取第一记录与所述数据标准中每条记录在指定特征下的相似度,包括:
对所述第一记录中多个指定字段进行向量化,对应获得所述第一记录中多个指定字段的第一向量集合;
对所述数据标准中每条记录中多个指定字段进行向量化,对应获得所述每条记录中多个指定字段的第二向量集合;
按照预设对比规则确定所述第一向量集合中的第一向量,与所述每条记录中多个指定字段的第二向量集合的第二向量的相似度,获得相似度矩阵。
本说明书一实施例中,所述根据所述相似度确定所述数据标准中与所述第一记录匹配的目标记录,包括:
将所述相似度矩阵输入预设的匹配预测模型中,预测得到所述数据标准中与所述第一记录匹配的目标记录。
本说明书一实施例中,所述匹配预测模型为基于机器学习模型的预训练模型。
另一方面,本说明书实施例还提供了一种数据字典标准化处理装置,包括:
全字匹配模块,用于确认数据字典中目标字段下的当前字段值是否与数据标准中对应字段下的字段值全字匹配;
相似度获取模块,用于当所述当前字段值不与所述对应字段下的任何字段值全字匹配时,获取第一记录与所述数据标准中每条记录在指定特征下的相似度;所述第一记录为所述当前字段值在所述数据字典中对应的记录;
记录匹配模块,用于根据所述相似度确定所述数据标准中与所述第一记录匹配的目标记录;
记录拼接模块,用于读取所述第一记录和所述目标记录,并在将其拼接为一条记录后写入目标数据表;
标准化处理模块,用于按照预设的标准化处理逻辑对所述目标数据表中的记录进行自动处理。
另一方面,本说明书实施例还提供了一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时,执行上述方法的指令。
另一方面,本说明书实施例还提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被计算机设备的处理器运行时,执行上述方法的指令。
由以上本说明书实施例提供的技术方案可见,本说明书实施例中,先确认数据字典中目标字段下的当前字段值是否与数据标准中对应字段下的字段值全字匹配;在当前字段值不与对应字段下的任何字段值全字匹配时,获取第一记录与数据标准中每条记录在指定特征下的相似度;其中,第一记录为当前字段值在数据字典中对应的记录;然后根据相似度确定数据标准中与第一记录匹配的目标记录;然后读取第一记录和目标记录,并在将其拼接为一条记录后写入目标数据表;对目标数据表中的记录进行标准化处理,从而实现了数据字典标准化处理的自动化处理,相比于传统的人工处理方式,本说明书实施例的自动处理方式大大提高了数据字典标准化处理的效率,且具有更高准确性。不仅如此,在当前字段值不与对应字段下的任何字段值全字匹配时,还可以通过指定特征下的相似度,从数据标准中匹配出与第一记录匹配的目标记录,以用于后续数据字典标准化处理,从而有利于进一步提高数据字典标准化处理的准确性。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了本说明书一些实施例中数据字典标准化处理方法的流程图;
图2示出了本说明书一实施例中数据字典的示意图;
图3示出了本说明书一实施例中数据标准的示意图;
图4示出了本说明书一些实施例中匹配预测模型的预训练流程示意图;
图5示出了本说明书另一些实施例中数据字典标准化处理方法的流程图;
图6示出了本说明书一些实施例中数据字典标准化处理装置的结构框图;
图7示出了本说明书一些实施例计算机设备的结构框图。
【附图标记说明】
61、全字匹配模块;
62、相似度获取模块;
63、记录匹配模块;
64、记录拼接模块;
65、标准化处理模块;
702、计算机设备;
704、处理器;
706、存储器;
708、驱动机构;
710、输入/输出模块;
712、输入设备;
714、输出设备;
716、呈现设备;
718、图形用户接口;
720、网络接口;
722、通信链路;
724、通信总线。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
在上文中已经说明,数据字典是对应用系统中使用的所有数据元素的定义的集合。因此,数据字典的标准化处理对于:开发应用系统的数据库、为数据库提供存取控制和管理、供数据库管理员进行各种元数据查询、贯彻标准等都具有重要意义。鉴于现有技术中人工实现数据字典标准化处理的效率低且容易出错的问题,本说明书提供了数据字典标准化自动处理技术,其可以应用于任何应用领域数据字典(例如银行数据字典等)的标准化处理。
本说明书实施例提供了数据字典标准化处理方法,其可以应用于任何计算机设备(例如服务器等)侧。参考图1所示,在本说明书一些实施例中,所述数据字典标准化处理方法可以包括以下步骤:
S101、确认数据字典中目标字段下的当前字段值是否与数据标准中对应字段下的字段值全字匹配。
S102、当所述当前字段值不与所述对应字段下的任何字段值全字匹配时,获取第一记录与所述数据标准中每条记录在指定特征下的相似度;所述第一记录为所述当前字段值在所述数据字典中对应的记录。
S103、根据所述相似度确定所述数据标准中与所述第一记录匹配的目标记录。
S104、读取所述第一记录和所述目标记录,并在将其拼接为一条记录后写入目标数据表。
S105、按照预设的标准化处理逻辑对所述目标数据表中的记录进行自动处理。
本说明书实施例中,先确认数据字典中目标字段下的当前字段值是否与数据标准中对应字段下的字段值全字匹配;在当前字段值不与对应字段下的任何字段值全字匹配时,获取第一记录与数据标准中每条记录在指定特征下的相似度;其中,第一记录为当前字段值在数据字典中对应的记录;然后根据相似度确定数据标准中与第一记录匹配的目标记录;然后读取第一记录和目标记录,并在将其拼接为一条记录后写入目标数据表;对目标数据表中的记录进行标准化处理,从而实现了数据字典标准化处理的自动化处理,相比于传统的人工处理方式,本说明书实施例的自动处理方式大大提高了数据字典标准化处理的效率,且具有更高准确性。不仅如此,在当前字段值不与对应字段下的任何字段值全字匹配时,还可以通过指定特征下的相似度,从数据标准中匹配出与第一记录匹配的目标记录,以用于后续数据字典标准化处理,从而有利于进一步提高数据字典标准化处理的准确性。
在本说明书实施例中,数据字典一般指企业为本业务领域构建的数据字典,仅在本企业内部通用,例如XX银行构建有自身的银行数据字典。数据标准可以指行业标准、国家标准或国际标准下的数据字典。数据字典和数据标准一般都是以数据表的形式呈现的。例如图2和图3中分别示例性示出了以数据表呈现的银行数据字典及以数据表呈现的数据标准。
在本说明书一些实施例中,为了提高处理效率,可以根据需要从数据字典的多个字段中选择一个字段作为目标字段,并以该目标字段下的每个字段值为基础,为数据字典中的每条记录匹配对应的对比标准,以便于后续以对比标准为基准进行标准化处理。其中,数据标准中的每条记录可以作为一个对比标准,每个对比标准均可以有对应的标识符。例如,在本说明书一实施例中,可以以数据字典中的“中文名”作为目标字段。相应的,数据标准中的对应字段也为“中文名”。
在本说明书一些实施例中,在确定数据字典中的目标字段后,可以按序(例如由上至下)选择该目标字段下的一个字段值,则被选中的字段值即为当前字段值。例如,在图2所示的示例性实施例中,假设数据字典中的目标字段为“中文名”,当前从图2所示的数据字典“中文名”下选取了第一行的字段值(即“卡号”),则“卡号”即为当前字段值。
在本说明书的实施例中,全字匹配是指:将字段值整体作为一个搜索单位,从数据标准的对应字段中搜索与之相同的结果。例如,在图2所示的示例性实施例中,假设数据字典中的目标字段为“中文名”,当前字段值为“用户名”,如果从数据标准的对应字段中也搜索到“用户名”这个字段值,则认为二者全字匹配。
在本说明书一些实施例中,如果当前字段值与对应字段下的一个字段值全字匹配,则可以读取第一记录和第二记录,将其拼接为一条新的记录,并写入目标数据表,以用于后续进行标准化处理。其中,所述第一记录为所述当前字段值在所述数据字典中对应的记录,所述第二记录为所述一个字段值在所述数据标准中对应的记录。
例如,在图2所示的示例性实施例中,假设数据字典中的目标字段为“中文名”,当前从图2所示的数据字典“中文名”下选取了第四行的字段值(即“性别”);通过全字匹配发现:图3所示的数据标准“中文名”下也存在“性别”这一字段值。因此,可以从数据字典中读取与“性别”对应的记录(第一记录),并可以从数据标准中读取与“性别”对应的记录(第二记录);然后将二者拼接为一条新的记录写入目标数据表。其中的拼接可以是按序拼接(例如第一记录对应的部分在前,以作为标准化对象;第二记录对应的部分在后,以作为标准化基准)。
在本说明书一些实施例中,如果所述当前字段值不与所述对应字段下的任何字段值全字匹配,可以获取第一记录与所述数据标准中每条记录在指定特征下的相似度;然后根据所述相似度确定所述数据标准中与所述第一记录匹配的目标记录,然后读取所述第一记录和所述目标记录,将其拼接为一条记录,并写入目标数据表。如此,可以有利于提高数据字典的标准化率。
在本说明书一些实施例中,指定特征下的相似度可以是单个指定字段下的相似度;也可以是多个指定字段下的相似度。当选择单个指定字段的相似度时,可以有利于提高数据处理效率;当选择多个指定字段的相似度时,可以有利于提高数据处理的精度。
在本说明书一些实施例中,以单个指定字段的相似度为例,所述获取第一记录与所述数据标准中每条记录在指定特征下的相似度,可以包括以下步骤:
(1)、对所述第一记录中指定字段进行向量化,获得第一向量。
本说明书实施例中的向量化是指自然语言处理(Natural Language Processing,NLP)中的词向量(Word Embedding)处理。在本说明书一些实施例中,向量化可以基于任何分布式表示的词向量方法(例如Word2vec等)实现。其中,在分布式表示的文本向量化方法中,每个词根据上下文从高维映射到一个低维度、稠密的向量上(向量的维度需要指定)。在构成的向量空间中,每个词的含义都可以用周边的词来表示。由于分布式表示的词向量方法考虑到了词之间存在的相似关系,因此这类方法可以减小词向量的维度。
在本说明书一些实施例中,所述第一记录中指定哪个字段进行向量化,可以根据实际需要选择。例如,在图2所示的示例性实施例中,可以选择“中文名”、“英文名”或“码值含义”等字段进行向量化。
(2)、对所述数据标准中每条记录中指定字段进行向量化,对应获得所述每条记录中指定字段的第二向量。
对所述数据标准中每条记录中指定字段进行向量化,与上述对所述第一记录中指定字段进行向量化类似。但应当注意的是,在向量化时数据标准选择的字段一般与上述数据字典中选择的字段相同。例如当数据字典中选择的指定字段为“英文名”时,数据标准中也应当选择的是“英文名”。
(3)、确定所述第一向量与所述每条记录中指定字段的第二向量的相似度,形成相似度集合。
在所述当前字段值不与所述对应字段下的任何字段值全字匹配的情况下,由于不确定数据标准中哪条记录与所述当前字段值对应的记录最为匹配,需要对所述数据标准中每条记录中的指定字段进行向量化,以便于逐一计算相似度。
例如,以上述图2和图3所示的示例性实施例为例,参见图2所示,假设数据字典中的目标字段为“中文名”,且当前字段值为“中文名”下的第5行(即“住址”);然而,结合图3所示,通过全字匹配后发现数据标准的“中文名”下并不存在“住址”这一字段值(即数据字典中“中文名”下的“住址”,不与数据标准中“中文名”下的任何字段值全字匹配)。假设“英文名”为指定进行向量化的字段,则可以对数据字典中的“Address”进行向量化,获得第一向量;并可以对数据标准中位于“英文名”下每个字段值(例如图3中的“Cardnum”、“UserName”、“ID Number”、“Sex”、“Address”、“Tel”、“Holdcard”、“Password”和“Main Balance”等)进行向量化,获得多个第二向量。
在此基础上,就可以计算数据字典中“中文名”下的“住址”对应的第一向量,与每个第二向量之间的相似度。假设数据字典中“中文名”下的“住址”对应的第一向量为A,数据标准中位于“英文名”下的“Cardnum”、“User Name”、“ID Number”、“Sex”、“Address”、“Tel”、“Holdcard”、“Password”和“Main Balance”对应的第二向量分别为A1~A9,则可以计算A分别与A1~A9之间的相似度,从而可以对应得到相似度S1~S9,相似度S1~S9可以形成一个相似度集合。
在本说明书的实施例中,相似度计算可以是基于任何合适的相似度算法或距离算法实现。其中,所述相似度算法可以包括:余弦相似度、调整余弦相似度、皮尔逊相关系数、杰卡德相似系数、谷本系数和对数似然相似度等。所述距离算法可以包括:莱文斯坦距离、欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、马氏距离和巴氏距离等。
与上述的单个指定字段向量化的相似度计算场景对应,在本说明书一些实施例中,所述根据所述相似度确定所述数据标准中与所述第一记录匹配的目标记录,可以包括以下步骤:
(1)、确定相似度集合中的最大值。
通过选择相似度集合中的最大值,可以有利于从数据标准中选择出与数据字典中目标字段下的当前字段值对应的记录最为匹配的记录。
(2)、确认所述最大值是否大于相似度阈值。
在一些情况下,数据标准中可能不存在与数据字典中目标字段下的当前字段值对应的记录最为匹配的记录。如果不将最大值与相似度阈值进行比较,则可能会出现错误匹配的情况。因此,通过确认所述最大值是否大于相似度阈值,可以有利于降低或避免匹配错误。
例如,在图2和图3所示的示例性实施例中,数据字典中“中文名”下的“职位”所对应的记录,与数据标准中的任何一条记录都不匹配(即数据标准中不存在“职位”(或类似描述)的记录)。通过判断所述最大值是否大于相似度阈值,可以有效防止这种错误匹配。
(3)、当所述最大值大于所述相似度阈值时,将所述数据标准中与所述最大值对应的记录,作为与所述第一记录匹配的目标记录。
当所述最大值不大于所述相似度阈值时,可以认为不存在匹配的记录,则此时数据字典中目标字段下的当前字段值则无需加入目标数据表(即数据字典中目标字段下的当前字段值不用参与标准化处理)。实际上,由于数据标准中对此没有设定标准,此时不参与标准化处理也是合理的,这也有利于减少无效计算。例如,图3所示的数据标准中没有对“职位”设定标准,则图2中的“职位”所对应的记录也就无需参与标准化处理。
参考图5所示,在本说明书另一些实施例中,以多个指定字段的相似度为例,所述获取第一记录与所述数据标准中每条记录在指定特征下的相似度,可以包括以下步骤:
S501、对所述第一记录中多个指定字段进行向量化,对应获得所述第一记录中多个指定字段的第一向量集合。
在本说明书一些实施例中,所述第一记录中指定哪些字段进行向量化,也可以根据实际需要选择。例如,在一示例性实施例中,可以选择“中文名”、“英文名”和“码值含义”进行向量化(这是指目标字段下的当前字段值对应的一条记录下的“中文名”、“英文名”和“码值含义”的向量化),则可以获得第一向量集合{S,S,S}。
S502、对所述数据标准中每条记录中多个指定字段进行向量化,对应获得所述每条记录中多个指定字段的第二向量集合。
例如,在本说明书一实施例中,假设数据标准中有1000条记录,选择“中文名”、“英文名”和“码值含义”进行向量化,则对于每条记录都要对其中的多个指定字段进行向量化,从而可以对应获得所述每条记录中多个指定字段的第二向量集合{S中1,S英1,S码1},{S中2,S英2,S码2},…,{S中1000,S英1000,S码1000}。
S503、按照预设对比规则确定所述第一向量集合中的第一向量,与所述每条记录中多个指定字段的第二向量集合的第二向量的相似度,获得相似度矩阵。
研究表明,在向量化时,当合理选择一些字段(而不是选择全部字段)时,可以既可以达到较好的记录匹配精度,又有利于减少计算量。例如,在图2和图3所示的示例性实施例中,选择“中文名”、“英文名”和“码值含义”则为一个较佳的选择。在此情况下,可以按照预设对比规则将第一向量集合{S,S,S}中的元素,与第二向量集合{S中1,S英1,S码1},{S中2,S英2,S码2},…,{S中1000,S英1000,S码1000}中的元素,进行相似度计算。
预设对比规则可以根据实际需要设置,例如,在本说明书一实施例中,预设对比规则可以包括:
1)、计算数据字典中“中文名”对应的向量值(S),分别与数据标准中每个“中文名”(S中1,…,S中1000)的语义相似度。
2)、计算数据字典中“中文名”对应的向量值(S),分别与数据标准中每个“英文名”(S英1,…,S英1000)的语义相似度。
3)、计算数据字典中“英文名”对应的向量值(S),分别与数据标准中每个“英段中文名”(S英1,…,S英1000)的文本相似度。
4)、计算数据字典中“中文名”对应的向量值(S),分别与数据标准中每个“码值含义”(S码1,…,S码1000)的语义相似度。
5)、计算数据字典中“码值含义”对应的向量值(S),分别与数据标准中每个“中文名”(S码1,…,S码1000)的语义相似度。
本领域技术人员应当理解,上述预设对比规则仅是示例性说明,不应理解为对说明书的唯一限定。在本说明书其他实施例中,根据需要可以选择任何合适的对比规则。
在本说明书的实施例中,码值是对对应的业务含义的表征,而码值含义则是对对应码值的含义解释说明。例如在图3所示的示例性实施例中,“性别”对应的码值有“0”和“1”,它们均是用于指代不同的性别。具体而言,可参见“性别”对应的“码值含义”:0表示男性,1表示女性。
与上述的多个指定字段向量化的相似度计算场景对应,在本说明书一些实施例中,所述根据所述相似度确定所述数据标准中与所述第一记录匹配的目标记录,可以包括:将所述相似度矩阵输入预设的匹配预测模型中,预测得到所述数据标准中与所述第一记录匹配的目标记录。其中,所述匹配预测模型为基于有监督的机器学习模型(例如逻辑回归模型等)的预训练模型。如此,通过匹配预测模型可以有利于实现多维度相似度计算场景下的记录匹配。
参考图4所示,在本说明书一实施例中,以图2和图3中的示例性实施例为例,上述匹配预测模型的预训练过程包括如下步骤:
S401、确定数据集。
获取若干数据字典的样本,样本包含数据字典中“中文名”、“英文名”、“码值含义”等信息,以及人工核对确认匹配的数据标准中的“中文名”、“英文名”、“码值含义”等信息。样本范围包括正样本(即匹配成功的样本),也包含负向样本(即匹配失败的样本,例如数据标准中无对应标准时的情况)。
S402、向量化。
基于自然语言处理中的向量化处理方法,对数据字典及数据标准中“中文名”、“英文名”、“码值含义”等信息进行向量化处理。本领域技术人员可以理解,该步骤进行向量化的方法不限于自然语言处理领域下各不同模型框架下的方法。
S403、相似度计算。
这部分的相似度计算,请参见上述的多个指定字段向量化的相似度计算场景中的有关描述,在此不再赘述。通过相似度计算可以得到:中文名与中文名的语义相似度、中文名与英文名的语义相似度、英文名与英文名的文本相似度、中文名与码值含义的语义相似度、码值含义与码值含义的语义相似度,共5种相似度值。这些相似度值按序排列可以形成相似度矩阵,以便于后续输入逻辑回归模型进行训练或测试。
S403、逻辑回归模型训练。
根据前面得到的相似度矩阵。首先,准备正样本,将已映射数据标准的字段其与匹配标准的5个相似度计算值作为解释变量,将样本被解释变量“匹配”打标为虚拟变量1;然后,准备负样本,将未映射数据标准的字段其与随机标准的5个相似度计算值作为解释变量,将样本被解释变量“不匹配”打标为虚拟变量0。将上述相似度矩阵中的一部分数据作为训练样本,训练逻辑回归模型。
S405、模型输出。
如果当前训练出的逻辑回归模型满足预设指标(例如准确性等)要求时,可以将其作为输出作为训练拟合得到的最终模型(即作为匹配预测模型),以用于后续匹配预测。
需要指出的是,目标数据表中的每条记录中,来自于数据字典的部分(例如上述第一记录)是作为标准化对象,而来自于数据标准的部分(例如上述第二记录、上述目标记)是作为标准化基准。因此,在本说明书的实施例中,所述按照预设的标准化处理逻辑对所述目标数据表中的记录进行自动处理可以是指:对于目标数据表中的每条记录,可以将其中的标准化对象与标准化基准进行同项对比,从而可以获得标准化处理结果。其中,同项对比是指:将标准化对象中的“类型”、“长度”、“精度”、“码值”和“码值含义”等,对应与标准化基准中的“类型”、“长度”、“精度”、“码值”和“码值含义”等进行对比。如果对比结果一致,则确认标准化对象符合标准化,否则可以确认不符合标准化。
在本说明书另一些实施例中,当标准化对象不符合标准化时,还可以输出不符合标准化的原因提示信息。例如,标准化对象中的长度为16位,而对应标准化基准中的长度为19位,则可以输出“标准化对象的长度应为19位”或“标准化对象的长度小于标准长度”等原因提示信息。
虽然上文描述的过程流程包括以特定顺序出现的多个操作,但是,应当清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。
与上述的数据字典标准化处数据字典标准化处方法对应,本说明书还提供了数据字典标准化处理装置的实施例。参考图6所示,在本说明书一些实施例中,所述数据字典标准化处理装置可以包括:
全字匹配模块61,可以用于确认数据字典中目标字段下的当前字段值是否与数据标准中对应字段下的字段值全字匹配;
相似度获取模块62,可以用于当所述当前字段值不与所述对应字段下的任何字段值全字匹配时,获取第一记录与所述数据标准中每条记录在指定特征下的相似度;所述第一记录为所述当前字段值在所述数据字典中对应的记录;
记录匹配模块63,可以用于根据所述相似度确定所述数据标准中与所述第一记录匹配的目标记录;
记录拼接模块64,可以用于读取所述第一记录和所述目标记录,并在将其拼接为一条记录后写入目标数据表;
标准化处理模块65,可以用于按照预设的标准化处理逻辑对所述目标数据表中的记录进行自动处理。
在本说明书一些实施例中,所述记录拼接模块64还可以用于:
当所述当前字段值与所述对应字段下的一个字段值全字匹配时,读取第一记录和第二记录,并在将其拼接为一条记录后写入所述目标数据表;所述第二记录为所述一个字段值在所述数据标准中对应的记录。
在本说明书一些实施例中,所述获取第一记录与所述数据标准中每条记录在指定特征下的相似度,可以包括:
对所述第一记录中指定字段进行向量化,获得第一向量;
对所述数据标准中每条记录中指定字段进行向量化,对应获得所述每条记录中指定字段的第二向量;
确定所述第一向量与所述每条记录中指定字段的第二向量的相似度,形成相似度集合。
在本说明书一些实施例中,所述根据所述相似度确定所述数据标准中与所述第一记录匹配的目标记录,可以包括:
确定相似度集合中的最大值;
确认所述最大值是否大于相似度阈值;
当所述最大值大于所述相似度阈值时,将所述数据标准中与所述最大值对应的记录,作为与所述第一记录匹配的目标记录。
在本说明书一些实施例中,所述获取第一记录与所述数据标准中每条记录在指定特征下的相似度,可以包括:
对所述第一记录中多个指定字段进行向量化,对应获得所述第一记录中多个指定字段的第一向量集合;
对所述数据标准中每条记录中多个指定字段进行向量化,对应获得所述每条记录中多个指定字段的第二向量集合;
按照预设对比规则确定所述第一向量集合中的第一向量,与所述每条记录中多个指定字段的第二向量集合的第二向量的相似度,获得相似度矩阵。
在本说明书一些实施例中,所述根据所述相似度确定所述数据标准中与所述第一记录匹配的目标记录,可以包括:
将所述相似度矩阵输入预设的匹配预测模型中,预测得到所述数据标准中与所述第一记录匹配的目标记录。
在本说明书一些实施例中,所述匹配预测模型可以为基于机器学习模型的预训练模型。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本说明书的实施例还提供一种计算机设备。如图7所示,在本说明书一些实施例中,所述计算机设备702可以包括一个或多个处理器704,诸如一个或多个中央处理单元(CPU)或图形处理器(GPU),每个处理单元可以实现一个或多个硬件线程。计算机设备702还可以包括任何存储器706,其用于存储诸如代码、设置、数据等之类的任何种类的信息,一具体实施方式中,存储器706上并可在处理器704上运行的计算机程序,所述计算机程序被所述处理器704运行时,可以执行根据上述方法的指令。非限制性的,比如,存储器706可以包括以下任一项或多种组合:任何类型的RAM,任何类型的ROM,闪存设备,硬盘,光盘等。更一般地,任何存储器都可以使用任何技术来存储信息。进一步地,任何存储器可以提供信息的易失性或非易失性保留。进一步地,任何存储器可以表示计算机设备702的固定或可移除部件。在一种情况下,当处理器704执行被存储在任何存储器或存储器的组合中的相关联的指令时,计算机设备702可以执行相关联指令的任一操作。计算机设备702还包括用于与任何存储器交互的一个或多个驱动机构708,诸如硬盘驱动机构、光盘驱动机构等。
计算机设备702还可以包括输入/输出模块710(I/O),其用于接收各种输入(经由输入设备712)和用于提供各种输出(经由输出设备714)。一个具体输出机构可以包括呈现设备716和相关联的图形用户接口718(GUI)。在其他实施例中,还可以不包括输入/输出模块710(I/O)、输入设备712以及输出设备714,仅作为网络中的一台计算机设备。计算机设备702还可以包括一个或多个网络接口720,其用于经由一个或多个通信链路722与其他设备交换数据。一个或多个通信总线724将上文所描述的部件耦合在一起。
通信链路722可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路722可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。
本申请是参照本说明书一些实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理器的处理器以产生一个机器,使得通过计算机或其他可编程数据处理器的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理器以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理器上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算机设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理器来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种数据字典标准化处理方法,其特征在于,包括:
确认数据字典中目标字段下的当前字段值是否与数据标准中对应字段下的字段值全字匹配;
当所述当前字段值不与所述对应字段下的任一字段值全字匹配时,获取在指定特征下的第一记录与所述数据标准中每条记录的相似度;所述第一记录为所述当前字段值在所述数据字典中对应的记录,所述指定特征包括:在所述第一记录中除了所述目标字段之外的被指定的字段;
根据所述相似度确定所述数据标准中与所述第一记录匹配的目标记录;
读取所述第一记录和所述目标记录,并在将其拼接为一条记录后写入目标数据表;
按照预设的标准化处理逻辑对所述目标数据表中的记录进行自动处理。
2.如权利要求1所述的数据字典标准化处理方法,其特征在于,还包括:
当所述当前字段值与所述对应字段下的一个字段值全字匹配时,读取第一记录和第二记录,并在将其拼接为一条记录后写入所述目标数据表;所述第二记录为所述一个字段值在所述数据标准中对应的记录。
3.如权利要求1所述的数据字典标准化处理方法,其特征在于,所述获取第一记录与所述数据标准中每条记录在指定特征下的相似度,包括:
对所述第一记录中指定字段进行向量化,获得第一向量;
对所述数据标准中每条记录中指定字段进行向量化,对应获得所述每条记录中指定字段的第二向量;
确定所述第一向量与所述每条记录中指定字段的第二向量的相似度,形成相似度集合。
4.如权利要求3所述的数据字典标准化处理方法,其特征在于,所述根据所述相似度确定所述数据标准中与所述第一记录匹配的目标记录,包括:
确定相似度集合中的最大值;
确认所述最大值是否大于相似度阈值;
当所述最大值大于所述相似度阈值时,将所述数据标准中与所述最大值对应的记录,作为与所述第一记录匹配的目标记录。
5.如权利要求1所述的数据字典标准化处理方法,其特征在于,所述获取第一记录与所述数据标准中每条记录在指定特征下的相似度,包括:
对所述第一记录中多个指定字段进行向量化,对应获得所述第一记录中多个指定字段的第一向量集合;
对所述数据标准中每条记录中多个指定字段进行向量化,对应获得所述每条记录中多个指定字段的第二向量集合;
按照预设对比规则确定所述第一向量集合中的第一向量,与所述每条记录中多个指定字段的第二向量集合的第二向量的相似度,获得相似度矩阵。
6.如权利要求5所述的数据字典标准化处理方法,其特征在于,所述根据所述相似度确定所述数据标准中与所述第一记录匹配的目标记录,包括:
将所述相似度矩阵输入预设的匹配预测模型中,预测得到所述数据标准中与所述第一记录匹配的目标记录。
7.如权利要求6所述的数据字典标准化处理方法,其特征在于,所述匹配预测模型为基于机器学习模型的预训练模型。
8.一种数据字典标准化处理装置,其特征在于,包括:
全字匹配模块,用于确认数据字典中目标字段下的当前字段值是否与数据标准中对应字段下的字段值全字匹配;
相似度获取模块,用于当所述当前字段值不与所述对应字段下的任一字段值全字匹配时,获取在指定特征下的第一记录与所述数据标准中每条记录的相似度;所述第一记录为所述当前字段值在所述数据字典中对应的记录,所述指定特征包括:在所述第一记录中除了所述目标字段之外的被指定的字段;
记录匹配模块,用于根据所述相似度确定所述数据标准中与所述第一记录匹配的目标记录;
记录拼接模块,用于读取所述第一记录和所述目标记录,并在将其拼接为一条记录后写入目标数据表;
标准化处理模块,用于按照预设的标准化处理逻辑对所述目标数据表中的记录进行自动处理。
9.一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,其特征在于,所述计算机程序被所述处理器运行时,执行根据权利要求1-7任意一项所述方法的指令。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机设备的处理器运行时,执行根据权利要求1-7任意一项所述方法的指令。
CN202011551746.3A 2020-12-24 2020-12-24 数据字典标准化处理方法、装置、设备及存储介质 Active CN112527970B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011551746.3A CN112527970B (zh) 2020-12-24 2020-12-24 数据字典标准化处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011551746.3A CN112527970B (zh) 2020-12-24 2020-12-24 数据字典标准化处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112527970A CN112527970A (zh) 2021-03-19
CN112527970B true CN112527970B (zh) 2022-11-15

Family

ID=74976289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011551746.3A Active CN112527970B (zh) 2020-12-24 2020-12-24 数据字典标准化处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112527970B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269248B (zh) * 2021-05-24 2023-06-23 平安科技(深圳)有限公司 数据标准化的方法、装置、设备及存储介质
CN113420077B (zh) * 2021-06-10 2024-01-30 浙江大华技术股份有限公司 一种数据处理方法、装置、设备及介质
CN113434584B (zh) * 2021-06-28 2022-10-14 国网北京市电力公司 电力设备数据处理方法、装置及电子设备
CN117390170B (zh) * 2023-12-12 2024-03-08 恩核(北京)信息技术有限公司 数据标准的对标方法、装置、电子设备和可读存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787282B (zh) * 2016-03-24 2018-05-01 国家卫生计生委统计信息中心 一种医疗数据字典自动标准化的方法与系统
CN109189769A (zh) * 2018-08-14 2019-01-11 平安医疗健康管理股份有限公司 数据标准化处理方法、装置、计算机设备和存储介质
CN109783611A (zh) * 2018-12-29 2019-05-21 北京明略软件系统有限公司 一种字段匹配的方法、装置、计算机存储介质及终端
CN109920408B (zh) * 2019-01-17 2024-05-28 平安科技(深圳)有限公司 基于语音识别的字典项设置方法、装置、设备和存储介质
CN110289058A (zh) * 2019-06-06 2019-09-27 北京市天元网络技术股份有限公司 一种电子病历规范化匹配方法以及装置
CN110532267A (zh) * 2019-08-28 2019-12-03 北京明略软件系统有限公司 字段的确定方法、装置、存储介质及电子装置
CN111046035B (zh) * 2019-10-29 2021-02-12 三盟科技股份有限公司 数据自动化处理方法、系统、计算机设备及可读存储介质
CN111078639B (zh) * 2019-12-03 2022-03-22 望海康信(北京)科技股份公司 数据标准化方法、装置以及电子设备
CN111078776A (zh) * 2019-12-10 2020-04-28 北京明略软件系统有限公司 数据表的标准化方法、装置、设备及存储介质
CN111696635A (zh) * 2020-05-13 2020-09-22 平安科技(深圳)有限公司 疾病名称标准化方法及装置
CN111652299A (zh) * 2020-05-26 2020-09-11 泰康保险集团股份有限公司 一种业务数据自动匹配的方法及设备
CN111984654A (zh) * 2020-08-31 2020-11-24 平安医疗健康管理股份有限公司 医保数据标准化存储的方法、装置和计算机设备

Also Published As

Publication number Publication date
CN112527970A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
CN112527970B (zh) 数据字典标准化处理方法、装置、设备及存储介质
CN109472033B (zh) 文本中的实体关系抽取方法及系统、存储介质、电子设备
US20200081899A1 (en) Automated database schema matching
US20230169267A1 (en) Multi-layer graph-based categorization
US10769043B2 (en) System and method for assisting user to resolve a hardware issue and a software issue
CN112434535B (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
Galli Python feature engineering cookbook: over 70 recipes for creating, engineering, and transforming features to build machine learning models
US20220100772A1 (en) Context-sensitive linking of entities to private databases
CN110728313A (zh) 一种用于意图分类识别的分类模型训练方法及装置
US20220229854A1 (en) Constructing ground truth when classifying data
CN111563097A (zh) 一种无监督式的题目聚合方法、装置、电子设备及存储介质
JP2022082524A (ja) 機械学習を通じての学習モデルを使った情報提供方法および装置
US20220100967A1 (en) Lifecycle management for customized natural language processing
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
CN116028626A (zh) 文本匹配方法、装置、存储介质以及电子设备
US11514321B1 (en) Artificial intelligence system using unsupervised transfer learning for intra-cluster analysis
CN112860652A (zh) 作业状态预测方法、装置和电子设备
US11830081B2 (en) Automated return evaluation with anomoly detection
CN117876119B (zh) 一种基于分布式的风控模型构建方法及系统
US20240020642A1 (en) Patent valuation using artificial intelligence
US20230281484A1 (en) Semantic-aware rule-based recommendation for process modeling
US20230259701A1 (en) Automated calculation predictions with explanations
US20240004863A1 (en) System and method for automated data integration
CN118035180A (zh) 元数据补全方法及装置
Wong et al. An Efficient Risk Data Learning with LSTM RNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant