CN114840576A - 数据标准匹配方法及装置 - Google Patents

数据标准匹配方法及装置 Download PDF

Info

Publication number
CN114840576A
CN114840576A CN202210384343.7A CN202210384343A CN114840576A CN 114840576 A CN114840576 A CN 114840576A CN 202210384343 A CN202210384343 A CN 202210384343A CN 114840576 A CN114840576 A CN 114840576A
Authority
CN
China
Prior art keywords
data standard
sample matrix
sample
data
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210384343.7A
Other languages
English (en)
Inventor
熊文杰
谢荣良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202210384343.7A priority Critical patent/CN114840576A/zh
Publication of CN114840576A publication Critical patent/CN114840576A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种数据标准匹配方法及装置,方法包括:对数据表的字段名称进行词语拆解,根据拆解后的词语匹配自学习库中相应的样本矩阵,其中,所述样本矩阵的列向量为预设词语,所述样本矩阵的行向量为预设数据标准;根据经过拆解后的词语在所述样本矩阵中的正确关联次数,确定所述字段名称与所述样本矩阵中各预设数据标准的相关度;根据所述相关度确定与所述字段名称匹配的预设数据标准;本申请能够精准匹配正确的数据标准,有效提高贯标率。

Description

数据标准匹配方法及装置
技术领域
本申请涉及自然语言处理领域,也可用于金融领域,具体涉及一种数据标准匹配方法及装置。
背景技术
在大型软件开发公司或集团中会有很多不同的团队各自负责不同的系统,为了保证这些系统底层数据的一致性,需要制定数据标准(一种规则,规定某类字段的长度、类型、是否允许为空等)来规定某类字段的长度、类型等(例如手机号码的长度为11位,类型为数字或字符)。通过数据标准来减少不同系统协作的成本。
但由于人员素质参差不齐、数据标准宣讲不到位等问题,在数据表设计过程中无法落实对应的数据标准,导致贯标率(已关联正确标准的字段数/系统中应贯标的字段数。用来反映数据表/系统落实数据标准的情况)低下,各系统间数据结构不一致,协作成本高。
发明内容
针对现有技术中的问题,本申请提供一种数据标准匹配方法及装置,能够精准匹配正确的数据标准,有效提高贯标率。
为了解决上述问题中的至少一个,本申请提供以下技术方案:
第一方面,本申请提供一种数据标准匹配方法,包括:
对数据表的字段名称进行词语拆解,根据拆解后的词语匹配自学习库中相应的样本矩阵,其中,所述样本矩阵的列向量为预设词语,所述样本矩阵的行向量为预设数据标准;
根据经过拆解后的词语在所述样本矩阵中的正确关联次数,确定所述字段名称与所述样本矩阵中各预设数据标准的相关度;
根据所述相关度确定与所述字段名称匹配的预设数据标准。
进一步地,在所述根据拆解后的词语匹配自学习库中相应的样本矩阵之前,包括:
将历史数据表的字段中文名、字段英文名以及字段所属表名进行词语拆解,将拆解后的词语划分为中文名、英文名以及表名三类,并与所述数据表所属的业务领域一同作为样本矩阵的列向量;
将预设数据标准作为样本矩阵的行向量;
根据所述列向量和所述行向量构建样本矩阵。
进一步地,所述根据拆解后的词语匹配自学习库中相应的样本矩阵,包括:
判断拆解后的词语是否匹配自学习库中各样本矩阵的列向量;
若匹配,则判定对应的样本矩阵与所述拆解后的词语匹配。
进一步地,所述根据经过拆解后的词语在所述样本矩阵中的正确关联次数,确定所述字段名称与所述样本矩阵中各预设数据标准的相关度,包括:
确定所述样本矩阵中与经过拆解后的词语对应的列向量;
获取与该列向量对应的行向量的正确关联次数;
根据所述正确关联次数确定所述字段名称与所述样本矩阵中各预设数据标准的相关度。
进一步地,所述根据所述正确关联次数确定所述字段名称与所述样本矩阵中各预设数据标准的相关度,包括:
根据所述正确关联次数确定所述字段名称与所述样本矩阵中各预设数据标准的字符相似度和样本相似度;
对所述字符相似度和所述样本相似度的数值集合进行归一化处理和均值处理,得到所述字段名称与所述样本矩阵中各预设数据标准的相关度数值。
进一步地,所述根据所述相关度确定与所述字段名称匹配的预设数据标准,包括:
将所述相关度最大的预设数据标准确定为与所述字段名称匹配的数据标准;
建立所述字段名称与该数据标准的关联关系。
第二方面,本申请提供一种数据标准匹配装置,包括:
样本矩阵匹配模块,用于对数据表的字段名称进行词语拆解,根据拆解后的词语匹配自学习库中相应的样本矩阵,其中,所述样本矩阵的列向量为预设词语,所述样本矩阵的行向量为预设数据标准;
相关度确定模块,用于根据经过拆解后的词语在所述样本矩阵中的正确关联次数,确定所述字段名称与所述样本矩阵中各预设数据标准的相关度;
数据标准匹配模块,用于根据所述相关度确定与所述字段名称匹配的预设数据标准。
进一步地,所述样本矩阵匹配模块包括:
矩阵列向量确定单元,用于将历史数据表的字段中文名、字段英文名以及字段所属表名进行词语拆解,将拆解后的词语划分为中文名、英文名以及表名三类,并与所述数据表所属的业务领域一同作为样本矩阵的列向量;
矩阵行向量确定单元,用于将预设数据标准作为样本矩阵的行向量;
矩阵构建单元,用于根据所述列向量和所述行向量构建样本矩阵。
进一步地,所述样本矩阵匹配模块还包括:
词语匹配单元,用于判断拆解后的词语是否匹配自学习库中各样本矩阵的列向量;
矩阵匹配单元,用于若匹配,则判定对应的样本矩阵与所述拆解后的词语匹配。
进一步地,所述相关度确定模块包括:
对应列向量确定单元,用于确定所述样本矩阵中与经过拆解后的词语对应的列向量;
对应行向量关联次数确定单元,用于获取与该列向量对应的行向量的正确关联次数;
相关度计算单元,用于根据所述正确关联次数确定所述字段名称与所述样本矩阵中各预设数据标准的相关度。
进一步地,所述相关度计算单元包括:
相似度计算子单元,用于根据所述正确关联次数确定所述字段名称与所述样本矩阵中各预设数据标准的字符相似度和样本相似度;
数值处理子单元,用于对所述字符相似度和所述样本相似度的数值集合进行归一化处理和均值处理,得到所述字段名称与所述样本矩阵中各预设数据标准的相关度数值。
进一步地,所述数据标准匹配模块包括:
最优标准确定单元,用于将所述相关度最大的预设数据标准确定为与所述字段名称匹配的数据标准;
标准关联单元,用于建立所述字段名称与该数据标准的关联关系。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的数据标准匹配方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的数据标准匹配方法的步骤。
第五方面,本申请提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现所述的数据标准匹配方法的步骤。
由上述技术方案可知,本申请提供一种数据标准匹配方法及装置,通过数据表字段名称在样本矩阵中的正确关联次数,确定其与各预设数据标准的相关度,并确定与当前字段名称最匹配的数据标准,由此能够精准匹配正确的数据标准,有效提高贯标率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中的数据标准匹配方法的流程示意图之一;
图2为本申请实施例中的数据标准匹配方法的流程示意图之二;
图3为本申请实施例中的数据标准匹配方法的流程示意图之三;
图4为本申请实施例中的数据标准匹配方法的流程示意图之四;
图5为本申请实施例中的数据标准匹配方法的流程示意图之五;
图6为本申请实施例中的数据标准匹配方法的流程示意图之六;
图7为本申请实施例中的数据标准匹配装置的结构图之一;
图8为本申请实施例中的数据标准匹配装置的结构图之二;
图9为本申请实施例中的数据标准匹配装置的结构图之三;
图10为本申请实施例中的数据标准匹配装置的结构图之四;
图11为本申请实施例中的数据标准匹配装置的结构图之五;
图12为本申请实施例中的数据标准匹配装置的结构图之六;
图13为本申请一具体实施例中的数据标准匹配流程示意图;
图14为本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
考虑到现有技术中数据表设计过程中无法落实对应的数据标准,从而导致贯标率低下的问题,本申请提供一种数据标准匹配方法及装置,通过数据表字段名称在样本矩阵中的正确关联次数,确定其与各预设数据标准的相关度,并确定与当前字段名称最匹配的数据标准,由此能够精准匹配正确的数据标准,有效提高贯标率。
为了能够精准匹配正确的数据标准,有效提高贯标率,本申请提供一种数据标准匹配方法的实施例,参见图1,所述数据标准匹配方法具体包含有如下内容:
步骤S101:对数据表的字段名称进行词语拆解,根据拆解后的词语匹配自学习库中相应的样本矩阵,其中,所述样本矩阵的列向量为预设词语,所述样本矩阵的行向量为预设数据标准。
可选的,所述数据表可以为研发人员在设计数据表的过程中已经定义好各项字段名称,但还未进行数据标准关联的数据表。
可选的,所述数据表的字段名称包括但不限于:字段中文名、字段英文名以及字段所属表名。
可选的,本申请可以通过现有词语拆解技术(例如拆词器)对字段名称进行词语拆解。
举例来说,对公存款领域某系统需要设计“债券流水对账表”,其中某字段中文名为“债券发行人账号”,英文名为“floaters_account”,首先根据拆词器将其中文名拆解为债券、发行人、账号,将其英文名拆解为floaters、account,将其表名拆解为债券、流水、对账。
可选的,本申请可以根据历史数据和/或预设数据预先设置包含有多个样本矩阵的自学习库,将历史数据表的字段中文名、字段英文名以及字段所属表名进行词语拆解,将拆解后的词语划分为中文名、英文名以及表名三类,并与所述数据表所属的业务领域一同作为样本矩阵的列向量,将预设数据标准作为样本矩阵的行向量,根据所述列向量和所述行向量构建样本矩阵。
在本申请的一些实施例中,根据历史数据和/或预设数据中所述行向量与所述列向量是否关联正确(可以通过人为判定),可以分别构建正向样本矩阵和反向样本矩阵,在正向样本矩阵中,若所述行向量与所述列向量关联正确,则对应的关联次数加一,在反向样本矩阵中,若所述行向量与所述列向量关联不正确,则对应的关联次数加一。
可选的,由于样本矩阵的列向量是由字段名称拆解得到的,所以通过文字匹配,本申请可以确定与本申请拆解后的词语匹配自学习库中相应的样本矩阵,例如通过判断拆解后的词语是否匹配自学习库中各样本矩阵的列向量,来确定自学习库中与本申请字段名称匹配的样本矩阵。
承继上述举例内容来说,从自学习库中找到“字段中文名词语个数*字段英文名词语个数*表名词语个数*2(正向矩阵+反向矩阵)”个样本矩阵,在本例中,找到了3*2*3*2=36个样本矩阵。
步骤S102:根据经过拆解后的词语在所述样本矩阵中的正确关联次数,确定所述字段名称与所述样本矩阵中各预设数据标准的相关度。
可选的,首先本申请可以确定所述样本矩阵中与经过拆解后的词语对应的列向量,例如“账号、account、对账”这一组合,然后,获取与该列向量对应的行向量的正确关联次数,例如针对数据标准“卡号”与“发行人账号”,获取其正确关联次数,参见下表1:
表1正向样本矩阵
Figure BDA0003594227460000061
Figure BDA0003594227460000071
可知,以表1为例,104表示在自学习库的所有记录中“对公存款”领域下,“发行人账号”数据标准被正确关联了104次。
若是反向样本矩阵,则如下表2:
表2反向样本矩阵
Figure BDA0003594227460000072
然后,本申请可以根据所述正确关联次数确定所述字段名称与所述样本矩阵中各预设数据标准的相关度,例如,根据所述正确关联次数确定所述字段名称与所述样本矩阵中各预设数据标准的字符相似度和样本相似度,然后对所述字符相似度和所述样本相似度的数值集合进行归一化处理和均值处理,得到所述字段名称与所述样本矩阵中各预设数据标准的相关度数值。
承继上表举例来说,对于“发行人账号”标准,P1=104,P2=10,P3=7,P4=10;S1=31,S2=3,S3=4,S4=5。字符相似度
Figure BDA0003594227460000073
样本相似度
Figure BDA0003594227460000074
由于其值均介于0与1之间,故归一化处理结果即为数据本身,可得相关度数值R1≈0.42。对“卡号”进行同样的处理可得相关度数值R2≈0.37。
步骤S103:根据所述相关度确定与所述字段名称匹配的预设数据标准。
可选的,承继上述实例,R1所对应的数据标准可以作为“发行人账号”与所述字段名称匹配的预设数据标准。
从上述描述可知,本申请实施例提供的数据标准匹配方法,能够通过数据表字段名称在样本矩阵中的正确关联次数,确定其与各预设数据标准的相关度,并确定与当前字段名称最匹配的数据标准,由此能够精准匹配正确的数据标准,有效提高贯标率。
为了能够准确构建样本矩阵用以与当前字段名称进行匹配,在本申请的数据标准匹配方法的一实施例中,参见图2,上述步骤S101还可以具体包含如下内容:
步骤S201:将历史数据表的字段中文名、字段英文名以及字段所属表名进行词语拆解,将拆解后的词语划分为中文名、英文名以及表名三类,并与所述数据表所属的业务领域一同作为样本矩阵的列向量。
步骤S202:将预设数据标准作为样本矩阵的行向量。
步骤S203:根据所述列向量和所述行向量构建样本矩阵。
可选的,本申请可以根据历史数据和/或预设数据预先设置包含有多个样本矩阵的自学习库,将历史数据表的字段中文名、字段英文名以及字段所属表名进行词语拆解,将拆解后的词语划分为中文名、英文名以及表名三类,并与所述数据表所属的业务领域一同作为样本矩阵的列向量,将预设数据标准作为样本矩阵的行向量,根据所述列向量和所述行向量构建样本矩阵。
为了能够准确确定与字段名称匹配的样本矩阵,在本申请的数据标准匹配方法的一实施例中,参见图3,上述步骤S101还可以具体包含如下内容:
步骤S301:判断拆解后的词语是否匹配自学习库中各样本矩阵的列向量。
步骤S302:若匹配,则判定对应的样本矩阵与所述拆解后的词语匹配。
可选的,由于样本矩阵的列向量是由字段名称拆解得到的,所以通过文字匹配,本申请可以确定与本申请拆解后的词语匹配自学习库中相应的样本矩阵,例如通过判断拆解后的词语是否匹配自学习库中各样本矩阵的列向量,来确定自学习库中与本申请字段名称匹配的样本矩阵。
为了能够准确确定字段名称与样本矩阵中各预设数据标准的相关度,在本申请的数据标准匹配方法的一实施例中,参见图4,上述步骤S102还可以具体包含如下内容:
步骤S401:确定所述样本矩阵中与经过拆解后的词语对应的列向量。
步骤S402:获取与该列向量对应的行向量的正确关联次数。
步骤S403:根据所述正确关联次数确定所述字段名称与所述样本矩阵中各预设数据标准的相关度。
可选的,首先本申请可以确定所述样本矩阵中与经过拆解后的词语对应的列向量,例如“账号、account、对账”这一组合,然后,获取与该列向量对应的行向量的正确关联次数,例如针对数据标准“卡号”与“发行人账号”,获取其正确关联次数。
然后,本申请可以根据所述正确关联次数确定所述字段名称与所述样本矩阵中各预设数据标准的相关度,例如,根据所述正确关联次数确定所述字段名称与所述样本矩阵中各预设数据标准的字符相似度和样本相似度,然后对所述字符相似度和所述样本相似度的数值集合进行归一化处理和均值处理,得到所述字段名称与所述样本矩阵中各预设数据标准的相关度数值。
为了能够准确计算相关度,在本申请的数据标准匹配方法的一实施例中,参见图5,上述步骤S403还可以具体包含如下内容:
步骤S501:根据所述正确关联次数确定所述字段名称与所述样本矩阵中各预设数据标准的字符相似度和样本相似度。
步骤S502:对所述字符相似度和所述样本相似度的数值集合进行归一化处理和均值处理,得到所述字段名称与所述样本矩阵中各预设数据标准的相关度数值。
举例来说,对于“发行人账号”标准,P1=104,P2=10,P3=7,P4=10;S1=31,S2=3,S3=4,S4=5。字符相似度
Figure BDA0003594227460000091
样本相似度
Figure BDA0003594227460000092
由于其值均介于0与1之间,故归一化处理结果即为数据本身,可得相关度数值R1≈0.42。对“卡号”进行同样的处理可得相关度数值R2≈0.37。
为了能够确定最匹配的数据标准,在本申请的数据标准匹配方法的一实施例中,参见图6,上述步骤S103还可以具体包含如下内容:
步骤S601:将所述相关度最大的预设数据标准确定为与所述字段名称匹配的数据标准。
步骤S602:建立所述字段名称与该数据标准的关联关系。
为了能够精准匹配正确的数据标准,有效提高贯标率,本申请提供一种用于实现所述数据标准匹配方法的全部或部分内容的数据标准匹配装置的实施例,参见图7,所述数据标准匹配装置具体包含有如下内容:
样本矩阵匹配模块10,用于对数据表的字段名称进行词语拆解,根据拆解后的词语匹配自学习库中相应的样本矩阵,其中,所述样本矩阵的列向量为预设词语,所述样本矩阵的行向量为预设数据标准。
相关度确定模块20,用于根据经过拆解后的词语在所述样本矩阵中的正确关联次数,确定所述字段名称与所述样本矩阵中各预设数据标准的相关度。
数据标准匹配模块30,用于根据所述相关度确定与所述字段名称匹配的预设数据标准。
从上述描述可知,本申请实施例提供的数据标准匹配装置,能够通过数据表字段名称在样本矩阵中的正确关联次数,确定其与各预设数据标准的相关度,并确定与当前字段名称最匹配的数据标准,由此能够精准匹配正确的数据标准,有效提高贯标率。
为了能够准确构建样本矩阵用以与当前字段名称进行匹配,在本申请的数据标准匹配装置的一实施例中,参见图8,所述样本矩阵匹配模块10包括:
矩阵列向量确定单元11,用于将历史数据表的字段中文名、字段英文名以及字段所属表名进行词语拆解,将拆解后的词语划分为中文名、英文名以及表名三类,并与所述数据表所属的业务领域一同作为样本矩阵的列向量。
矩阵行向量确定单元12,用于将预设数据标准作为样本矩阵的行向量。
矩阵构建单元13,用于根据所述列向量和所述行向量构建样本矩阵。
为了能够准确确定与字段名称匹配的样本矩阵,在本申请的数据标准匹配装置的一实施例中,参见图9,所述样本矩阵匹配模块10还包括:
词语匹配单元14,用于判断拆解后的词语是否匹配自学习库中各样本矩阵的列向量。
矩阵匹配单元15,用于若匹配,则判定对应的样本矩阵与所述拆解后的词语匹配。
为了能够准确确定字段名称与样本矩阵中各预设数据标准的相关度,在本申请的数据标准匹配装置的一实施例中,参见图10,所述相关度确定模块20包括:
对应列向量确定单元21,用于确定所述样本矩阵中与经过拆解后的词语对应的列向量。
对应行向量关联次数确定单元22,用于获取与该列向量对应的行向量的正确关联次数。
相关度计算单元23,用于根据所述正确关联次数确定所述字段名称与所述样本矩阵中各预设数据标准的相关度。
为了能够准确计算相关度,在本申请的数据标准匹配装置的一实施例中,参见图11,所述相关度计算单元23包括:
相似度计算子单元231,用于根据所述正确关联次数确定所述字段名称与所述样本矩阵中各预设数据标准的字符相似度和样本相似度。
数值处理子单元232,用于对所述字符相似度和所述样本相似度的数值集合进行归一化处理和均值处理,得到所述字段名称与所述样本矩阵中各预设数据标准的相关度数值。
为了能够确定最匹配的数据标准,在本申请的数据标准匹配装置的一实施例中,参见图12,所述数据标准匹配模块30包括:
最优标准确定单元31,用于将所述相关度最大的预设数据标准确定为与所述字段名称匹配的数据标准。
标准关联单元32,用于建立所述字段名称与该数据标准的关联关系。
为了更进一步说明本方案,本申请还提供一种应用上述数据标准匹配装置实现数据标准匹配方法的具体应用实例,参见图13,具体包含有如下内容:页面、拆词器模块、智能推荐模块、自学习库。
首先,在软件开发人员设计表结构需要关联数据标准时,先由页面将字段中文名、字段英文名、数据表名、所属系统名等属性作为参数传给拆词器模块,拆词器模块使用开源程序将所有参数拆解为单词,并下传给智能推荐模块。
然后,智能推荐模块接收拆词模块下数的数据,并从自学习库中读取已有记录,使用算法计算出该字段最有可能需要关联的数据标准,并输出到页面进行显示。
接着,开发人员关联该标准后,由审核人员进行审核,将结果(通过/不通过)传输给自学习数据库,自学习库记录该结果,并更新学习记录,从而持续提升该模型的准确度。
从硬件层面来说,为了能够精准匹配正确的数据标准,有效提高贯标率,本申请提供一种用于实现所述数据标准匹配方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现数据标准匹配装置与核心业务系统、用户终端以及相关数据库等相关设备之间的信息传输;该逻辑控制器可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该逻辑控制器可以参照实施例中的数据标准匹配方法的实施例,以及数据标准匹配装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
可以理解的是,所述用户终端可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
在实际应用中,数据标准匹配方法的部分可以在如上述内容所述的电子设备侧执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
图14为本申请实施例的电子设备9600的系统构成的示意框图。如图14所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图14是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,数据标准匹配方法功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
步骤S101:对数据表的字段名称进行词语拆解,根据拆解后的词语匹配自学习库中相应的样本矩阵,其中,所述样本矩阵的列向量为预设词语,所述样本矩阵的行向量为预设数据标准。
步骤S102:根据经过拆解后的词语在所述样本矩阵中的正确关联次数,确定所述字段名称与所述样本矩阵中各预设数据标准的相关度。
步骤S103:根据所述相关度确定与所述字段名称匹配的预设数据标准。
从上述描述可知,本申请实施例提供的电子设备,通过数据表字段名称在样本矩阵中的正确关联次数,确定其与各预设数据标准的相关度,并确定与当前字段名称最匹配的数据标准,由此能够精准匹配正确的数据标准,有效提高贯标率。
在另一个实施方式中,数据标准匹配装置可以与中央处理器9100分开配置,例如可以将数据标准匹配装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现数据标准匹配方法功能。
如图14所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图14中所示的所有部件;此外,电子设备9600还可以包括图14中没有示出的部件,可以参考现有技术。
如图14所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的执行主体为服务器或客户端的数据标准匹配方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的数据标准匹配方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤S101:对数据表的字段名称进行词语拆解,根据拆解后的词语匹配自学习库中相应的样本矩阵,其中,所述样本矩阵的列向量为预设词语,所述样本矩阵的行向量为预设数据标准。
步骤S102:根据经过拆解后的词语在所述样本矩阵中的正确关联次数,确定所述字段名称与所述样本矩阵中各预设数据标准的相关度。
步骤S103:根据所述相关度确定与所述字段名称匹配的预设数据标准。
从上述描述可知,本申请实施例提供的计算机可读存储介质,通过数据表字段名称在样本矩阵中的正确关联次数,确定其与各预设数据标准的相关度,并确定与当前字段名称最匹配的数据标准,由此能够精准匹配正确的数据标准,有效提高贯标率。
本申请的实施例还提供能够实现上述实施例中的执行主体为服务器或客户端的数据标准匹配方法中全部步骤的一种计算机程序产品,该计算机程序/指令被处理器执行时实现所述的数据标准匹配方法的步骤,例如,所述计算机程序/指令实现下述步骤:
步骤S101:对数据表的字段名称进行词语拆解,根据拆解后的词语匹配自学习库中相应的样本矩阵,其中,所述样本矩阵的列向量为预设词语,所述样本矩阵的行向量为预设数据标准。
步骤S102:根据经过拆解后的词语在所述样本矩阵中的正确关联次数,确定所述字段名称与所述样本矩阵中各预设数据标准的相关度。
步骤S103:根据所述相关度确定与所述字段名称匹配的预设数据标准。
从上述描述可知,本申请实施例提供的计算机程序产品,通过数据表字段名称在样本矩阵中的正确关联次数,确定其与各预设数据标准的相关度,并确定与当前字段名称最匹配的数据标准,由此能够精准匹配正确的数据标准,有效提高贯标率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种数据标准匹配方法,其特征在于,所述方法包括:
对数据表的字段名称进行词语拆解,根据拆解后的词语匹配自学习库中相应的样本矩阵,其中,所述样本矩阵的列向量为预设词语,所述样本矩阵的行向量为预设数据标准;
根据经过拆解后的词语在所述样本矩阵中的正确关联次数,确定所述字段名称与所述样本矩阵中各预设数据标准的相关度;
根据所述相关度确定与所述字段名称匹配的预设数据标准。
2.根据权利要求1所述的数据标准匹配方法,其特征在于,在所述根据拆解后的词语匹配自学习库中相应的样本矩阵之前,包括:
将历史数据表的字段中文名、字段英文名以及字段所属表名进行词语拆解,将拆解后的词语划分为中文名、英文名以及表名三类,并与所述数据表所属的业务领域一同作为样本矩阵的列向量;
将预设数据标准作为样本矩阵的行向量;
根据所述列向量和所述行向量构建样本矩阵。
3.根据权利要求1所述的数据标准匹配方法,其特征在于,所述根据拆解后的词语匹配自学习库中相应的样本矩阵,包括:
判断拆解后的词语是否匹配自学习库中各样本矩阵的列向量;
若匹配,则判定对应的样本矩阵与所述拆解后的词语匹配。
4.根据权利要求1所述的数据标准匹配方法,其特征在于,所述根据经过拆解后的词语在所述样本矩阵中的正确关联次数,确定所述字段名称与所述样本矩阵中各预设数据标准的相关度,包括:
确定所述样本矩阵中与经过拆解后的词语对应的列向量;
获取与该列向量对应的行向量的正确关联次数;
根据所述正确关联次数确定所述字段名称与所述样本矩阵中各预设数据标准的相关度。
5.根据权利要求4所述的数据标准匹配方法,其特征在于,所述根据所述正确关联次数确定所述字段名称与所述样本矩阵中各预设数据标准的相关度,包括:
根据所述正确关联次数确定所述字段名称与所述样本矩阵中各预设数据标准的字符相似度和样本相似度;
对所述字符相似度和所述样本相似度的数值集合进行归一化处理和均值处理,得到所述字段名称与所述样本矩阵中各预设数据标准的相关度数值。
6.根据权利要求1所述的数据标准匹配方法,其特征在于,所述根据所述相关度确定与所述字段名称匹配的预设数据标准,包括:
将所述相关度最大的预设数据标准确定为与所述字段名称匹配的数据标准;
建立所述字段名称与该数据标准的关联关系。
7.一种数据标准匹配装置,其特征在于,包括:
样本矩阵匹配模块,用于对数据表的字段名称进行词语拆解,根据拆解后的词语匹配自学习库中相应的样本矩阵,其中,所述样本矩阵的列向量为预设词语,所述样本矩阵的行向量为预设数据标准;
相关度确定模块,用于根据经过拆解后的词语在所述样本矩阵中的正确关联次数,确定所述字段名称与所述样本矩阵中各预设数据标准的相关度;
数据标准匹配模块,用于根据所述相关度确定与所述字段名称匹配的预设数据标准。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至6任一项所述的数据标准匹配方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6任一项所述的数据标准匹配方法的步骤。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至6任一项所述的数据标准匹配方法的步骤。
CN202210384343.7A 2022-04-13 2022-04-13 数据标准匹配方法及装置 Pending CN114840576A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210384343.7A CN114840576A (zh) 2022-04-13 2022-04-13 数据标准匹配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210384343.7A CN114840576A (zh) 2022-04-13 2022-04-13 数据标准匹配方法及装置

Publications (1)

Publication Number Publication Date
CN114840576A true CN114840576A (zh) 2022-08-02

Family

ID=82563324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210384343.7A Pending CN114840576A (zh) 2022-04-13 2022-04-13 数据标准匹配方法及装置

Country Status (1)

Country Link
CN (1) CN114840576A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115794827A (zh) * 2022-11-29 2023-03-14 广发银行股份有限公司 一种数据表结构管理系统和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115794827A (zh) * 2022-11-29 2023-03-14 广发银行股份有限公司 一种数据表结构管理系统和方法

Similar Documents

Publication Publication Date Title
CN110956956A (zh) 基于策略规则的语音识别方法及装置
US20220391642A1 (en) Method and apparatus for evaluating joint training model
CN111369247A (zh) 跨行交易数据处理方法及装置
CN110545236A (zh) 即时通讯消息修改方法及装置、存储介质、电子设备
CN112784112B (zh) 报文校验方法及装置
CN114840576A (zh) 数据标准匹配方法及装置
CN113110829B (zh) 多ui组件库数据处理方法及装置
CN114153856A (zh) 主机数据双写方法及装置
CN113190229A (zh) 政务事项页面生成方法及装置
CN112800063A (zh) 基于数据结构的自动贯标方法及装置
CN111930624A (zh) 测试链路报文数据处理方法及装置
US20170279749A1 (en) Modular Communications
CN115495519A (zh) 报表数据加工方法及装置
CN113515447B (zh) 系统自动化测试方法及装置
CN115421976A (zh) 异地备灾数据处理方法及装置
CN113434423A (zh) 接口测试方法及装置
CN115099930A (zh) 金融业务数据处理方法及装置
CN114968917A (zh) 一种文件数据快速导入方法及装置
CN110399615B (zh) 交易风险监控方法及装置
CN113158259A (zh) 区块链完整性验证方法及装置
CN113553530A (zh) 一种信息报送动态页面配置方法及装置
CN113760962A (zh) 单领域至跨领域数据集数据处理方法及装置
CN110931014A (zh) 基于正则匹配规则的语音识别方法及装置
CN111797099A (zh) 一种基于科目与辅助属性的数据处理方法及装置
CN112905623A (zh) 一种业务数据组合展示方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination