CN114153962A - 一种数据匹配方法、装置及电子设备 - Google Patents
一种数据匹配方法、装置及电子设备 Download PDFInfo
- Publication number
- CN114153962A CN114153962A CN202111422622.XA CN202111422622A CN114153962A CN 114153962 A CN114153962 A CN 114153962A CN 202111422622 A CN202111422622 A CN 202111422622A CN 114153962 A CN114153962 A CN 114153962A
- Authority
- CN
- China
- Prior art keywords
- matching
- data
- value
- matching result
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据匹配方法、装置及电子设备,该数据匹配方法包括:获取待标准化的目标数据以及多个标准化数据元;根据字段中文名对应的第一匹配规则、字段英文名对应的第二匹配规则和数据内容对应的第三匹配规则中的至少一种,将目标数据和所有标准化数据元进行匹配,得到包含匹配度值的匹配结果;确定所有匹配结果中匹配度值在预设范围内的至少一个匹配结果,并确定每个匹配结果分别对应的标准化数据元。基于上述方法,通过字段中文名、字段英文名、数据内容分别对应的匹配规则,将待标准化的目标数据与标准化数据元之间进行匹配,这种多策略匹配方式可以筛选出与目标数据更加匹配的标准化数据元,提高匹配结果的可靠性。
Description
技术领域
本申请涉及数据处理领域,特别是涉及一种数据匹配方法、装置及电子设备。
背景技术
随着大数据的快速发展,各行各业开始建设大数据平台,并希望通过大数据平台完成数字化转型,但是在建设大数据平台的过程中会面临如下几个方面的问题:第一方面是关于数据不可知的问题,即数据来源不清楚、数据的业务含义不理解、数据的关键信息无法把握;第二方面是关于不可控的问题,即各个部门、各个业务系统之间的数据标准不统一,导致数据定义不一致,进而造成业务含义理解困难;第三方面是关于数据不可用的问题,即各个部门之间的数据标准不统一,导致各个部门之间的数据共享困难。因此,建立统一的数据标准有助于数据管理规范化,统一各个部门对数据的定义和理解的一致性,并且打破各部门之间的数据壁垒,方便数据共享。为此,国家和各个行业发布了一系列文件,如:《GA DSJ 201-2019公安大数据处理数据元编写规则》《GAT 1054.6-2017公安数据元限定词》等等。有了各行各业颁布的数据标准以后,便可以得到各个行业对应的标准数据元,因此,可以将待标准化目标数据与标准数据元之间进行匹配,进而得到与待标准化目标数据对应的标准数据元信息,该标准数据元可以实现目标数据的标准化。
目前,确定出与待标准化的目标数据对应的标准数据元,主要是通过将待标准化目标数据与标准化数据元进行文本相似度匹配来实现,但是,由于待标准化目标数据通常存在不规范的情况,如:表名或字段名中包含特殊字符、中文字符与英文字符掺杂、英文名中包含汉语拼音缩写等,导致确定出的标准数据元与目标数据之间的文本相似度值较低,进而影响对目标数据进行标准化的可靠性。
发明内容
本申请提供了一种数据匹配方法、装置、程序及电子设备,通过字段中文名、字段英文名、数据内容分别对应的匹配规则,将待标准化的目标数据与标准化数据元之间进行匹配,这种多策略匹配方式可以筛选出与目标数据更加匹配的标准化数据元,提高匹配结果的可靠性。
第一方面,本申请提供了一种数据匹配方法,所述方法包括:
获取待标准化的目标数据以及多个标准化数据元,其中,所述目标数据包括字段中文名、字段英文名以及数据内容;
根据所述字段中文名对应的第一匹配规则、所述字段英文名对应的第二匹配规则和所述数据内容对应的第三匹配规则中的至少一种,将所述目标数据和所有的标准化数据元进行匹配,得到包含匹配度值的匹配结果;
确定所有匹配结果中匹配度值在预设范围内的至少一个匹配结果,并确定所述至少一个匹配结果中每个匹配结果分别对应的标准化数据元。
通过上述方法,通过字段中文名、字段英文名、数据内容分别对应的匹配规则,将目标数据与标准化数据元之间进行匹配,这种多策略匹配方式可以筛选出与目标数据更加匹配的标准化数据元,提高匹配结果的可靠性。
在一种可能的设计中,根据所述字段中文名对应的第一匹配规则、所述字段英文名对应的第二匹配规则和所述数据内容对应的第三匹配规则中的至少一种,将所述目标数据和所有的标准化数据元进行匹配,得到包含匹配度值的匹配结果,包括:
将所述字段中文名与所述多个标准化数据元中的至少一个标准化数据元进行文本相似度匹配,得到包含文本相似度值的匹配结果;和/或
将所述字段英文名与所述多个标准化数据元中的至少一个标准化数据元进行语义相似度匹配,得到包含语义相似度值的匹配结果;和/或
将所述数据内容与所述多个标准化数据元中的至少一个标准化数据元进行属性值匹配,得到包含属性匹配度值的匹配结果;和/或
将所述字段中文名中的第一预设关键词、所述字段英文名中的第二预设关键词以及所述数据内容中的数据特征值分别与所述多个标准化数据元中的至少一个标准化数据元之间进行表示词匹配,得到包含表示词匹配度值的匹配结果。
通过上述方法,对目标数据中的字段中文名、字段英文名、数据内容分别采用不同的匹配方法确定出目标数据对应的标准化数据元,同时,还进一步确定出目标数据对应的表示词,使得目标数据所匹配的标准化数据元更加准确和全面,提高匹配结果的可靠性。
在一种可能的设计中,将所述字段中文名与所述多个标准化数据元中的至少一个标准化数据元进行文本相似度匹配,得到包含文本相似度值的匹配结果,包括:
将所述字段中文名中的冗余信息清除,其中,冗余信息包括预设符号和数字;
将所述字段中文名中的句子进行切分;
根据所述字段英文名信息,补充所述字段中文名中的缺失信息;
将预处理后的字段中文名与所述多个标准化数据元中的至少一个标准化数据元进行文本相似度匹配,得到包含文本相似度值的匹配结果。
通过上述方法,对目标数据中的字段中文名进行预处理,并将预处理后的字段中文名与标准化数据元进行文本相似度匹配,消除干扰信息对匹配过程的影响,提高匹配效率和匹配结果的可靠性。
在一种可能的设计中,将所述字段英文名与所述多个标准化数据元中的至少一个标准化数据元进行语义相似度匹配,得到包含语义相似度值的匹配结果,包括:
将所述字段英文名中包含的预设字符删除;
将所述字段英文名中的字母进行整理;
将所述字段英文名中的英语单词、英文缩写翻译成中文拼音或同义词;
将预处理后的字段英文名与所述多个标准化数据元中的至少一个标准化数据元进行语义相似度匹配,得到包含语义相似度值的匹配结果。
通过上述方法,对目标数据中的英文字段名进行预处理,并将预处理后的字段中文名与标准化数据元进行语义相似度匹配,消除干扰信息对匹配过程的影响,提高匹配效率和匹配结果的可靠性。
在一种可能的设计中,将所述数据内容与所述多个标准化数据元中的至少一个标准化数据元进行属性值匹配,得到包含属性匹配度值的匹配结果,包括:
清洗所述数据内容中的脏数据,其中,所述脏数据至少包括个是非法的数据、业务范围之外的数据;
将清洗后的数据内容与所述多个标准化数据元中的至少一个标准化数据元进行属性值匹配,得到包含属性匹配度值的匹配结果。
通过上述方法,对目标数据中的脏数据清除后,将目标数据中的数据内容与标准化数据元进行属性值匹配,消除干扰信息对匹配过程的影响,提高匹配效率和匹配结果的可靠性。
在一种可能的设计中,将所述字段中文名中的第一预设关键词、所述字段英文名中的第二预设关键词以及所述数据内容中的数据特征值分别与所述多个标准化数据元中的至少一个标准化数据元之间进行表示词匹配,得到包含表示词匹配度值的匹配结果,包括:
将所述字段中文名中的第一预设关键词与所述多个标准化数据元中的至少一个标准化数据元进行表示词类别匹配,得到包含表示词匹配度值的第一匹配结果;
将所述字段英文名中的第二预设关键词与所述多个标准化数据元中的至少一个标准化数据元进行表示词类别匹配,得到包含表示词匹配度值的第二匹配结果;
将所述数据内容中的数据特征与所述多个标准化数据元中的至少一个标准化数据元进行表示词匹配,得到包含表示词匹配度值的第三匹配结果。
通过上述方法,确定出目标数据中的关键词以及数据特征分别对应的表示词类型,其中,表示词类型属于标准数据元,在对目标数据进行标准数据元匹配的过程中,加入表示词匹配,可以提高目标数据匹配的标准数据元的全面性,进而提高最终匹配结果的可靠性。
在一种可能的设计中,确定所有匹配结果中匹配度值在预设范围内的至少一个匹配结果,包括:
确定所述包含文本相似度值的匹配结果中文本相似度值大于第一预设阈值的匹配结果;
确定所述包含语义相识度值的匹配结果中语义相似度值大于第二预设阈值的匹配结果;
确定所述包含属性值匹配度的匹配结果中属性匹配度值大于第三预设阈值的匹配结果;
将所述包含表示词匹配度值的匹配结果按照第一预设规则进行合并,得到至少包含一个表示词的匹配结果。
通过上述方法,在所有匹配结果中筛选出匹配度值满足用户要求的匹配结果,提高匹配结果的可靠性。
在一种可能的设计中,所述将所述包含表示词匹配度值的匹配结果按照第一预设规则进行合并,得到至少包含一个表示词的匹配结果,包括:
在所述第一匹配结果中确定出表示词匹配度值大于第四预设阈值的第四匹配结果;
在所述第二匹配结果中确定出表示词匹配度值大于第五预设阈值的第五匹配结果;
在所述第三匹配结果中确定出表示词匹配度值大于第六预设阈值的第六匹配结果;
在所述第四匹配结果中第一预设关键词对应的表示词及所述第五匹配结果中第二预设关键词对应的表示词与所述第六匹配结果中同一关键词对应数据内容对应的表示词一致时,将所述同一关键词对应的表示词及所述同一关键词对应数据内容对应的表示词进行合并。
通过上述方法,对目标数据中的字段中文名、字段英文名和内容数据分别对应的表示词进行筛选后,进一步将表示词进行合并,提高匹配结果的精度。
在一种可能的设计中,在确定所有匹配结果中匹配度值在预设范围内的至少一个匹配结果,并确定所述至少一个匹配结果中每个匹配结果分别对应的标准化数据元之后,还包括:
对所述每个匹配结果分别对应的标准数据元设置权重值,并统计第一标准数据元对应N个权重值,其中,N为大于或等于1的整数;
按照预设算法,计算所述N个权重值对应的整体权重值;
根据所述整体权重值及所述第一标准数据元对应的匹配频率,计算第一标准数据元信息的置信度,其中,所述匹配频率指示标准数据元被确定出次数与匹配规则的个数之间的比值;
在所述置信度值大于第七预设阈值时,将所述第一标准数据元作为目标标准数据元。
通过上述方法,计算每个标准数据元对应的置信度,并筛选出置信度值满足用户需求的标准数据元,进一步提高匹配结果精度,进而提高匹配结果的可靠性。
在一种可能的设计中,在将所述第一标准数据元作为目标标准数据元之后,还包括:
提取所述数据内容对应的数据特征值;
根据第二预设规则,确定所述数据特征值的取值范围;
判断所述目标标准数据元是否处于所述取值范围;
在所述取值范围时,将所述目标标准数据元作为最终标准数据元。
通过上述方法,对置信度满足用户需求的标准数据元进一步作筛选,提高匹配结果精度,进而提高匹配结果的可靠性。
第二方面,本申请提供了一种数据匹配装置,所述装置包括:
获取模块,用于获取待标准化的目标数据以及多个标准化数据元,其中,所述目标数据包括字段中文名、字段英文名以及数据内容;
匹配模块,用于根据所述字段中文名对应的第一匹配规则、所述字段英文名对应的第二匹配规则和所述数据内容对应的第三匹配规则中的至少一种,将所述目标数据和所有标准化数据元进行匹配,得到包含匹配度值的匹配结果;
第一确定模块,用于确定所有匹配结果中匹配度值在预设范围内的至少一个匹配结果,并确定所述至少一个匹配结果中每个匹配结果分别对应的标准化数据元。
在一种可能的设计中,所述匹配模块具体用于:
将所述字段中文名与所述多个标准化数据元中的至少一个标准化数据元进行文本相似度匹配,得到包含文本相似度值的匹配结果;和/或
将所述字段英文名与所述多个标准化数据元中的至少一个标准化数据元进行语义相似度匹配,得到包含语义相似度值的匹配结果;和/或
将所述数据内容与所述多个标准化数据元中的至少一个标准化数据元进行属性值匹配,得到包含属性匹配度值的匹配结果;和/或
将所述字段中文名中的第一预设关键词、所述字段英文名中的第二预设关键词以及所述数据内容中的数据特征值分别与所述多个标准化数据元中的至少一个标准化数据元之间进行表示词匹配,得到包含表示词匹配度值的匹配结果。
在一种可能的设计中,所述匹配模块还用于:
将所述字段中文名中的冗余信息清除,其中,冗余信息包括预设符号和数字;
将所述字段中文名中的句子进行切分;
根据所述字段英文名信息,补充所述字段中文名中的缺失信息;
将预处理后的字段中文名与所述多个标准化数据元中的至少一个标准化数据元进行文本相似度匹配,得到包含文本相似度值的匹配结果。
在一种可能的设计中,所述匹配模块还用于:
将所述字段英文名中包含的预设字符删除;
将所述字段英文名中的字母进行整理;
将所述字段英文名中的英语单词、英文缩写翻译成中文拼音或同义词;
将预处理后的字段英文名与所述多个标准化数据元中的至少一个标准化数据元进行语义相似度匹配,得到包含语义相似度值的匹配结果。
在一种可能的设计中,所述匹配模块还用于:
清洗所述数据内容中的脏数据,其中,所述脏数据至少包括个是非法的数据、业务范围之外的数据;
将清洗后的数据内容与所述多个标准化数据元中的至少一个标准化数据元进行属性值匹配,得到包含属性匹配度值的匹配结果。
在一种可能的设计中,所述匹配模块还用于:
将所述字段中文名中的第一预设关键词与所述多个标准化数据元中的至少一个标准化数据元进行表示词类别匹配,得到包含表示词匹配度值的第一匹配结果;
将所述字段英文名中的第二预设关键词与所述多个标准化数据元中的至少一个标准化数据元进行表示词类别匹配,得到包含表示词匹配度值的第二匹配结果;
将所述数据内容中的数据特征与所述多个标准化数据元中的至少一个标准化数据元进行表示词匹配,得到包含表示词匹配度值的第三匹配结果。
在一种可能的设计中,所述第一确定模块具体用于:
确定所述包含文本相似度值的匹配结果中文本相似度值大于第一预设阈值的匹配结果;
确定所述包含语义相识度值的匹配结果中语义相似度值大于第二预设阈值的匹配结果;
确定所述包含属性值匹配度的匹配结果中属性匹配度值大于第三预设阈值的匹配结果;
将所述包含表示词匹配度值的匹配结果按照第一预设规则进行合并,得到至少包含一个表示词的匹配结果。
在一种可能的设计中,所述匹配模块还用于:
在所述第一匹配结果中确定出表示词匹配度值大于第四预设阈值的第四匹配结果;
在所述第二匹配结果中确定出表示词匹配度值大于第五预设阈值的第五匹配结果;
在所述第三匹配结果中确定出表示词匹配度值大于第六预设阈值的第六匹配结果;
在所述第四匹配结果中第一预设关键词对应的表示词及所述第五匹配结果中第二预设关键词对应的表示词与所述第六匹配结果中同一关键词对应数据内容对应的表示词一致时,将所述同一关键词对应的表示词及所述同一关键词对应数据内容对应的表示词进行合并。
在一种可能的设计中,所述装置还包括:
统计模块,用于对所述每个匹配结果分别对应的标准数据元设置权重值,并统计第一标准数据元对应N个权重值,其中,N为大于或等于1的整数;
第一计算模块,用于按照预设算法,计算所述N个权重值对应的整体权重值;根据所述整体权重值及所述第一标准数据元对应的匹配频率,计算第一标准数据元信息的置信度,其中,所述匹配频率指示标准数据元被确定出次数与匹配规则的个数之间的比值;
第二确定模块,用于在所述置信度值大于第七预设阈值时,将所述第一标准数据元作为目标标准数据元。
在一种可能的设计中,所述装置还包括:
提取模块,用于提取所述数据内容对应的数据特征值;
第二计算模块,用于根据第二预设规则,确定所述数据特征值的取值范围;
判断模块,用于判断所述目标标准数据元是否处于所述取值范围;
第三确定模块,用于在所述取值范围时,将所述目标标准数据元作为最终标准数据元。
第三方面,本申请提供了一种电子设备,包括:
存储器,用于存放计算机程序;
处理器,用于执行所述存储器上所存放的计算机程序时,实现上述数据匹配方法步骤。
第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述数据匹配方法步骤。
基于上述数据匹配方法,通过字段中文名、字段英文名、数据内容分别对应的匹配规则,将待标准化的目标数据与标准化数据元之间进行匹配,这种多策略匹配方式可以筛选出与目标数据更加匹配的标准化数据元,提高匹配结果的可靠性。
上述第二方面至第四方面中的各个方面以及各个方面可能达到的技术效果参照上述针对第一方面或者第一方面中的各种可能方案可以达到的技术效果说明,这里不再重复赘述。
附图说明
图1为本申请提供的一种数据匹配方法的流程图;
图2为本申请提供的一种数据匹配装置的结构示意图;
图3为本申请提供的一种数据匹配方法的示例图;
图4为本申请提供的一种电子设备结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述。方法实施例中的具体操作方法也可以应用于装置实施例或系统实施例中。需要说明的是,在本申请的描述中“多个”理解为“至少两个”。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。A与B连接,可以表示:A与B直接连接和A与B通过C连接这两种情况。另外,在本申请的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
下面结合附图,对本申请实施例进行详细描述。
现阶段,确定出与待标准化的目标数据对应的标准数据元,主要是通过将待标准化目标数据与标准化数据元进行文本相似度匹配来实现,但是,由于待标准化目标数据通常存在不规范的情况,如:表名或字段名中包含特殊字符、中文字符与英文字符掺杂、英文名中包含汉语拼音缩写等,导致确定出的标准数据元与目标数据之间的文本相似度值较低,进而影响对目标数据进行标准化的可靠性。
为了解决上述问题,本申请提供了一种数据匹配方法,通过字段中文名、字段英文名、数据内容分别对应的匹配规则,将目标数据与标准化数据元之间进行匹配,这种多策略匹配方式可以筛选出与目标数据更加匹配的标准化数据元,提高匹配结果的可靠性。其中,本申请实施例所述方法和装置基于同一技术构思,由于方法及装置所解决问题的原理相似,因此装置与方法的实施例可以相互参见,重复之处不再赘述。
如图1所示,为本申请提供的一种数据匹配方法的流程图,具体包括如下步骤:
S11,获取待标准化的目标数据以及多个标准化数据元;
S12,根据目标数据中的字段中文名对应的第一匹配规则、字段英文名对应的第二匹配规则和数据内容对应的第三匹配规则中的至少一种,将目标数据和所有标准化数据元进行匹配,得到包含匹配度值的匹配结果;
S13,确定所有匹配结果中匹配度值在预设范围内的至少一个匹配结果,并确定每个匹配结果分别对应的标准化数据元。
在本申请实施例中,目标数据包括数据表英文名、数据表中文名、字段中文名、字段英文名、数据内容、字段类型。
数据元由一组属性规定其定义、标识、表示和允许值的数据单元。标准数据元主要包含:数据元内部标识、标识符、中文名称、表示词、对象类词、特性词、同义词、值域、数据类型、表示格式等信息。比如,公民身份号码的标准数据元包括:内部标识符:DE00001、中文名称:公民身份号码、标识符:GMSFHM、表示词:号码、对象类词:公民、特性词:身份、值域:符合GB 11643《公民身份号码》等。
根据目标数据所在的行业以及数据类型,获取该目标数据所在领域对应的多个标准化数据元。
在获取目标数据及多个标准化数据元以后,接下来的目的是在多个标准数据元中确定出与目标数据匹配的标准化数据元,具体做法如下:
将获取的目标数据进行预处理,进而消除冗余信息及干扰项信息的影响,提高匹配结果的准确性,具体预处理措施主要包括如下三个方面:
第一方面为对目标数据中的字段中文名进行预处理,字段中文名主要是对字段英文名进行解释说明,经常出现信息不规范的情况,如:句子过长、包含不规范字符、中英文混杂、信息缺失等,因此,在本申请实施例中,对中文字段名进行预处理的方法包括:
将字段中文名中的冗余信息清除,其中,冗余信息包括预设符号和数字;
将字段中文名中的长句切分为短句,字段中文名中的长句子通常为对字段中文名的解释说明,可以通过预设符号进行切分;
根据字段英文名信息,补充字段中文名中的缺失信息,比如,字段英文名为“Fq_sfzh”,字段中文名为“父亲”,那么可以根据字段英文名,将字段中文名补充为“父亲_身份证号”。
第二方面为对目标数据中的字段英文名进行预处理,待标准化的字段英文名表达形式主要有:中文拼音首字母缩写、中文拼音全拼、英文单词、英文缩写、中文拼音英文混杂、特殊字符、数字等多种情况。因此,在本申请实施例中,对字段英文名进行预处理的方法包括:
将字段英文名中包含的预设字符删除或替换处理,比如,将特殊字符、空格替换为空字符串;
将字段英文名中的字母进行整理,整理方式包括分词分类和转换,其中,分词分类是指将字段英文名中出现的不同类型的英文字母进行内容划分和类型划分,比如,将字段英文名“xbcode”的类型分为:拼音首字母和英文单词,内容分为:xb和code;转换是指将字段英文名中的字母大小写进行统一,如:将大写字母转换为小写字母;
将字段英文名中的英语单词、英文缩写翻译成中文拼音或同义词。
第三方面为对目标数据中的数据内容进行预处理,预处理主要是对数据内容中出现的脏数据进行清洗,排除脏数据的影响。如:将数据内容中不统一的空值统一转换成空字符以及剔除数据内容中的空格等。
通过上述方法,对目标数据中的字段中文名、字段英文名、数据内容分别进行预处理,消除干扰信息对匹配过程的影响,提高匹配效率和最终匹配结果的可靠性。
在目标数据进行预处理以后,接下来,将预处理后的目标数据与多个行业标准按照多种匹配规则进行匹配,具体来讲,至少包括如下四种匹配规则中的任一一种:
第一匹配规则,将字段中文名与多个标准化数据元中的至少一个标准化数据元进行文本相似度匹配,得到包含文本相似度值的匹配结果;判断包含文本相似度值的匹配结果中是否存在文本相似度值大于第一预设阈值的匹配结果;若存在,则确定出文本相似度值大于第一预设阈值的匹配结果对应的标准数据元。
在上述过程中,文本相似度计算的算法包括但不限于编辑距离算法、BM25算法以及语义召回算法,其中,语义召回算法通常使用的模型为word2vec、SimCSE、Roformer等。因此,在本申请实施例中,基于文本相似度,将字段中文名与至少一个标准化数据源进行匹配的匹配模型可以是字段中文名召回-distance、字段中文名召回-SimCSE、字段中文名召回-Roformer,将字段中文名和标准化数据元输入上述任一匹配模型后,可以计算出字段中文名和标准化数据元之间的文本相似度值,若该文本相似度值大于匹配模型中的第一预设阈值,则确定出该文本相似度值对应的标准数据元。
第二匹配规则,将字段英文名与多个标准化数据元中的至少一个标准化数据元进行语义相似度匹配,得到包含语义相似度值的匹配结果;判断包含语义相似度值的匹配结果中是否存在语义相似度值大于第二预设阈值的匹配结果;若存在,则确定出语义相似度值大于第二预设阈值的匹配结果对应的标准数据元。
在上述过程中,将字段英文名与标准化数据元进行语义相似度匹配的匹配模型可以是:字段英文名召回-distance、字段英文名召回-synonym、字段英文名召回-semantic等,将字段英文名和标准化数据元输入上述任一匹配模型后,可以计算出字段英文名和标准化数据元之间的语义相似度值,若该语义相似度值大于匹配模型中的第二预设阈值,则确定出该语义相似度值对应的标准数据元。
第三匹配规则,将数据内容与多个标准化数据元中的至少一个标准化数据元进行属性值匹配,得到包含属性匹配度值的匹配结果;判断包含属性匹配度值的匹配结果中是否存在属性匹配度值大于第三预设阈值的匹配结果;若存在,则确定出属性匹配度值大于第三预设阈值的匹配结果对应的标准数据元。
在上述过程中,主要基于国家或者行业标准确定目标数据中数据内容对应的属性值的取值范围,该取值范围即为标准数据元,将数据内容对应的属性值与该取值范围进行匹配,若属性值在该取值范围内,则可将属性匹配度值取为1,否则,将属性相似度值取为0,此时第三预设阈值取值为0,因此,在属性匹配度值为1的情况下,可确定出属性值对应的标准数据元。
第四匹配规则,将字段中文名中的第一预设关键词、字段英文名中的第二预设关键词以及数据内容中的数据特征值分别与多个标准化数据元中的至少一个标准化数据元之间进行表示词匹配,得到包含表示词匹配度值的匹配结果。
在本申请实施例中,表示词主要是用于描述数据元值域的表示形式,有助于数据元规范化命名、分析、类比、查询。国际认可的表示词有:金额、日期、日期时间、代码、描述、名称、号码、量、指示符、百分比、比率。确定目标数据对应的表示词,主要是基于数据内容、字段中文名、字段英文名实现,具体来讲,确定目标数据对应的表示词的方法包括:
将字段中文名中的第一预设关键词与多个标准化数据元中的至少一个标准化数据元进行表示词类别匹配,得到包含表示词匹配度值的第一匹配结果;
将字段英文名中的第二预设关键词与多个标准化数据元中的至少一个标准化数据元进行表示词类别匹配,得到包含表示词匹配度值的第二匹配结果;
将数据内容中的数据特征与多个标准化数据元中的至少一个标准化数据元进行表示词匹配,得到包含表示词匹配度值的第三匹配结果。
通过上述方式,完成目标数据与标准化数据元之间的表示词匹配,初步得到包含表示词匹配度值的第一匹配结果、第二匹配结果以及第三匹配结果。
接下来,将上述第一匹配结果、第二匹配结果以及第三匹配结果按照第一预设规则进行合并,得到至少包含一个表示词的匹配结果,具体的匹配结果合并方法包括:
在第一匹配结果中确定出表示词匹配度值大于第四预设阈值的第四匹配结果;在第二匹配结果中确定出表示词匹配度值大于第五预设阈值的第五匹配结果;在第三匹配结果中确定出表示词匹配度值大于第六预设阈值的第六匹配结果;在第四匹配结果中第一预设关键词对应的表示词及第五匹配结果中第二预设关键词对应的表示词与第六匹配结果中同一关键词对应数据内容对应的表示词一致时,将同一关键词对应的表示词及同一关键词对应数据内容对应的表示词进行合并,并确定合并后的表示词对应的标准化数据元。
通过上述方法,首先分别对第一匹配结果、第二匹配结果以及第三匹配结果通过阈值比较法进行筛选,然后将筛选后的匹配结果进行合并,比如,若字段中文名与标准化数据元进行表示词匹配,并而经过筛选后,得到的第四匹配结果为“日期表示词”,而字段中文名对应的数据内容“20211112”经过与标准化数据元进行匹配并筛选后,得到的第六匹配结果为“金额表示词”,此时,“金额表示词”与“日期表示词”不一致,这个时候两个表示词匹配结果均保留,无需合并;若第四匹配结果和第六匹配结果最终得到的表示词均为“日期表示词”或者其他一致的结果,则只需保留一个表示词结果。
基于上述四种匹配规则,通过字段中文名、字段英文名、数据内容分别对应的匹配规则,将目标数据与标准化数据元之间进行匹配,这种多策略匹配方式可以筛选出与目标数据更加匹配的标准化数据元,提高匹配结果的可靠性。
在一些可能的应用场景中,通过上述四种匹配规则确定出的多个标准化数据元,可能存在同一个标准数据元对应着不同的匹配频率,例如:字段英文名召回-distance匹配结果为:('DE00709',0.38),字段英文名召回-synonym召回匹配结果为:('DE00709',0.78),其中,“0.38”表示标准数据元“DE00709”基于字段英文名召回-distance被确定出的概率,“0.39”表示标准数据元“DE00709”基于字段英文名召回-synonym被确定出的概率,同一个标准数据元“DE00709”对应着不同的概率,此时,需要将这两个概率合并成一个。
为了将多种匹配规则对应的同一个标准数据元融合成一个结果,需对图1所述数据匹配方法确定出的每个数据元统一置信度,并基于置信度对匹配结果做进一步筛选,具体过程包括:
对每个匹配结果分别对应的标准数据元设置权重值,并统计第一标准数据元对应N个权重值,其中,N为大于或等于1的整数;按照预设算法,计算N个权重值对应的整体权重值;根据整体权重值及第一标准数据元对应的匹配频率,计算第一标准数据元信息的置信度值,其中,匹配频率指示标准数据元被确定出次数与匹配规则的个数之间比值;在置信度值大于第七预设阈值时,将第一标准数据元作为目标标准数据元。
举例来讲,为图1所述匹配方法得到的匹配结果如表1所示:
匹配规则 | 匹配结果1 | 匹配结果2 | 匹配结果3 |
第一匹配规则 | ('DE00709',0.38) | ('DE80145',0.35) | ('DE10300',0.33) |
第二匹配规则 | ('DE80085',0.7714) | ('DE00543',0.29) | ('DE10300',0.9763) |
第三匹配规则 | ('DE80085',0.78) | ('DE90085',0.64) | ('DE10189',0.35) |
表1
在表1中的匹配结果“'DE10300',0.33”对应的权重值为W1,匹配结果“'DE10300',0.9763”对应的权重值为W2,则计算标准数据元“DE10300”对应的初始置信度值为W(DE10300)=(W1*0.33+W2*0.9763)/(W1+W2);接下来计算标准数据元“DE10300”对应的匹配频率,即F(DE10300)=2/3;根据初始置信度值及匹配频率,可以计算出标准数据元的置信度值为:P=W(DE10300)*F(DE10300),最后,将标准数据元的置信度值与预设阈值作比较,便可以对匹配结果进一步筛选,得到目标标准数据元。
通过上述方法,计算每个标准数据元对应的置信度,并筛选出置信度值满足用户需求的目标标准数据元,进一步提高匹配结果精度,进而提高匹配结果的可靠性。
在一种可能的设计中,为了进一步提高匹配结果的可靠性,需对目标标准数据元作校验,具体校验方法包括:
提取数据内容对应的数据特征值;根据第二预设规则,确定数据特征值的取值范围,其中,第二预设规则指示基于国家或者行业标准确定出的特征值取值范围确定规则;判断目标标准数据元是否处于取值范围;在取值范围时,将目标标准数据元作为最终标准数据元。
在上述过程中,数据特征值提取主要是针对数据内容包含的特征信息,主要包含:按公共统计信息的特征信息、按字段类型划分的特征信息、按数据类型提取的特征信息,其中,公共统计信息的特征信息最大值、最小值、均值、众数、中位数、方差、标准差、极差等;按字段类型划分的特征信息主要包括:中文占比、数字占比、英文占比、中文加数字占比、中文加英文占比、英文加数字占比、中文加数字加英文占比、数据中包含特殊字符的数据占比等;数值型特有的特征信息包括:小数位和整数位的长度。
在提取数据内容对应的特征值以后,根据第二预设规则,确定出每个特征值的取值范围,比如身份证号的标准长度为18位,其中,7-14位为出生日期,15-17位为顺序码,18位为校验码格式;接着,根据该取值范围,对目标标准数据元进行校验,将不符合取值范围的目标标准数据元进行过滤,得到最终标准数据元。这种方式可以对目标标准数据元进一步作筛选,提高匹配结果精度,进而提高匹配结果的可靠性。
进一步,为了更加详细阐述上述数据匹配方法,下面以具体应用场景进行详细说明,具体来讲,如图2所示,为本申请所提供的一种数据匹配示例图,在图2中,首先获取数据元信息,数据元信息包括待标准化的原始表信息、待标准化的原始表数据以及标准的数据元信息,其中,待标准化的原始表信息包括数据表英文名、数据表中文名、字段中文名、字段英文名及字段类型,待标准化的原始表数据指表的数据内容,可以是抽样数据,也可以是全量数据。
然后对获取的数据元信息进行预处理,包括:对字段英文名预处理、对字段中文名进行预处理以及对数据内容进行预处理,在本示例中,具体预处理方式及数据特征可参考图1所示的数据匹配方法的解释说明部分,此处不再重复描述。
接着,提取数据元信息对应的数据特征,在提取数据特征以后,将数据元信息输入多路召回模型,初步得到数据元信息对应的标准数据元,其中,多路召回模型包括:字段中文名召回模型、字段英文名召回模型、表示词召回模型以及数据内容召回模型,这四种模型对元数据信息进行处理的方法参考图1所示的数据匹配方法中的四种匹配规则,通过字段中文名、字段英文名、数据内容分别对应的匹配规则,将目标数据与标准化数据元之间进行匹配,这种多策略匹配方式可以筛选出与目标数据更加匹配的标准化数据元,提高匹配结果的可靠性。
进一步,对初步得到的标准数据元进行融合排序,即对通过多路召回模型得到的标准数据元计算数据元权重,并进一步计算召回频率,然后将根据权重值和召回频率,计算归一化结果,其中,召回频率即为图1所示数据匹配方法中的匹配频率。举例来讲:字段英文名召回-distance召回结果为:('DE00709',0.38),字段英文名召回-synonym召回结果为:('DE00709',0.78),同一个数据元召回的结果置信度不一样。为了将多路召回结果融合成一个结果,且从统一维度输出结果置信度,因此,后续通过加权平均数据元的权重和召回频率,进行结果归置,然后将结果进行归一化处理,得到每个数据元对应的综合置信度。最终,按照置信度进行排序输出最终推荐的待标准的数据表的数据标准信息。
在得到综合置信度以后,选取综合执行度大于阈值的标准数据元,并对这些表准数据元进行校验处理,具体校验方法是基于数据特征完成的,可以参考图1所示数据匹配方法中对目标标准数据元进行校验的方法。
最后,根据校验结果,得到元数据信息对应的最终标准数据元。
基于本示例所述数据匹配方法,首先使用多路召回模型筛选出元数据信息对应的标准数据元,然后使用融合排序模型进行第二次筛选,最后对这些标准数据元进行校验,实现标准数据元的第三次筛选,从而提高元数据信息对应的标准数据元的可靠性。
基于同一发明构思,本申请实施例中还提供了一种数据匹配装置,如图3所示,为本申请中一种数据匹配装置的结构示意图,该装置包括:
获取模块31,用于获取待标准化的目标数据以及多个标准化数据元,其中,所述目标数据包括字段中文名、字段英文名以及数据内容;
匹配模块32,用于根据所述字段中文名对应的第一匹配规则、所述字段英文名对应的第二匹配规则和所述数据内容对应的第三匹配规则中的至少一种,将所述目标数据和所有标准化数据元进行匹配,得到包含匹配度值的匹配结果;
第一确定模块33,用于确定所有匹配结果中匹配度值在预设范围内的至少一个匹配结果,并确定所述至少一个匹配结果中每个匹配结果分别对应的标准化数据元。
在一种可能的设计中,所述匹配模块32具体用于:
将所述字段中文名与所述多个标准化数据元中的至少一个标准化数据元进行文本相似度匹配,得到包含文本相似度值的匹配结果;和/或
将所述字段英文名与所述多个标准化数据元中的至少一个标准化数据元进行语义相似度匹配,得到包含语义相似度值的匹配结果;和/或
将所述数据内容与所述多个标准化数据元中的至少一个标准化数据元进行属性值匹配,得到包含属性匹配度值的匹配结果;和/或
将所述字段中文名中的第一预设关键词、所述字段英文名中的第二预设关键词以及所述数据内容中的数据特征值分别与所述多个标准化数据元中的至少一个标准化数据元之间进行表示词匹配,得到包含表示词匹配度值的匹配结果。
在一种可能的设计中,所述匹配模块32还用于:
将所述字段中文名中的冗余信息清除,其中,冗余信息包括预设符号和数字;
将所述字段中文名中的句子进行切分;
根据所述字段英文名信息,补充所述字段中文名中的缺失信息;
将预处理后的字段中文名与所述多个标准化数据元中的至少一个标准化数据元进行文本相似度匹配,得到包含文本相似度值的匹配结果。
在一种可能的设计中,所述匹配模块32还用于:
将所述字段英文名中包含的预设字符删除;
将所述字段英文名中的字母进行整理;
将所述字段英文名中的英语单词、英文缩写翻译成中文拼音或同义词;
将预处理后的字段英文名与所述多个标准化数据元中的至少一个标准化数据元进行语义相似度匹配,得到包含语义相似度值的匹配结果。
在一种可能的设计中,所述匹配模块32还用于:
清洗所述数据内容中的脏数据,其中,所述脏数据至少包括个是非法的数据、业务范围之外的数据;
将清洗后的数据内容与所述多个标准化数据元中的至少一个标准化数据元进行属性值匹配,得到包含属性匹配度值的匹配结果。
在一种可能的设计中,所述匹配模块32还用于:
将所述字段中文名中的第一预设关键词与所述多个标准化数据元中的至少一个标准化数据元进行表示词类别匹配,得到包含表示词匹配度值的第一匹配结果;
将所述字段英文名中的第二预设关键词与所述多个标准化数据元中的至少一个标准化数据元进行表示词类别匹配,得到包含表示词匹配度值的第二匹配结果;
将所述数据内容中的数据特征与所述多个标准化数据元中的至少一个标准化数据元进行表示词匹配,得到包含表示词匹配度值的第三匹配结果。
在一种可能的设计中,所述第一确定模块33具体用于:
确定所述包含文本相似度值的匹配结果中文本相似度值大于第一预设阈值的匹配结果;
确定所述包含语义相识度值的匹配结果中语义相似度值大于第二预设阈值的匹配结果;
确定所述包含属性值匹配度的匹配结果中属性匹配度值大于第三预设阈值的匹配结果;
将所述包含表示词匹配度值的匹配结果按照第一预设规则进行合并,得到至少包含一个表示词的匹配结果。
在一种可能的设计中,所述匹配模块32还用于:
在所述第一匹配结果中确定出表示词匹配度值大于第四预设阈值的第四匹配结果;
在所述第二匹配结果中确定出表示词匹配度值大于第五预设阈值的第五匹配结果;
在所述第三匹配结果中确定出表示词匹配度值大于第六预设阈值的第六匹配结果;
在所述第四匹配结果中第一预设关键词对应的表示词及所述第五匹配结果中第二预设关键词对应的表示词与所述第六匹配结果中同一关键词对应数据内容对应的表示词一致时,将所述同一关键词对应的表示词及所述同一关键词对应数据内容对应的表示词进行合并。
在一种可能的设计中,所述装置还包括:
统计模块,用于对所述每个匹配结果分别对应的标准数据元设置权重值,并统计第一标准数据元对应N个权重值,其中,N为大于或等于1的整数;
第一计算模块,用于按照预设算法,计算所述N个权重值对应的整体权重值;根据所述整体权重值及所述第一标准数据元对应的匹配频率,计算第一标准数据元信息的置信度,其中,所述匹配频率指示标准数据元被确定出次数与匹配规则的个数之间的比值;
第二确定模块,用于在所述置信度值大于第七预设阈值时,将所述第一标准数据元作为目标标准数据元。
在一种可能的设计中,所述装置还包括:
提取模块,用于提取所述数据内容对应的数据特征值;
第二计算模块,用于根据第二预设规则,确定所述数据特征值的取值范围;
判断模块,用于判断所述目标标准数据元是否处于所述取值范围;
第三确定模块,用于在所述取值范围时,将所述目标标准数据元作为最终标准数据元。
基于上述数据匹配装置,通过字段中文名、字段英文名、数据内容分别对应的匹配规则,将待标准化的目标数据与标准化数据元之间进行匹配,这种多策略匹配方式可以筛选出与目标数据更加匹配的标准化数据元,提高匹配结果的可靠性。
基于同一发明构思,本申请实施例中还提供了一种电子设备,所述电子设备可以实现前述一种数据匹配装置的功能,参考图4,所述电子设备包括:
至少一个处理器41,以及与至少一个处理器41连接的存储器42,本申请实施例中不限定处理器41与存储器42之间的具体连接介质,图4中是以处理器41和存储器42之间通过总线40连接为例。总线40在图4中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线40可以分为地址总线、数据总线、控制总线等,为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。或者,处理器41也可以称为控制器,对于名称不做限制。
在本申请实施例中,存储器42存储有可被至少一个处理器41执行的指令,至少一个处理器41通过执行存储器42存储的指令,可以执行前文论述数据匹配方法。处理器41可以实现图3所示的装置中各个模块的功能。
其中,处理器41是该装置的控制中心,可以利用各种接口和线路连接整个该控制设备的各个部分,通过运行或执行存储在存储器42内的指令以及调用存储在存储器42内的数据,该装置的各种功能和处理数据,从而对该装置进行整体监控。
在一种可能的设计中,处理器41可包括一个或多个处理单元,处理器41可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器41中。在一些实施例中,处理器41和存储器42可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器41可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的数据匹配方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器42作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器42可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random Access Memory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等。存储器42是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器42还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
通过对处理器41进行设计编程,可以将前述实施例中介绍的数据匹配方法所对应的代码固化到芯片内,从而使芯片在运行时能够执行图1所示的实施例的数据匹配方法的步骤。如何对处理器41进行设计编程为本领域技术人员所公知的技术,这里不再赘述。
基于同一发明构思,本申请实施例还提供一种存储介质,该存储介质存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行前文论述数据匹配方法。
在一些可能的实施方式中,本申请提供的数据匹配方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在装置上运行时,程序代码用于使该控制设备执行本说明书上述描述的根据本申请各种示例性实施方式的数据匹配方法中的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (22)
1.一种数据匹配方法,其特征在于,所述方法包括:
获取待标准化的目标数据以及多个标准化数据元,其中,所述目标数据包括字段中文名、字段英文名以及数据内容;
根据所述字段中文名对应的第一匹配规则、所述字段英文名对应的第二匹配规则和所述数据内容对应的第三匹配规则中的至少一种,将所述目标数据和所有标准化数据元进行匹配,得到包含匹配度值的匹配结果;
确定所有匹配结果中匹配度值在预设范围内的至少一个匹配结果,并确定所述至少一个匹配结果中每个匹配结果分别对应的标准化数据元。
2.如权利要求1所述的方法,其特征在于,根据所述字段中文名对应的第一匹配规则、所述字段英文名对应的第二匹配规则和所述数据内容对应的第三匹配规则中的至少一种,将所述目标数据和所有标准化数据元进行匹配,得到包含匹配度值的匹配结果,包括:
将所述字段中文名与所述多个标准化数据元中的至少一个标准化数据元进行文本相似度匹配,得到包含文本相似度值的匹配结果;和/或
将所述字段英文名与所述多个标准化数据元中的至少一个标准化数据元进行语义相似度匹配,得到包含语义相似度值的匹配结果;和/或
将所述数据内容与所述多个标准化数据元中的至少一个标准化数据元进行属性值匹配,得到包含属性匹配度值的匹配结果;和/或
将所述字段中文名中的第一预设关键词、所述字段英文名中的第二预设关键词以及所述数据内容中的数据特征值分别与所述多个标准化数据元中的至少一个标准化数据元之间进行表示词匹配,得到包含表示词匹配度值的匹配结果。
3.如权利要求2所述的方法,其特征在于,将所述字段中文名与所述多个标准化数据元中的至少一个标准化数据元进行文本相似度匹配,得到包含文本相似度值的匹配结果,包括:
将所述字段中文名中的冗余信息清除,其中,冗余信息包括预设符号和数字;
将所述字段中文名中的句子进行切分;
根据所述字段英文名信息,补充所述字段中文名中的缺失信息;
将预处理后的字段中文名与所述多个标准化数据元中的至少一个标准化数据元进行文本相似度匹配,得到包含文本相似度值的匹配结果。
4.如权利要求2所述的方法,其特征在于,将所述字段英文名与所述多个标准化数据元中的至少一个标准化数据元进行语义相似度匹配,得到包含语义相似度值的匹配结果,包括:
将所述字段英文名中包含的预设字符删除;
将所述字段英文名中的字母进行整理;
将所述字段英文名中的英语单词、英文缩写翻译成中文拼音或同义词;
将预处理后的字段英文名与所述多个标准化数据元中的至少一个标准化数据元进行语义相似度匹配,得到包含语义相似度值的匹配结果。
5.如权利要求2所述的方法,其特征在于,将所述数据内容与所述多个标准化数据元中的至少一个标准化数据元进行属性值匹配,得到包含属性匹配度值的匹配结果,包括:
清洗所述数据内容中的脏数据,其中,所述脏数据至少包括个是非法的数据、业务范围之外的数据;
将清洗后的数据内容与所述多个标准化数据元中的至少一个标准化数据元进行属性值匹配,得到包含属性匹配度值的匹配结果。
6.如权利要求2所述的方法,其特征在于,将所述字段中文名中的第一预设关键词、所述字段英文名中的第二预设关键词以及所述数据内容中的数据特征值分别与所述多个标准化数据元中的至少一个标准化数据元之间进行表示词匹配,得到包含表示词匹配度值的匹配结果,包括:
将所述字段中文名中的第一预设关键词与所述多个标准化数据元中的至少一个标准化数据元进行表示词类别匹配,得到包含表示词匹配度值的第一匹配结果;
将所述字段英文名中的第二预设关键词与所述多个标准化数据元中的至少一个标准化数据元进行表示词类别匹配,得到包含表示词匹配度值的第二匹配结果;
将所述数据内容中的数据特征与所述多个标准化数据元中的至少一个标准化数据元进行表示词匹配,得到包含表示词匹配度值的第三匹配结果。
7.如权利要求2所述的方法,其特征在于,确定所有匹配结果中匹配度值在预设范围内的至少一个匹配结果,包括:
确定所述包含文本相似度值的匹配结果中文本相似度值大于第一预设阈值的匹配结果;
确定所述包含语义相识度值的匹配结果中语义相似度值大于第二预设阈值的匹配结果;
确定所述包含属性值匹配度的匹配结果中属性匹配度值大于第三预设阈值的匹配结果;
将所述包含表示词匹配度值的匹配结果按照第一预设规则进行合并,得到至少包含一个表示词的匹配结果。
8.如权利要求7所述的方法,其特征在于,所述将所述包含表示词匹配度值的匹配结果按照第一预设规则进行合并,得到至少包含一个表示词的匹配结果,包括:
在所述第一匹配结果中确定出表示词匹配度值大于第四预设阈值的第四匹配结果;
在所述第二匹配结果中确定出表示词匹配度值大于第五预设阈值的第五匹配结果;
在所述第三匹配结果中确定出表示词匹配度值大于第六预设阈值的第六匹配结果;
在所述第四匹配结果中第一预设关键词对应的表示词及所述第五匹配结果中第二预设关键词对应的表示词与所述第六匹配结果中同一关键词对应数据内容对应的表示词一致时,将所述同一关键词对应的表示词及所述同一关键词对应数据内容对应的表示词进行合并。
9.如权利要求1所述的方法,其特征在于,在确定所有匹配结果中匹配度值在预设范围内的至少一个匹配结果,并确定所述至少一个匹配结果中每个匹配结果分别对应的标准化数据元之后,还包括:
对所述每个匹配结果分别对应的标准数据元设置权重值,并统计第一标准数据元对应N个权重值,其中,N为大于或等于1的整数;
按照预设算法,计算所述N个权重值对应的整体权重值;
根据所述整体权重值及所述第一标准数据元对应的匹配频率,计算第一标准数据元信息的置信度,其中,所述匹配频率指示标准数据元被确定出次数与匹配规则的个数之间的比值;
在所述置信度值大于第七预设阈值时,将所述第一标准数据元作为目标标准数据元。
10.如权利要求9所述的方法,其特征在于,在将所述第一标准数据元作为目标标准数据元之后,还包括:
提取所述数据内容对应的数据特征值;
根据第二预设规则,确定所述数据特征值的取值范围;
判断所述目标标准数据元是否处于所述取值范围;
在所述取值范围时,将所述目标标准数据元作为最终标准数据元。
11.一种数据匹配装置,其特征在于,所述装置包括:
获取模块,用于获取待标准化的目标数据以及多个标准化数据元,其中,所述目标数据包括字段中文名、字段英文名以及数据内容;
匹配模块,用于根据所述字段中文名对应的第一匹配规则、所述字段英文名对应的第二匹配规则和所述数据内容对应的第三匹配规则中的至少一种,将所述目标数据和所有标准化数据元进行匹配,得到包含匹配度值的匹配结果;
第一确定模块,用于确定所有匹配结果中匹配度值在预设范围内的至少一个匹配结果,并确定所述至少一个匹配结果中每个匹配结果分别对应的标准化数据元。
12.如权利要求11所述的装置,其特征在于,所述匹配模块具体用于:
将所述字段中文名与所述多个标准化数据元中的至少一个标准化数据元进行文本相似度匹配,得到包含文本相似度值的匹配结果;和/或
将所述字段英文名与所述多个标准化数据元中的至少一个标准化数据元进行语义相似度匹配,得到包含语义相似度值的匹配结果;和/或
将所述数据内容与所述多个标准化数据元中的至少一个标准化数据元进行属性值匹配,得到包含属性匹配度值的匹配结果;和/或
将所述字段中文名中的第一预设关键词、所述字段英文名中的第二预设关键词以及所述数据内容中的数据特征值分别与所述多个标准化数据元中的至少一个标准化数据元之间进行表示词匹配,得到包含表示词匹配度值的匹配结果。
13.如权利要求12所述的装置,其特征在于,所述匹配模块还用于:
将所述字段中文名中的冗余信息清除,其中,冗余信息包括预设符号和数字;
将所述字段中文名中的句子进行切分;
根据所述字段英文名信息,补充所述字段中文名中的缺失信息;
将预处理后的字段中文名与所述多个标准化数据元中的至少一个标准化数据元进行文本相似度匹配,得到包含文本相似度值的匹配结果。
14.如权利要求12所述的装置,其特征在于,所述匹配模块还用于:
将所述字段英文名中包含的预设字符删除;
将所述字段英文名中的字母进行整理;
将所述字段英文名中的英语单词、英文缩写翻译成中文拼音或同义词;
将预处理后的字段英文名与所述多个标准化数据元中的至少一个标准化数据元进行语义相似度匹配,得到包含语义相似度值的匹配结果。
15.如权利要求12所述的装置,其特征在于,所述匹配模块还用于:
清洗所述数据内容中的脏数据,其中,所述脏数据至少包括个是非法的数据、业务范围之外的数据;
将清洗后的数据内容与所述多个标准化数据元中的至少一个标准化数据元进行属性值匹配,得到包含属性匹配度值的匹配结果。
16.如权利要求12所述的装置,其特征在于,所述匹配模块还用于:
将所述字段中文名中的第一预设关键词与所述多个标准化数据元中的至少一个标准化数据元进行表示词类别匹配,得到包含表示词匹配度值的第一匹配结果;
将所述字段英文名中的第二预设关键词与所述多个标准化数据元中的至少一个标准化数据元进行表示词类别匹配,得到包含表示词匹配度值的第二匹配结果;
将所述数据内容中的数据特征与所述多个标准化数据元中的至少一个标准化数据元进行表示词匹配,得到包含表示词匹配度值的第三匹配结果。
17.如权利要求12所述的装置,其特征在于,所述第一确定模块具体用于:
确定所述包含文本相似度值的匹配结果中文本相似度值大于第一预设阈值的匹配结果;
确定所述包含语义相识度值的匹配结果中语义相似度值大于第二预设阈值的匹配结果;
确定所述包含属性值匹配度的匹配结果中属性匹配度值大于第三预设阈值的匹配结果;
将所述包含表示词匹配度值的匹配结果按照第一预设规则进行合并,得到至少包含一个表示词的匹配结果。
18.如权利要求17所述的装置,其特征在于,所述匹配模块还用于:
在所述第一匹配结果中确定出表示词匹配度值大于第四预设阈值的第四匹配结果;
在所述第二匹配结果中确定出表示词匹配度值大于第五预设阈值的第五匹配结果;
在所述第三匹配结果中确定出表示词匹配度值大于第六预设阈值的第六匹配结果;
在所述第四匹配结果中第一预设关键词对应的表示词及所述第五匹配结果中第二预设关键词对应的表示词与所述第六匹配结果中同一关键词对应数据内容对应的表示词一致时,将所述同一关键词对应的表示词及所述同一关键词对应数据内容对应的表示词进行合并。
19.如权利要求11所述的装置,其特征在于,所述装置还包括:
统计模块,用于对所述每个匹配结果分别对应的标准数据元设置权重值,并统计第一标准数据元对应N个权重值,其中,N为大于或等于1的整数;
第一计算模块,用于按照预设算法,计算所述N个权重值对应的整体权重值;根据所述整体权重值及所述第一标准数据元对应的匹配频率,计算第一标准数据元信息的置信度,其中,所述匹配频率指示标准数据元被确定出次数与匹配规则的个数之间的比值;
第二确定模块,用于在所述置信度值大于第七预设阈值时,将所述第一标准数据元作为目标标准数据元。
20.如权利要求19所述的装置,其特征在于,所述装置还包括:
提取模块,用于提取所述数据内容对应的数据特征值;
第二计算模块,用于根据第二预设规则,确定所述数据特征值的取值范围;
判断模块,用于判断所述目标标准数据元是否处于所述取值范围;
第三确定模块,用于在所述取值范围时,将所述目标标准数据元作为最终标准数据元。
21.一种电子设备,其特征在于,包括:
存储器,用于存放计算机程序;
处理器,用于执行所述存储器上所存放的计算机程序时,实现权利要求1-10中任一项所述的方法步骤。
22.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-10中任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111422622.XA CN114153962A (zh) | 2021-11-26 | 2021-11-26 | 一种数据匹配方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111422622.XA CN114153962A (zh) | 2021-11-26 | 2021-11-26 | 一种数据匹配方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114153962A true CN114153962A (zh) | 2022-03-08 |
Family
ID=80458126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111422622.XA Pending CN114153962A (zh) | 2021-11-26 | 2021-11-26 | 一种数据匹配方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114153962A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114579712A (zh) * | 2022-05-05 | 2022-06-03 | 中科雨辰科技有限公司 | 基于动态模型的文本属性提取匹配方法 |
CN114880430A (zh) * | 2022-05-10 | 2022-08-09 | 马上消费金融股份有限公司 | 名称处理方法及装置 |
CN114896363A (zh) * | 2022-04-19 | 2022-08-12 | 北京月新时代科技股份有限公司 | 一种数据管理方法、装置、设备及介质 |
CN114896229A (zh) * | 2022-04-28 | 2022-08-12 | 中国农业银行股份有限公司 | 一种数据清洗方法、装置及系统 |
CN115374366A (zh) * | 2022-09-15 | 2022-11-22 | 中航信移动科技有限公司 | 一种匹配信息的生成方法、存储介质及电子设备 |
CN118093897A (zh) * | 2024-04-28 | 2024-05-28 | 浙江大华技术股份有限公司 | 一种数据元匹配方法、电子设备及计算机可读存储介质 |
-
2021
- 2021-11-26 CN CN202111422622.XA patent/CN114153962A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114896363A (zh) * | 2022-04-19 | 2022-08-12 | 北京月新时代科技股份有限公司 | 一种数据管理方法、装置、设备及介质 |
CN114896363B (zh) * | 2022-04-19 | 2023-03-28 | 北京月新时代科技股份有限公司 | 一种数据管理方法、装置、设备及介质 |
CN114896229A (zh) * | 2022-04-28 | 2022-08-12 | 中国农业银行股份有限公司 | 一种数据清洗方法、装置及系统 |
CN114579712A (zh) * | 2022-05-05 | 2022-06-03 | 中科雨辰科技有限公司 | 基于动态模型的文本属性提取匹配方法 |
CN114579712B (zh) * | 2022-05-05 | 2022-07-15 | 中科雨辰科技有限公司 | 基于动态模型的文本属性提取匹配方法 |
CN114880430A (zh) * | 2022-05-10 | 2022-08-09 | 马上消费金融股份有限公司 | 名称处理方法及装置 |
CN114880430B (zh) * | 2022-05-10 | 2023-07-18 | 马上消费金融股份有限公司 | 名称处理方法及装置 |
CN115374366A (zh) * | 2022-09-15 | 2022-11-22 | 中航信移动科技有限公司 | 一种匹配信息的生成方法、存储介质及电子设备 |
CN118093897A (zh) * | 2024-04-28 | 2024-05-28 | 浙江大华技术股份有限公司 | 一种数据元匹配方法、电子设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114153962A (zh) | 一种数据匹配方法、装置及电子设备 | |
CN110083623B (zh) | 一种业务规则生成方法及装置 | |
CN108491388B (zh) | 数据集获取方法、分类方法、装置、设备及存储介质 | |
US20180181646A1 (en) | System and method for determining identity relationships among enterprise data entities | |
CN112035599B (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
CN110263311B (zh) | 一种网络页面的生成方法及设备 | |
CN107145516B (zh) | 一种文本聚类方法及系统 | |
CN110377558A (zh) | 文档查询方法、装置、计算机设备和存储介质 | |
CN113641833B (zh) | 服务需求匹配方法及装置 | |
CN112395881A (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
CN113434672B (zh) | 文本类型智能识别方法、装置、设备及介质 | |
CN117114142B (zh) | 基于ai的数据规则表达式生成方法、装置、设备及介质 | |
CN114240568A (zh) | 关联产品的推荐方法和推荐装置 | |
CN113642327A (zh) | 一种标准知识库的构建方法及装置 | |
CN113591476A (zh) | 一种基于机器学习的数据标签推荐方法 | |
CN112579781A (zh) | 文本归类方法、装置、电子设备及介质 | |
CN116933130A (zh) | 一种基于大数据的企业行业分类方法、系统、设备及介质 | |
CN113590792A (zh) | 用户问题的处理方法、装置和服务器 | |
CN116775881A (zh) | 一种数据检测方法、装置及电子设备 | |
CN117763095A (zh) | 匹配材料名称的方法和系统 | |
CN118012890A (zh) | 一种针对数据字段和数据标准的匹配方法及可读存储介质 | |
CN114386035A (zh) | 一种检测威胁数据的方法、装置及电子设备 | |
CN116894073A (zh) | 一种敏感数据识别方法、装置及存储介质 | |
CN118820558A (zh) | 基于元数据的分类分级方法及装置 | |
CN114860923A (zh) | 基于大数据的多维属性标签提取方法、系统、终端及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |