CN109783611A - 一种字段匹配的方法、装置、计算机存储介质及终端 - Google Patents
一种字段匹配的方法、装置、计算机存储介质及终端 Download PDFInfo
- Publication number
- CN109783611A CN109783611A CN201811631758.XA CN201811631758A CN109783611A CN 109783611 A CN109783611 A CN 109783611A CN 201811631758 A CN201811631758 A CN 201811631758A CN 109783611 A CN109783611 A CN 109783611A
- Authority
- CN
- China
- Prior art keywords
- field
- standard
- original
- similarity
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013507 mapping Methods 0.000 claims abstract description 134
- 239000013598 vector Substances 0.000 claims abstract description 112
- 238000007781 pre-processing Methods 0.000 claims description 27
- 230000011218 segmentation Effects 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012790 confirmation Methods 0.000 claims description 8
- 238000010200 validation analysis Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种字段匹配的方法、装置、计算机存储介质及终端,包括:确定原始表的第一特征向量,和待匹配的各第一标准表的第二特征向量;根据确定的第一特征向量和各第二特征向量,确定与原始表成映射关系的第二标准表;建立原始表的原始字段与确定的第二标准表的标准字段的字段映射;根据建立映射的原始字段与标准字段的字段相似度,确定用于字段匹配的目标字段。本发明实施例提高了原始表全字段的匹配准确度和效率。
Description
技术领域
本文涉及但不限于数据处理技术,尤指一种字段匹配的方法、装置、计算机存储介质及终端。
背景技术
如何有效地保证数据的完整性,实现数据的规范化、标准化,提高数据质量和治理效率,对当今的数据治理任务来说至关重要。数据治理的源数据可以包括不同种类、系统的数据。其中,关系型数据库的源数据可能存在几百甚至上千张表,每张表可能有几十到上百的字段。在源数据提取前,建立大量的原始字段与目标字段间的一一映射是一件很繁琐的工作。通常,在数据抽取过程中,原始字段到目标字段的匹配有三种方式:第一种方式,是直接人工定义目标字段,建立原始字段与目标字段的映射关系;第二种方式是基于提前构建好的标准字段库,在字段映射阶段,从标准字段库查找对应的原始字段,如果存在则建立映射,如果不存在,则需要人工创建目标字段,建立映射关系。
上述原始字段与目标字段的匹配方式中:第一种方式准确度灵活性高,但效率低下,对于大量表的情况并不是适用,并且手动建立的字段在命令上并不是规范的;第二种方式属于半自动匹配,效率比第一种有所提高,但还是需要人工创建映射字段,对于表多的情况,效率依然很低。
目前,如何在建立原始字段与目标字段之间的映射关系时,提高原始表全字段的匹配准确度和效率,是技术人员需要面对的问题。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供一种字段匹配的方法、装置、计算机存储介质及终端,能够提高原始表全字段的匹配准确度和效率。
本发明实施例提供了一种字段匹配的方法,包括:
确定原始表的第一特征向量,和待匹配的各第一标准表的第二特征向量;
根据确定的第一特征向量和各第二特征向量,确定与原始表成映射关系的第二标准表;
建立原始表的原始字段与确定的第二标准表的标准字段的字段映射;
根据建立映射的原始字段与标准字段的字段相似度,确定用于字段匹配的目标字段。
可选的,确定待匹配的各第一标准表的第二特征向量之前,所述方法还包括:
按照预设的分类策略将标准库中包含的所有标准表划分为预设个种类;
将与原始表相同种类的标准表,确定为待匹配的所述第一标准表。
可选的,所述确定原始表的第一特征向量包括:
对所述原始表的中文表名进行分词,获得第一关键词;
根据分词获得的第一关键词构建第一词库;
对第一词库中的第一关键词进行预处理后,通过词频统计确定所述第一特征向量;
其中,所述预处理包括:去除重复词、和/或去除停用词。
可选的,所述确定待匹配的各第一标准表的第二特征向量包括:
对各所述第一标准表的对中文表名进行分词,获得对应于各第一标准表的第二关键词;
根据分词获得的所有所述第二关键词构建第二词库;
对第二词库中的第二关键词进行预处理后,通过词频统计确定各所述第一标准表的所述第二特征向量;
其中,所述预处理包括:去除重复词、和/或去除停用词。
可选的,所述确定与原始表成映射关系的第二标准表包括:
计算所述第一特征向量和各所述第二特征向量的表相似度;
从所述表相似度排序在前的预设数值个第一标准表中,确定一个与所述原始表成映射关系的所述第二标准表;
其中,所述表相似度包括:通过余弦相似度计算获得的相似度。
可选的,所述确定一个与所述原始表成映射关系的所述第二标准表包括:
从所述表相似度排序在前的第一预设数值个第一标准表中,将与所述原始表表相似度数值最大的第一标准表确定为所述第二标准表;或,
根据接收到的第一外部指令,从所述表相似度排序在前的第一预设数值个第一标准表中,选择一个第一标准表作为所述第二标准表;
其中,所述第一预设数值为大于等于2且小于等于5的整数。
可选的,所述原始字段包括原始中文字段和原始英文字段;所述标准字段包括标准中文字段和标准英文字段;所述建立原始表的原始字段与确定的第二标准表的标准字段的字段映射包括:
建立各所述原始中文字段与所述标准中文字段的映射关系;
建立各所述原始英文字段与所述标准英文字段的映射关系。
可选的,所述根据建立映射的原始字段与标准字段的字段相似度,确定用于字段匹配的目标字段包括:
计算建立映射关系的所述原始中文字段与所述标准中文字段的第一文本相似度,和建立映射关系的所述原始英文字段与所述标准英文字段的第二文本相似度;
根据计算获得的所述第一文本相似度和所述第二文本相似度,结合预设的加权系数,确定建立映射的原始字段与标准字段的字段相似度;
根据确定的字段相似度与预设的相似度阈值的比较结果,确定用于字段匹配的目标字段。
可选的,所述根据确定的字段相似度与预设的相似度阈值的比较结果,确定用于字段匹配的目标字段包括:
一个或一个以上建立映射的原始字段与标准字段的字段相似度大于所述相似度阈值时,从字段相似度大于相似度阈值的第二预设数值个标准字段中,按照预设策略选择其中一个标准字段作为用于字段匹配的标准字段;
确定的所述字段相似度均小于或等于所述相似度阈值时,确定所述原始字段为用于字段匹配的所述目标字段。
可选的,所述按照预设策略选择其中一个标准字段作为用于字段匹配的标准字段包括:
从所述字段相似度排序在前的第二预设数值个标准字段中,将与所述原始字段的字段相似度数值最大的标准字段确定为所述目标字段;或,
根据接收到的第二外部指令,从所述字段相似度排序在前的第二预设数值个标准字段中,选择一个标准字段作为所述目标字段;
其中,所述第二预设数值为大于等于2且小于等于5的整数。
另一方面,本发明实施例还提供一种字段匹配的装置,包括:向量单元、表映射单元、字段映射单元和匹配字段确认单元;其中,
向量单元用于:确定原始表的第一特征向量,和待匹配的各第一标准表的第二特征向量;
表映射单元用于:根据确定的第一特征向量和各第二特征向量,确定与原始表成映射关系的第二标准表;
字段映射单元用于:建立原始表的原始字段与确定的第二标准表的标准字段的字段映射;
匹配字段确认单元用于:根据建立映射的原始字段与标准字段的字段相似度,确定用于字段匹配的目标字段。
可选的,所述装置还包括分类单元和类型确定单元;其中,
分类单元用于:按照预设的分类策略将标准库中包含的所有标准表划分为预设个种类;
类型确定单元用于:将与原始表相同种类的标准表,确定为待匹配的所述第一标准表。
可选的,所述向量单元包括第一向量模块,用于:
对所述原始表的中文表名进行分词,获得第一关键词;
根据分词获得的第一关键词构建第一词库;
对第一词库中的第一关键词进行预处理后,通过词频统计确定所述第一特征向量;
其中,所述预处理包括:去除重复词、和/或去除停用词。
可选的,所述向量单元包括第二向量模块,用于:
对各所述第一标准表的对中文表名进行分词,获得对应于各第一标准表的第二关键词;
根据分词获得的所有所述第二关键词构建第二词库;
对第二词库中的第二关键词进行预处理后,通过词频统计确定各所述第一标准表的所述第二特征向量;
其中,所述预处理包括:去除重复词、和/或去除停用词。
可选的,所述表映射单元具体用于:
计算所述第一特征向量和各所述第二特征向量的表相似度;
从所述表相似度排序在前的预设数值个第一标准表中,确定一个与所述原始表成映射关系的所述第二标准表;
其中,所述表相似度包括:通过余弦相似度计算获得的相似度。
可选的,所述表映射单元用于确定一个与所述原始表成映射关系的所述第二标准表包括:
从所述表相似度排序在前的第一预设数值个第一标准表中,将与所述原始表表相似度数值最大的第一标准表确定为所述第二标准表;或,
根据接收到的第一外部指令,从所述表相似度排序在前的第一预设数值个第一标准表中,选择一个第一标准表作为所述第二标准表;
其中,所述第一预设数值为大于等于2且小于等于5的整数。
可选的,所述原始字段包括原始中文字段和原始英文字段;所述标准字段包括标准中文字段和标准英文字段;所述字段映射单元具体用于:
建立各所述原始中文字段与所述标准中文字段的映射关系;
建立各所述原始英文字段与所述标准英文字段的映射关系。
可选的,所述匹配字段确认单元具体用于:
计算建立映射关系的所述原始中文字段与所述标准中文字段的第一文本相似度,和建立映射关系的所述原始英文字段与所述标准英文字段的第二文本相似度;
根据计算获得的所述第一文本相似度和所述第二文本相似度,结合预设的加权系数,确定建立映射的原始字段与标准字段的字段相似度;
根据确定的字段相似度与预设的相似度阈值的比较结果,确定用于字段匹配的目标字段。
可选的,所述匹配字段确认单元用于根据确定的字段相似度与预设的相似度阈值的比较结果,确定用于字段匹配的目标字段包括:
一个或一个以上建立映射的原始字段与标准字段的字段相似度大于所述相似度阈值时,从字段相似度大于相似度阈值的第二预设数值个标准字段中,按照预设策略选择其中一个标准字段作为用于字段匹配的标准字段;
确定的所述字段相似度均小于或等于所述相似度阈值时,确定所述原始字段为用于字段匹配的所述目标字段。
可选的,所述匹配字段确认单元用于按照预设策略选择其中一个标准字段作为用于字段匹配的标准字段包括:
从所述字段相似度排序在前的第二预设数值个标准字段中,将与所述原始字段的字段相似度数值最大的标准字段确定为所述目标字段;或,
根据接收到的第二外部指令,从所述字段相似度排序在前的第二预设数值个标准字段中,选择一个标准字段作为所述目标字段;
其中,所述第二预设数值为大于等于2且小于等于5的整数。
再一方面,本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行上述字段匹配的方法。
还一方面,本发明实施例还提供一种终端,包括:存储器和处理器;其中,
处理器被配置为执行存储器中的程序指令;
程序指令在处理器读取执行以下操作:
确定原始表的第一特征向量,和待匹配的各第一标准表的第二特征向量;
根据确定的第一特征向量和各第二特征向量,确定与原始表成映射关系的第二标准表;
建立原始表的原始字段与确定的第二标准表的标准字段的字段映射;
根据建立映射的原始字段与标准字段的字段相似度,确定用于字段匹配的目标字段。
与相关技术相比,本申请技术方案包括:确定原始表的第一特征向量,和待匹配的各第一标准表的第二特征向量;根据确定的第一特征向量和各第二特征向量,确定与原始表成映射关系的第二标准表;建立原始表的原始字段与确定的第二标准表的标准字段的字段映射;根据建立映射的原始字段与标准字段的字段相似度,确定用于字段匹配的目标字段。本发明实施例提高了原始表全字段的匹配准确度和效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例字段匹配的方法的流程图;
图2为本发明实施例字段匹配的装置的结构框图;
图3为本发明应用示例的方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本发明实施例字段匹配的方法的流程图,如图1所示,包括:
步骤101、确定原始表的第一特征向量,和待匹配的各第一标准表的第二特征向量;
可选的,确定待匹配的各第一标准表的第二特征向量之前,本发明实施例方法还包括:
按照预设的分类策略将标准库中包含的所有标准表划分为预设个种类;
将与原始表相同种类的标准表,确定为待匹配的所述第一标准表。
可选的,本发明实施例原始表的所属种类根据接收到的外部指令进行确定。其他可以用于分析确定原始表所述种类的方法也可以应用于本发明实施例。
可选的,本发明实施例确定原始表的第一特征向量包括:
对所述原始表的中文表名进行分词,获得第一关键词;
根据分词获得的第一关键词构建第一词库;
对第一词库中的第一关键词进行预处理后,通过词频统计确定所述第一特征向量;
其中,所述预处理包括:去除重复词、和/或去除停用词。
可选的,本发明实施例确定待匹配的各第一标准表的第二特征向量包括:
对各所述第一标准表的对中文表名进行分词,获得对应于各第一标准表的第二关键词;
根据分词获得的所有所述第二关键词构建第二词库;
对第二词库中的第二关键词进行预处理后,通过词频统计确定各所述第一标准表的所述第二特征向量;
其中,所述预处理包括:去除重复词、和/或去除停用词。
步骤102、根据确定的第一特征向量和各第二特征向量,确定与原始表成映射关系的第二标准表;
可选的,本发明实施例确定与原始表成映射关系的第二标准表包括:
计算所述第一特征向量和各所述第二特征向量的表相似度;
从所述表相似度排序在前的预设数值个第一标准表中,确定一个与所述原始表成映射关系的所述第二标准表;
其中,所述表相似度包括:通过余弦相似度计算获得的相似度。
可选的,本发明实施例确定一个与所述原始表成映射关系的所述第二标准表包括:
从所述表相似度排序在前的第一预设数值个第一标准表中,将与所述原始表表相似度数值最大的第一标准表确定为所述第二标准表;或,
根据接收到的第一外部指令,从所述表相似度排序在前的第一预设数值个第一标准表中,选择一个第一标准表作为所述第二标准表;
其中,所述第一预设数值为大于等于2且小于等于5的整数。
步骤103、建立原始表的原始字段与确定的第二标准表的标准字段的字段映射;
可选的,本发明实施例原始字段包括原始中文字段和原始英文字段;所述标准字段包括标准中文字段和标准英文字段;所述建立原始表的原始字段与确定的第二标准表的标准字段的字段映射包括:
建立各所述原始中文字段与所述标准中文字段的映射关系;
建立各所述原始英文字段与所述标准英文字段的映射关系。
步骤104、根据建立映射的原始字段与标准字段的字段相似度,确定用于字段匹配的目标字段。
可选的,本发明实施例根据建立映射的原始字段与标准字段的字段相似度,确定用于字段匹配的目标字段包括:
计算建立映射关系的所述原始中文字段与所述标准中文字段的第一文本相似度,和建立映射关系的所述原始英文字段与所述标准英文字段的第二文本相似度;
根据计算获得的所述第一文本相似度和所述第二文本相似度,结合预设的加权系数,确定建立映射的原始字段与标准字段的字段相似度;
根据确定的字段相似度与预设的相似度阈值的比较结果,确定用于字段匹配的目标字段。
需要说明的是,本发明实施例第一文本相似度和第二文本相似度可以采用最小编辑距离算法计算确定。
可选的,本发明实施例根据确定的字段相似度与预设的相似度阈值的比较结果,确定用于字段匹配的目标字段包括:
一个或一个以上建立映射的原始字段与标准字段的字段相似度大于所述相似度阈值时,从字段相似度大于相似度阈值的第二预设数值个标准字段中,按照预设策略选择其中一个标准字段作为用于字段匹配的标准字段;
确定的所述字段相似度均小于或等于所述相似度阈值时,确定所述原始字段为用于字段匹配的所述目标字段。
可选的,本发明实施例按照预设策略选择其中一个标准字段作为用于字段匹配的标准字段包括:
从所述字段相似度排序在前的第二预设数值个标准字段中,将与所述原始字段的字段相似度数值最大的标准字段确定为所述目标字段;或,
根据接收到的第二外部指令,从所述字段相似度排序在前的第二预设数值个标准字段中,选择一个标准字段作为所述目标字段;
其中,所述第二预设数值为大于等于2且小于等于5的整数。
需要说明的是,本发明实施例确定目标字段后,可以参照相关技术实现原始字段与目标字段的映射;本发明实施例根据特性向量实现原始表和目标表的映射;基于字段的相似度实现目标字段的确定,以自动化方式提升了全字段匹配的效率,基于相似度判断处理,提升了全字段匹配的准确度。
与相关技术相比,本申请技术方案包括:确定原始表的第一特征向量,和待匹配的各第一标准表的第二特征向量;根据确定的第一特征向量和各第二特征向量,确定与原始表成映射关系的第二标准表;建立原始表的原始字段与确定的第二标准表的标准字段的字段映射;根据建立映射的原始字段与标准字段的字段相似度,确定用于字段匹配的目标字段。本发明实施例提高了原始表全字段的匹配准确度和效率。
图2为本发明实施例字段匹配的装置的结构框图,如图2所示,包括:向量单元、表映射单元、字段映射单元和匹配字段确认单元;其中,
向量单元用于:确定原始表的第一特征向量,和待匹配的各第一标准表的第二特征向量;
表映射单元用于:根据确定的第一特征向量和各第二特征向量,确定与原始表成映射关系的第二标准表;
字段映射单元用于:建立原始表的原始字段与确定的第二标准表的标准字段的字段映射;
匹配字段确认单元用于:根据建立映射的原始字段与标准字段的字段相似度,确定用于字段匹配的目标字段。
可选的,本发明实施例装置还包括分类单元和类型确定单元;其中,
分类单元用于:按照预设的分类策略将标准库中包含的所有标准表划分为预设个种类;
类型确定单元用于:将与原始表相同种类的标准表,确定为待匹配的所述第一标准表。
可选的,本发明实施例原始表的所属种类根据接收到的外部指令进行确定。其他可以用于分析确定原始表所述种类的方法也可以应用于本发明实施例。
可选的,本发明实施例向量单元包括第一向量模块,用于:
对所述原始表的中文表名进行分词,获得第一关键词;
根据分词获得的第一关键词构建第一词库;
对第一词库中的第一关键词进行预处理后,通过词频统计确定所述第一特征向量;
其中,所述预处理包括:去除重复词、和/或去除停用词。
可选的,本发明实施例向量单元包括第二向量模块,用于:
对各所述第一标准表的对中文表名进行分词,获得对应于各第一标准表的第二关键词;
根据分词获得的所有所述第二关键词构建第二词库;
对第二词库中的第二关键词进行预处理后,通过词频统计确定各所述第一标准表的所述第二特征向量;
其中,所述预处理包括:去除重复词、和/或去除停用词。
可选的,本发明实施例表映射单元具体用于:
计算所述第一特征向量和各所述第二特征向量的表相似度;
从所述表相似度排序在前的预设数值个第一标准表中,确定一个与所述原始表成映射关系的所述第二标准表;
其中,所述表相似度包括:通过余弦相似度计算获得的相似度。
可选的,本发明实施例表映射单元用于确定一个与所述原始表成映射关系的所述第二标准表包括:
从所述表相似度排序在前的第一预设数值个第一标准表中,将与所述原始表表相似度数值最大的第一标准表确定为所述第二标准表;或,
根据接收到的第一外部指令,从所述表相似度排序在前的第一预设数值个第一标准表中,选择一个第一标准表作为所述第二标准表;
其中,所述第一预设数值为大于等于2且小于等于5的整数。
可选的,本发明实施例原始字段包括原始中文字段和原始英文字段;所述标准字段包括标准中文字段和标准英文字段;所述字段映射单元具体用于:
建立各所述原始中文字段与所述标准中文字段的映射关系;
建立各所述原始英文字段与所述标准英文字段的映射关系。
可选的,本发明实施例匹配字段确认单元具体用于:
计算建立映射关系的所述原始中文字段与所述标准中文字段的第一文本相似度,和建立映射关系的所述原始英文字段与所述标准英文字段的第二文本相似度;
根据计算获得的所述第一文本相似度和所述第二文本相似度,结合预设的加权系数,确定建立映射的原始字段与标准字段的字段相似度;
根据确定的字段相似度与预设的相似度阈值的比较结果,确定用于字段匹配的目标字段。
需要说明的是,本发明实施例第一文本相似度和第二文本相似度可以采用最小编辑距离算法计算确定。
可选的,本发明实施例匹配字段确认单元用于根据确定的字段相似度与预设的相似度阈值的比较结果,确定用于字段匹配的目标字段包括:
一个或一个以上建立映射的原始字段与标准字段的字段相似度大于所述相似度阈值时,从字段相似度大于相似度阈值的第二预设数值个标准字段中,按照预设策略选择其中一个标准字段作为用于字段匹配的标准字段;
确定的所述字段相似度均小于或等于所述相似度阈值时,确定所述原始字段为用于字段匹配的所述目标字段。
可选的,本发明实施例匹配字段确认单元用于按照预设策略选择其中一个标准字段作为用于字段匹配的标准字段包括:
从所述字段相似度排序在前的第二预设数值个标准字段中,将与所述原始字段的字段相似度数值最大的标准字段确定为所述目标字段;或,
根据接收到的第二外部指令,从所述字段相似度排序在前的第二预设数值个标准字段中,选择一个标准字段作为所述目标字段;
其中,所述第二预设数值为大于等于2且小于等于5的整数。
需要说明的是,本发明实施例确定目标字段后,可以参照相关技术实现原始字段与目标字段的映射;本发明实施例根据特性向量实现原始表和目标表的映射;基于字段的相似度实现目标字段的确定,以自动化方式提升了全字段匹配的效率,基于相似度判断处理,提升了全字段匹配的准确度。
与相关技术相比,本申请技术方案包括:确定原始表的第一特征向量,和待匹配的各第一标准表的第二特征向量;根据确定的第一特征向量和各第二特征向量,确定与原始表成映射关系的第二标准表;建立原始表的原始字段与确定的第二标准表的标准字段的字段映射;根据建立映射的原始字段与标准字段的字段相似度,确定用于字段匹配的目标字段。本发明实施例提高了原始表全字段的匹配准确度和效率。
本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行上述字段匹配的方法。
本发明实施例还提供一种终端,包括:存储器和处理器;其中,
处理器被配置为执行存储器中的程序指令;
程序指令在处理器读取执行以下操作:
确定原始表的第一特征向量,和待匹配的各第一标准表的第二特征向量;
根据确定的第一特征向量和各第二特征向量,确定与原始表成映射关系的第二标准表;
建立原始表的原始字段与确定的第二标准表的标准字段的字段映射;
根据建立映射的原始字段与标准字段的字段相似度,确定用于字段匹配的目标字段。
以下通过应用示例对本发明实施例方法进行清楚详细的说明,应用示例仅用于陈述本发明,并不用于限定本发明的保护范围。
应用示例
以下通过应用示例对本发明实施例方法进行说明,本应用示例假设标准库中有N张标准表,用t1,t2,t3,…,tn(n∈[1,N])分别表示N张标准表中的每一张表,ti表示第i张标准表。根据相关技术中已有的行业标准划分为预设个种类;本应用示例假设表有M种种类,用c1,c2,c3,…,cm(m∈[1,M])分别表示M种类别中的每一种类别。分类的行业标准可以依据行业或者国标、部标等权威标准,如公安、交通、司法、教育等;假设有需要进行字段匹配的原始表o;图3为本发明应用示例的方法流程图,如图3所示,包括:
步骤301、对标准库中所有标准表的中文表名进行分词,对每个种类的标准表,分别根据分词获得的关键字建立相应的词库;
步骤302、对各词库中的关键词进行预处理后,通过词频统计确定各标准表的特征向量;预处理包括:去除重复词、和/或去除停用词。
本应用示例对每个表类别m∈[1,M]的中文表名的所有关键词单独构建词库,去除重复词和停用词,并采用词频统计的方法提取特征向量其中,特征向量中上标m表示当前标准表所属种类为第m中,下标i表示当前标准表为当前种类标准表中的第i个,Li表示当前标准表特征向量项的排序;假设根据第m个种类的标准表提取的第i张标准表的中文名称,经过分词获得关键字并进行处理后表示为经过则第m个种类的标准表的词库进行预处理后,可以表示为划分的第m个种类包含的所有标准表的特征向量可以表示为最后将M个类别向量整合成标准表的特征向量V={v1v2,...,vM};
步骤303、确定原始表的特征向量;本发明应用示例可以包括:对原始表的中文表名进行分词,获得关键词,根据分词获得的关键词构建词库;对词库中的关键词进行预处理后,通过词频统计确定原始表的特征向量;
本发明应用示例原始表的特征向量可以表示为:其中,j表示原始表特征向量的项数;本发明实施例可以设置j小于等于N;
步骤304、根据原始表的特征向量和标准表的特征向量,计算原始表与标准表的表相似度;本发明应用示例通过余弦相似度原理计算原始表与标准表的表相似度similarity
需要说明的是,本发明实施例根据预设的交互指令确定原始表的所属种类,在确定原始表的所属种类后,表相似度的运算可以缩小到原始表与、与原始表所属种类相同的标准表的相似度计算。
步骤305、将计算获得的表相似度进行排序后,从表相似度排序在前的第一数值个标准表中,确定为与原始表成映射关系的标准表;可选的,本发明应用示例可以通过以下方式确定为与原始表成映射关系的标准表:
从表相似度排序在前的第一预设数值个标准表中,将与所述原始表表相似度数值最大的标准表确定为与原始表成映射关系的标准表;或,
根据接收到的第一外部指令,从表相似度排序在前的第一预设数值个第一标准表中,选择一个标准表作为与原始表成映射关系的标准表;
其中,本发明应用示例第一预设数值为大于等于2且小于等于5的整数。
需要说明的是,本发明应用示例还可以设置表相似度阈值,以降低排序处理过程,
本发明应用示例根据确定的与原始表成映射关系的标准表后,可以建立原始表与标准表的映射Ko=(o,t);
步骤306、建立原始表的原始字段与确定的第二标准表的标准字段的字段映射,并计算建立映射的原始字段与标准字段的字段相似度;
本发明应用示例,假设原始表o有W个字段,用s1,s2,s3,…,sw(w∈[1,W])表示,原始表映射的标准表t有Z个字段,用u1,u2,u3,…,uz(z∈[1,Z])表示;本发明应用示例采用最小编辑距离(Levenshtein距离)算法,计算原始表o字段原始中文字段与标准表t标准中文字段原始表o的原始英文字段与标准表t标准英文字段的文本相似度;其中,上标c和e分别表示根据中文字段的文本相似度和/或英文字段的文本相似度,本发明应用示例计算确定字段相似度;假设最小转换距离是dc,假设最小转换距离是de
原始中文字段和标准中文字段的文本相似度可以参照相关技术已有的运算公式计算:
原始英文字段和标准英文字段的文本相似度可以参照相关技术已有的运算公式计算:
本发明应用示例,假设设置原始中文字段和标准中文字段的文本相似度和原始英文字段和标准英文字段的文本相似度相同的加权系数,则字段相似度
本发明应用示例根据上述运算公式计算原始表o中每个字段与标准表t中每个字段的相似度(获得字段相似度):
其中z∈[1,Z],w∈[1,W]
步骤307、根据确定的字段相似度与预设的相似度阈值的比较结果,确定用于字段匹配的目标字段。
可选的,本发明应用示例相似度阈值可以由本领域技术人员根据匹配度要求及经验进行设定,值越大,相似度越高,表示原始字段与标准字段的匹配度越高。
一个或一个以上建立映射的原始字段与标准字段的字段相似度大于所述相似度阈值时,从字段相似度大于相似度阈值的第二预设数值个标准字段中,按照预设策略选择其中一个标准字段作为用于字段匹配的标准字段;
确定的字段相似度均小于或等于相似度阈值时,确定原始字段为用于字段匹配的所述目标字段。
可选的,本发明应用示例按照预设策略选择其中一个标准字段作为用于字段匹配的标准字段包括:
从字段相似度排序在前的第二预设数值个标准字段中,将与原始字段的字段相似度数值最大的标准字段确定为目标字段;或,
根据接收到的第二外部指令,从字段相似度排序在前的第二预设数值个标准字段中,选择一个标准字段作为目标字段;
其中,第二预设数值为大于等于2且小于等于5的整数。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的每个模块/单元可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明不限制于任何特定形式的硬件和软件的结合。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (22)
1.一种字段匹配的方法,其特征在于,包括:
确定原始表的第一特征向量,和待匹配的各第一标准表的第二特征向量;
根据确定的第一特征向量和各第二特征向量,确定与原始表成映射关系的第二标准表;
建立原始表的原始字段与确定的第二标准表的标准字段的字段映射;
根据建立映射的原始字段与标准字段的字段相似度,确定用于字段匹配的目标字段。
2.根据权利要求1所述的方法,其特征在于,确定待匹配的各第一标准表的第二特征向量之前,所述方法还包括:
按照预设的分类策略将标准库中包含的所有标准表划分为预设个种类;
将与原始表相同种类的标准表,确定为待匹配的所述第一标准表。
3.根据权利要求1所述的方法,其特征在于,所述确定原始表的第一特征向量包括:
对所述原始表的中文表名进行分词,获得第一关键词;
根据分词获得的第一关键词构建第一词库;
对第一词库中的第一关键词进行预处理后,通过词频统计确定所述第一特征向量;
其中,所述预处理包括:去除重复词、和/或去除停用词。
4.根据权利要求2所述的方法,其特征在于,所述确定待匹配的各第一标准表的第二特征向量包括:
对各所述第一标准表的对中文表名进行分词,获得对应于各第一标准表的第二关键词;
根据分词获得的所有所述第二关键词构建第二词库;
对第二词库中的第二关键词进行预处理后,通过词频统计确定各所述第一标准表的所述第二特征向量;
其中,所述预处理包括:去除重复词、和/或去除停用词。
5.根据权利要求1~4任一项所述的方法,其特征在于,所述确定与原始表成映射关系的第二标准表包括:
计算所述第一特征向量和各所述第二特征向量的表相似度;
从所述表相似度排序在前的预设数值个第一标准表中,确定一个与所述原始表成映射关系的所述第二标准表;
其中,所述表相似度包括:通过余弦相似度计算获得的相似度。
6.根据权利要求5所述的方法,其特征在于,所述确定一个与所述原始表成映射关系的所述第二标准表包括:
从所述表相似度排序在前的第一预设数值个第一标准表中,将与所述原始表表相似度数值最大的第一标准表确定为所述第二标准表;或,
根据接收到的第一外部指令,从所述表相似度排序在前的第一预设数值个第一标准表中,选择一个第一标准表作为所述第二标准表;
其中,所述第一预设数值为大于等于2且小于等于5的整数。
7.根据权利要求1~4任一项所述的方法,其特征在于,所述原始字段包括原始中文字段和原始英文字段;所述标准字段包括标准中文字段和标准英文字段;所述建立原始表的原始字段与确定的第二标准表的标准字段的字段映射包括:
建立各所述原始中文字段与所述标准中文字段的映射关系;
建立各所述原始英文字段与所述标准英文字段的映射关系。
8.根据权利要求7所述的方法,其特征在于,所述根据建立映射的原始字段与标准字段的字段相似度,确定用于字段匹配的目标字段包括:
计算建立映射关系的所述原始中文字段与所述标准中文字段的第一文本相似度,和建立映射关系的所述原始英文字段与所述标准英文字段的第二文本相似度;
根据计算获得的所述第一文本相似度和所述第二文本相似度,结合预设的加权系数,确定建立映射的原始字段与标准字段的字段相似度;
根据确定的字段相似度与预设的相似度阈值的比较结果,确定用于字段匹配的目标字段。
9.根据权利要求8所述的方法,其特征在于,所述根据确定的字段相似度与预设的相似度阈值的比较结果,确定用于字段匹配的目标字段包括:
一个或一个以上建立映射的原始字段与标准字段的字段相似度大于所述相似度阈值时,从字段相似度大于相似度阈值的第二预设数值个标准字段中,按照预设策略选择其中一个标准字段作为用于字段匹配的标准字段;
确定的所述字段相似度均小于或等于所述相似度阈值时,确定所述原始字段为用于字段匹配的所述目标字段。
10.根据权利要求9所述的方法,其特征在于,所述按照预设策略选择其中一个标准字段作为用于字段匹配的标准字段包括:
从所述字段相似度排序在前的第二预设数值个标准字段中,将与所述原始字段的字段相似度数值最大的标准字段确定为所述目标字段;或,
根据接收到的第二外部指令,从所述字段相似度排序在前的第二预设数值个标准字段中,选择一个标准字段作为所述目标字段;
其中,所述第二预设数值为大于等于2且小于等于5的整数。
11.一种字段匹配的装置,其特征在于,包括:向量单元、表映射单元、字段映射单元和匹配字段确认单元;其中,
向量单元用于:确定原始表的第一特征向量,和待匹配的各第一标准表的第二特征向量;
表映射单元用于:根据确定的第一特征向量和各第二特征向量,确定与原始表成映射关系的第二标准表;
字段映射单元用于:建立原始表的原始字段与确定的第二标准表的标准字段的字段映射;
匹配字段确认单元用于:根据建立映射的原始字段与标准字段的字段相似度,确定用于字段匹配的目标字段。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括分类单元和类型确定单元;其中,
分类单元用于:按照预设的分类策略将标准库中包含的所有标准表划分为预设个种类;
类型确定单元用于:将与原始表相同种类的标准表,确定为待匹配的所述第一标准表。
13.根据权利要求11所述的装置,其特征在于,所述向量单元包括第一向量模块,用于:
对所述原始表的中文表名进行分词,获得第一关键词;
根据分词获得的第一关键词构建第一词库;
对第一词库中的第一关键词进行预处理后,通过词频统计确定所述第一特征向量;
其中,所述预处理包括:去除重复词、和/或去除停用词。
14.根据权利要求12所述的装置,其特征在于,所述向量单元包括第二向量模块,用于:
对各所述第一标准表的对中文表名进行分词,获得对应于各第一标准表的第二关键词;
根据分词获得的所有所述第二关键词构建第二词库;
对第二词库中的第二关键词进行预处理后,通过词频统计确定各所述第一标准表的所述第二特征向量;
其中,所述预处理包括:去除重复词、和/或去除停用词。
15.根据权利要求11~14任一项所述的装置,其特征在于,所述表映射单元具体用于:
计算所述第一特征向量和各所述第二特征向量的表相似度;
从所述表相似度排序在前的预设数值个第一标准表中,确定一个与所述原始表成映射关系的所述第二标准表;
其中,所述表相似度包括:通过余弦相似度计算获得的相似度。
16.根据权利要求15所述的装置,其特征在于,所述表映射单元用于确定一个与所述原始表成映射关系的所述第二标准表包括:
从所述表相似度排序在前的第一预设数值个第一标准表中,将与所述原始表表相似度数值最大的第一标准表确定为所述第二标准表;或,
根据接收到的第一外部指令,从所述表相似度排序在前的第一预设数值个第一标准表中,选择一个第一标准表作为所述第二标准表;
其中,所述第一预设数值为大于等于2且小于等于5的整数。
17.根据权利要求11~14任一项所述的装置,其特征在于,所述原始字段包括原始中文字段和原始英文字段;所述标准字段包括标准中文字段和标准英文字段;所述字段映射单元具体用于:
建立各所述原始中文字段与所述标准中文字段的映射关系;
建立各所述原始英文字段与所述标准英文字段的映射关系。
18.根据权利要求17所述的装置,其特征在于,所述匹配字段确认单元具体用于:
计算建立映射关系的所述原始中文字段与所述标准中文字段的第一文本相似度,和建立映射关系的所述原始英文字段与所述标准英文字段的第二文本相似度;
根据计算获得的所述第一文本相似度和所述第二文本相似度,结合预设的加权系数,确定建立映射的原始字段与标准字段的字段相似度;
根据确定的字段相似度与预设的相似度阈值的比较结果,确定用于字段匹配的目标字段。
19.根据权利要求18所述的装置,其特征在于,所述匹配字段确认单元用于根据确定的字段相似度与预设的相似度阈值的比较结果,确定用于字段匹配的目标字段包括:
一个或一个以上建立映射的原始字段与标准字段的字段相似度大于所述相似度阈值时,从字段相似度大于相似度阈值的第二预设数值个标准字段中,按照预设策略选择其中一个标准字段作为用于字段匹配的标准字段;
确定的所述字段相似度均小于或等于所述相似度阈值时,确定所述原始字段为用于字段匹配的所述目标字段。
20.根据权利要求19所述的装置,其特征在于,所述匹配字段确认单元用于按照预设策略选择其中一个标准字段作为用于字段匹配的标准字段包括:
从所述字段相似度排序在前的第二预设数值个标准字段中,将与所述原始字段的字段相似度数值最大的标准字段确定为所述目标字段;或,
根据接收到的第二外部指令,从所述字段相似度排序在前的第二预设数值个标准字段中,选择一个标准字段作为所述目标字段;
其中,所述第二预设数值为大于等于2且小于等于5的整数。
21.一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1~10中任一项所述的字段匹配的方法。
22.一种终端,包括:存储器和处理器;其中,
处理器被配置为执行存储器中的程序指令;
程序指令在处理器读取执行以下操作:
确定原始表的第一特征向量,和待匹配的各第一标准表的第二特征向量;
根据确定的第一特征向量和各第二特征向量,确定与原始表成映射关系的第二标准表;
建立原始表的原始字段与确定的第二标准表的标准字段的字段映射;
根据建立映射的原始字段与标准字段的字段相似度,确定用于字段匹配的目标字段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811631758.XA CN109783611A (zh) | 2018-12-29 | 2018-12-29 | 一种字段匹配的方法、装置、计算机存储介质及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811631758.XA CN109783611A (zh) | 2018-12-29 | 2018-12-29 | 一种字段匹配的方法、装置、计算机存储介质及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109783611A true CN109783611A (zh) | 2019-05-21 |
Family
ID=66497882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811631758.XA Pending CN109783611A (zh) | 2018-12-29 | 2018-12-29 | 一种字段匹配的方法、装置、计算机存储介质及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109783611A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287191A (zh) * | 2019-06-25 | 2019-09-27 | 北京明略软件系统有限公司 | 数据对齐方法及装置、存储介质、电子装置 |
CN110457704A (zh) * | 2019-08-12 | 2019-11-15 | 北京明略软件系统有限公司 | 目标字段的确定方法、装置、存储介质及电子装置 |
CN110532267A (zh) * | 2019-08-28 | 2019-12-03 | 北京明略软件系统有限公司 | 字段的确定方法、装置、存储介质及电子装置 |
CN110795482A (zh) * | 2019-10-16 | 2020-02-14 | 浙江大华技术股份有限公司 | 数据对标方法、装置、及存储装置 |
CN110895533A (zh) * | 2019-11-29 | 2020-03-20 | 北京锐安科技有限公司 | 一种表单映射方法、装置、计算机设备和存储介质 |
CN112069204A (zh) * | 2020-09-30 | 2020-12-11 | 北京百度网讯科技有限公司 | 用于算子服务的处理方法、装置、智能工作站和电子设备 |
CN112527970A (zh) * | 2020-12-24 | 2021-03-19 | 上海浦东发展银行股份有限公司 | 数据字典标准化处理方法、装置、设备及存储介质 |
CN112800187A (zh) * | 2021-04-14 | 2021-05-14 | 北京金山云网络技术有限公司 | 数据映射方法、医学文本数据映射方法、装置及电子设备 |
CN112988698A (zh) * | 2019-12-02 | 2021-06-18 | 阿里巴巴集团控股有限公司 | 一种数据处理方法以及装置 |
CN113627351A (zh) * | 2021-08-12 | 2021-11-09 | 达而观信息科技(上海)有限公司 | 财报科目的匹配方法、装置、计算机设备及存储介质 |
CN116910496A (zh) * | 2023-09-14 | 2023-10-20 | 深圳市智慧城市科技发展集团有限公司 | 数据质量监测规则的配置方法、设备及可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550220A (zh) * | 2015-12-03 | 2016-05-04 | 浪潮通用软件有限公司 | 一种异构系统的取数的方法及装置 |
CN107704625A (zh) * | 2017-10-30 | 2018-02-16 | 锐捷网络股份有限公司 | 字段匹配方法和装置 |
CN108090068A (zh) * | 2016-11-21 | 2018-05-29 | 医渡云(北京)技术有限公司 | 医院数据库中的表的分类方法及装置 |
CN108595657A (zh) * | 2018-04-28 | 2018-09-28 | 成都智信电子技术有限公司 | His系统的数据表分类映射方法和装置 |
CN108710663A (zh) * | 2018-05-14 | 2018-10-26 | 北京大学 | 一种基于本体模型的数据匹配方法及系统 |
-
2018
- 2018-12-29 CN CN201811631758.XA patent/CN109783611A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550220A (zh) * | 2015-12-03 | 2016-05-04 | 浪潮通用软件有限公司 | 一种异构系统的取数的方法及装置 |
CN108090068A (zh) * | 2016-11-21 | 2018-05-29 | 医渡云(北京)技术有限公司 | 医院数据库中的表的分类方法及装置 |
CN107704625A (zh) * | 2017-10-30 | 2018-02-16 | 锐捷网络股份有限公司 | 字段匹配方法和装置 |
CN108595657A (zh) * | 2018-04-28 | 2018-09-28 | 成都智信电子技术有限公司 | His系统的数据表分类映射方法和装置 |
CN108710663A (zh) * | 2018-05-14 | 2018-10-26 | 北京大学 | 一种基于本体模型的数据匹配方法及系统 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287191A (zh) * | 2019-06-25 | 2019-09-27 | 北京明略软件系统有限公司 | 数据对齐方法及装置、存储介质、电子装置 |
CN110287191B (zh) * | 2019-06-25 | 2021-07-27 | 北京明略软件系统有限公司 | 数据对齐方法及装置、存储介质、电子装置 |
CN110457704A (zh) * | 2019-08-12 | 2019-11-15 | 北京明略软件系统有限公司 | 目标字段的确定方法、装置、存储介质及电子装置 |
CN110532267A (zh) * | 2019-08-28 | 2019-12-03 | 北京明略软件系统有限公司 | 字段的确定方法、装置、存储介质及电子装置 |
CN110795482A (zh) * | 2019-10-16 | 2020-02-14 | 浙江大华技术股份有限公司 | 数据对标方法、装置、及存储装置 |
CN110895533A (zh) * | 2019-11-29 | 2020-03-20 | 北京锐安科技有限公司 | 一种表单映射方法、装置、计算机设备和存储介质 |
CN112988698A (zh) * | 2019-12-02 | 2021-06-18 | 阿里巴巴集团控股有限公司 | 一种数据处理方法以及装置 |
CN112069204A (zh) * | 2020-09-30 | 2020-12-11 | 北京百度网讯科技有限公司 | 用于算子服务的处理方法、装置、智能工作站和电子设备 |
CN112527970A (zh) * | 2020-12-24 | 2021-03-19 | 上海浦东发展银行股份有限公司 | 数据字典标准化处理方法、装置、设备及存储介质 |
CN112800187B (zh) * | 2021-04-14 | 2021-06-29 | 北京金山云网络技术有限公司 | 数据映射方法、医学文本数据映射方法、装置及电子设备 |
CN112800187A (zh) * | 2021-04-14 | 2021-05-14 | 北京金山云网络技术有限公司 | 数据映射方法、医学文本数据映射方法、装置及电子设备 |
CN113627351A (zh) * | 2021-08-12 | 2021-11-09 | 达而观信息科技(上海)有限公司 | 财报科目的匹配方法、装置、计算机设备及存储介质 |
CN113627351B (zh) * | 2021-08-12 | 2024-01-30 | 达观数据有限公司 | 财报科目的匹配方法、装置、计算机设备及存储介质 |
CN116910496A (zh) * | 2023-09-14 | 2023-10-20 | 深圳市智慧城市科技发展集团有限公司 | 数据质量监测规则的配置方法、设备及可读存储介质 |
CN116910496B (zh) * | 2023-09-14 | 2024-01-23 | 深圳市智慧城市科技发展集团有限公司 | 数据质量监测规则的配置方法、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783611A (zh) | 一种字段匹配的方法、装置、计算机存储介质及终端 | |
CN108133045B (zh) | 关键词提取方法与系统、关键词提取模型生成方法与系统 | |
CN111460250B (zh) | 用于画像的数据的清洗方法、装置、介质及电子设备 | |
CN110019891B (zh) | 图像存储方法、图像检索方法及装置 | |
CN107729935B (zh) | 相似图片的识别方法和装置、服务器、存储介质 | |
JP2000207565A (ja) | 入力画像を予備選択する方法 | |
CN110414502B (zh) | 图像处理方法及装置、电子设备和计算机可读介质 | |
CN109947924B (zh) | 对话系统训练数据构建方法、装置、电子设备及存储介质 | |
CN110210041B (zh) | 互译句对齐方法、装置及设备 | |
US10943098B2 (en) | Automated and unsupervised curation of image datasets | |
CN111243601A (zh) | 声纹聚类方法、装置、电子设备和计算机可读存储介质 | |
CN111325156A (zh) | 人脸识别方法、装置、设备和存储介质 | |
US20120117090A1 (en) | System and method for managing digital contents | |
CN110909040B (zh) | 一种业务投放辅助方法、装置及电子设备 | |
CN109800215B (zh) | 一种对标处理的方法、装置、计算机存储介质及终端 | |
CN113963197A (zh) | 图像识别方法、装置、电子设备和可读存储介质 | |
CN113934848B (zh) | 一种数据分类方法、装置和电子设备 | |
CN111626291A (zh) | 一种图像视觉关系检测方法、系统及终端 | |
CN111325033A (zh) | 实体识别方法、装置、电子设备及计算机可读存储介质 | |
CN109783483A (zh) | 一种数据整理的方法、装置、计算机存储介质及终端 | |
CN116415020A (zh) | 一种图像检索的方法、装置、电子设备及存储介质 | |
CN111640438B (zh) | 音频数据处理方法、装置、存储介质及电子设备 | |
CN112906652A (zh) | 一种人脸图像的识别方法、装置、电子设备及存储介质 | |
CN116578700A (zh) | 日志分类方法、日志分类装置、设备及介质 | |
CN108460119B (zh) | 一种使用机器学习提升技术支持效率的系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190521 |
|
RJ01 | Rejection of invention patent application after publication |