CN109543772A - 数据集自动匹配方法、装置、设备和计算机可读存储介质 - Google Patents

数据集自动匹配方法、装置、设备和计算机可读存储介质 Download PDF

Info

Publication number
CN109543772A
CN109543772A CN201811467385.7A CN201811467385A CN109543772A CN 109543772 A CN109543772 A CN 109543772A CN 201811467385 A CN201811467385 A CN 201811467385A CN 109543772 A CN109543772 A CN 109543772A
Authority
CN
China
Prior art keywords
matched
data
sampling
image
tables
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811467385.7A
Other languages
English (en)
Other versions
CN109543772B (zh
Inventor
火莽
火一莽
冯宇波
刘恒睿
董清风
刘恺
王梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201811467385.7A priority Critical patent/CN109543772B/zh
Publication of CN109543772A publication Critical patent/CN109543772A/zh
Application granted granted Critical
Publication of CN109543772B publication Critical patent/CN109543772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种数据集自动匹配方法、装置设备和计算机可读存储介质,一种数据集自动匹配方法包括:将待匹配数据表,按照预设行数、列数和每列字符宽度进行随机采样,得到待匹配数据表采样;对待匹配数据表采样中的字符进行编码为图像像素,得到待匹配数据表采样所对应的待匹配图像;将待匹配图像输入训练后的图像分类模型,确定与待匹配图像匹配度最高的目标数据集,作为待匹配数据表所匹配的目标数据集,图像分类模型是对已匹配的历史数据集中的数据表匹配记录进行采样后,将采样后的字符编码转换为图像后训练得到的。本发明公开的数据集自动匹配方法、装置设备和计算机可读存储介质,用于提高数据集匹配的效率和准确性。

Description

数据集自动匹配方法、装置、设备和计算机可读存储介质
技术领域
本发明实施例涉及计算机技术,尤其涉及一种数据集自动匹配方法、装置设备和计算机可读存储介质。
背景技术
随着大数据行业的迅速发展,有海量的数据需要进行存储和管理。在大数据中心的建设过程中,如何对海量的汇聚数据进行有效的数据治理,将各类多源异构数据快速、高效的整合为标准的数据组织结构,成为日益凸显的迫切需求。其中一个关键问题是数据集匹配,即:对于需要汇聚的每张数据表,应该分别对应、接入到大数据中心的哪一个数据集中去。
以往,数据集匹配的工作多由经验丰富的数据分析师人工完成。通过人工分析来源数据表的内容和结构,给出匹配度最高的目标数据集,并生成相应的配置文件,实现源数据表到目标数据集的匹配和接入。但是,伴随着互联网、大数据等技术的高速发展,各类新型数据源层出不穷,数据集规模也日益庞大。人工进行数据集匹配的效率低下,越来越难以适应大数据时代的数据治理要求。因此,如何提高数据集匹配的效率,已经成为大数据行业亟待解决的问题。
发明内容
本发明提供一种数据集自动匹配方法、装置设备和计算机可读存储介质,以提高数据集匹配的效率和准确性。
第一方面,本发明实施例提供一种数据集自动匹配方法,包括:
将待匹配数据表,按照预设行数、列数和每列字符宽度进行随机采样,得到待匹配数据表采样;
对待匹配数据表采样中的字符进行编码为图像像素,得到待匹配数据表采样所对应的待匹配图像;
将待匹配图像输入训练后的图像分类模型,确定与待匹配图像匹配度最高的目标数据集,作为待匹配数据表所匹配的目标数据集,图像分类模型是对已匹配的历史数据集中的数据表匹配记录进行采样后,将采样后的字符编码转换为图像后训练得到的。
在第一方面一种可能的实现方式中,将待匹配数据表,按照预设行数、列数和每列字符宽度进行随机采样,得到待匹配数据表采样之前,方法还包括:
根据已匹配的历史数据集中的数据表匹配记录,确定原始训练数据表;
将每张原始训练数据表,按照预设行数、列数和每列字符宽度进行随机采样,得到原始训练数据表采样;
对原始训练数据表采样中的字符进行编码为图像像素,得到每张原始训练数据表采样所对应的训练图像;
根据得到的多张训练图像,构建图像分类模型,并训练图像分类模型,得到训练后的图像分类模型。
在第一方面一种可能的实现方式中,将每张原始训练数据表,按照预设行数、列数和每列字符宽度进行随机采样,得到原始训练数据表采样,包括:
将每张原始训练数据表,按照预设行数、列数和每列字符宽度进行随机采样,并对采样的每条记录进行固定字符长度的截取或占位符补充,得到原始训练数据表采样;
对原始训练数据表采样中的字符进行编码为图像像素,得到每个原始训练数据表采样所对应的训练图像,包括:
对原始训练数据表采样中的字符按照utf-16编码方式进行编码,得到每个采样字符所对应的RGB色彩空间的像素数值;
根据每个采样字符所对应的RGB色彩空间的像素数值,得到每个原始训练数据表采样所对应的训练图像。
在第一方面一种可能的实现方式中,对每张原始训练数据表,按照预设行数、列数和每列字符宽度进行随机采样,并对采样的每条记录进行固定字符长度的截取或占位符补充,得到原始训练数据表采样之前,方法还包括:
删除每张原始训练数据表中每列记录中的空值和重复值。
在第一方面一种可能的实现方式中,根据得到的多张训练图像,构建图像分类模型,并训练图像分类模型,得到训练后的图像分类模型,包括:
根据得到的多张训练图像,基于深度学习技术构建图像分类模型,并训练图像分类模型,得到训练后的图像分类模型,训练后的图像分类模型采用基于卷积神经网络的结构。
在第一方面一种可能的实现方式中,将待匹配数据表,按照预设行数、列数和每列字符宽度进行随机采样,得到待匹配数据表采样,包括:
将待匹配数据表,按照预设行数、列数和每列字符宽度进行随机采样,并对采样的每条记录进行固定字符长度的截取或占位符补充,得到待匹配数据表采样;
对待匹配数据表采样中的字符进行编码为图像像素,得到待匹配数据表采样所对应的待匹配图像,包括:
对待匹配数据表采样中的字符按照utf-16编码方式进行编码,得到每个采样字符所对应的RGB色彩空间的像素数值;
根据每个采样字符所对应的RGB色彩空间的像素数值,得到每个待匹配数据表采样所对应的待匹配图像。
在第一方面一种可能的实现方式中,将待匹配数据表,按照预设行数、列数和每列字符宽度进行随机采样,并对采样的每条记录进行固定字符长度的截取或占位符补充,得到待匹配数据表采样之前,方法还包括:
删除待匹配数据表中每列记录中的空值和重复值。
在第一方面一种可能的实现方式中,将待匹配数据表,按照预设行数、列数和每列字符宽度进行随机采样,得到待匹配数据表采样,包括:
将待匹配数据表,按照预设行数、列数和每列字符宽度进行随机采样,得到多个待匹配数据表采样;
对待匹配数据表采样中的字符进行编码为图像像素,得到待匹配数据表采样所对应的待匹配图像,包括:
对多个待匹配数据表采样中的字符进行编码为图像像素,得到多个待匹配数据表采样所对应的多张待匹配图像;
将待匹配图像输入训练后的图像分类模型,确定与待匹配图像匹配度最高的目标数据集,作为待匹配数据表所匹配的目标数据集,包括:
将多张待匹配图像输入训练后的图像分类模型,确定与每张待匹配图像匹配度最高的目标数据集;
将多张待匹配图像匹配度最高的目标数据集中投票选出的目标数据集作为待匹配数据表所匹配的目标数据集。
在第一方面一种可能的实现方式中,将待匹配图像输入训练后的图像分类模型,确定与待匹配图像匹配度最高的目标数据集,作为待匹配数据表所匹配的目标数据集之后,方法还包括:
周期性检查匹配后的待匹配数据表和目标数据集的匹配准确率;
若匹配准确率高于预设准确率,则将待匹配数据的匹配记录加入已匹配的历史数据集中;
若匹配准确率不高于预设准确率,则对未匹配准确的待匹配数据表和目标数据集进行纠正,并将纠正后的匹配记录加入已匹配的历史数据集中。
第二方面,本发明实施例还提供了一种数据集自动匹配装置,包括:
数据采样模块,用于将待匹配数据表,按照预设行数、列数和每列字符宽度进行随机采样,得到待匹配数据表采样;
图像转换模块,用于对待匹配数据表采样中的字符进行编码为图像像素,得到待匹配数据表采样所对应的待匹配图像;
数据匹配模块,用于将待匹配图像输入训练后的图像分类模型,确定与待匹配图像匹配度最高的目标数据集,作为待匹配数据表所匹配的目标数据集,图像分类模型是对已匹配的历史数据集中的数据表匹配记录进行采样后,将采样后的字符编码转换为图像后训练得到的。
第三方面,本发明实施例还提供了一种数据集自动匹配设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面任一种可能的实现方式所述的数据集自动匹配方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如第一方面任一种可能的实现方式所述的数据集自动匹配方法。
本发明实施例提供的数据集自动匹配方法、装置设备和计算机可读存储介质,通过将待匹配数据表,按照预设行数、列数和每列字符宽度进行随机采样,得到待匹配数据表采样,对待匹配数据表采样中的字符进行编码为图像像素,得到待匹配数据表采样所对应的待匹配图像,将待匹配图像输入训练后的图像分类模型,确定与待匹配图像匹配度最高的目标数据集,提供了一种基于图像分类的数据集自动匹配方法,由于应用了图像分类的方法进行数据集的匹配,避免了人工的参与,且匹配效率和准确率都很高。
附图说明
图1为本发明实施例提供的数据集自动匹配方法实施例一的流程图;
图2为本发明实施例提供的数据集自动匹配方法实施例二的流程图;
图3为本发明实施例提供的数据集自动匹配装置实施例一的结构示意图;
图4为本发明实施例提供的数据集自动匹配设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1为本发明实施例提供的数据集自动匹配方法实施例一的流程图,如图 1所示,本实施例提供的数据集自动匹配方法包括:
步骤S101,将待匹配数据表,按照预设行数、列数和每列字符宽度进行随机采样,得到待匹配数据表采样。
由于目前的大数据的数据集匹配主要采用人工分析师完成,在数据量日益增大的环境下,这种依靠人工匹配的方式已经难以适应使用需求。但由于各种数据的种类繁多,现有的数据集自动匹配方法很难高效地将多种异构数据匹配到准确地数据集中。而近几年,基于深度学习的图像分类技术已经获得了长足的进步,并在某些领域达到或超过了人类的水平。因此,本实施例将应用于图像分类领域的相关技术有机地应用于数据集自动匹配方法中,从而提供一种高效、准确地数据集匹配方法。本实施例提供的数据集自动匹配方法可以应用于大数据中心的服务器,或其他需要进行大数据的数据集匹配的硬件中。
首先,由于是应用图像分类领域的相关技术,因此,在进行数据集匹配之前,首先需要进行图像分类模型的训练,对图像分类模型进行训练是采用已经进行准确匹配的数据表和数据集,那么首先就需要将已经匹配的数据集通过一系列的处理,转化为体现数据集特征的一系列图像,然后再根据转换后的图像进行图像分类模型的训练。对图像分类模型进行训练的具体方法可以是采用人工训练的方法,或者采用基于深度学习的方法进行自动训练。总之,图像分类模型是对已匹配的历史数据集中的数据表匹配记录进行采样后,将采样后的字符编码转换为图像后训练得到的。对图像分类模型进行训练的具体方法将在后述实施例中进行详述。
当具有了图像分类模型后,每当有待匹配的数据表输入后,首选需要对其进行处理,将其转换为表征待匹配数据表一定特征的图像。由于待匹配数据表中的数据量可能很大,且不同数据表中的数据格式、数据大小也都不同,使用全部数据转换图像,会导致图像的大小不同,很难采用图像分类模型对其进行分类处理。因此,首先需要对待匹配数据表进行处理,将不同数据格式、不同大小的数据表都转化为相同大小的图像。
由于无论哪种结构的数据表,数据都是按照行、列的形式进行排列,在不同行、列的单元内,存储有不同长度的数据记录。因此,可以按照一个固定的预设行数、列数以及每列字符宽度,对待匹配数据表进行随机采样。这样的随机采样,是指在待匹配数据表中,任意选择预设行数、预设列数,并在每列中选择预设字符宽度的数据记录。这样得到的待匹配数据采样,无论对于那种结构、何种大小的数据表,都将采样出相同格式、相同大小的待匹配数据表采样。
更具体地,对于待匹配数据表,由于进行的是随机采样,因此采样后得到的各条记录中,字符长度并不相同,为了统一待匹配数据表采样的格式,可以对采样的每条记录进行固定字符长度的截取或占位符补充。例如,可以对每条记录中的前s个字符进行截取,而不足s个字符的记录,采用预设的空格或其他占位字符填充,使得随机采样后得到的待匹配数据表采样的格式均为相同的格式。
进一步地,由于在待匹配数据表中,每列或每行数中,可能包括空值和重复值,这些空值和重复值所表示的数据表特征并不明显,因此,为了提高对待匹配图像的匹配效率,可以在得到待匹配数据表后,首先删除待匹配数据表中每列记录中的空值和重复值,然后再对其进行随机采样。这样采样后得到的待匹配数据表采样,避免了空值和重复值的影响,能够表征出待匹配数据表的更多特征,能够提高数据集匹配的效率和准确性。
步骤S102,对待匹配数据表采样中的字符进行编码为图像像素,得到待匹配数据表采样所对应的待匹配图像。
在得到待匹配数据表采样后,就可以根据一定的编码方式对其进行编码,使得待匹配数据表采样中的每个数据都变为一个图像像素。由于待匹配数据表采样实际上就是一个固定大小的二维数据表,将其中每个数据都编码为一个图像像素,将整个待匹配数据表采样所编码的图像像素组合起来,就得到了待匹配数据采样所对应的待匹配图像。对于不同格式、不同大小的待匹配数据表,由于经过了步骤S101的采样,得到的待匹配数据表采样大小均相同,这样就可以使得进行编码后的待匹配图像的大小也是相同的,从而可以应用图像分类模型进行分类处理。
步骤S103,将待匹配图像输入训练后的图像分类模型,确定与待匹配图像匹配度最高的目标数据集,作为待匹配数据表所匹配的目标数据集,图像分类模型是对已匹配的历史数据集中的数据表匹配记录进行采样后,将采样后的字符编码转换为图像后训练得到的。
在得到待匹配数据表所对应的待匹配图像后,将其输入训练后的图像分类模型,即可输出与待匹配图像所对应的目标数据集。由于数据集的数量可能众多,因此图像分类模型输出的结果一般为待匹配图像对不同目标数据集所对应的匹配置信度。而匹配置信度最高的目标数据集,即为待匹配数据表所匹配的目标数据集。这样就实现了数据集的自动匹配,而在整个数据集匹配过程中,无需人工的采用,并且由于采用了性能优异的图像分类算法,使得数据集匹配的效率和准确率都很高。
具体地,将待匹配数据表采样编码为图像的方式,可以采用任一种数据到图像的编码方式。由于RGB图像是目前最常使用的图像格式之一,因此在本实施例中,以RGB图像为例,对其进行说明。红绿蓝(Red Green Blue,RGB) 图像是计算机系统中常用的图像格式,对于RGB图像中的每个像素,均采用R、 G、B三个颜色的亮度值来进行表示,其中,每个颜色的亮度值的取值范围为 0~255。对待匹配数据表采样中的字符通过一定的编码方式进行编码后,可以将其转换为每个字符所对应的RGB色彩空间的像素数值。这里的编码方式,例如可以采用utf-16编码方式进行,将每个字符进行utf-16编码后的前两个字节分别转换为0~255的整数,再补充一个0~255的固定整数,那么待匹配数据表采样中的字符就变成了三个0~255像素数值所表示的RGB色彩空间中的像素点。根据每个采样字符所对应的RGB色彩空间的像素数值,即可绘制出待匹配数据表采样所对应的待匹配图像。
本实施例提供的数据集自动匹配方法,通过将待匹配数据表,按照预设行数、列数和每列字符宽度进行随机采样,得到待匹配数据表采样,对待匹配数据表采样中的字符进行编码为图像像素,得到待匹配数据表采样所对应的待匹配图像,将待匹配图像输入训练后的图像分类模型,确定与待匹配图像匹配度最高的目标数据集,提供了一种基于图像分类的数据集自动匹配方法,由于应用了图像分类的方法进行数据集的匹配,避免了人工的参与,且匹配效率和准确率都很高。
图2为本发明实施例提供的数据集自动匹配方法实施例二的流程图,如图 2所示,本实施例提供的方法包括:
步骤S201,根据已匹配的历史数据集中的数据表匹配记录,确定原始训练数据表。
图1所示实施例提供的数据集自动匹配方法,仅考虑对待匹配数据表进行匹配的具体方法,但未对图像分类模型的训练方法进行说明。而对于数据集自动匹配而言,对图像分类模型的训练也是重要的一环。在本实施例中,对如何进行图像分类模型的训练进行了详述。
首先,对图像分类模型进行训练的训练样本,采用的是已匹配的历史数据集中的数据表匹配记录。已匹配的历史数据集可以是采用人工匹配方法进行匹配的数据集,也可以是通过本实施例提供的数据集自动匹配方法或其他数据集匹配方法所匹配的数据集,其中包括不同数据表与数据集的匹配关系。在确定了已匹配的历史数据集中的数据表匹配记录后,从而提取各数据表,作为原始训练数据表。
步骤S202,将每张原始训练数据表,按照预设行数、列数和每列字符宽度进行随机采样,得到原始训练数据表采样。
对于每张原始训练数据表,由于其仍是不同格式、不同大小的数据表,首先就需要对原始训练数据表进行处理,将不同数据格式、不同大小的原始训练数据表都转化为相同大小的数据表。由于无论哪种结构的数据表,数据都是按照行、列的形式进行排列,在不同行、列的单元内,存储有不同长度的数据记录。因此,可以按照一个固定的预设行数、列数以及每列字符宽度,对原始训练数据表进行随机采样。这样的随机采样,是指在原始训练数据表中,任意选择预设行数、预设列数,并在每列中选择预设字符宽度的数据记录。这样得到的原始训练数据表采样,无论对于那种结构、何种大小的原始训练数据表,都将采样出相同格式、相同大小的原始训练数据表采样。
更具体地,对于每张原始训练数据表,由于进行的是随机采样,因此采样后得到的各条记录中,字符长度并不相同,为了统一原始训练数据表采样的格式,可以对采样的每条记录进行固定字符长度的截取或占位符补充。例如,可以对每条记录中的前s个字符进行截取,而不足s个字符的记录,采用预设的空格或其他占位字符填充,使得随机采样后得到的原始训练数据表采样的格式均为相同的格式。
进一步地,由于在原始训练数据表中,每列或每行数中,可能包括空值和重复值,这些空值和重复值所表示的数据表特征并不明显,因此,为了提高对图像分类模型的训练效率,可以在得到原始训练数据表后,首先删除每张原始训练数据表中每列记录中的空值和重复值,然后再对其进行随机采样。这样采样后得到的原始训练数据表采样,避免了空值和重复值的影响,能够表征出原始训练数据表的更多特征,对于图像分类模型的训练意义更加明显。
步骤S203,对原始训练数据表采样中的字符进行编码为图像像素,得到每张原始训练数据表采样所对应的训练图像。
在得到原始训练数据表采样后,就可以根据一定的编码方式对其进行编码,使得原始训练数据表采样中的每个数据都变为一个图像像素。由于每张原始训练数据表采样实际上就是一个固定大小的二维数据表,将其中每个数据都编码为一个图像像素,将整个原始训练数据表采样所编码的图像像素组合起来,就得到了原始训练数据表采样所对应的训练图像。对于每张原始训练数据表,都可以得到对应的训练图像。对于不同格式、不同大小的原始训练数据表,由于经过了步骤S201的采样,得到的原始训练数据表采样大小均相同,这样就可以使得进行编码后的训练图像的大小也是相同的,从而可以进行图像分类模型的训练。
具体地,将原始数据表采样编码为图像的方式,可以采用任一种数据到图像的编码方式。由于RGB图像是目前最常使用的图像格式之一,因此在本实施例中,以RGB图像为例,对其进行说明。红绿蓝(Red Green Blue,RGB)图像是计算机系统中常用的图像格式,对于RGB图像中的每个像素,均采用R、 G、B三个颜色的亮度值来进行表示,其中,每个颜色的亮度值的取值范围为 0~255。对原始训练数据表采样中的字符通过一定的编码方式进行编码后,可以将其转换为每个字符所对应的RGB色彩空间的像素数值。这里的编码方式,例如可以采用utf-16编码方式进行,将每个字符进行utf-16编码后的前两个字节分别转换为0~255的整数,再补充一个0~255的固定整数,那么原始训练数据表采样中的字符就变成了三个0~255像素数值所表示的RGB色彩空间中的像素点。根据每个采样字符所对应的RGB色彩空间的像素数值,即可绘制出每个原始训练数据表采样所对应的训练图像。
步骤S204,根据得到的多张训练图像,构建图像分类模型,并训练图像分类模型,得到训练后的图像分类模型。
对于转换后得到的多张训练图像,采用深度学习技术,可以构建图像分类模型,其中,图像分类模型的输入为各训练图像,而输出即为该训练图像对应的原始数据表所匹配的数据集。通过训练后,即可得到训练后的图像分类模型。
目前,卷积神经网络是图像分类领域最常用的计算网络,由于其模拟了人的神经网络,对分类的效率和准确性都有很大的提高,因此,本实施例中,根据得到的多张训练图像,基于深度学习技术构建图像分类模型,并训练图像分类模型,得到的训练后的图像分类模型,可以采用基于卷积神经网络的结构。对图像分类模型的训练,可以采用有监督的训练方式,通过反复迭代和训练优化,指导目标函数达到训练要求时终止训练,输出具有图像分类能力的模型。
在根据本实施例提供的数据集自动匹配方法进行了图像分类模型训练后,得到的训练后的图像分类模型即可应用于图1所示的数据集自动匹配。由于本实施例进行图像分类模型训练也是采用自动训练的方式进行的,因此,训练效率也较高。
进一步地,由于待匹配数据表的数据量可能很大,采用随机采样的方式进行采样,得到的采样数据可能无法准确体现待匹配数据表的特征,从而可能导致数据集匹配的错误。为了避免上述错误,在对待匹配数据表进行采样时,可以对待匹配数据表进行多次随机采样,每次随机采样的具体方法都可以根据步骤S101的方法进行,这样就得到了待匹配数据表所对应的多个待匹配数据表采样。然后,根据步骤S102的方法,对多个待匹配数据表进行编码,得到多个待匹配数据表采样所对应的多张待匹配图像。对于每张待匹配图像数据,将其分别输入训练后的图像分类模型,可以得到每张待匹配图像匹配度最高的目标数据集。然后可以采用投票机制,由多张待匹配图像进行集中投票,选择出最终的匹配结果。这里的投票机制例如是将多张待匹配图像分别匹配度最高的目标数据集中,数量最多的目标数据集作为最终匹配结果。还可以是根据每张待匹配图像匹配度最高的目标数据集的匹配度,对各目标数据集的匹配度进行加权计算后得到最终的匹配结果。这样将待匹配数据表随机采样为多个待匹配数据表采样后再进行图像分类,可以有效地提高数据集匹配的准确性。
进一步地,在对待匹配数据表进行了数据集自动匹配后,还可以周期性地检查匹配后的待匹配数据表和目标数据集的匹配准确率。由于本实施例所提供的数据集自动匹配方法,是采用图像分类的方法进行自动匹配,而进行图像分类所使用的图像分类模型,在最初训练时,可能由于训练样本较少,导致准确性不高。因此,在使用图像分类模型对待匹配数据表进行数据集自动匹配后,还需要定期对其自动匹配的准确性进行检查。若检查后确定匹配准确率高于预设准确率,则可以将已经匹配的匹配记录加入已匹配的历史数据集中。那么就相当于增加了对图像分类模型进行训练的训练样本,在利用增加后的训练样本进行训练后,图像分类模型的分类准确性将会进一步地提高。若检查后确定匹配准确率不高于预设准确率,那么就需要对未匹配准确的数据表和目标数据集进行纠正,并且将纠正后的匹配记录加入已匹配的历史数据集中。那么就相当于增加了对图像分类模型进行训练的训练样本,在利用增加后的训练样本进行训练后,图像分类模型的分类准确性将会进一步地提高。
图3为本发明实施例提供的数据集自动匹配装置实施例一的结构示意图,如图3所示,本实施例提供的方法包括:
数据采样模块31,用于将待匹配数据表,按照预设行数、列数和每列字符宽度进行随机采样,得到待匹配数据表采样。
图像转换模块32,用于对待匹配数据表采样中的字符进行编码为图像像素,得到待匹配数据表采样所对应的待匹配图像。
数据匹配模块33,用于将待匹配图像输入训练后的图像分类模型,确定与待匹配图像匹配度最高的目标数据集,作为待匹配数据表所匹配的目标数据集,图像分类模型是对已匹配的历史数据集中的数据表匹配记录进行采样后,将采样后的字符编码转换为图像后训练得到的。
图4为本发明实施例提供的数据集自动匹配设备的结构示意图,如图4所示,该数据集自动匹配设备包括处理器41和存储器42;数据集自动匹配设备中处理器41的数量可以是一个或多个,图4中以一个处理器41为例;数据集自动匹配设备中的处理器41和存储器42可以通过总线或其他方式连接,图4 中以通过总线连接为例。
存储器42作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请图1至图2实施例中的数据集自动匹配方法对应的程序指令/模块(例如,数据集自动匹配装置中的数据采样模块31、图像转换模块32、数据匹配模块33)。处理器41通过运行存储在存储器42中的软件程序、指令以及模块,从而数据集自动匹配设备的各种功能应用以及数据处理,即实现上述的数据集自动匹配方法。
存储器42可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据数据集自动匹配设备的使用所创建的数据等。此外,存储器42可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
本申请实施例还提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行一种数据集自动匹配方法,该方法包括:
将待匹配数据表,按照预设行数、列数和每列字符宽度进行随机采样,得到待匹配数据表采样;
对待匹配数据表采样中的字符进行编码为图像像素,得到待匹配数据表采样所对应的待匹配图像;
将待匹配图像输入训练后的图像分类模型,确定与待匹配图像匹配度最高的目标数据集,作为待匹配数据表所匹配的目标数据集,图像分类模型是对已匹配的历史数据集中的数据表匹配记录进行采样后,将采样后的字符编码转换为图像后训练得到的。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器 (Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述数据集自动匹配装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (12)

1.一种数据集自动匹配方法,其特征在于,包括:
将待匹配数据表,按照预设行数、列数和每列字符宽度进行随机采样,得到待匹配数据表采样;
对所述待匹配数据表采样中的字符进行编码为图像像素,得到所述待匹配数据表采样所对应的待匹配图像;
将所述待匹配图像输入训练后的图像分类模型,确定与所述待匹配图像匹配度最高的目标数据集,作为所述待匹配数据表所匹配的目标数据集,所述图像分类模型是对已匹配的历史数据集中的数据表匹配记录进行采样后,将采样后的字符编码转换为图像后训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述将待匹配数据表,按照预设行数、列数和每列字符宽度进行随机采样,得到待匹配数据表采样之前,所述方法还包括:
根据已匹配的历史数据集中的数据表匹配记录,确定原始训练数据表;
将每张所述原始训练数据表,按照预设行数、列数和每列字符宽度进行随机采样,得到原始训练数据表采样;
对所述原始训练数据表采样中的字符进行编码为图像像素,得到每张原始训练数据表采样所对应的训练图像;
根据得到的多张训练图像,构建图像分类模型,并训练所述图像分类模型,得到所述训练后的图像分类模型。
3.根据权利要求2所述的方法,其特征在于,所述将每张所述原始训练数据表,按照预设行数、列数和每列字符宽度进行随机采样,得到原始训练数据表采样,包括:
将每张所述原始训练数据表,按照预设行数、列数和每列字符宽度进行随机采样,并对采样的每条记录进行固定字符长度的截取或占位符补充,得到原始训练数据表采样;
所述对所述原始训练数据表采样中的字符进行编码为图像像素,得到每个原始训练数据表采样所对应的训练图像,包括:
对所述原始训练数据表采样中的字符按照utf-16编码方式进行编码,得到每个采样字符所对应的RGB色彩空间的像素数值;
根据每个采样字符所对应的RGB色彩空间的像素数值,得到每个原始训练数据表采样所对应的训练图像。
4.根据权利要求3所述的方法,其特征在于,所述对每张所述原始训练数据表,按照预设行数、列数和每列字符宽度进行随机采样,并对采样的每条记录进行固定字符长度的截取或占位符补充,得到原始训练数据表采样之前,所述方法还包括:
删除每张所述原始训练数据表中每列记录中的空值和重复值。
5.根据权利要求2~4任一项所述的方法,其特征在于,所述根据得到的多张训练图像,构建图像分类模型,并训练所述图像分类模型,得到所述训练后的图像分类模型,包括:
根据得到的多张训练图像,基于深度学习技术构建所述图像分类模型,并训练所述图像分类模型,得到所述训练后的图像分类模型,所述训练后的图像分类模型采用基于卷积神经网络的结构。
6.根据权利要求1~4任一项所述的方法,其特征在于,所述将待匹配数据表,按照预设行数、列数和每列字符宽度进行随机采样,得到待匹配数据表采样,包括:
将所述待匹配数据表,按照预设行数、列数和每列字符宽度进行随机采样,并对采样的每条记录进行固定字符长度的截取或占位符补充,得到所述待匹配数据表采样;
对所述待匹配数据表采样中的字符进行编码为图像像素,得到所述待匹配数据表采样所对应的待匹配图像,包括:
对所述待匹配数据表采样中的字符按照utf-16编码方式进行编码,得到每个采样字符所对应的RGB色彩空间的像素数值;
根据每个采样字符所对应的RGB色彩空间的像素数值,得到每个待匹配数据表采样所对应的待匹配图像。
7.根据权利要求6所述的方法,其特征在于,所述将所述待匹配数据表,按照预设行数、列数和每列字符宽度进行随机采样,并对采样的每条记录进行固定字符长度的截取或占位符补充,得到所述待匹配数据表采样之前,所述方法还包括:
删除所述待匹配数据表中每列记录中的空值和重复值。
8.根据权利要求1~4任一项所述的方法,其特征在于,所述将待匹配数据表,按照预设行数、列数和每列字符宽度进行随机采样,得到待匹配数据表采样,包括:
将待匹配数据表,按照预设行数、列数和每列字符宽度进行随机采样,得到多个待匹配数据表采样;
所述对所述待匹配数据表采样中的字符进行编码为图像像素,得到所述待匹配数据表采样所对应的待匹配图像,包括:
对所述多个待匹配数据表采样中的字符进行编码为图像像素,得到所述多个待匹配数据表采样所对应的多张待匹配图像;
所述将所述待匹配图像输入训练后的图像分类模型,确定与所述待匹配图像匹配度最高的目标数据集,作为所述待匹配数据表所匹配的目标数据集,包括:
将所述多张待匹配图像输入训练后的图像分类模型,确定与每张待匹配图像匹配度最高的目标数据集;
将所述多张待匹配图像匹配度最高的目标数据集中投票选出的目标数据集作为所述待匹配数据表所匹配的目标数据集。
9.根据权利要求1~4任一项所述的方法,其特征在于,所述将所述待匹配图像输入训练后的图像分类模型,确定与所述待匹配图像匹配度最高的目标数据集,作为所述待匹配数据表所匹配的目标数据集之后,所述方法还包括:
周期性检查匹配后的待匹配数据表和目标数据集的匹配准确率;
若所述匹配准确率高于预设准确率,则将所述待匹配数据的匹配记录加入所述已匹配的历史数据集中;
若所述匹配准确率不高于预设准确率,则对未匹配准确的待匹配数据表和目标数据集进行纠正,并将纠正后的匹配记录加入所述已匹配的历史数据集中。
10.一种数据集自动匹配装置,其特征在于,包括:
数据采样模块,用于将待匹配数据表,按照预设行数、列数和每列字符宽度进行随机采样,得到待匹配数据表采样;
图像转换模块,用于对所述待匹配数据表采样中的字符进行编码为图像像素,得到所述待匹配数据表采样所对应的待匹配图像;
数据匹配模块,用于将所述待匹配图像输入训练后的图像分类模型,确定与所述待匹配图像匹配度最高的目标数据集,作为所述待匹配数据表所匹配的目标数据集,所述图像分类模型是对已匹配的历史数据集中的数据表匹配记录进行采样后,将采样后的字符编码转换为图像后训练得到的。
11.一种数据集自动匹配设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1~9中任一所述的数据集自动匹配方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~9中任一所述的数据集自动匹配方法。
CN201811467385.7A 2018-12-03 2018-12-03 数据集自动匹配方法、装置、设备和计算机可读存储介质 Active CN109543772B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811467385.7A CN109543772B (zh) 2018-12-03 2018-12-03 数据集自动匹配方法、装置、设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811467385.7A CN109543772B (zh) 2018-12-03 2018-12-03 数据集自动匹配方法、装置、设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109543772A true CN109543772A (zh) 2019-03-29
CN109543772B CN109543772B (zh) 2020-08-25

Family

ID=65852714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811467385.7A Active CN109543772B (zh) 2018-12-03 2018-12-03 数据集自动匹配方法、装置、设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109543772B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399912A (zh) * 2019-07-12 2019-11-01 广东浪潮大数据研究有限公司 一种字符识别的方法、系统、设备及计算机可读存储介质
CN111522902A (zh) * 2020-03-25 2020-08-11 中国平安人寿保险股份有限公司 数据录入方法、装置、电子设备及计算机可读存储介质
CN116719483A (zh) * 2023-08-09 2023-09-08 成都泛联智存科技有限公司 数据去重方法、装置、存储设备和计算机可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060083405A1 (en) * 2000-02-18 2006-04-20 Microsoft Corporation Statistically comparing and matching plural sets of digital data
US20120155744A1 (en) * 2009-05-13 2012-06-21 Red Cloud Media Limited Image generation method
CN106227745A (zh) * 2016-07-14 2016-12-14 杭州数梦工场科技有限公司 一种数据项集间的数据梳理方法和装置
CN107330074A (zh) * 2017-06-30 2017-11-07 中国科学院计算技术研究所 基于深度学习和哈希编码的图像检索方法
CN107844560A (zh) * 2017-10-30 2018-03-27 北京锐安科技有限公司 一种数据接入的方法、装置、计算机设备和可读存储介质
CN108399334A (zh) * 2018-01-19 2018-08-14 东华大学 一种基于操作码频率的恶意代码可视化分析方法
CN108768994A (zh) * 2018-05-22 2018-11-06 北京小米移动软件有限公司 数据匹配方法、装置及计算机可读存储介质
CN108764372A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 数据集的构建方法和装置、移动终端、可读存储介质
CN108846284A (zh) * 2018-06-29 2018-11-20 浙江工业大学 一种基于字节码图像和深度学习的Android恶意应用检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060083405A1 (en) * 2000-02-18 2006-04-20 Microsoft Corporation Statistically comparing and matching plural sets of digital data
US20120155744A1 (en) * 2009-05-13 2012-06-21 Red Cloud Media Limited Image generation method
CN106227745A (zh) * 2016-07-14 2016-12-14 杭州数梦工场科技有限公司 一种数据项集间的数据梳理方法和装置
CN107330074A (zh) * 2017-06-30 2017-11-07 中国科学院计算技术研究所 基于深度学习和哈希编码的图像检索方法
CN107844560A (zh) * 2017-10-30 2018-03-27 北京锐安科技有限公司 一种数据接入的方法、装置、计算机设备和可读存储介质
CN108399334A (zh) * 2018-01-19 2018-08-14 东华大学 一种基于操作码频率的恶意代码可视化分析方法
CN108768994A (zh) * 2018-05-22 2018-11-06 北京小米移动软件有限公司 数据匹配方法、装置及计算机可读存储介质
CN108764372A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 数据集的构建方法和装置、移动终端、可读存储介质
CN108846284A (zh) * 2018-06-29 2018-11-20 浙江工业大学 一种基于字节码图像和深度学习的Android恶意应用检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KYOUNGSOO HAN ET AL.: "Malware Analysis Method using Visualization of Binary Files", 《ACM》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399912A (zh) * 2019-07-12 2019-11-01 广东浪潮大数据研究有限公司 一种字符识别的方法、系统、设备及计算机可读存储介质
CN111522902A (zh) * 2020-03-25 2020-08-11 中国平安人寿保险股份有限公司 数据录入方法、装置、电子设备及计算机可读存储介质
CN111522902B (zh) * 2020-03-25 2024-06-04 中国平安人寿保险股份有限公司 数据录入方法、装置、电子设备及计算机可读存储介质
CN116719483A (zh) * 2023-08-09 2023-09-08 成都泛联智存科技有限公司 数据去重方法、装置、存储设备和计算机可读存储介质
CN116719483B (zh) * 2023-08-09 2023-10-27 成都泛联智存科技有限公司 数据去重方法、装置、存储设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN109543772B (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
WO2020140386A1 (zh) 基于TextCNN知识抽取方法、装置、计算机设备及存储介质
EP3540612A1 (en) Cluster processing method and device for questions in automatic question and answering system
US9152542B2 (en) Automatic generation of test scripts
WO2020258487A1 (zh) 一种问答关系排序方法、装置、计算机设备及存储介质
CN107220296A (zh) 问答知识库的生成方法、神经网络的训练方法以及设备
CN111782772A (zh) 基于ocr技术的文本自动生成方法、装置、设备及介质
CN109543772A (zh) 数据集自动匹配方法、装置、设备和计算机可读存储介质
CN110297897B (zh) 问答处理方法及相关产品
CN116303537A (zh) 数据查询方法及装置、电子设备、存储介质
CN118278527B (zh) 自然语言处理任务执行及模型训练方法、装置、设备
CN113761220A (zh) 信息获取方法、装置、设备及存储介质
CN110502620B (zh) 导诊相似问题对生成方法、系统及计算机设备
CN113283231B (zh) 获取签章位的方法、设置系统、签章系统及存储介质
CN116541411A (zh) Sql语句获取方法、报表生成方法、装置、计算机设备及存储介质置
CN110232328A (zh) 一种征信报告解析方法、装置及计算机可读存储介质
CN117474209A (zh) 分析电力与经济社会关联的方法、装置、设备及存储介质
CN111401038B (zh) 文本处理方法、装置、电子设备及存储介质
US11361032B2 (en) Computer driven question identification and understanding within a commercial tender document for automated bid processing for rapid bid submission and win rate enhancement
CN110134775B (zh) 问答数据生成方法及装置、存储介质
CN110990527A (zh) 自动问答方法及装置、存储介质及电子设备
CN110110050B (zh) 一种新闻事件生成式问答数据集的生成方法
CN115186738A (zh) 模型训练方法、装置和存储介质
CN113610161A (zh) 一种基于图像分类技术的目标检测数据标注方法
CN117573848B (zh) 对话方法、装置、电子设备及介质
CN114596353B (zh) 一种题目处理方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant