CN110287219B - 一种数据处理方法及系统 - Google Patents

一种数据处理方法及系统 Download PDF

Info

Publication number
CN110287219B
CN110287219B CN201910580266.0A CN201910580266A CN110287219B CN 110287219 B CN110287219 B CN 110287219B CN 201910580266 A CN201910580266 A CN 201910580266A CN 110287219 B CN110287219 B CN 110287219B
Authority
CN
China
Prior art keywords
column
target
data set
data
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910580266.0A
Other languages
English (en)
Other versions
CN110287219A (zh
Inventor
王清臣
武华亭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zetyun Tech Co ltd
Original Assignee
Beijing Zetyun Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zetyun Tech Co ltd filed Critical Beijing Zetyun Tech Co ltd
Priority to CN201910580266.0A priority Critical patent/CN110287219B/zh
Publication of CN110287219A publication Critical patent/CN110287219A/zh
Application granted granted Critical
Publication of CN110287219B publication Critical patent/CN110287219B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据处理方法及系统,涉及数据处理技术领域。本发明实施例通过检测作用于数据集界面的第一输入信息,得到目标数据集;然后,显示所述目标数据集对应的元数据服务界面,并接收对元数据服务界面的管理操作;从而,响应于所述管理操作,输出与所述管理操作对应的处理结果。因此,本明实施例提供的技术方案通过向用户提供相应的元数据服务,从而能够方便快捷地对元数据进行管理。

Description

一种数据处理方法及系统
【技术领域】
本发明涉及数据处理技术领域,尤其涉及一种数据处理方法及系统。
【背景技术】
元数据主要是描述数据的数据,在大数据分析领域,高质量数据决定了大数据分析结果准确性的上限。因此元数据可以作为判断数据是否高质量数据的依据。但是,在当前数据处理系统中,并无独立的元数据服务,用户不能对元数据进行管理。
【发明内容】
有鉴于此,本发明实施例提供了一种数据处理方法及系统,用以解决现有技术用户不能对元数据进行管理的问题。
第一方面,本发明实施例提供了一种数据处理方法,包括:
检测作用于数据集界面的第一输入信息,得到目标数据集;
显示所述目标数据集对应的元数据的元数据服务界面,并接收对元数据服务界面的管理操作;
响应于所述管理操作,输出与所述管理操作对应的处理结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述元数据包括所述目标数据集的列数据的目标列基本信息和/或特征信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述管理操作包括下述至少之一:删除管理操作,查询管理操作,编辑管理操作。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,若所述管理操作为用于查询所述元数据中的目标列基本信息的查询管理操作,所述响应于所述管理操作,输出与所述管理操作对应的处理结果包括:
响应于所述用于查询所述元数据中的目标列基本信息的查询管理操作,输出所述元数据中的目标列基本信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述目标列基本信息包括:列名和/或数据类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,若所述管理操作为用于查询所述元数据中的特征信息的查询管理操作,所述响应于所述管理操作,输出与所述管理操作对应的处理结果包括:
响应于所述用于查询所述元数据中的特征信息的查询管理操作,显示所述元数据中的特征信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述特征信息包括下述至少之一:质量特征信息、统计特征信息和类别特征信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,若所述管理操作为用于删除所述元数据的删除管理操作,所述响应于所述管理操作,输出与所述管理操作对应的处理结果包括:
响应于所述用于删除所述元数据的删除管理操作,删除所述元数据,并显示删除操作结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述删除所述元数据包括:
删除所述目标数据集的全部元数据;或者,
删除所述目标数据集的部分元数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,若所述管理操作为用于编辑所述元数据的编辑管理操作,所述响应于所述管理操作,输出与所述管理操作对应的处理结果包括:
响应于所述用于编辑所述元数据的编辑管理操作,更新所述元数据的目标列基本信息,并输出更新后的元数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
基于所述目标数据集对应的元数据,确定所述目标数据集是否满足预设数据集应用条件;
若不满足,基于所述目标数据集对应的元数据,对所述目标数据集进行修正。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在显示所述目标数据集对应的元数据的元数据服务界面,并接收对元数据服务界面的管理操作之前,所述方法还包括:
基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,所述目标列基本信息至少包括数据类型;
其中,所述数据类型包括目标基础类型和目标业务类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,包括:
获取所述目标数据集的列数据中每个值对应的取值特征;
将所述每个值对应的取值特征与一候选业务类型的基准取值特征进行匹配,得到匹配结果;
统计所述匹配结果中匹配成功的取值特征数量比例;
若所述匹配成功的取值特征数量比例大于或等于阈值,确定所述候选业务类型为所述目标数据集的列数据的目标业务类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在将所述每个值对应的取值特征与一候选业务类型的基准取值特征进行匹配,得到匹配结果之前,所述方法还包括:
根据所述目标数据集的列数据的目标基础类型,从预存的业务类型中筛选出至少一个与所述目标基础类型匹配的候选业务类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,包括:
基于预先建立的多分类模型推断所述目标数据集的列数据的目标业务类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述基于预先建立的多分类模型推断所述目标数据集的列数据的目标业务类型,包括:
在得到所述目标数据集的列数据的目标基础类型后,将所述目标数据集的列数据以及所述目标基础类型处理为特征向量;
将所述特征向量输入所述预先建立的多分类模型,推断所述目标数据集的列数据的目标业务类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述基于预先建立的多分类模型推断所述目标数据集的列数据的目标业务类型之前,所述方法还包括:
获取训练样本数据,所述训练样本数据包括:待训练列数据、所述待训练列数据的基础类型以及所述待训练列数据对应的业务类型标签;
获取至少两个训练模型,其中,各训练模型包含的算法不同;
针对每一所述训练模型,根据输入的所述待训练列数据和所述待训练列数据的基础类型,对所述训练模型进行训练;
比较训练模型输出的业务类型和所述训练样本的业务类型标签,得到比较结果;
当所述比较结果满足预设条件时,获取训练完成的训练模型;
对所述训练完成的训练模型进行评估,得到评估结果;
比较至少两个训练完成的训练模型的评估结果,选择一训练完成的训练模型作为所述多分类模型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,包括:
基于预设顺序,依次调用预先构造的各基础类型对应的类型推断函数;
基于调用的类型推断函数,确定所述目标数据集的列数据对应的目标基础类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,若所述目标数据集为基于数据库来源创建的数据集,所述基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,包括:
从所述数据库中获取所述目标数据集的列数据的列基本信息,其中,所述数据库中的列基本信息至少包括所述目标数据集的列数据在所述数据库中的第一基础类型;
基于预设的第一基础类型与目标基础类型的映射关系,根据所述数据库中的第一基础类型,确定所述目标数据集的列数据的目标基础类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述检测作用于数据集界面的第一输入信息,得到目标数据集之后,所述方法还包括:
显示数据集信息设置界面,所述数据集信息设置界面至少包括列名设置控件;
检测针对于所述列名设置控件的操作信息;
基于检测到的针对于所述列名设置控件的操作信息,获取所述目标数据集的列名;
其中,所述列名设置控件的操作信息用于指示所述目标数据集的列名获取方式。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述目标数据集的列名获取方式包括:
获取所述目标数据集的第一行每列的取值,并将所述第一行每列的取值确定为每列对应的列名;或者,
根据系统默认配置,获取每列对应的列名。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述检测作用于数据集界面的第一输入信息,得到目标数据集之后,所述方法还包括:
对所述目标数据集的列数据进行特征分析,得到所述目标数据集的列数据的特征信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述特征分析包括下述至少之一:质量特征分析、类别特征分析和统计特征分析。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息包括:
基于所述目标数据集的全量数据,确定所述目标数据集的列数据对应的目标列基本信息;
或者,
基于预设采样策略,对所述目标数据集进行采样处理;
基于采样处理得到的采样数据,确定所述目标数据集的列数据对应的目标列基本信息。
第二方面,本发明实施例提出了另一种数据处理方法,所述方法包括:
检测作用于数据集界面的第一输入信息,得到目标数据集;
基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,所述目标列基本信息至少包括数据类型;
其中,所述数据类型包括目标基础类型和目标业务类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,包括:
获取所述目标数据集的列数据中每个值对应的取值特征;
将所述每个值对应的取值特征与一候选业务类型的基准取值特征进行匹配,得到匹配结果;
统计所述匹配结果中匹配成功的取值特征数量比例;
若所述匹配成功的取值特征数量比例大于或等于阈值,确定所述候选业务类型为所述目标数据集的列数据的目标业务类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在将所述每个值对应的取值特征与一候选业务类型的基准取值特征进行匹配,得到匹配结果之前,所述方法还包括:
根据所述目标数据集的列数据的目标基础类型,从预存的业务类型中筛选出至少一个与所述目标基础类型匹配的候选业务类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,包括:
基于预先建立的多分类模型推断所述目标数据集的列数据的目标业务类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述基于预先建立的多分类模型推断所述目标数据集的列数据的目标业务类型,包括:
在得到所述目标数据集的列数据的目标基础类型后,将所述目标数据集的列数据以及所述目标基础类型处理为特征向量;
将所述特征向量输入所述预先建立的多分类模型,推断所述目标数据集的列数据的目标业务类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述基于预先建立的多分类模型推断所述目标数据集的列数据的目标业务类型之前,所述方法还包括:
获取训练样本数据,所述训练样本数据包括:待训练列数据、所述待训练列数据的基础类型以及所述待训练列数据对应的业务类型标签;
获取至少两个训练模型,其中,各训练模型包含的算法不同;
针对每一所述训练模型,根据输入的所述待训练列数据和所述待训练列数据的基础类型,对所述训练模型进行训练;
比较训练模型输出的业务类型和所述训练样本的业务类型标签,得到比较结果;
当所述比较结果满足预设条件时,获取训练完成的训练模型;
对所述训练完成的训练模型进行评估,得到评估结果;
比较至少两个训练完成的训练模型的评估结果,选择一训练完成的训练模型作为所述多分类模型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,包括:
基于预设顺序,依次调用预先构造的各基础类型对应的类型推断函数;
基于调用的类型推断函数,确定所述目标数据集的列数据对应的目标基础类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,若所述目标数据集为基于数据库来源创建的数据集,所述基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,包括:
从所述数据库中获取所述目标数据集的列数据的列基本信息,其中,所述数据库中的列基本信息至少包括所述目标数据集的列数据在所述数据库中的第一基础类型;
基于预设的第一基础类型与目标基础类型的映射关系,根据所述数据库中的第一基础类型,确定所述目标数据集的列数据的目标基础类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述检测作用于数据集界面的第一输入信息,得到目标数据集之后,所述方法还包括:
显示数据集信息设置界面,所述数据集信息设置界面至少包括列名设置控件;
检测针对于所述列名设置控件的操作信息;
基于检测到的针对于所述列名设置控件的操作信息,获取所述目标数据集的列名;
其中,所述列名设置控件的操作信息用于指示所述目标数据集的列名获取方式。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述目标数据集的列名获取方式包括:
获取所述目标数据集的第一行每列的取值,并将所述第一行每列的取值确定为每列对应的列名;或者,
根据系统默认配置,获取每列对应的列名。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述检测作用于数据集界面的第一输入信息,得到目标数据集之后,所述方法还包括:
对所述目标数据集的列数据进行特征分析,得到所述目标数据集的列数据的特征信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述特征分析包括下述至少之一:质量特征分析、类别特征分析和统计特征分析。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息包括:
基于所述目标数据集的全量数据,确定所述目标数据集的列数据对应的目标列基本信息;
或者,
基于预设采样策略,对所述目标数据集进行采样处理;
基于采样处理得到的采样数据,确定所述目标数据集的列数据对应的目标列基本信息。
第三方面,本发明实施例提出了一种数据处理系统,所述系统包括:
接收模块,用于检测作用于数据集界面的第一输入信息,得到目标数据集;
第一显示模块,用于显示所述目标数据集对应的元数据的元数据服务界面,并接收对元数据服务界面的管理操作;
第一处理模块,用于响应于所述管理操作,输出与所述管理操作对应的处理结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述元数据包括所述目标数据集的列数据的目标列基本信息和/或特征信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述管理操作包括下述至少之一:删除管理操作,查询管理操作,编辑管理操作。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,若所述管理操作为用于查询所述元数据中的目标列基本信息的查询管理操作,所述第一处理模块包括:
第一处理单元,用于响应于所述用于查询所述元数据中的目标列基本信息的查询管理操作,输出所述元数据中的目标列基本信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述目标列基本信息包括:列名和/或数据类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,若所述管理操作为用于查询所述元数据中的特征信息的查询管理操作,所述第一处理模块包括:
第二处理单元,用于响应于所述用于查询所述元数据中的特征信息的查询管理操作,显示所述元数据中的特征信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述特征信息包括下述至少之一:质量特征信息、统计特征信息和类别特征信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,若所述管理操作为用于删除所述元数据的删除管理操作,所述第一处理模块包括:
第三处理单元,用于响应于所述用于删除所述元数据的删除管理操作,删除所述元数据,并显示删除操作结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述删除所述元数据包括:
删除所述目标数据集的全部元数据;或者,
删除所述目标数据集的部分元数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,若所述管理操作为用于编辑所述元数据的编辑管理操作,所述第一处理模块包括:
第四处理单元,用于响应于所述用于编辑所述元数据的编辑管理操作,更新所述元数据的目标列基本信息,并输出更新后的元数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述系统还包括:
确定模块,用于基于所述目标数据集对应的元数据,确定所述目标数据集是否满足预设数据集应用条件;
修正模块,用于若不满足,基于所述目标数据集对应的元数据,对所述目标数据集进行修正。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述系统还包括:
第二处理模块,用于基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,所述目标列基本信息至少包括数据类型;
其中,所述数据类型包括目标基础类型和目标业务类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述第二处理模块包括,包括:
第一获取单元,用于获取所述目标数据集的列数据中每个值对应的取值特征;
匹配单元,用于将所述每个值对应的取值特征与一候选业务类型的基准取值特征进行匹配,得到匹配结果;
统计单元,用于统计所述匹配结果中匹配成功的取值特征数量比例;
第一确定单元,用于若所述匹配成功的取值特征数量比例大于或等于阈值,确定所述候选业务类型为所述目标数据集的列数据的目标业务类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述第二处理模块还包括:
第二获取单元,用于根据所述目标数据集的列数据的目标基础类型,从预存的业务类型中筛选出至少一个与所述目标基础类型匹配的候选业务类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述第二处理模块还包括:
第五处理单元,用于基于预先建立的多分类模型推断所述目标数据集的列数据的目标业务类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述第五处理单元,还用于:在得到所述目标数据集的列数据的目标基础类型后,将所述目标数据集的列数据以及所述目标基础类型处理为特征向量;以及,将所述特征向量输入所述预先建立的多分类模型,推断所述目标数据集的列数据的目标业务类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述第二处理模块还包括:
第三获取单元,用于获取训练样本数据,所述训练样本数据包括:待训练列数据、所述待训练列数据的基础类型以及所述待训练列数据对应的业务类型标签;
第四获取单元,用于获取至少两个训练模型,其中,各训练模型包含的算法不同;
训练单元,用于针对每一所述训练模型,根据输入的所述待训练列数据和所述待训练列数据的基础类型,对所述训练模型进行训练;
比较单元,用于比较训练模型输出的业务类型和所述训练样本的业务类型标签,得到比较结果;
第五获取单元,用于当所述比较结果满足预设条件时,获取训练完成的训练模型;
评估单元,用于对所述训练完成的训练模型进行评估,得到评估结果;
选择单元,用于比较至少两个训练完成的训练模型的评估结果,选择一训练完成的训练模型作为所述多分类模型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述第二处理模块还包括:
调用单元,用于基于预设顺序,依次调用预先构造的各基础类型对应的类型推断函数;
第二确定单元,用于基于调用的类型推断函数,确定所述目标数据集的列数据对应的目标基础类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,若所述目标数据集为基于数据库来源创建的数据集,所述第二处理模块还包括:
第六获取单元,用于从所述数据库中获取所述目标数据集的列数据的列基本信息,其中,所述数据库中的列基本信息至少包括所述目标数据集的列数据在所述数据库中的第一基础类型;
第三确定单元,用于基于预设的第一基础类型与目标基础类型的映射关系,根据所述数据库中的第一基础类型,确定所述目标数据集的列数据的目标基础类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述系统还包括:
第二显示模块,用于显示数据集信息设置界面,所述数据集信息设置界面至少包括列名设置控件;
检测模块,用于检测针对于所述列名设置控件的操作信息;
获取模块,用于基于检测到的针对于所述列名设置控件的操作信息,获取所述目标数据集的列名;
其中,所述列名设置控件的操作信息用于指示所述目标数据集的列名获取方式。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述目标数据集的列名获取方式包括:
获取所述目标数据集的第一行每列的取值,并将所述第一行每列的取值确定为每列对应的列名;或者,
根据系统默认配置,获取每列对应的列名。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述系统还包括:
分析模块,用于对所述目标数据集的列数据进行特征分析,得到所述目标数据集的列数据的特征信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述特征分析包括下述至少之一:质量特征分析、类别特征分析和统计特征分析。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述第二处理模块包括:
第四确定单元,用于基于所述目标数据集的全量数据,确定所述目标数据集的列数据对应的目标列基本信息;
或者,
采样单元,用于基于预设采样策略,对所述目标数据集进行采样处理;以及,基于采样处理得到的采样数据,确定所述目标数据集的列数据对应的目标列基本信息。
第四方面,本发明实施例提出另一种数据处理系统,所述系统包括:
接收模块,用于检测作用于数据集界面的第一输入信息,得到目标数据集;
处理模块,用于基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,所述目标列基本信息至少包括数据类型;
其中,所述数据类型包括目标基础类型和目标业务类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述处理模块,包括:
第一获取单元,用于获取所述目标数据集的列数据中每个值对应的取值特征;
匹配单元,用于将所述每个值对应的取值特征与一候选业务类型的基准取值特征进行匹配,得到匹配结果;
统计单元,用于统计所述匹配结果中匹配成功的取值特征数量比例;
第一确定单元,用于若所述匹配成功的取值特征数量比例大于或等于阈值,确定所述候选业务类型为所述目标数据集的列数据的目标业务类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述处理模块还包括:
第二获取单元,用于根据所述目标数据集的列数据的目标基础类型,从预存的业务类型中筛选出至少一个与所述目标基础类型匹配的候选业务类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述处理模块还包括:
第一处理单元,用于基于预先建立的多分类模型推断所述目标数据集的列数据的目标业务类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述第一处理单元,还用于:在得到所述目标数据集的列数据的目标基础类型后,将所述目标数据集的列数据以及所述目标基础类型处理为特征向量;以及,将所述特征向量输入所述预先建立的多分类模型,推断所述目标数据集的列数据的目标业务类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述处理模块还包括:
第三获取单元,用于获取训练样本数据,所述训练样本数据包括:待训练列数据、所述待训练列数据的基础类型以及所述待训练列数据对应的业务类型标签;
第四获取单元,用于获取至少两个训练模型,其中,各训练模型包含的算法不同;
训练单元,用于针对每一所述训练模型,根据输入的所述待训练列数据和所述待训练列数据的基础类型,对所述训练模型进行训练;
比较单元,用于比较训练模型输出的业务类型和所述训练样本的业务类型标签,得到比较结果;
第五获取单元,用于当所述比较结果满足预设条件时,获取训练完成的训练模型;
评估单元,用于对所述训练完成的训练模型进行评估,得到评估结果;
选择单元,用于比较至少两个训练完成的训练模型的评估结果,选择一训练完成的训练模型作为所述多分类模型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述处理模块还包括:
调用单元,用于基于预设顺序,依次调用预先构造的各基础类型对应的类型推断函数;
第二确定单元,用于基于调用的类型推断函数,确定所述目标数据集的列数据对应的目标基础类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,若所述目标数据集为基于数据库来源创建的数据集,所述处理模块还包括:
第六获取单元,用于从所述数据库中获取所述目标数据集的列数据的列基本信息,其中,所述数据库中的列基本信息至少包括所述目标数据集的列数据在所述数据库中的第一基础类型;
第三确定单元,用于基于预设的第一基础类型与目标基础类型的映射关系,根据所述数据库中的第一基础类型,确定所述目标数据集的列数据的目标基础类型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述系统还包括:
显示模块,用于显示数据集信息设置界面,所述数据集信息设置界面至少包括列名设置控件;
检测模块,用于检测针对于所述列名设置控件的操作信息;
获取模块,用于基于检测到的针对于所述列名设置控件的操作信息,获取所述目标数据集的列名;
其中,所述列名设置控件的操作信息用于指示所述目标数据集的列名获取方式。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述目标数据集的列名获取方式包括:
获取所述目标数据集的第一行每列的取值,并将所述第一行每列的取值确定为每列对应的列名;或者,
根据系统默认配置,获取每列对应的列名。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述系统还包括:
分析模块,用于对所述目标数据集的列数据进行特征分析,得到所述目标数据集的列数据的特征信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述特征分析包括下述至少之一:质量特征分析、类别特征分析和统计特征分析。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述处理模块包括:
第四确定单元,用于基于所述目标数据集的全量数据,确定所述目标数据集的列数据对应的目标列基本信息;
或者,
采样单元,用于基于预设采样策略,对所述目标数据集进行采样处理;以及,基于采样处理得到的采样数据,确定所述目标数据集的列数据对应的目标列基本信息。
第五方面,本发明实施例提供了一种数据处理系统,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述任一项所述的数据处理方法的步骤。
第六方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的数据处理方法的步骤。
本发明提供的技术方案,通过获取目标数据集,显示目标数据集对应的元数据的元数据服务界面,并接收对元数据服务界面的管理操作,响应于所述管理操作,输出与所述管理操作对应的处理结果。本发明提供的方案利用显示的元数据服务界面以向用户提供相应的元数据服务,进而通过接收对元数据服务界面的管理操作,输出与所述管理操作对应的元数据。本发明通过元数据服务界面向用户提供相应的元数据服务,从而能够方便快捷对元数据进行管理,并加深对数据的理解,进而在一定程度上提高数据处理的准确性。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例所提供的一种数据处理方法的流程示意图;
图2是本发明实施例所提供的一种元数据编辑界面的示意图;
图3是本发明实施例所提供的一种数据集信息设置界面的示意图;
图4是本发明实施例所提供的另一种数据处理方法的流程示意图;
图5是本发明实施例所提供的一种数据处理系统的组成框图;
图6是本发明实施例所提供的另一种数据处理系统的组成框图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参考图1,其为本发明实施例提供的数据处理方法的流程示意图,该数据处理方法,包括以下步骤:
101,检测作用于数据集界面的第一输入信息,得到目标数据集。
本发明实施例中,该目标数据集中的数据为结构化数据/半结构化数据。该结构化数据/半结构化数据来源于文件类型数据源,或者,来源于数据库类型数据源。
其中,文件类型数据源是指数据源为HDFS(Hadoop Distributed File System,分布式文件系统),和/或,单机文件系统等文件系统。其中,分布式文件系统文件格式可以包括但不限于:CSV、TSV、TXT、parquet、Excel、ORC等;单机文件系统文件格式可以包括但不限于:CSV、TSV、TXT、parquet、Excel等。
其中,数据库类型数据源是指数据源为DBMS(Database Management System,数据库管理系统)等数据库。
在一个具体实施中,该目标数据集可以为数据处理系统中已创建的一数据集。基于此,步骤101的实现为:数据集界面第一指定区域显示已创建的数据集列表,通过采集用户针对于该已创建的数据集列表执行的选择操作,从该已创建的数据集列表中筛选出该选择操作指示的一数据集,从而得到目标数据集。
在另一个具体实施中,该目标数据集可以为创建的新数据集。基于此,步骤101的实现具体为:数据集界面中包括新建数据集的创建控件,检测针对于该创建控件的操作,响应该操作,在数据集界面的第二指定区域显示数据集创建界面,用户通过操作该数据集创建界面,创建一新数据集,并将该新数据集作为目标数据集。其中,用户通过操作该数据集创建界面,可以选择以上传方式将数据源中的数据导入到该数据处理系统,进而创建一新数据集;或者,用户通过操作该数据集创建界面,可以选择将数据源的访问地址添加到该数据集创建界面,从而该数据处理系统通过该访问地址,访问该数据源,进而创建一新数据集。
需要说明的是,若选择以上传方式将数据源中的数据导入到该数据处理系统,进而实现新数据集的创建,在创建一新数据集之前,需要先将文件类型数据源和/或数据库类型数据源的数据以文件形式导出;然后,在创建新数据集时,用户可以通过拖拽方式,将该文件拖拽至数据集创建界面,以实现将文件上传至数据处理系统,完成新数据集的创建。其中,该导出的文件的文件格式可以包括但不限于下述至少之一:CSV、TSV、TXT、XLS、ZIP、TAR。
102,显示所述目标数据集对应的元数据的元数据服务界面,并接收对元数据服务界面的管理操作。
103,响应于所述管理操作,输出与所述管理操作对应的处理结果。
本发明中涉及的元数据为描述数据的数据。元数据包括下述至少之一:数据集的目标列基本信息和特征信息。其中,该目标数据集的元数据可以是在得到目标数据集后,通过对该目标数据集进行处理,得到目标数据集的元数据;或者该目标数据集的元数据还可以是该数据处理系统从外部获取到的,例如,该数据处理系统通过与其他系统进行通信,从其他系统中获取该目标数据集的元数据;或者,用户与该数据处理系统交互,将该目标数据集的元数据输入至该数据处理系统。关于对该目标数据集进行处理,得到目标数据集的元数据的具体实现将在下文中进行详细介绍,本发明在此不再赘述。
本发明中元数据中的目标列基本信息主要包括列名(字段名)和列数据的数据类型,目标数据集的列数据的数据类型包括目标基础类型和目标业务类型。其中,本发明中涉及的目标基础类型包括但不限于:整型、长整型、浮点型、双精度类型、第一时间型、字符串型、布尔型;本发明中涉及的目标业务类型可以包括但不限于下述至少之一:电话号码(例如手机号码)、身份证号、邮编、第二时间、日期、金额、标识地理坐标中的点、标识WKT格式的地理线、多边形、标识英语国家名或ISO国家码、电子邮件地址、温度、词袋、性别、尺寸、重量、用户自定义的业务类型。
这里需要说明的是,目标基础类型中的第一时间型为标准时间格式的时间型,如YYYY-MM-DD HH:MM:SS;目标业务类型中的第二时间是指非标准格式的时间型,例如,YYY/M/D,YYY-M-D,yyyy.M.D,YYY/M/D h:m:s等等,或者,第二时间型还可以指时长,如n小时,m天等。
本发明中元数据中的特征信息包括下述至少之一:质量特征信息、统计特征信息、类别特征信息。其中,质量特征信息包括下述至少之一:缺失值、行数、稳定度、唯一性、多样性、有效值的数量、无效值的数量、总的数量。统计特征信息包括下述至少之一:最小值、最大值、均值、方差、中位数、标准差、众数、范围、Distinct(表示共有多少不同的取值)、第一分位数、第三分位数、四分位距。类别特征信息包括下述至少之一:最大长度、最短长度、Distinct。
其中,上述管理操作包括下述至少之一:删除管理操作,查询管理操作,编辑管理操作。
其中,上述与所述管理操作对应的处理结果是指数据处理系统基于该管理操作对元数据进行查询处理、删除处理或编辑处理后,得到的元数据。例如,管理操作为查询管理操作,则输出的处理结果为对该目标数据集的元数据进行查询处理后,查询到的元数据;再比如,管理操作为删除管理操作,则输出的处理结果为对该目标数据集的元数据进行删除处理后,未被删除的元数据;又比如,管理操作为编辑管理操作,则输出的处理结果为对该目标数据集的元数据进行编辑处理后,编辑后的元数据。
为了简化用户对元数据的管理操作,可选的是,本发明的元数据服务界面中设置对该目标数据集的元数据进行查询管理操作、编辑管理操作和删除管理操作的管理控件,用户点击相应的管理控件,便可以触发数据处理系统执行步骤103。其中,管理控件可以显示为功能按键、指定图标或者其他形式的按钮,本发明对于元数据服务界面中的管理控件的显示形式不做具体限定。
进一步来说,目标数据集的元数据主要包括目标列基本信息和特征信息,为了方便用户快速清楚地查询目标数据集的目标列基本信息和/或特征信息,本发明中的查询管理操作包括用于查询所述元数据中的目标列基本信息的查询管理操作,和/或,用于查询所述元数据中的特征信息的查询管理操作。
例如,若该管理操作为用于查询所述元数据中的目标列基本信息的查询管理操作,步骤103响应于所述管理操作,输出与所述管理操作对应的处理结果包括:响应于所述用于查询所述元数据中的目标列基本信息的查询管理操作,输出所述元数据中的目标列基本信息。其中,目标列基本信息包括列名和/或数据类型。
又例如,若该管理操作为用于查询所述元数据中的特征信息的查询管理操作,步骤103响应于所述管理操作,输出与所述管理操作对应的处理结果包括:响应于所述用于查询所述元数据中的特征信息的查询管理操作,输出所述元数据中的特征信息。其中,特征信息包括下述至少之一:质量特征信息、统计特征信息和类别特征信息。
在一具体应用场景中,元数据服务界面中设置有一个查询图标,其中,单击查询图标操作为用于查询所述元数据中的目标列基本信息的查询管理操作,双击查询图标操作为用于查询所述元数据中的特征信息的查询管理操作。当用户单击该查询图标时,触发数据处理系统响应于单击查询图标管理操作,系统查询该目标数据集的目标列基本信息,并将该目标列基本信息显示在用户界面中。当用户双击该查询图标时,触发数据处理系统响应于双击查询图标管理操作,数据处理系统查询该目标数据集的特征信息,并将该特征信息显示在用户界面中。
在另一具体应用场景中,元数据服务界面中分别设置有用于查询元数据中的目标列基本信息的第一查询图标,用于查询元数据中的特征信息的第二查询图标。当接收对元数据服务界面的管理操作为点击第一查询图标时,触发数据处理系统响应于点击第一查询图标管理操作,数据处理系统查询该目标数据集的目标列基本信息,并将该目标列基本信息显示在用户界面中。当接收对元数据服务界面的管理操作为点击第二查询图标时,触发数据处理系统响应于第二查询图标管理操作,数据处理系统查询该目标数据集的特征信息,并将该特征信息显示在用户界面中。
本发明中,可选的是,数据处理系统输出的目标列基本信息可以以表格形式在用户界面中进行展示,其中,表格中每一列前3行分别用于显示列名、基础类型和业务类型。
例如,如表1,其为本发明给出的一种展示目标列基本信息的表格。
Figure BDA0002112920760000231
Figure BDA0002112920760000241
表1
本发明中,可选的是,特征信息中的统计特征信息主要是针对于基础类型为整型、长整型、浮点型以及双精度型的列数据;类别特征是针对于字符串型、布尔型的列数据。若列数据为整型、长整型、浮点型以及双精度型的列数据,其特征信息主要包括质量特征信息和统计特征信息;若列数据为字符串型、布尔型的列数据,其特征信息主要包括质量特征信息和类别特征信息,因此,针对于不同基础类型的列数据,用户界面中显示的特征信息不同。
若一列数据为整型、长整型、浮点型或双精度型,用户界面中至少显示该列数据的质量特征信息和统计特征信息。例如,若查询的列数据的基础类型为整型,当查询该列数据的特征信息时,则在该数据处理系统的用户界面的左侧中展示了行数(l)、稳定度(S)、缺失值(M)的统计图;该用户界面右上侧还展示了列数据的统计信息,如该列中的Min(最小值)、Max(最大值)、Mean(平均值)、variance(方差)、Q3(第三四分位数),Median(该列居于中间的数值,如果该列集合中包含偶数个数字,将返回位于中间的两个数的平均值)、Stddev(该列的标准偏差)、Mode(该列众数)、Range(幅度)、All cells(全部数据的数量)、Distinct(非重复结果的数目)、IQR(该列的四分差,是描述统计学中的一种方法,以确定第三四分位数和第一四分位数的区别)、Sum(该列总和)、Q1(第一四分位数)、Valid cells(有效值的数量)。该用户界面的右下侧显示有离群值的箱型图和反应列数据分布情况的离散柱状图。
若一列数据为字符串型,用户界面中至少显示该列数据的质量特征信息和类别特征信息。例如,若查询的列数据的基础类型为整型,当查询该列数据的特征信息时,在该数据处理系统的用户界面的左侧该中展示了行数(l)、稳定度(S)、缺失值(M)的统计图,用户界面右侧展示了反应列数据的取值分布情况的柱状图,以及不同取值的分布概率。
本发明中,可选的是,若该管理操作为用于删除所述元数据的删除管理操作,所述响应于所述管理操作,输出与所述管理操作对应的处理结果包括:响应于所述用于删除所述元数据的删除管理操作,删除所述元数据,并显示删除操作结果。
其中,删除所述元数据包括删除所述目标数据集的全部元数据;或者,删除所述目标数据集的部分元数据。
其中,上述显示删除操作结果包括:用于提示已删除的提示信息,和/或,未被删除的元数据。
在一应用场景中,元数据服务界面中分别设置有用于删除该目标数据集的全部元数据的第一删除按钮,和,用于删除该目标数据集的部分元数据的第二删除按钮。当接收对元数据服务界面的管理操作为点击第一删除按钮时,触发数据处理系统响应于点击第一删除按钮的操作,删除该目标数据集的全部元数据,并在用户界面显示已全部删除的提示信息;当接收对元数据服务界面的管理操作为点击第二删除按钮时,触发数据处理系统响应于点击第二删除按钮的操作,数据处理系统删除该目标数据集的部分元数据,并在用户界面中显示未被删除的元数据。
结合上述具体应用场景,当用户点击第二删除按钮时,展示删除元数据设置窗口,用户通过该删除元数据设置窗口选择需删除的部分元数据,数据处理系统检测该删除元数据设置窗口的用户操作,从而基于检测到的该删除元数据设置窗口的用户操作,删除与该用户操作对应的指定元数据。例如,用户通过删除元数据设置窗口选择需删除列名,数据处理系统检测用于删除列名的用户操作,从而基于检测到的用于删除列名的用户操作,删除列名,并在用户界面中显示除该列名外的元数据。
进一步地,为使数据集更符合需求,用户可以基于实际需求调整数据集的相关信息。为了实现此目的,本发明中,可选的是,若该管理操作为用于编辑所述元数据的编辑管理操作,所述响应于所述管理操作,输出与所述管理操作对应的处理结果包括:响应于所述用于编辑所述元数据的编辑管理操作,更新所述元数据的目标列基本信息,并输出更新后的元数据。
其中,更新元数据的目标列基本信息包括:更新元数据的列名和/或更新元数据的数据类型。其中,更新元数据中的数据类型包括更新目标基础类型和/或目标业务类型。
具体的,编辑管理操作包括用于编辑列名的第一编辑操作和/或用于编辑数据类型的第二编辑操作。当接收到的编辑操作为用于编辑列名的第一编辑操作时,响应于所述用于编辑所述元数据的编辑管理操作,更新所述元数据的目标列基本信息,并输出更新后的元数据包括:响应于第一编辑操作,更新元数据中的列名,并显示更新后的元数据;当接收到的编辑操作为用于编辑数据类型的第二编辑操作时,响应于所述用于编辑所述元数据的编辑管理操作,更新所述元数据的目标列基本信息,并输出更新后的元数据包括:响应于第二编辑操作,更新元数据中的数据类型,并显示更新后的元数据。
具体的,如图2所示,其为本发明提供的一种元数据编辑界面,若接收到编辑管理操作,显示该元数据编辑界面,当用户双击该元数据编辑界面第一行中某一列的列名显示框时,该列名显示框进入可编辑状态,用户编辑该列的列名,以更新该列的列名。当用户点击第二行中某一列的数据类型显示框时,该数据类型显示框进入可编辑状态,用户编辑该列的数据类型,以更新该列的数据类型。
请再次参考图2,为了简化用户针对列的数据类型的编辑操作,该数据处理系统还提供了数据类型选择窗口,用户可以通过操作数据类型选择窗口,实现对列数据的数据类型的编辑。如图2所示,第二行中每列的数据类型显示框中设置有触发数据处理系统显示数据类型选择窗口的控件(图2中的倒三角),当用户点击某一列的数据类型右侧的控件时,数据处理系统显示该数据类型选择窗口,从而数据处理系统检测用户作用于该数据类型选择窗口的选择操作,进而基于检测的选择操作,将用户选择的数据类型显示在该数据类型显示框中,并隐藏该数据类型选择窗口。
进一步地,数据的元数据是进行数据处理的前提,高质量的元数据可以为数据处理提供很有益的参考,用户可以利用元数据判断该目标数据集是否符合需求,或者判断出需要进行哪些处理,帮助用户获得高质量的数据。基于此,本发明提出一种可行的方式,该方法具体还包括:基于所述目标数据集对应的元数据,确定所述目标数据集是否满足预设数据集应用条件;若不满足,基于所述目标数据集对应的元数据,对所述目标数据集进行修正。
具体的,该预设数据集应用条件可以为用户基于需求设定的条件。例如,用户设置的预设数据集应用条件为缺失值小于5%,或者,最大值不超过50等。
在一具体应用场景中,预设数据集应用条件为缺失值小于5%,基于所述目标数据集对应的元数据中的质量特征信息,确定所述目标数据集的缺失值为30%,目标数据集的缺失值30%大于5%,确定出该目标数据集不满足预设数据集应用条件;然后,基于目标数据集对应的元数据中的统计特征信息和/或类别特征信息,确定缺失值填充方式,进而基于该缺失值填充方式,填充该目标数据集,以实现对该目标数据集的修正。
本发明提供的技术方案,通过获取目标数据集,显示目标数据集对应的元数据的元数据服务界面,并接收对元数据服务界面的管理操作,响应于所述管理操作,输出与所述管理操作对应的处理结果。本发明提供的方案利用显示的元数据服务界面以向用户提供相应的元数据服务,进而通过接收对元数据服务界面的管理操作,输出与所述管理操作对应的元数据。本发明通过元数据服务界面向用户提供相应的元数据服务,从而能够方便快捷地对元数据进行管理。此外,元数据对数据处理具体一定的指导作用,利用本发明提供的技术方案,通过向用户提供相应的元数据服务,实现对元数据进行管理,以得到高质量的元数据,从而基于该高质量的元数据,加深对数据的理解,一定程度上提高数据处理的准确性,提升机器学习的效果。
进一步地,本发明实施例提供的一种数据处理方法,具体还包括:
基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息。
本发明实施例中,目标列基本信息至少包括数据类型。
下面分别详细阐述预设的数据推断引擎用于推断数据类型的实现过程。
数据类型包括目标基础类型和目标业务类型。预设的数据推断引擎用于推断数据类型包括:推断列数据的目标基础类型和推断列数据的目标业务类型。其中,列数据的目标基础类型为数据本身的一种属性,列数据的目标业务类型为一种具有实际的业务含义的属性,数据处理系统可以基于目标基础类型和目标业务类型对数据采用针对性的处理方法。目标数据集的列数据的目标基础类型和目标业务类型对于数据处理系统功能的扩充(主要是数据处理方面)具有一定的指导作用。
可选的是,由于列数据的目标业务类型具有实际的业务含义,结合其目标业务类型实际的业务含义,每种目标业务类型数据的取值具有一定的取值规则,因此,本发明针对于目标业务类型推断的实现提供一种可行方法,该方法的思想为:在推断目标数据集的列数据对应的目标业务类型时,基于业务类型的取值规则来推断目标业务类型。该方法具体包括:s1,获取所述目标数据集的列数据中每个值对应的取值特征;s2,将所述每个值对应的取值特征与一候选业务类型的基准取值特征进行匹配,得到匹配结果;s3,统计所述匹配结果中匹配成功的取值特征数量比例;s4,若所述匹配成功的取值特征数量比例大于或等于阈值,确定所述候选业务类型为所述目标数据集的列数据的目标业务类型;s5,若所述匹配成功的取值特征数量比例小于阈值,则将所述每个值对应的取值特征与另一候选业务类型的基准取值特征进行匹配,重复执行s3-s5,直到得到的匹配成功的取值特征数量比例大于或等于阈值。
这里需要说明的是,该目标数据集的列数据中每个值对应的取值特征与各个候选业务类型的基准取值特征进行匹配的过程中,与各个候选业务类型来匹配的顺序可以为基于默认的任意匹配顺序进行匹配,或者,还可以是基于用户设置的顺序进行匹配。
其中,每个值的取值特征包括但不限于下述至少之一:取值格式,具体取值等。各个候选业务类型的基准取值特征包括但不限于下述至少之一:基准取值格式,基准取值等。
在一个具体应用场景中,假设用于推断的业务类型的待推断列数据包括1000个列值,用于确定目标业务类型的阈值为70%。推断该待推断列数据对应的目标业务类型具体为:首先,获取该待推断列数据中每个值对应的取值格式,然后,将每个值的取值格式与一任意候选业务类型的基准取值格式进行匹配,假设该任意候选业务类型为温度,将每个值的取值格式与温度的基准取值格式进行匹配;若待推断列数据的取值格式满足“数字°”,则确定该列值与温度的基准取值格式匹配成功,否则,确定匹配失败;当这1000个列值都与温度的基准取值格式进行匹配后,统计这1000个取值中匹配成功的取值个数,从而,进一步确定出统计结果;若统计出匹配成功的取值个数为800,确定出匹配结果80%,该匹配结果80%大于阈值70%,满足要求,则确定该待推断列数据的目标业务类型为温度;若统计出匹配成功的取值格式个数为100,确定出统计结果为10%,该统计结果10%小于阈值70%,不满足要求,则将该待推断列数据每个值对应的取值格式与另一任意候选业务类型的基准取值格式进行匹配,假设该另一任意候选业务类型为金额,将该待推断列数据每个值对应的取值格式与金额的基准取值格式进行匹配,并统计匹配成功的数据,其中金额的基准取值格式包括:数字和货币符号;若统计出匹配成功的取值格式数量为700,确定出统计结果为70%,该统计结果70%等于阈值70%,满足要求,则确定该待推断列数据的目标业务类型为金额;若确定出的统计结果小于阈值70%,则继续将待推断列数据的取值格式与另一候选业务类型的基准取值格式进行匹配,直到找到满足条件的目标业务类型。
补充说明的是,对于推断列数据是否为一取值为有限个的指定业务类型,可以执行以下方法:将该列数据的每个具体取值与数据处理系统中预存的该指定业务类型所有基准取值匹配,若从预存的所有基准取值中找到与该列数据的具体取值对应的基准取值,匹配成功的统计值加1,否则,该统计值不变,并将下一个具体取值与预存的该指定业务类型所有基准取值匹配,重复执行上述步骤,直到该列数据的所有具体取值都匹配完,基于得到的统计值,确定统计结果,从而确定该统计结果是否大于或等于阈值,若确定出该统计结果大于或等于阈值,则确定该列数据的业务类型为该指定业务类型;否则,确定该列数据的业务类型不是该指定业务类型,继续推断业务类型。其中,该统计结果为:该得到的统计值与该用于推断的列数据对应数据量的比值,该比值可以为分数、百分数或者小数。
其中,上述一取值为有限个的指定业务类型可以包括但不限于是多边形、标识英语国家名或ISO国家码、邮编或性别等。
例如,假设一列数据包括m个具体取值,推断该列数据的业务类型是否为邮编,具体为:将该列数据的第i个具体取值与数据处理系统中预存的基准邮编对比,如果能从预存的基准邮编中找到与具体取值对应的基准邮编,则确定该第i个具体取值可以作为邮编,统计值p加1;否则,统计值p不变,并将列数据的第i+1个具体取值与数据处理系统中预存的基准邮编对比,如此循环,直到m个具体取值都与数据处理系统中预存的基准邮编进行对比后,基于得到的统计值p,确定统计结果p/m,比较统计结果与设定阈值的大小,若统计结果大于或等于设定阈值,则确定该列数据对应的业务类型为邮编;否则,基于数据推断引擎,继续推断数据类型。其中,m,i,p均为大于0的整数,且m大于或等于p,m大于或等于i。
进一步来说,列数据的目标基础类型和目标业务类型之间存在一定的关系,比如目标业务类型为邮编的列数据对应的目标基础类型可以是整型、字符串,但肯定不会是浮点型或时间、布尔类型;再比如目标业务类型为金额的列数据对应的目标基础类型可以是整型或双精度,但肯定不会是时间或布尔类型。基于此,列数据的目标基础类型在一定程度上限定了该列数据可能对应哪些目标业务类型,也就是说,目标基础类型可以为目标业务类型的推断提供一定的先验信息,为了能够在一定程度上减少目标数据集的列数据的取值特征与多个候选业务类型的取值特征的匹配操作,提高确定出目标业务类型的速度,提高业务类型推断的效率,本发明提出在将所述每个值对应的取值特征与一候选业务类型的基准取值特征进行匹配,得到匹配结果之前,先利用目标数据集的列数据的目标基础类型筛选出取值规则满足该目标基础类型的候选业务类型,即执行根据所述目标数据集的列数据的目标基础类型,从预存的业务类型中筛选出至少一个与所述目标基础类型匹配的候选业务类型;然后,执行上述步骤s2-s5。
还需要说明的是,为了进一步提高确定列数据的目标业务类型的准确性,当目标数据集的列数据的取值特征与多种候选业务类型的基准取值特征分别匹配处理后,得到各匹配成功的统计结果中,存在多个统计结果大于或等于该统计结果对应的阈值时,将匹配度最高的候选业务类型确定为目标业务类型,也就是说,将多个候选业务类型中,目标数据集的列数据的取值特征与候选业务类型的基准取值特征成功匹配的取值特征数量比例最高的一候选业务类型,确定为目标业务类型。
可选的是,对于一些复杂的数据集,为保证相对准确地推断出这些复杂数据的业务类型,针对于目标数据集的列数据的业务类型推断的实现,本发明给出另一种可行的实施方式,该方法的思想为:结合机器学习技术,利用机器学习模型对目标数据集的列数据进行目标业务类型推断,即基于预先建立的多分类模型推断所述目标数据集的列数据的目标业务类型。
其中,复杂的数据集包括下述至少一种:若目标数据集的列数据的取值特征与预设的所有候选业务类型的取值特征匹配不上,则确定为复杂的目标数据集,或者,若目标数据集的列数据取值特征与多种候选业务类型的基准取值特征分别匹配处理后,得到各匹配成功的统计结果中,存在多个统计结果大于或等于该统计结果对应的阈值,则确定为复杂的目标数据集。
下面详细介绍上述多分类模型的建立过程。
本发明实施例中,在执行基于预先建立的多分类模型推断所述目标数据集的列数据的业务类型之前,需执行以下步骤:
S10,获取训练样本数据。
其中,训练样本数据包括:待训练列数据、所述待训练列数据的基础类型以及所述待训练列数据对应的业务类型标签。
S20,获取至少两个训练模型,其中,各训练模型包含的算法不同。
上述训练模型可以包括但不限于决策树算法模型、逻辑回归算法模型、Bagging算法模型、随机森林算法模型、AdaBoost算法模型、投票模型、支持向量机、堆栈模型和神经网络算法模型中的至少两个。
S30,针对每一所述训练模型,根据输入的待训练列数据和待训练列数据的基础类型,对所述训练模型进行训练。
S40,比较训练模型输出的业务类型和训练样本的业务类型标签,得到比较结果。
S50,当所述比较结果满足预设条件时,获取训练完成的训练模型。
补充说明的是,当比较结果不满足预设条件时,调整该训练模型的参数,并根据输入的待训练列数据重新对参数调整后的训练模型进行训练,直到比较结果满足所述预设条件。
本发明实施例中,上述预设条件可以包括但不限于:预测准确率大于或等于阈值、训练模型的AUC分数,即曲线下面积(area under the curve,简称AUC)大于或等于阈值,F分数大于或等于阈值。
训练过程中,可以使用基于网格搜索的交叉验证方法,设定一预设条件,根据比较的结果和设定的预设条件,对算法模型的参数进行调优,直至训练完成。例如,可以设定预设条件为:预测的准确率大于或等于90%时,训练完成,比较训练模型输出的业务类型与训练样本集中的业务类型标签,以确定训练模型输出的业务类型与训练样本集中的业务类型标签的匹配情况,从而,进一步计算训练模型推断业务类型的准确率,当推断业务类型的准确率大于或等于90%时,训练完成;当推断业务类型的准确率小于90%时,调整训练模型的参数,重新进行训练,直至推断业务类型的准确率大于或等于90%,得到训练完成的训练模型。
S60,对训练完成的训练模型进行评估,得到评估结果。
S70,比较至少两个训练完成的训练模型的评估结果,选择一训练完成的训练模型作为所述多分类模型。
对训练完成的训练模型进行评估的目的是为了从多个训练完成的训练模型中选择出一个输出结果更准确的训练模型,并将输出结果更准确的训练模型作为多分类模型,发布为服务,以便调用该服务进行业务类型推断。
具体的,可根据需求设定预设评估指标,对训练完成的算法模型进行评估,得到评估结果。其中,预设评估指标包括训练样本集预测准确率、测试样本集预测准确率、曲线下面积AUC分数、F分数和Kappa系数中的至少之一。
具体的,若设定的预设评估指标为测试样本集预测准确率,上述步骤S60-S70的具体实现方式为:首先,获取测试样本集;然后,将该测试样本集输入到训练完成的训练模型中,输出推断出的目标业务类型;根据每个训练完成的训练模型输出的目标业务类型和测试样本集的业务类型标签,确定每个训练完成的训练模型的训练样本集预测准确率;将训练样本集预测准确率最大的训练完成的训练模型,确定为该多分类模型。
其中,测试样本集包括用于测试的列数据和该列数据对应的业务类型标签。
具体的,机器学习模型训练主要包括两个阶段:数据准备阶段和模型训练阶段。其中,数据准备阶段主要是获取大量的列数据,并且为这些列数据贴上业务类型标签,该贴上业务类型标签的大量列数据构成样本集,该样本集可以分成两部分,一部分作为训练样本集用于训练模型,另一部分作为测试样本集用于测试训练完成的训练模型。
其中,AUC分数的数值越大,表明分类的精度更高。
F分数是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的准确率和召回率。F分数可以看作是模型准确率和召回率的一种加权平均值,它的最大值是1,最小值是0。F分数越高,说明分类模型越稳健。
Kappa系数是一种衡量分类精度的指标,Kappa系数的计算基于混淆矩阵。
进一步地,由于列数据的基础类型和业务类型之间存在一定的关系,基础类型可以为业务类型的推断提供一定的先验信息,为了提高该多分类模型推断列数据的目标业务类型的速度和准确度,在执行基于预先建立的多分类模型推断所述目标数据集的列数据的目标业务类型时,具体包括:在得到所述目标数据集的列数据的基础类型后,将所述目标数据集的列数据以及所述目标基础类型处理为特征向量;然后,将所述特征向量输入所述预先建立的多分类模型,推断所述目标数据集的列数据的目标业务类型。
数据类型还包括目标基础类型,本发明实施例中,可选的是,基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息包括:基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标基础类型。其中,确定所述目标数据集的列数据对应的目标基础类型包括:基于预设顺序,依次调用预先构造的各基础类型对应的类型推断函数;基于调用的类型推断函数,确定所述目标数据集的列数据对应的目标基础类型。
具体的,每类基础类型对应的列数据的取值具有一定的取值条件,例如,对于基础类型为整型的数据,其列数据的取值条件为整数;对于基础类型为浮点型的数据,其列数据的取值条件为小数;对于基础类型为布尔型的数据,其列数据的取值为0或1,等等,基于此,本发明实施例针对于如何构造各基础类型对应的类型推断函数提出一种可行的方式,具体为:基于每类基础类型对应的列数据的取值条件,构造每类基础类型对应的类型推断函数,如此在实现推断目标数据集的列数据对应的目标基础类型时,可以利用每类基础类型对应的构造函数,确定目标数据集的列数据对应的目标基础类型。
其中,上述用于调用各类型推断函数的预设顺序:可以为数据处理系统默认的调用顺序,或者,还可以为用户基于用户需求设置的调用顺序。
进一步的,每类基础类型对列数据取值的要求的严格程度不同。比如,整型的取值条件为:值为整数,且值域为--2^31~2^31-1;长整型的取值条件为:值为整数,且值域为-2^63~2^63-1,由此可见,整型和长整型都要求取值为整数,但是整型对于取值的值域要求更严格,满足整型的值域的列数据也满足长整型的值域,而满足长整型的值域的列数据不一定满足整型的值域,也就是说,满足整型的取值条件的列数据也满足长整型的取值条件,而满足长整型的取值条件的列数据不一定满足长整型的取值条件。基于此,为了能够快速准确地推断出目标数据集的列数据的目标基础类型,在实现基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,本发明优选的是:按照基础类型对应的数据取值条件严格度从高到低的顺序,依次调用各基础类型对应的类型推断函数;基于调用的类型推断函数,确定所述目标数据集的列数据对应的目标基础类型。
本发明实施例中,基础类型对应的数据取值条件严格度从高到低的顺序为:整型、长整型、浮点型、双精度型、时间、布尔、字符串。按照基础类型对应的数据取值条件严格度从高到低的顺序,利用类型推断函数推断目标基础类型具体为:首先,调用整型对应的类型推断函数,利用整型对应的类型推断函数确定该列数据的是否为整型,若是,则确定该列数据的目标基础类型为整型,停止推断;否则,调用长整型对应的类型推断函数,利用长整型对应的类型推断函数确定该列数据的是否为长整型,若是,则确定该列数据的目标基础类型为长整型,停止推断;否则,调用浮点型对应的类型推断函数,如此循环,直到确定出列数据的目标基础类型。
上述类型推断函数可以为用户自己定义的函数,或者,还可以是利用spark的类型判断函数。本发明对此不作限定。
例如,类型推断函数为spark的类型判断函数,基础类型对应的数据取值条件严格度从高到低的顺序为:整型、长整型、浮点型、双精度型、时间、布尔、字符串和其他类型,其推断基础类型时运行如下代码:
Figure BDA0002112920760000361
本发明实施例中,可选的是,基于数据库来源创建的目标数据集,该目标数据集本身带有该目标数据集的列数据在所述数据库中的基础类型,数据库支持的基础类型较多,在利用数据库创建需要的数据集时,为了能够兼容基于数据库来源创建的数据集,基于一定规则建立数据库支持的基础类型与数据处理系统支持的基础类型之间的映射关系,从而通过这种映射关系,基于该目标数据集的列数据在所述数据库中的基础类型,进而确定出目标数据集的列数据的目标基础类型。
具体的,通过这种映射方关系确定目标数据集的列数据的目标基础类型的方法包括:从所述数据库中获取所述目标数据集的列数据的列基本信息,其中,所述数据库中的所述列基本信息至少包括所述目标数据集的列数据在所述数据库中的第一基础类型;从而,基于所述第一基础类型与目标基础类型的映射关系,根据所述第一基础类型,确定所述目标数据集的列数据的目标基础类型。
进一步地,列数据的目标列基本信息包括列数据的列名。本发明针对于如何获取列数据的列名,提出了以下可行方式。在执行完步骤101,得到目标数据集之后,该可行方式还包括:显示数据集信息设置界面,所述数据集信息设置界面至少包括列名设置控件;然后,检测针对于所述列名设置控件的操作信息;从而,基于检测到的针对于所述列名设置控件的操作信息,获取所述目标数据集的列名;其中,所述列名设置控件的操作信息用于指示所述目标数据集的列名获取方式。
本发明实施例中,目标数据集的列名获取方式可以包括但不限于:获取所述目标数据集的第一行每列的取值,并将所述第一行每列的取值确定为每列对应的列名;或者,根据数据处理系统默认配置,获取每列对应的列名中的一种。
请参考图3,其为本发明提供的数据集信息设置界面的示意图。在执行完步骤101,得到目标数据集之后,显示图3所示的数据集信息设置界面,如图3所示,所述数据集信息设置界面包括列名设置控件【设置首行为列名】,其中,该【设置首行为列名】包括【否】和【是】两个子项;实时或周期性检测针对于所述列名设置控件【设置首行为列名】的操作信息;若检测到的针对于子项【是】的操作信息,则获取目标数据集的第一行每列的取值,将第一行每列的取值确定为每列对应的列名;若检测到的针对于子项【否】的操作信息,则自动将COL1、COL2…作为默认列名。
请再次参考图3,该数据集信息设置界面还包括【数据集名称】、数【数据集简介】控件、【添加主题】和【添加标签】等控件,用户通过操作这些控件,输入针对于该目标数据集的一些描述信息,然后,用户点击【确定】控件完成对目标数据集的设置。
进一步地,为了能够充分了解目标数据集的情况,除了了解目标数据集的列数据的数据类型和列名,还需了解目标数据集的列数据的特征信息。因此,在步骤101检测作用于数据集界面的第一输入信息,得到目标数据集之后,还需执行:对所述目标数据集的列数据进行特征分析,得到所述目标数据集的列数据的特征信息。
其中,上述特征分析包括下述至少之一:质量特征分析、类别特征分析和统计特征分析。
这里需要说明的是,类别特征分析主要针对基础类型为字符串型、布尔型的列数据,统计特征分析主要针对基础类型为整型、长整型、浮点型以及双精度型的列数据,因此,为了提高特征分析的处理效率,在一定程度避免对非字符串型和非布尔型数据做类别特征分析,以及,避免对非整型、非长整型、非浮点型和非双精度型数据做统计特征分析,优选的是,类别特征分析和统计特征分析在确定出目标数据集的列数据的目标基础类型之后执行。另外,质量特征分析针对全部类型的数据,因此,质量特征分析可以在确定出目标数据集的列数据的数据类型之后执行,或者,也可以在确定出目标数据集的列数据的数据类型之前执行,或者,还可以在执行确定目标数据集的列数据的数据类型的步骤同时,执行质量特征分析,本发明对此不作限定。
需要说明的是,推断目标数据集的列数据的数据类型以及分析该列数据的特征信息,其目标是得到目标数据集的列数据对应的元数据,以便为用户提供元数据服务。因此,在得到目标数据集的列数据的目标列基本信息和特征信息后,还需要执行:根据所述目标数据集的列数据的所述目标列基本信息以及所述特征信息,得到所述目标数据集的列数据对应的元数据。
结合上述实施例,本发明实施例中利用预设的数据推断引擎对该目标数据集进行处理,其主要目地是为了确定出目标数据集的列数据的目标列基本信息,因此,为了实现快速准确地得到目标列基本信息,可选的是,在确定所述目标数据集的列数据对应的目标列基本信息之前,还需执行获取目标数据集的列数据的操作。
下面结合应用场景,针对于目标数据集的列数据的获取提供了两种可行方式,具体如下:
在一个具体实施例中,目标数据集是基于文件类型数据源创建的数据集,在得到目标数据集后,数据处理系统可以识别目标数据集中的列分隔符和行分隔符,从而利用列分隔符和行分隔符,自动识别出目标数据集中的列数据,以得到列数据。
在另一个具体实施中,目标数据集是基于数据库类型数据源创建的数据集,数据在数据库中是以表的形式进行存储的,因此,对于基于数据库类型数据源创建的数据集,数据处理系统可以直接从目标数据集中得到列数据。
可选的是,为了保证得到的目标列基本信息的精确度,本发明提出基于目标数据集的全量数据来确定目标数据集的列数据对应的目标列基本信息的思路,并且在该思路的引导下,本发明给出一种可行方式,具体为,在实现获取目标数据集的列数据时需要执行以下操作:获取目标数据集中所有数据的列数据,得到所述目标数据集的列数据;如此便可以基于预设的数据推断引擎,对目标数据集中的所有列数据进行推断,进而在一定程度上保证得到的列数据对应的目标列基本信息的精确度。
可选的是,为了提高确定目标数据集的列数据对应的目标列基本信息的处理速度,减少用户等待时间,本发明提出一种可行方式,包括:基于预设采样策略,对目标数据集进行采样处理,并基于采样处理得到的采样数据,确定目标数据集的列数据对应的目标列基本信息。上述方法具体实现过程为:基于预设采样策略,从所述目标数据集中获取部分数据,获取所述部分数据的列数据;以该部分数据的列数据作为用于推断目标列基本信息的列数据,然后,基于该预设的数据推断引擎,对该部分数据的列数据进行目标列基本信息推断,从而得到目标数据集的列数据对应的目标列基本信息。
上述实施例中,预设采样策略可以包括但不限于:选取数据集的前N行、随机选取N行、随机选取X%行、分层采样选取N行、分层采样选取X%行等。其中,分层采样方法也称类型采样法,分层采样是从一个可以按照某种分类方式将一个整体分成至少两个不同层(或不同类别)的总数据集中,按规定的抽样比例从不同层中随机抽取样品(个体)的方法。这种采样方式,能够保证抽出的样品相对全面,也即保证抽取的样品能够包含指定一个列的所有可能取值类别。通过分层采样方法得到的样品,其样品的代表性比较好,且采样误差小,本发明优选地是以分层采样方法作为预设采样策略。
具体的,若预设采样策略为分层采样,该基于预设采样策略,对所述目标数据集进行采样处理包括:基于检测到的用于设置分层采样策略的用户操作,确定分层采样基准列;基于所述分层采样基准列的取值,将所述目标数据集分成多个子集;基于各个子集对应的指定采样比例,分别从所述各个子集中抽取数据,并基于从各个子集中抽取的数据,确定采样数据。其中,分层采样一般需要指定一个列作为分层的依据,上述基于用户操作确定出的分层采样基准列为分层采样的分层依据。例如,以目标数据为客户数据集为例,具体阐述分层采样。假设该客户数据集中包括A,B,C这3列数据,其中,A列包括男和女两种取值,基于用户操作确定A列为分层基准列,即以A列作为分层依据,该客户数据集被分成两层,一层为A列取值为男的子集a1,另一层为A列取值为女的子集a2;然后,按规定的抽样比例分别从子集a1和子集a2中抽出样品。这里需要说明的是,规定的抽样比例可以为数据处理系统默认的1:1比例,或者,还可以是用户设定,本发明对此不作具体限定。
其中,采样数目N可以为数据处理系统默认值,或者,也可以为用户设置的值;采样数目X为用户设置的值。本发明实施例中优选地是,采样数目N为1000行。
这里需要说明的是,N和X的取值越大,利用该采样处理后的数据推断出的列基本信息越准确,也即确定出的目标列基本信息越准确,因此,用户在设置采样数据N或X时,可以根据目标数据集的实际数据量、数据分布、数据处理系统的硬件资源以及对得到的目标列基本信息准确度要求等条件来设置。
例如,当用户选择利用采样处理后的数据推断列基本信息,以确定出目标列基本信息时,数据处理系统显示采样策略编辑界面,该采样策略编辑界面包括【采样方法】选择控件以及【采样数目】设置控件,用户通过鼠标、键盘或者触控屏等外部输入设备操作【采样方法】选择控件时,触发数据处理系统该采样策略编辑界面的指定区域显示采样方法列表,数据处理系统通过检测用户通过单击或双击等方式针对该采样方法列表的操作,以选择一种采样方法,并显示该选择出的采样方法;用户通过操作【采样数目】设置控件,设置采样数据,数据处理系统通过检测用户针对于【采样数目】设置控件的操作,为当前选择的采样方法配置采样数目。
本发明提供了另一种数据处理方法,其流程图如图4所示,该方法包括:
201,检测作用于数据集界面的第一输入信息,得到目标数据集。
202,基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,所述目标列基本信息至少包括数据类型。
其中,所述数据类型包括目标基础类型和目标业务类型。
具体的,基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息包括:基于所述目标数据集的全量数据,确定所述目标数据集的列数据对应的目标列基本信息;或者,基于预设采样策略,对所述目标数据集进行采样处理,然后,基于采样处理得到的采样数据,确定所述目标数据集的列数据对应的目标列基本信息。
本发明中,可选的是,步骤202基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,具体包括:获取所述目标数据集的列数据中每个值对应的取值特征;将所述每个值对应的取值特征与一候选业务类型的基准取值特征进行匹配,得到匹配结果;统计所述匹配结果中匹配成功的取值特征量;若所述匹配成功的取值特征数量大于或等于阈值,确定所述候选业务类型为所述目标数据集的列数据的目标业务类型。
本发明中,可选的是,在实现步骤202过程中,在执行将所述每个值对应的取值特征与一候选业务类型的基准取值特征进行匹配,得到匹配结果之前,还需执行:根据所述目标数据集的列数据的目标基础类型,从预存的业务类型中筛选出至少一个与所述目标基础类型匹配的候选业务类型。
本发明中,可选的是,步骤202基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,包括:基于预先建立的多分类模型推断所述目标数据集的列数据的目标业务类型。
具体的,所述基于预先建立的多分类模型推断所述目标数据集的列数据的目标业务类型,包括:在得到所述目标数据集的列数据的目标基础类型后,将所述目标数据集的列数据以及所述目标基础类型处理为特征向量;将所述特征向量输入所述预先建立的多分类模型,推断所述目标数据集的列数据的目标业务类型。
本发明中,可选的是,在实现基于预先建立的多分类模型推断所述目标数据集的列数据的目标业务类型之前,该方法还包括:获取训练样本数据,所述训练样本数据包括:待训练列数据、待训练列数据的基础类型以及所述待训练列数据对应的业务类型标签;获取至少两个训练模型,其中,各训练模型包含的算法不同;针对每一所述训练模型,根据输入的所述待训练列数据和所述待训练列数据的基础类型,对所述训练模型进行训练;比较训练模型输出的业务类型和所述训练样本的业务类型标签,得到比较结果;当所述比较结果满足预设条件时,获取训练完成的训练模型;对所述训练完成的训练模型进行评估,得到评估结果;比较至少两个训练完成的训练模型的评估结果,选择一训练完成的训练模型作为所述多分类模型。
本发明中,可选的是,步骤202基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,还包括:基于预设顺序,依次调用预先构造的各基础类型对应的类型推断函数;基于调用的类型推断函数,确定所述目标数据集的列数据对应的目标基础类型。
本发明中,可选的是,若所述目标数据集为基于数据库来源创建的数据集,步骤202基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,包括:从所述数据库中获取所述目标数据集的列数据的列基本信息,其中,所述数据库中的列基本信息至少包括所述目标数据集的列数据在所述数据库中的第一基础类型;基于预设的第一基础类型与目标基础类型的映射关系,根据所述数据库中的第一基础类型,确定所述目标数据集的列数据的目标基础类型。
本发明中,可选的是,在步骤201检测作用于数据集界面的第一输入信息,得到目标数据集之后,所述方法还包括:显示数据集信息设置界面,所述数据集信息设置界面至少包括列名设置控件;检测针对于所述列名设置控件的操作信息;基于检测到的针对于所述列名设置控件的操作信息,获取所述目标数据集的列名;其中,所述列名设置控件的操作信息用于指示所述目标数据集的列名获取方式。
其中,所述目标数据集的列名获取方式包括:获取所述目标数据集的第一行每列的取值,并将所述第一行每列的取值确定为每列对应的列名;或者,根据数据处理系统默认配置,获取每列对应的列名。
本发明中,可选的是,在步骤201检测作用于数据集界面的第一输入信息,得到目标数据集之后,所述方法还包括:对所述目标数据集的列数据进行特征分析,得到所述目标数据集的列数据的特征信息。
其中,所述特征分析下述至少之一包括:质量特征分析、类别特征分析和统计特征分析。
还需要说明的是,上述实施例中所有关于目标数据集的处理描述均适用于本实施例中,在此不再赘述。
需要说明的是,本发明实施例中,通过预设的数据推断引擎度自动地推断出目标数据集的数据类型,减少降低人工确定目标数据集的数据类型的错误率,并且降低人工成本。
需要说明的是,上述的实现方式中,关于元数据服务的实施例可以与数据类型推断的实施例适应性结合,也就是说,关于元数据服务的实施例可以应用于数据类型推断的实施例中,数据类型推断的实施例也可以应用于关于元数据服务的实施例中。
本发明实施例提供了一种数据处理系统,如图5所示,该数据处理系统包括:接收模块31,用于检测作用于数据集界面的第一输入信息,得到目标数据集;第一显示模块32,用于显示所述目标数据集对应的元数据的元数据服务界面,并接收对元数据服务界面的管理操作;第一处理模块33,用于响应于所述管理操作,输出与所述管理操作对应的处理结果。
其中,所述元数据包括所述列数据的目标列基本信息和/或特征信息。
其中,所述管理操作包括下述至少之一:删除管理操作,查询管理操作,编辑管理操作。
本发明中,可选的是,若该管理操作为用于查询所述元数据中的目标列基本信息的查询管理操作,所述第一处理模块33包括:第一处理单元,用于响应于所述用于查询所述元数据中的目标列基本信息的查询管理操作,输出所述元数据中的目标列基本信息。
其中,所述目标列基本信息包括:列名和/或数据类型。
本发明中,可选的是,若该管理操作为用于查询所述元数据中的特征信息的查询管理操作,所述第一处理模块33包括:第二处理单元,用于响应于所述用于查询所述元数据中的特征信息的查询管理操作,显示所述元数据中的特征信息。
其中,所述特征信息包括下述至少之一:质量特征信息、统计特征信息和类别特征信息。
本发明中,可选的是,若该管理操作为用于删除所述元数据的删除管理操作,所述第一处理模块33包括:第三处理单元,用于响应于所述用于删除所述元数据的删除管理操作,删除所述元数据,并显示删除操作结果。
本发明中,可选的是,所述删除所述元数据包括:删除所述目标数据集的全部元数据;或者,删除所述目标数据集的部分元数据。
本发明中,可选的是,若该管理操作为用于编辑所述元数据的编辑管理操作,所述第一处理模块33包括:第四处理单元,用于响应于所述用于编辑所述元数据的编辑管理操作,更新所述元数据的目标列基本信息,并输出更新后的元数据。
本发明中,可选的是,所述系统还包括:确定模块(图5中未示出),用于基于所述目标数据集对应的元数据,确定所述目标数据集是否满足预设数据集应用条件;修正模块(图5中未示出),用于若确定为否,基于所述目标数据集对应的元数据,对所述目标数据集进行修正。
本发明中,可选的是,所述数据处理系统还包括:第二处理模块(图5中未示出),用于基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,所述目标列基本信息至少包括数据类型;其中,所述数据类型包括目标基础类型和目标业务类型。
本发明中,可选的是,所述第二处理模块包括,包括:第一获取单元,用于获取所述目标数据集的列数据中每个值对应的取值特征;匹配单元,用于将所述每个值对应的取值特征与一候选业务类型的基准取值特征进行匹配,得到匹配结果;统计单元,用于统计所述匹配结果中匹配成功的取值特征数量;第一确定单元,用于若所述匹配成功的取值特征数量满大于或等于阈值,确定所述候选业务类型为所述目标数据集的列数据的目标业务类型。
本发明中,可选的是,所述第二处理模块还包括:第二获取单元,用于根据所述目标数据集的列数据的目标基础类型,从预存的业务类型中筛选出至少一个与所述目标基础类型匹配的候选业务类型。
本发明中,可选的是,所述第二处理模块还包括:第五处理单元,用于基于预先建立的多分类模型推断所述目标数据集的列数据的目标业务类型。
本发明中,可选的是,所述第五处理单元,还用于:在得到所述目标数据集的列数据的目标基础类型后,将所述目标数据集的列数据以及所述目标基础类型处理为特征向量;以及,将所述特征向量输入所述预先建立的多分类模型,推断所述目标数据集的列数据的目标业务类型。
本发明中,可选的是,所述第二处理模块还包括:第三获取单元,用于获取训练样本数据,所述训练样本数据包括:待训练列数据、所述待训练列数据的基础类型以及所述待训练列数据对应的业务类型标签;第四获取单元,用于获取至少两个训练模型,其中,各训练模型包含的算法不同;训练单元,用于针对每一所述训练模型,根据输入的所述待训练列数据和所述待训练列数据的基础类型,对所述训练模型进行训练;比较单元,用于比较训练模型输出的业务类型和所述训练样本的业务类型标签,得到比较结果;第五获取单元,用于当所述比较结果满足预设条件时,获取训练完成的训练模型;评估单元,用于对所述训练完成的训练模型进行评估,得到评估结果;选择单元,用于比较至少两个训练完成的训练模型的评估结果,选择一训练完成的训练模型作为所述多分类模型。
本发明中,可选的是,所述第二处理模块还包括:调用单元,用于基于预设顺序,依次调用预先构造的各基础类型对应的类型推断函数;第二确定单元,用于基于调用的类型推断函数,确定所述目标数据集的列数据对应的目标基础类型。
本发明中,可选的是,若所述目标数据集为基于数据库来源创建的数据集,所述第二处理模块还包括:第六获取单元,用于从所述数据库中获取所述目标数据集的列数据的列基本信息,其中,所述数据库中的列基本信息至少包括所述目标数据集的列数据在所述数据库中的第一基础类型;第三确定单元,用于基于预设的第一基础类型与目标基础类型的映射关系,根据所述数据库中的第一基础类型,确定所述目标数据集的列数据的目标基础类型。
本发明中,可选的是,所述数据处理系统还包括:第二显示模块(图5中未示出),用于显示数据集信息设置界面,所述数据集信息设置界面至少包括列名设置控件;检测模块(图5中未示出),用于检测针对于所述列名设置控件的操作信息;获取模块(图5中未示出),用于基于检测到的针对于所述列名设置控件的操作信息,获取所述目标数据集的列名;其中,所述列名设置控件的操作信息用于指示所述目标数据集的列名获取方式。
本发明中,可选的是,所述目标数据集的列名获取方式包括:获取所述目标数据集的第一行每列的取值,并将所述第一行每列的取值确定为每列对应的列名;或者,根据数据处理系统默认配置,获取每列对应的列名。
本发明中,可选的是,所述数据处理系统还包括:分析模块(图5中未示出),用于对所述目标数据集的列数据进行特征分析,得到所述目标数据集的列数据的特征信息。
其中,所述特征分析包括下述至少之一:质量特征分析、类别特征分析和统计特征分析。
本发明中,可选的是,所述第二处理模块包括:第四确定单元,用于基于所述目标数据集的全量数据,确定所述目标数据集的列数据对应的目标列基本信息;或者,采样单元,用于基于预设采样策略,对所述目标数据集进行采样处理;以及,基于采样处理得到的采样数据,确定所述目标数据集的列数据对应的目标列基本信息。
由于本发明实施例中的各模块能够执行上述图1-图3所示的数据处理方法,本发明实施例未详细描述的部分,可参考对图1-图3所示的数据处理方法的相关说明。
本发明实施例提供了另一种数据处理系统,如图6所示,所述数据处理系统包括:接收模块41,用于检测作用于数据集界面的第一输入信息,得到目标数据集;处理模块42,用于基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,所述目标列基本信息至少包括数据类型;其中,所述数据类型包括目标基础类型和目标业务类型。
本发明中,可选的是,所述处理模块42包括:第一获取单元,用于获取所述目标数据集的列数据中每个值对应的取值特征;匹配单元,用于将所述每个值对应的取值特征与一候选业务类型的基准取值特征进行匹配,得到匹配结果;统计单元,用于统计所述匹配结果中匹配成功的取值特征数量;第一确定单元,用于若所述匹配成功的取值特征数量大于或等于阈值,确定所述候选业务类型为所述目标数据集的列数据的目标业务类型。
本发明中,可选的是,所述处理模块52还包括:第二获取单元,用于根据所述目标数据集的列数据的目标基础类型,从预存的业务类型中筛选出至少一个与所述目标基础类型匹配的候选业务类型。
本发明中,可选的是,所述处理模块42还包括:第一处理单元,用于基于预先建立的多分类模型推断所述目标数据集的列数据的目标业务类型。
本发明中,可选的是,所述第一处理单元还用于:在得到所述目标数据集的列数据的目标基础类型后,将所述目标数据集的列数据以及所述目标基础类型处理为特征向量;以及,将所述特征向量输入所述预先建立的多分类模型,推断所述目标数据集的列数据的目标业务类型。
本发明中,可选的是,所述处理模块42还包括:第三获取单元,用于获取训练样本数据,所述训练样本数据包括:待训练列数据、所述待训练列数据的基础类型以及所述待训练列数据对应的业务类型标签;第四获取单元,用于获取至少两个训练模型,其中,各训练模型包含的算法不同;训练单元,用于针对每一所述训练模型,根据输入的所述待训练列数据和所述待训练列数据的基础类型,对所述训练模型进行训练;比较单元,用于比较训练模型输出的业务类型和所述训练样本的业务类型标签,得到比较结果;第五获取单元,用于当所述比较结果满足预设条件时,获取训练完成的训练模型;评估单元,用于对所述训练完成的训练模型进行评估,得到评估结果;选择单元,用于比较至少两个训练完成的训练模型的评估结果,选择一训练完成的训练模型作为所述多分类模型。
本发明中,可选的是,所述处理模块42还包括:调用单元,用于基于预设顺序,依次调用预先构造的各基础类型对应的类型推断函数;第二确定单元,用于基于调用的类型推断函数,确定所述目标数据集的列数据对应的目标基础类型。
本发明中,若所述目标数据集为基于数据库来源创建的数据集,可选的是,第六获取单元,用于从所述数据库中获取所述目标数据集的列数据的列基本信息,其中,所述数据库中的列基本信息至少包括所述目标数据集的列数据在所述数据库中的第一基础类型;第三确定单元,用于基于预设的第一基础类型与目标基础类型的映射关系,根据所述数据库中的第一基础类型,确定所述目标数据集的列数据的目标基础类型。
本发明中,可选的是,所述数据处理系统还包括:显示模块(图6中未示出),用于显示数据集信息设置界面,所述数据集信息设置界面至少包括列名设置控件;检测模块(图6中未示出),用于检测针对于所述列名设置控件的操作信息;获取模块(图6中未示出),用于基于检测到的针对于所述列名设置控件的操作信息,获取所述目标数据集的列名;其中,所述列名设置控件的操作信息用于指示所述目标数据集的列名获取方式。
本发明中,可选的是,所述目标数据集的列名获取方式包括:获取所述目标数据集的第一行每列的取值,并将所述第一行每列的取值确定为每列对应的列名;或者,根据数据处理系统默认配置,获取每列对应的列名。
本发明中,可选的是,所述数据处理系统还包括:分析模块(图6中未示出),用于对所述目标数据集的列数据进行特征分析,得到所述目标数据集的列数据的特征信息。
其中,所述特征分析包括下述至少之一:质量特征分析、类别特征分析和统计特征分析。
本发明中,可选的是,所述处理模块42包括:第四确定单元,用于基于所述目标数据集的全量数据,确定所述目标数据集的列数据对应的目标列基本信息;或者,采样单元,用于基于预设采样策略,对所述目标数据集进行采样处理;以及,基于采样处理得到的采样数据,确定所述目标数据集的列数据对应的目标列基本信息。
由于本发明实施例中的各模块能够执行上述图4所示的数据处理方法,本发明实施例未详细描述的部分,可参考对图4所示的数据处理方法的相关说明。
本发明提供了一种数据处理系统,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时上述任一项所述的数据处理方法的步骤。
本发明提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时上述任一项所述的数据处理方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (70)

1.一种数据处理方法,其特征在于,所述方法包括:
检测作用于数据集界面的第一输入信息,得到目标数据集;
基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,所述目标列基本信息至少包括数据类型;其中,所述数据类型包括目标基础类型和目标业务类型;
显示所述目标数据集对应的元数据的元数据服务界面,并接收对元数据服务界面的管理操作;其中,所述元数据包括所述目标数据集的列数据的目标列基本信息;
响应于所述管理操作,输出与所述管理操作对应的处理结果;
其中,所述基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息包括:
基于预设的业务类型的取值规则,推断目标业务类型;和/或,
基于预先建立的多分类模型推断所述目标数据集的列数据的目标业务类型。
2.根据权利要求1所述的方法,其特征在于,所述元数据还包括所述目标数据集的列数据的特征信息。
3.根据权利要求1所述的方法,其特征在于,所述管理操作包括下述至少之一:删除管理操作,查询管理操作,编辑管理操作。
4.根据权利要求3所述的方法,其特征在于,若所述管理操作为用于查询所述元数据中的目标列基本信息的查询管理操作,所述响应于所述管理操作,输出与所述管理操作对应的处理结果包括:
响应于所述用于查询所述元数据中的目标列基本信息的查询管理操作,输出所述元数据中的目标列基本信息。
5.根据权利要求2所述的方法,其特征在于,所述目标列基本信息还包括:列名。
6.根据权利要求3所述的方法,其特征在于,若所述管理操作为用于查询所述元数据中的特征信息的查询管理操作,所述响应于所述管理操作,输出与所述管理操作对应的处理结果包括:
响应于所述用于查询所述元数据中的特征信息的查询管理操作,显示所述元数据中的特征信息。
7.根据权利要求2所述的方法,其特征在于,所述特征信息包括下述至少之一:质量特征信息、统计特征信息和类别特征信息。
8.根据权利要求3所述的方法,其特征在于,若所述管理操作为用于删除所述元数据的删除管理操作,所述响应于所述管理操作,输出与所述管理操作对应的处理结果包括:
响应于所述用于删除所述元数据的删除管理操作,删除所述元数据,并显示删除操作结果。
9.根据权利要求8所述的方法,其特征在于,所述删除所述元数据包括:
删除所述目标数据集的全部元数据;或者,
删除所述目标数据集的部分元数据。
10.根据权利要求3所述的方法,其特征在于,若所述管理操作为用于编辑所述元数据的编辑管理操作,所述响应于所述管理操作,输出与所述管理操作对应的处理结果包括:
响应于所述用于编辑所述元数据的编辑管理操作,更新所述元数据的目标列基本信息,并输出更新后的元数据。
11.根据权利要求1至10任一项所述的方法,其特征在于,所述方法还包括:
基于所述目标数据集对应的元数据,确定所述目标数据集是否满足预设数据集应用条件;
若不满足,基于所述目标数据集对应的元数据,对所述目标数据集进行修正。
12.根据权利要求1所述的方法,其特征在于,所述基于预设的业务类型的取值规则,推断目标业务类型具体包括:
获取所述目标数据集的列数据中每个值对应的取值特征;
将所述每个值对应的取值特征与一候选业务类型的基准取值特征进行匹配,得到匹配结果;
统计所述匹配结果中匹配成功的取值特征数量比例;
若所述匹配成功的取值特征数量比例大于或等于阈值,确定所述候选业务类型为所述目标数据集的列数据的目标业务类型。
13.根据权利要求12所述的方法,其特征在于,在将所述每个值对应的取值特征与一候选业务类型的基准取值特征进行匹配,得到匹配结果之前,所述方法还包括:
根据所述目标数据集的列数据的目标基础类型,从预存的业务类型中筛选出至少一个与所述目标基础类型匹配的候选业务类型。
14.根据权利要求1所述的方法,其特征在于,所述基于预先建立的多分类模型推断所述目标数据集的列数据的目标业务类型,包括:
在得到所述目标数据集的列数据的目标基础类型后,将所述目标数据集的列数据以及所述目标基础类型处理为特征向量;
将所述特征向量输入所述预先建立的多分类模型,推断所述目标数据集的列数据的目标业务类型。
15.根据权利要求1所述的方法,其特征在于,在所述基于预先建立的多分类模型推断所述目标数据集的
列数据的目标业务类型之前,所述方法还包括:
获取训练样本数据,所述训练样本数据包括:待训练列数据、所述待训练列数据的基础类型以及所述待训练列数据对应的业务类型标签;
获取至少两个训练模型,其中,各训练模型包含的算法不同;
针对每一所述训练模型,根据输入的所述待训练列数据和所述待训练列数据的基础类型,对所述训练模型进行训练;
比较训练模型输出的业务类型和所述训练样本的业务类型标签,得到比较结果;
当所述比较结果满足预设条件时,获取训练完成的训练模型;
对所述训练完成的训练模型进行评估,得到评估结果;
比较至少两个训练完成的训练模型的评估结果,选择一训练完成的训练模型作为所述多分类模型。
16.根据权利要求1所述的方法,其特征在于,所述基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,包括:
基于预设顺序,依次调用预先构造的各基础类型对应的类型推断函数;
基于调用的类型推断函数,确定所述目标数据集的列数据对应的目标基础类型。
17.根据权利要求1所述的方法,其特征在于,若所述目标数据集为基于数据库来源创建的数据集,所述基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,包括:
从所述数据库中获取所述目标数据集的列数据的列基本信息,其中,所述数据库中的列基本信息至少包括所述目标数据集的列数据在所述数据库中的第一基础类型;
基于预设的第一基础类型与目标基础类型的映射关系,根据所述数据库中的第一基础类型,确定所述目标数据集的列数据的目标基础类型。
18.根据权利要求1所述的方法,其特征在于,在所述检测作用于数据集界面的第一输入信息,得到目标数据集之后,所述方法还包括:
显示数据集信息设置界面,所述数据集信息设置界面至少包括列名设置控件;
检测针对于所述列名设置控件的操作信息;
基于检测到的针对于所述列名设置控件的操作信息,获取所述目标数据集的列名;
其中,所述列名设置控件的操作信息用于指示所述目标数据集的列名获取方式。
19.根据权利要求18所述的方法,其特征在于,所述目标数据集的列名获取方式包括:
获取所述目标数据集的第一行每列的取值,并将所述第一行每列的取值确定为每列对应的列名;或者,
根据系统默认配置,获取每列对应的列名。
20.根据权利要求1所述的方法,其特征在于,在所述检测作用于数据集界面的第一输入信息,得到目标数据集之后,所述方法还包括:
对所述目标数据集的列数据进行特征分析,得到所述目标数据集的列数据的特征信息。
21.根据权利要求20所述的方法,其特征在于,所述特征分析包括下述至少之一:质量特征分析、类别特征分析和统计特征分析。
22.根据权利要求1所述的方法,其特征在于,所述基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息包括:
基于所述目标数据集的全量数据,确定所述目标数据集的列数据对应的目标列基本信息;
或者,
基于预设采样策略,对所述目标数据集进行采样处理;
基于采样处理得到的采样数据,确定所述目标数据集的列数据对应的目标列基本信息。
23.一种数据处理方法,其特征在于,所述方法包括:
检测作用于数据集界面的第一输入信息,得到目标数据集;
基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,所述目标列基本信息至少包括数据类型;
其中,所述数据类型包括目标基础类型和目标业务类型;
其中,所述基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息包括:
基于预设的业务类型的取值规则,推断目标业务类型;和/或,
基于预先建立的多分类模型推断所述目标数据集的列数据的目标业务类型。
24.根据权利要求23所述的方法,其特征在于,所述基于预设的业务类型的取值规则,推断目标业务类型,包括:
获取所述目标数据集的列数据中每个值对应的取值特征;
将所述每个值对应的取值特征与一候选业务类型的基准取值特征进行匹配,得到匹配结果;
统计所述匹配结果中匹配成功的取值特征数量比例;
若所述匹配成功的取值特征数量比例大于或等于阈值,确定所述候选业务类型为所述目标数据集的列数据的目标业务类型。
25.根据权利要求24所述的方法,其特征在于,在将所述每个值对应的取值特征与一候选业务类型的基准取值特征进行匹配,得到匹配结果之前,所述方法还包括:
根据所述目标数据集的列数据的目标基础类型,从预存的业务类型中筛选出至少一个与所述目标基础类型匹配的候选业务类型。
26.根据权利要求23所述的方法,其特征在于,所述基于预先建立的多分类模型推断所述目标数据集的列数据的目标业务类型,包括:
在得到所述目标数据集的列数据的目标基础类型后,将所述目标数据集的列数据以及所述目标基础类型处理为特征向量;
将所述特征向量输入所述预先建立的多分类模型,推断所述目标数据集的列数据的目标业务类型。
27.根据权利要求23所述的方法,其特征在于,在所述基于预先建立的多分类模型推断所述目标数据集的列数据的目标业务类型之前,所述方法还包括:
获取训练样本数据,所述训练样本数据包括:待训练列数据、所述待训练列数据的基础类型以及所述待训练列数据对应的业务类型标签;
获取至少两个训练模型,其中,各训练模型包含的算法不同;
针对每一所述训练模型,根据输入的所述待训练列数据和所述待训练列数据的基础类型,对所述训练模型进行训练;
比较训练模型输出的业务类型和所述训练样本的业务类型标签,得到比较结果;
当所述比较结果满足预设条件时,获取训练完成的训练模型;
对所述训练完成的训练模型进行评估,得到评估结果;
比较至少两个训练完成的训练模型的评估结果,选择一训练完成的训练模型作为所述多分类模型。
28.根据权利要求23所述的方法,其特征在于,所述基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,包括:
基于预设顺序,依次调用预先构造的各基础类型对应的类型推断函数;
基于调用的类型推断函数,确定所述目标数据集的列数据对应的目标基础类型。
29.根据权利要求23所述的方法,其特征在于,若所述目标数据集为基于数据库来源创建的数据集,所述基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,包括:
从所述数据库中获取所述目标数据集的列数据的列基本信息,其中,所述数据库中的列基本信息至少包括所述目标数据集的列数据在所述数据库中的第一基础类型;
基于预设的第一基础类型与目标基础类型的映射关系,根据所述数据库中的第一基础类型,确定所述目标数据集的列数据的目标基础类型。
30.根据权利要求23所述的方法,其特征在于,在所述检测作用于数据集界面的第一输入信息,得到目标数据集之后,所述方法还包括:
显示数据集信息设置界面,所述数据集信息设置界面至少包括列名设置控件;
检测针对于所述列名设置控件的操作信息;
基于检测到的针对于所述列名设置控件的操作信息,获取所述目标数据集的列名;
其中,所述列名设置控件的操作信息用于指示所述目标数据集的列名获取方式。
31.根据权利要求30所述的方法,其特征在于,所述目标数据集的列名获取方式包括:
获取所述目标数据集的第一行每列的取值,并将所述第一行每列的取值确定为每列对应的列名;或者,
根据系统默认配置,获取每列对应的列名。
32.根据权利要求23所述的方法,其特征在于,在所述检测作用于数据集界面的第一输入信息,得到目标数据集之后,所述方法还包括:
对所述目标数据集的列数据进行特征分析,得到所述目标数据集的列数据的特征信息。
33.根据权利要求32所述的方法,其特征在于,所述特征分析包括下述至少之一:质量特征分析、类别特征分析和统计特征分析。
34.根据权利要求23所述的方法,其特征在于,所述基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息包括:
基于所述目标数据集的全量数据,确定所述目标数据集的列数据对应的目标列基本信息;
或者,
基于预设采样策略,对所述目标数据集进行采样处理;
基于采样处理得到的采样数据,确定所述目标数据集的列数据对应的目标列基本信息。
35.一种数据处理系统,其特征在于,所述系统包括:
接收模块,用于检测作用于数据集界面的第一输入信息,得到目标数据集;
第二处理模块,用于基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,所述目标列基本信息至少包括数据类型;其中,所述数据类型包括目标基础类型和目标业务类型;
第一显示模块,用于显示所述目标数据集对应的元数据的元数据服务界面,并接收对元数据服务界面的管理操作;其中,所述元数据包括所述目标数据集的列数据的目标列基本信息;
第一处理模块,用于响应于所述管理操作,输出与所述管理操作对应的处理结果;
所述第二处理模块具体用于基于预设的业务类型的取值规则,推断目标业务类型;和/或,所述第二处理模块中的第五处理单元,用于基于预先建立的多分类模型推断所述目标数据集的列数据的目标业务类型。
36.根据权利要求35所述的系统,其特征在于,所述元数据还包括所述目标数据集的列数据的特征信息。
37.根据权利要求35所述的系统,其特征在于,所述管理操作包括下述至少之一:删除管理操作,查询管理操作,编辑管理操作。
38.根据权利要求37所述的系统,其特征在于,若所述管理操作为用于查询所述元数据中的目标列基本信息的查询管理操作,所述第一处理模块包括:
第一处理单元,用于响应于所述用于查询所述元数据中的目标列基本信息的查询管理操作,输出所述元数据中的目标列基本信息。
39.根据权利要求36所述的系统,其特征在于,所述目标列基本信息还包括:列名。
40.根据权利要求37所述的系统,其特征在于,若所述管理操作为用于查询所述元数据中的特征信息的查询管理操作,所述第一处理模块包括:
第二处理单元,用于响应于所述用于查询所述元数据中的特征信息的查询管理操作,显示所述元数据中的特征信息。
41.根据权利要求36所述的系统,其特征在于,所述特征信息包括下述至少之一:质量特征信息、统计特征信息和类别特征信息。
42.根据权利要求37所述的系统,其特征在于,若所述管理操作为用于删除所述元数据的删除管理操作,所述第一处理模块包括:
第三处理单元,用于响应于所述用于删除所述元数据的删除管理操作,删除所述元数据,并显示删除操作结果。
43.根据权利要求42所述的系统,其特征在于,所述删除所述元数据包括:
删除所述目标数据集的全部元数据;或者,
删除所述目标数据集的部分元数据。
44.根据权利要求37所述的系统,其特征在于,若所述管理操作为用于编辑所述元数据的编辑管理操作,所述第一处理模块包括:
第四处理单元,用于响应于所述用于编辑所述元数据的编辑管理操作,更新所述元数据的目标列基本信息,并输出更新后的元数据。
45.根据权利要求35至44任一项所述的系统,其特征在于,所述系统还包括:
确定模块,用于基于所述目标数据集对应的元数据,确定所述目标数据集是否满足预设数据集应用条件;
修正模块,用于若不满足,基于所述目标数据集对应的元数据,对所述目标数据集进行修正。
46.根据权利要求35所述的系统,其特征在于,所述第二处理模块包括:
第一获取单元,用于获取所述目标数据集的列数据中每个值对应的取值特征;
匹配单元,用于将所述每个值对应的取值特征与一候选业务类型的基准取值特征进行匹配,得到匹配结果;
统计单元,用于统计所述匹配结果中匹配成功的取值特征数量比例;
第一确定单元,用于若所述匹配成功的取值特征数量比例大于或等于阈值,确定所述候选业务类型为所述目标数据集的列数据的目标业务类型。
47.根据权利要求46所述的系统,其特征在于,所述第二处理模块还包括:
第二获取单元,用于根据所述目标数据集的列数据的目标基础类型,从预存的业务类型中筛选出至少一个与所述目标基础类型匹配的候选业务类型。
48.根据权利要求35所述的系统,其特征在于,所述第五处理单元,还用于:在得到所述目标数据集的列数据的目标基础类型后,将所述目标数据集的列数据以及所述目标基础类型处理为特征向量;以及,将所述特征向量输入所述预先建立的多分类模型,推断所述目标数据集的列数据的目标业务类型。
49.根据权利要求35所述的系统,其特征在于,所述第二处理模块还包括:
第三获取单元,用于获取训练样本数据,所述训练样本数据包括:待训练列数据、所述待训练列数据的基础类型以及所述待训练列数据对应的业务类型标签;
第四获取单元,用于获取至少两个训练模型,其中,各训练模型包含的算法不同;
训练单元,用于针对每一所述训练模型,根据输入的所述待训练列数据和所述待训练列数据的基础类型,对所述训练模型进行训练;
比较单元,用于比较训练模型输出的业务类型和所述训练样本的业务类型标签,得到比较结果;
第五获取单元,用于当所述比较结果满足预设条件时,获取训练完成的训练模型;
评估单元,用于对所述训练完成的训练模型进行评估,得到评估结果;
选择单元,用于比较至少两个训练完成的训练模型的评估结果,选择一训练完成的训练模型作为所述多分类模型。
50.根据权利要求35所述的系统,其特征在于,所述第二处理模块还包括:
调用单元,用于基于预设顺序,依次调用预先构造的各基础类型对应的类型推断函数;
第二确定单元,用于基于调用的类型推断函数,确定所述目标数据集的列数据对应的目标基础类型。
51.根据权利要求35所述的系统,其特征在于,若所述目标数据集为基于数据库来源创建的数据集,所述第二处理模块还包括:
第六获取单元,用于从所述数据库中获取所述目标数据集的列数据的列基本信息,其中,所述数据库中的列基本信息至少包括所述目标数据集的列数据在所述数据库中的第一基础类型;
第三确定单元,用于基于预设的第一基础类型与目标基础类型的映射关系,根据所述数据库中的第一基础类型,确定所述目标数据集的列数据的目标基础类型。
52.根据权利要求35所述的系统,其特征在于,所述系统还包括:
第二显示模块,用于显示数据集信息设置界面,所述数据集信息设置界面至少包括列名设置控件;
检测模块,用于检测针对于所述列名设置控件的操作信息;
获取模块,用于基于检测到的针对于所述列名设置控件的操作信息,获取所述目标数据集的列名;
其中,所述列名设置控件的操作信息用于指示所述目标数据集的列名获取方式。
53.根据权利要求52所述的系统,其特征在于,所述目标数据集的列名获取方式包括:
获取所述目标数据集的第一行每列的取值,并将所述第一行每列的取值确定为每列对应的列名;或者,
根据系统默认配置,获取每列对应的列名。
54.根据权利要求35所述的系统,其特征在于,所述系统还包括:
分析模块,用于对所述目标数据集的列数据进行特征分析,得到所述目标数据集的列数据的特征信息。
55.根据权利要求54所述的系统,其特征在于,所述特征分析包括下述至少之一:质量特征分析、类别特征分析和统计特征分析。
56.根据权利要求35所述的系统,其特征在于,所述第二处理模块包括:
第四确定单元,用于基于所述目标数据集的全量数据,确定所述目标数据集的列数据对应的目标列基本信息;
或者,
采样单元,用于基于预设采样策略,对所述目标数据集进行采样处理;以及,基于采样处理得到的采样数据,确定所述目标数据集的列数据对应的目标列基本信息。
57.一种数据处理系统,其特征在于,所述系统包括:
接收模块,用于检测作用于数据集界面的第一输入信息,得到目标数据集;
处理模块,用于基于预设的数据推断引擎,确定所述目标数据集的列数据对应的目标列基本信息,所述目标列基本信息至少包括数据类型;其中,所述数据类型包括目标基础类型和目标业务类型;
其中,所述处理模块具体用于基于预设的业务类型的取值规则,推断目标业务类型;和/或,所述处理模块中的第一处理单元,用于基于预先建立的多分类模型推断所述目标数据集的列数据的目标业务类型。
58.根据权利要求57所述的系统,其特征在于,所述处理模块,包括:
第一获取单元,用于获取所述目标数据集的列数据中每个值对应的取值特征;
匹配单元,用于将所述每个值对应的取值特征与一候选业务类型的基准取值特征进行匹配,得到匹配结果;
统计单元,用于统计所述匹配结果中匹配成功的取值特征数量比例;
第一确定单元,用于若所述匹配成功的取值特征数量比例大于或等于阈值,确定所述候选业务类型为所述目标数据集的列数据的目标业务类型。
59.根据权利要求58所述的系统,其特征在于,所述处理模块还包括:
第二获取单元,用于根据所述目标数据集的列数据的目标基础类型,从预存的业务类型中筛选出至少一个与所述目标基础类型匹配的候选业务类型。
60.根据权利要求57所述的系统,其特征在于,所述第一处理单元,还用于:在得到所述目标数据集的列数据的目标基础类型后,将所述目标数据集的列数据以及所述目标基础类型处理为特征向量;以及,将所述特征向量输入所述预先建立的多分类模型,推断所述目标数据集的列数据的目标业务类型。
61.根据权利要求57所述的系统,其特征在于,所述处理模块还包括:
第三获取单元,用于获取训练样本数据,所述训练样本数据包括:待训练列数据、所述待训练列数据的基础类型以及所述待训练列数据对应的业务类型标签;
第四获取单元,用于获取至少两个训练模型,其中,各训练模型包含的算法不同;
训练单元,用于针对每一所述训练模型,根据输入的所述待训练列数据和所述待训练列数据的基础类型,对所述训练模型进行训练;
比较单元,用于比较训练模型输出的业务类型和所述训练样本的业务类型标签,得到比较结果;
第五获取单元,用于当所述比较结果满足预设条件时,获取训练完成的训练模型;
评估单元,用于对所述训练完成的训练模型进行评估,得到评估结果;
选择单元,用于比较至少两个训练完成的训练模型的评估结果,选择一训练完成的训练模型作为所述多分类模型。
62.根据权利要求57所述的系统,其特征在于,所述处理模块还包括:
调用单元,用于基于预设顺序,依次调用预先构造的各基础类型对应的类型推断函数;
第二确定单元,用于基于调用的类型推断函数,确定所述目标数据集的列数据对应的目标基础类型。
63.根据权利要求57所述的系统,其特征在于,若所述目标数据集为基于数据库来源创建的数据集,所述处理模块还包括:
第六获取单元,用于从所述数据库中获取所述目标数据集的列数据的列基本信息,其中,所述数据库中的列基本信息至少包括所述目标数据集的列数据在所述数据库中的第一基础类型;
第三确定单元,用于基于预设的第一基础类型与目标基础类型的映射关系,根据所述数据库中的第一基础类型,确定所述目标数据集的列数据的目标基础类型。
64.根据权利要求57所述的系统,其特征在于,所述系统还包括:
显示模块,用于显示数据集信息设置界面,所述数据集信息设置界面至少包括列名设置控件;
检测模块,用于检测针对于所述列名设置控件的操作信息;
获取模块,用于基于检测到的针对于所述列名设置控件的操作信息,获取所述目标数据集的列名;
其中,所述列名设置控件的操作信息用于指示所述目标数据集的列名获取方式。
65.根据权利要求64所述的系统,其特征在于,所述目标数据集的列名获取方式包括:
获取所述目标数据集的第一行每列的取值,并将所述第一行每列的取值确定为每列对应的列名;或者,
根据系统默认配置,获取每列对应的列名。
66.根据权利要求57所述的系统,其特征在于,所述系统还包括:
分析模块,用于对所述目标数据集的列数据进行特征分析,得到所述目标数据集的列数据的特征信息。
67.根据权利要求66所述的系统,其特征在于,所述特征分析包括下述至少之一:质量特征分析、类别特征分析和统计特征分析。
68.根据权利要求57所述的系统,其特征在于,所述处理模块包括:
第四确定单元,用于基于所述目标数据集的全量数据,确定所述目标数据集的列数据对应的目标列基本信息;
或者,
采样单元,用于基于预设采样策略,对所述目标数据集进行采样处理;以及,基于采样处理得到的采样数据,确定所述目标数据集的列数据对应的目标列基本信息。
69.一种数据处理系统,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1至34中任一项所述的数据处理方法的步骤。
70.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至34中任一项所述的数据处理方法的步骤。
CN201910580266.0A 2019-06-28 2019-06-28 一种数据处理方法及系统 Active CN110287219B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910580266.0A CN110287219B (zh) 2019-06-28 2019-06-28 一种数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910580266.0A CN110287219B (zh) 2019-06-28 2019-06-28 一种数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN110287219A CN110287219A (zh) 2019-09-27
CN110287219B true CN110287219B (zh) 2020-04-07

Family

ID=68019841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910580266.0A Active CN110287219B (zh) 2019-06-28 2019-06-28 一种数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN110287219B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177200B (zh) * 2019-12-31 2021-05-11 北京九章云极科技有限公司 一种数据处理系统及方法
CN112182314B (zh) * 2020-09-30 2021-07-06 北京九章云极科技有限公司 一种数据处理方法和系统
CN113325981B (zh) * 2021-06-07 2023-09-01 上海传英信息技术有限公司 处理方法、移动终端及存储介质
CN113761005A (zh) * 2021-07-31 2021-12-07 浪潮电子信息产业股份有限公司 一种元数据配置方法、装置及电子设备和存储介质
CN114443118A (zh) * 2021-12-02 2022-05-06 北京快乐茄信息技术有限公司 一种样本表的修改方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908056A (zh) * 2009-06-03 2010-12-08 商业对象软件有限公司 从任意二维数据集中识别和抽象可视化点的设备和方法
CN103246733A (zh) * 2013-05-13 2013-08-14 浪潮集团山东通用软件有限公司 一种基于元数据的动态表单系统及其生成方法
CN104169899A (zh) * 2011-12-29 2014-11-26 电子湾有限公司 在电子设备之间传送状态的系统
CN105320690A (zh) * 2014-07-30 2016-02-10 北京中海纪元数字技术发展股份有限公司 一种基于元数据的统计表单快速生成方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2577552A4 (en) * 2010-06-02 2014-03-12 Hewlett Packard Development Co DYNAMIC MULTIDIMENSIONAL SCHEMES USED FOR MONITORING EVENTS
CN106933889B (zh) * 2015-12-31 2020-07-14 华为技术有限公司 用于筛选的规则的配置方法、显示方法和客户端
CN106250480A (zh) * 2016-08-01 2016-12-21 浪潮软件集团有限公司 一种基于元数据的可视化统计分析方法
GB201615748D0 (en) * 2016-09-15 2016-11-02 Gb Gas Holdings Ltd System for importing data into a data repository
CN109117440B (zh) * 2017-06-23 2021-06-22 中移动信息技术有限公司 一种元数据信息获取方法、系统和计算机可读存储介质
CN107807977B (zh) * 2017-10-26 2020-04-03 河海大学 一种基于配置的对象属性元数据抽取系统
CN109726244A (zh) * 2019-01-29 2019-05-07 北京中电普华信息技术有限公司 数据导入方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908056A (zh) * 2009-06-03 2010-12-08 商业对象软件有限公司 从任意二维数据集中识别和抽象可视化点的设备和方法
CN104169899A (zh) * 2011-12-29 2014-11-26 电子湾有限公司 在电子设备之间传送状态的系统
CN103246733A (zh) * 2013-05-13 2013-08-14 浪潮集团山东通用软件有限公司 一种基于元数据的动态表单系统及其生成方法
CN105320690A (zh) * 2014-07-30 2016-02-10 北京中海纪元数字技术发展股份有限公司 一种基于元数据的统计表单快速生成方法及系统

Also Published As

Publication number Publication date
CN110287219A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN110287219B (zh) 一种数据处理方法及系统
US12047340B2 (en) System for managing an instructure with security
US10803133B2 (en) System for decomposing events from managed infrastructures that includes a reference tool signalizer
CN112329843B (zh) 基于决策树的呼叫数据处理方法、装置、设备及存储介质
US10050910B2 (en) Application of neural nets to determine the probability of an event being causal
US10873508B2 (en) Modularity and similarity graphics system with monitoring policy
CN115641019A (zh) 指标异常分析方法、装置、计算机设备和存储介质
CN113297393A (zh) 基于态势感知和大数据的情报生成方法及信息安全系统
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
US20240202058A1 (en) Methods and systems for determining stopping point
CN114491108A (zh) 一种基于多源遥感应用数据的在线分类系统及方法
CN117829657A (zh) 航天器体系评估系统及评估方法
US12050969B2 (en) Integrating data quality analyses for modeling metrics
EP3846092A1 (en) Device and method for promoting eco-friendly actions and helping to achieve predetermined environmental goals
CN110955774B (zh) 基于词频分布的文字分类方法、装置、设备及介质
CN117194778A (zh) 基于属性图数据的预测规则生成方法、装置、设备及介质
US20190205195A1 (en) System for decomposing events from managed infrastructures with natural language processing
KR102353806B1 (ko) 그래프 데이터 베이스 기반 의사 결정 지원 방법 및 시스템
CN112989153B (zh) 数据处理方法、装置及计算机设备
CN115208938A (zh) 用户行为管控方法及装置、计算机可读存储介质
CN114495137A (zh) 票据异常检测模型生成方法与票据异常检测方法
CN112417304A (zh) 一种用于构建数据分析流程的数据分析服务推荐方法及系统
CN111209428A (zh) 图像检索方法、装置、设备及计算机可读存储介质
US20230342628A1 (en) Supervised dimensionality reduction for level-based hierarchical training data
CN111797994B (zh) 一种风险评估方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant