CN112182314B - 一种数据处理方法和系统 - Google Patents

一种数据处理方法和系统 Download PDF

Info

Publication number
CN112182314B
CN112182314B CN202011065165.9A CN202011065165A CN112182314B CN 112182314 B CN112182314 B CN 112182314B CN 202011065165 A CN202011065165 A CN 202011065165A CN 112182314 B CN112182314 B CN 112182314B
Authority
CN
China
Prior art keywords
feature
scene
data
operator
engineering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011065165.9A
Other languages
English (en)
Other versions
CN112182314A (zh
Inventor
方磊
王清臣
崔琳琳
姜琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zetyun Tech Co ltd
Original Assignee
Beijing Zetyun Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zetyun Tech Co ltd filed Critical Beijing Zetyun Tech Co ltd
Priority to CN202011065165.9A priority Critical patent/CN112182314B/zh
Publication of CN112182314A publication Critical patent/CN112182314A/zh
Application granted granted Critical
Publication of CN112182314B publication Critical patent/CN112182314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明提供一种数据处理方法和系统,该方法包括:获取用户设置的场景数据;基于所述场景数据从特征仓库中选择对应的特征工程算子;使用所述特征工程算子对输入的原始数据进行处理,得到目标特征数据。本发明实施例中的基于场景数据自动匹配特征仓库中的特征工程算子,从而可以自动实现将所述原始数据加工处理为特征数据,提高了数据处理的效率。

Description

一种数据处理方法和系统
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理方法和系统。
背景技术
现有的数据分析系统,为了提高数据分析结果的准确性,需要将原始数据加工成高维特征数据,从而基于生成的高维特征数据,对模型进行训练。而在生成用于训练模型的高维特征数据过程中,需要数据科学家编写特征加工处理算法,并利用特征加工处理算法对原始数据进行加工生成特征数据,然后观察得到的特征数据是否满足需求,若不满足,则需要调整或重新编写特征加工处理算法再次进行尝试。由于现有技术中在对相关数据进行加工得到用于模型训练的高维特征数据时,需要数据科学反复试用特征加工处理算法对数据进行加工处理,并且反复观察加工处理后数据,效率低。
发明内容
本发明实施例提供一种数据处理方法和系统,解决现有的数据处理方法处理效率低的问题。
为解决上述技术问题,本发明提供一种数据处理方法,,所述方法包括:
获取用户设置的场景数据;
基于所述场景数据从特征仓库中选择对应的特征工程算子;
使用所述特征工程算子对输入的原始数据进行处理,得到目标特征数据。
可选的,上述方法中,当所述场景数据包括场景,所述基于所述场景数据从特征仓库中选择对应的特征工程算子,包括:基于所述场景,从特征仓库中选择对应的目标特征工程算子;
或者;
当所述场景数据包括场景和算法,所述基于所述场景数据从特征仓库中选择对应的特征工程算子,包括:基于所述场景和算法,从特征仓库中选择对应的目标特征工程算子。
可选的,上述方法中,所述特征仓库包括预置的特征工程算子,所述预置的特征工程算子包括基础特征工程算子和场景特征工程算子中的至少一项。
可选的,上述方法中,所述基础特征工程算子包括以下至少一项:缺失值处理、归一化、标准化、数据类型转换、数值编码、特征二值化、特征分箱、独热编码、自动特征工程、特征聚合、特征衍生、递归特征筛选、递归特征消除、模型筛选、特征删除、相关性筛选和特征清洗。
可选的,上述方法中,所述场景特征工程算子包括:至少一个所述基础特征工程算子,所述基础特征工程算子之间的连接关系和场景特征重要性信息。
可选的,上述方法中,所述基于所述场景数据从特征仓库中选择对应的特征工程算子的步骤包括:
基于所述场景数据,从所述特征仓库中获取与所述场景数据对应的场景特征工程算子。
可选的,上述方法中,所述基于所述场景数据从特征仓库中选择对应的特征工程算子的步骤包括:
基于所述场景数据,从所述特征仓库中获取与所述场景数据对应的至少一个基础特征工程算子,以及基础特征算子之间的连接关系。
可选的,上述方法中,所述基于所述场景数据从特征仓库中选择对应的特征工程算子的步骤包括:
基于所述场景数据以及用户设置的场景特征重要性信息,从所述特征仓库中获取与所述场景数据对应的至少一个基础特征工程算子,以及基础特征算子之间的连接关系。
可选的,上述方法中,所述使用所述特征工程算子对所述原始数据进行处理,得到目标特征数据包括:
基于确定出的至少一个基础特征工程算子以及基础特征算子之间的连接关系,构建特征工程工作流;
基于所述特征工程工作流对所述原始数据进行处理,得到目标特征数据。
可选的,上述方法中,若选择出的与所述场景数据对应的场景特征工程算子大于一个,则所述基于所述场景从特征仓库中选择对应的特征工程算子的步骤还包括:
基于所述原始数据的属性,从选择出的所述与所述场景数据对应的场景特征工程算子中确定目标场景特征工程算子。
可选的,上述方法中,若选择出的与所述场景数据对应的场景特征工程算子中封装有至少两个算子流,则所述场景数据,从所述特征仓库中选择与所述场景数据对应的场景特征工程算子的步骤还包括:
基于所述原始数据的属性从选择出的所述与所述场景数据对应的场景特征工程算子中确定目标算子流。
可选的,上述方法中,还包括:
将确定的所述基础特征工程算子以及各个所述基本特征算子之间的连接关系构成的特征工程工作流封装成场景特征工程算子;
将所述场景特征工程算子发布到所述特征仓库中。
可选的,上述方法中,还包括:
基于用户设置的场景数据以及场景特征重要性信息生成原始数据集模板;
显示所述原始数据集模板;
获取用户基于所述原始数据集模板输入的所述原始数据。
可选的,上述方法中,还包括:
显示所述场景特征工程算子的元信息管理界面;
基于所述元信息管理界面的管理操作,对所述场景特征工程算子的元信息进行管理。
可选的,上述方法中,所述管理操作包括:配置操作、查询操作。
可选的,上述方法中,所述基于所述元信息管理界面的管理操作,对所述场景特征工程算子的元信息进行管理,包括:
基于所述配置操作,对所述场景特征工程算子的元信息进行编辑;
基于编辑后的元信息,更新所述场景特征工程算子。
可选的,上述方法中,所述基于所述配置操作,对所述场景特征工程算子的元信息进行编辑的步骤包括:
显示所述场景特征工程算子对应的算子流;
基于第一配置操作,将所述第一配置操作确定的基础特征算子增加至所述算子流;和/或,
基于第二配置操作,将所述第二配置操作确定的基础特征算子从所述算子流中删除;和/或;
基于第三配置操作,调整所述第三配置操作确定的基础特征算子的参数。
可选的,上述方法中,还包括:
响应于用户输入的升级操作,基于获取到的模型性能信息,调整所述场景特征工程算子的元信息。
发明还提供一种数据处理系统,所述数据处理系统包括:
第一获取模块,用于获取用户设置的场景数据;
选择模块,用于基于所述场景数据从特征仓库中选择对应的特征工程算子;
处理模块,用于使用所述特征工程算子对输入的原始数据进行处理,得到目标特征数据。
可选的,上述数据处理系统中,
当所述场景数据包括场景,所述选择模块用于:基于所述场景,从特征仓库中选择对应的特征工程算子;
当所述场景数据包括场景和算法,所述选择模块用于:基于所述场景和算法,从特征仓库中选择对应的目标特征工程算子。
可选的,上述数据处理系统中,所述特征仓库包括预置的特征工程算子,所述预置的特征工程算子包括基础特征工程算子和场景特征工程算子中的至少一项。
可选的,上述数据处理系统中,所述基础特征工程算子包括以下至少一项:缺失值处理、归一化、标准化、数据类型转换、数值编码、特征二值化、特征分箱、独热编码、自动特征工程、特征聚合、特征衍生、递归特征筛选、递归特征消除、模型筛选、特征删除、相关性筛选和特征清洗。
可选的,上述数据处理系统中,所述场景特征工程算子包括:至少一个所述基础特征工程算子,所述基础特征工程算子之间的连接关系和场景特征重要性信息。
可选的,上述数据处理系统中,所述选择模块具体用于:
基于所述场景数据,从所述特征仓库中获取与所述场景数据对应的场景特征工程算子。
可选的,上述数据处理系统中,所述选择模块还具体用于:
基于所述场景数据,从所述特征仓库中获取与所述场景数据对应的至少一个基础特征工程算子,以及基础特征算子之间的连接关系。
可选的,上述数据处理系统中,所述选择模块还具体用于:
基于所述场景数据以及用户设置的场景特征重要性信息,从所述特征仓库中获取与所述场景数据对应的至少一个基础特征工程算子,以及基础特征算子之间的连接关系。
可选的,上述数据处理系统中,所述处理模块具体用于:
基于确定出的至少一个基础特征工程算子以及基础特征算子之间的连接关系,构建特征工程工作流;
基于所述特征工程工作流对所述原始数据进行处理,得到目标特征数据。
可选的,上述数据处理系统中,若选择出的与所述场景数据对应的场景特征工程算子大于一个,则所述选择模块还用于:
基于所述原始数据的属性,从选择出的所述与所述场景数据对应的场景特征工程算子中确定目标场景特征工程算子。
可选的,上述数据处理系统中,若选择出的与所述场景数据对应的场景特征工程算子中封装有至少两个算子流,则所述选择模块还用于:
基于所述原始数据的属性从选择出的所述与所述场景数据对应的场景特征工程算子中确定目标算子流。
可选的,上述数据处理系统中,还包括:
封装模块,用于将确定的所述基础特征工程算子以及各个所述基本特征算子之间的连接关系构成的特征工程工作流封装成场景特征工程算子;
分布模块,用于将所述场景特征工程算子发布到所述特征仓库中。
可选的,上述数据处理系统中,还包括:
生成模块,用于基于用户设置的场景数据以及场景特征重要性信息生成原始数据集模板;
第一显示模块,用于显示所述原始数据集模板;
第二获取模块,用于获取用户基于所述原始数据集模板输入的所述原始数据。
可选的,上述数据处理系统中,还包括:
第二显示模块,用于显示所述场景特征工程算子的元信息管理界面;
管理模块,用于基于所述元信息管理界面的管理操作,对所述场景特征工程算子的元信息进行管理。
可选的,上述数据处理系统中,所述管理操作包括:配置操作、查询操作。
可选的,上述数据处理系统中,所述管理模块包括:
配置子模块,用于基于所述配置操作,对所述场景特征工程算子的元信息进行编辑;
更新子模块,用于基于编辑后的元信息,更新所述场景特征工程算子
可选的,上述数据处理系统中,所述配置子模块包括:
显示单元,用于显示所述场景特征工程算子对应的算子流;
增加单元,用于基于第一配置操作,将所述第一配置操作确定的基础特征算子增加至所述算子流;
删除单元,用于基于第二配置操作,将所述第二配置操作确定的基础特征算子从所述算子流中删除;
调整单元,用于基于第三配置操作,调整所述第三配置操作确定的基础特征算子的参数。
可选的,上述数据处理系统中,所述数据处理系统还包括:
升级模块,用于响应于用户输入的升级操作,基于获取到的模型性能信息,调整所述场景特征工程算子的元信息。
本发明还提供一种数据处理系统,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述数据处理方法的步骤。
本发明还提供一种数据处理系统,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述数据处理方法的步骤。
本发明的上述技术方案的有益效果如下:
本发明实施例中的基于场景数据自动匹配特征仓库中的特征工程算子,从而可以自动实现将所述原始数据加工处理为特征数据,提高了数据处理的效率。数据处理系统自动选择特征工程算子,构建特征工程,用户仅需要设置场景数据即可,使得不懂算法的一般人员也可以构建特征工程,降低用户使用门槛。
另外,本发明中的特征仓库能够承接算子工程人员的工作成果,从而方便业务人员基于应用的场景、选择合适的特征工程算子以及原始数据集进行特征工程,方便后续的模型验证,提高了工作效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获取其他的附图。
图1是本发明实施例提供的一种数据处理方法的流程图;
图2是本发明实施例提供的数据分析处理系统的用于选择特征工程算子的用户界面的示意图;
图3是本发明实施例提供的数据分析处理系统的场景特征工程算子的特征基本方法用户界面的示意图;
图4是本发明实施例提供的数据分析处理系统的场景特征工程算子的特征重要性用户界面的示意图;
图5是本发明实施例提供的数据分析处理系统的场景特征工程算子的算法用户界面的示意图;
图6是本发明实施例提供的数据分析处理系统的场景特征工程算子的属性用户界面的示意图;
图7是本发明实施例提供的一种数据处理系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明实施例提供的数据处理方法的流程图,所述数据处理方法应用于数据分析处理系统,如图1所示,所述数据处理方法包括以下步骤:
步骤101,获取用户设置的场景数据。
数据处理系统可以获取用户设置的场景数据,其中,该场景数据可以包括但不限于下述至少之一:应用的场景、使用的算法。
请参考图2,图2为本发明实施例的数据分析处理系统的用于选择特征工程算子的用户界面的示意图。在选择特征工程算子的用户界面上,设置有场景设置的输入框和算法设置的输入框,用户可以在场景设置的输入框中设置需求的业务场景,在算法设置的输入框中设置该业务场景使用的算法。进一步来说,为了使得基于用户设置场景数据确定的特征工程算子更符合用户的需求,用户在场景设置的输入框中设置场景时,还可进一步细化场景的具体业务场景,例如,用户设置该场景为金融场景后,还可以进一步细化该场景为金融场景下的银行贷款违约场景。
具体的,数据处理系统提供可供选择的场景表单,用户从场景设置界面的场景表单中选择相应的场景。或者,用户输入文字描述场景或者语音描述场景,数据处理系统进行语义理解,自动识别场景进行推荐,用户可自定义调整推荐的场景。
具体的,数据处理系统提供可供选择的算法列表,用户从显示的算法列表中选择相应的场景。或者,用户输入算法的描述文本,该描述文本可以是文字或者语音,数据处理系统进行语义理解,自动识别算法进行推荐;或者,用户还可以自定义算法。
步骤102,基于所述场景数据从特征仓库中选择对应的特征工程算子。
特征仓库是数据处理系统提供的针对特征的管理功能,特征仓库可以基于不同场景对不同特征处理方法进行自动组合,并进行管理。所述特征仓库包括预置的特征工程算子,所述预置的特征工程算子包括基础特征工程算子和场景特征工程算子中的至少一项。
其中,所述基础特征工程算子包括但不限于以下至少一项:缺失值处理、归一化、标准化、数据类型转换、数值编码、特征二值化、特征分箱、onehot(独热)编码、自动特征工程、特征聚合、特征衍生、递归特征筛选、递归特征消除、模型筛选、特征删除、相关性筛选和特征清洗。
所述场景特征工程算子是一种某种场景下对应的特征工程算子流,该特征工程算子流是由至少一个基础特征工程算子构成的,也就是说,所述场景特征工程算子包括:至少一个所述基础特征工程算子,各个所述基础特征工程算子之间的连接关系和场景特征重要性信息。场景特征重要性信息为该场景各特征信息以及各特征之间的关系信息,场景特征重要性信息包含但不限于:特征数据某列的场景含义、特征数据某列的列名、特征数据某列的数据类型以及各列特征对场景目标的相关性、重要性分析等。
方案一:可选的是,场景数据包括应用的场景,步骤102,基于所述场景从特征仓库中选择对应的特征工程算子的步骤,包括:
基于所述场景,从特征仓库中选择对应的目标特征工程算子。
方案二:可选的,场景数据包括场景和算法,步骤102,基于所述场景从特征仓库中选择对应的特征工程算子的步骤,包括:
基于所述场景和算法,从特征仓库中选择对应的目标特征工程算子。
在同一场景下,不同算法模型对用于训练该算法模型的特征数据要求不相同,也即,同一场景下,训练模型使用的算法在一定程度上影响着特征工程,因此,为了能够精准地选择出特征工程算子,用户设置用于特征工程算子选择的场景数据时,还可以设置训练模型使用的算法,以便数据处理系统基于场景和算法确定适合的特征工程算子。
优先的是,数据处理系统基于场景,确定与该场景对应的候选特征工程算子;然后基于算法,从候选特征工程算子中选择与该算法对应的目标特征工程算子。
进一步的,特征仓库包括基础特征工程算子和场景特征工程算子,步骤102,所述基于所述场景数据从特征仓库中选择对应的特征工程算子的步骤包括:
基于所述场景数据,从所述特征仓库中获取与所述场景数据对应的场景特征工程算子。
具体的,数据处理系统基于用户设置的场景和/或算法等场景数据,自动从该特征仓库中筛选与用户设置的场景数据对应的场景特征工程算子,并进行显示。请再次参考图2,用户设置的场景数据为:场景为金融-银行贷款违约,算法为跟随随机树,从而数据处理系统基于金融-银行贷款违约场景和跟随随机树算法,从特征仓库中筛选出的银行贷款违约算子。
可选的,步骤102,所述基于所述场景从特征仓库中选择对应的特征工程算子的步骤包括:
基于所述场景数据,从所述特征仓库中获取与所述场景对应的至少一个基础特征工程算子,以及基础特征算子之间的连接关系。
具体的,本发明中数据处理系统还可以基于用户设置的场景数据,自动推荐用于特征工程处理的基础特征工程算子以及基础特征算子之间的连接关系,从而基于推荐的基础特征工程算子和连接关系,实现对数据的特征工程处理。
本发明优选的是,基于所述场景数据确定所述特征仓库中是否存在所述场景数据对应的所述场景特征工程算子;若存在,则确定所述场景特征工程算子作为所述特征工程算子;若不存在,则基于所述场景数据确定所述基础特征工程算子作为所述特征工程算子,以及基于所述场景数据确定各个所述基本特征算子之间的连接关系。
可选的,步骤102,所述基于所述场景数据从特征仓库中选择对应的特征工程算子的步骤包括:基于所述场景数据以及用户设置的场景特征重要性信息,从所述特征仓库中获取与所述场景对应的至少一个基础特征工程算子,以及基础特征算子之间的连接关系,其中,所述场景数据可以是场景,还可以是场景和算法。
具体的,在场景确定的情况下,该场景对应的场景特征重要性在一定情况下已知的,例如可以基于历史经验或专家方法获得。数据处理系统可以基于场景特征重要性进一步确定特征工程的处理过程。即在自定义场景特征工程算子或者用户对已有的场景特征工程算子进行调整时,数据处理系统可以基于用户设置的场景特征重要性,在用户自行选择用于构建新的场景特征工程算子的基础特征工程算子过程中给出提示,已对用户进行指导。
可选的,为了便于后续可以直接复用从该特征仓库中获取与所述场景对应的至少一个基础特征工程算子,以及基础特征算子之间的连接关系,基于此,所述数据处理方法还包括:将确定的所述基础特征工程算子以及各个所述基本特征算子之间的连接关系构成的特征工程工作流封装成场景特征工程算子;将所述场景特征工程算子发布到所述特征仓库中。
本发明中的特征仓库能够承接算子工程人员的工作成果,从而方便业务人员基于应用的场景、选择合适的特征工程算子以及原始数据集进行特征工程,方便后续的模型验证,提高了工作效率。
可选的,若选择出的与所述场景数据对应的场景特征工程算子大于一个,则所述基于所述场景数据,从特征仓库中选择对应的特征工程算子的步骤102还包括:
基于所述原始数据的属性从所述第一场景特征工程算子中确定目标场景特征工程算子。
具体的,同一场景,处理的原始数据集列数量和/或特征列、目标列的重要性不同,对应的特征工程算子流可能有所不同,因此在特征仓库中,对于同一场景,可能存在多个不同的场景特征工程算子。因此,数据处理系统可以基于用户输入的原始数据的列数量、特征列、目标列的重要性等属性,确定需求的场景特征工程算子。
可选的,同一场景、同一算法模型下,处理的原数据的数据量等不同,特征工程过程有所差异,为了降低用户选择特征工程算子的复杂度,一个场景特征工程算子中可能封装有多个特征工程算子流,基于此,若选择出的与所述场景对应的场景特征工程算子中封装有至少两个算子流,则所述基于所述场景数据,从所述特征仓库中获取与所述场景数据对应的场景特征工程算子的步骤还包括:
基于所述原始数据的属性从选择出的所述与所述场景对应的场景特征工程算子中确定目标算子流。
数据处理系统对用户输入的原始数据进行识别,包括:推断数据的类型、统计数据的列信息、识别该原始数据的特征列、目标列等信息,从而获取该原始数据的属性,进而基于原始数据的属性,确定该场景特征算子使用的目标算子流。
具体的,特征仓库中,所述场景特征工程算子中可能封装有多个算子流,数据处理系统基于用户输入的原始数据的列数量、特征列和目标列的重要性等属性信息,来确定使用哪个算子流。例如,所述场景特征工程算子的封装中包括5列数据对应的算子流、10列数据对应的算子流,若用户输入的原始数据仅包括5列,则自动选择5列数据对应的算子流进行处理。
本发明中,数据处理系统可以自动识别原数据的属性,对于用户而言,用户仅需选择一个场景特征工程算子,系统则自动选择对应算子流进行处理。此外,用户可以通过数据处理系统的查看详情选项获知系统选择算子流的过程。
步骤103,使用所述特征工程算子对所述原始数据进行处理,得到目标特征数据。
具体的,若数据处理系统基于场景数据从特征仓库筛选出的是与该场景数据对应的场景特征工程算子,则步骤103包括:数据处理系统基于确定出的场景特征工程算子对应原始数据进行特征工程处理。
具体的,若数据处理系统基于场景数据从特征仓库筛选出的是至少一个基础特征工程算子,则步骤103包括:数据处理系统基于确定出的至少一个基础特征工程算子以及基础特征算子之间的连接关系,构建特征工程工作流;基于所述特征工程工作流对所述原始数据进行处理,得到目标特征数据。
本发明实施例中的基于场景自动匹配特征仓库中的特征工程算子,从而可以自动实现将所述原始数据加工处理为特征数据,提高了数据处理的效率。数据处理系统自动选择特征工程算子,构建特征工程,用户仅需要设置场景数据即可,使得不懂算法的一般人员也可以构建特征工程,降低用户使用门槛。
进一步的,用户提供的原始数据决定了目标特征的数据质量,如若用户提供的原始数据的缺失某些数据,则可能会造成基于特征工程也无法生成需求的目标特征数据,而目标特征数据的质量有影响了算法模型的模型性能,因此,为保证训练出来的算法模型的性能,提高用户提供的原始数据的质量是关键。基于此,可选的,本发明实施例中所述数据处理方法还包括:
基于用户设置的场景数据以及场景特征重要性信息生成原始数据集模板;
显示所述原始数据集模板;
获取用户基于所述原始数据集模板输入的所述原始数据。
具体的,用户提供的原始数据决定了经过特征工程后得到的特征数据的质量,因此为提高特征工程输出的目标特征的质量,数据处理系统可以基于用户设置的场景、算法和与场景对应的场景特征工程算子的场景特征重要性,生成原始数据模板并显示给用户,用户可以基于显示的原始数据模板准备原始数据。其中,原始数据模板包括:各列名称、各列的数据类型,各列的场景含义,以及各列对模型性能影响的重要程度等信息,进一步的,为了便于用户查看,原始数据模板还可以基于各数据对模型性能影响的重要程度从高到低的顺序,依次展示各数据的信息。
具体的,用户可以在数据处理系统的数据设置界面导入准备好的原始数据,也可以选择数据处理系统中的数据集作为原始数据。
其中,若用户进一步了解该场景特征工程算子,还可以在数据处理系统查看场景特征工程算子的元信息以及进行调整更新。
可选的,所述数据处理方法还包括:
显示所述场景特征工程算子的元信息管理界面;
基于所述元信息管理界面的管理操作,对所述场景特征工程算子的元信息进行管理。
其中,场景特征工程算子的元信息包括场景特征重要性、该场景使用的用于训练模型的算法以及构成该场景特征工程算子的特征基本方法,即各基本特征工程算子与各基本特征工程算子参数配置、该场景特征工程算子的属性信息等。所述管理操作包括:配置操作、查询操作。
请参考图3-6,图3-6为本发明提供的元信息管理界面的示意图。场景特征工程算子的元信息管理界面包括:特征基本方法页签、特征重要性页签、算法页签、目标特征信息页签以及属性页签。其中,如图3所示,其为特征基本方法页签,特征基本方法页签中包括:该场景特征工程算子对应的算子流,即构成场景特征工程算子的各基本特征工程算子以及各基本特征工程算子的连接关系;进一步的,用户还可以在该特征基本方法页签中查询和编辑基本特征工程算子参数;如图4所示,其为该场景特征工程算子的特征重要性页签,该特征重要性页签中包括特征的列名、场景含义、类型、重要程度、修改时间等;如图5所示,其为该场景特征工程算子的算法页签,该算法页签用于管理场景特征工程算子对应的算子,具体的,该算子页签包括:可用算法列表、当前使用的算法,以及该当前使用的算法的信息;如图6所示,其为该场景特征工程算子的属性页签,该属性页签用于管理该场景特征工程算子的属性信息,包括:该场景特征工程算子的名称、创建时间、创建者、版本号、更新时间等。该场景特征工程算子的目标特征信息页签用于管理场景特征工程算子输出的目标特征信息,该目标特征信息页签包含的信息与图4所示的特征重要性信息相似,本发明再次不再赘述。
可选的,所述基于所述元信息管理界面的管理操作,对所述场景特征工程算子的元信息进行管理,包括:
基于所述配置操作,对所述场景特征工程算子的元信息进行编辑;
基于编辑后的元信息,更新所述场景特征工程算子。
其中,所述基于所述配置操作,对所述场景特征工程算子的元信息进行编辑的步骤包括:
显示所述场景特征工程算子对应的算子流;
基于第一配置操作,将所述第一配置操作确定的基础特征算子增加至所述算子流;和/或,
基于第二配置操作,将所述第二配置操作确定的基础特征算子从所述算子流中删除;和/或;
基于第三配置操作,调整所述第三配置操作确定的基础特征算子的参数。
可选的,所述数据处理方法还包括:
响应于用户输入的升级操作,基于获取到的模型性能信息,调整所述场景特征工程算子的元信息。
具体的,用户可以在数据处理系统中对场景特征工程算子的元信息进行编辑操作,数据处理系统保存用户编辑后的元信息,并且基于编辑后的元信息生成一个新的场景特征工程算子。对于元信息的编辑操作包括:增、删、改等。具体的,用户自定义调整,例如,在数据处理系统的用户界面显示该场景特征工程算子对应的算子流,用户选择该算子流中的一个基础工程算子,点击“增加”按键,显示可选择的基础特征算子,用户从中选择至少一个基础特征算子,然后点击“确定”,从而将用户选择的基础特征算子添加到该算子流,构成一个新的算子流;或者,在数据处理系统的用户界面显示该场景特征工程算子对应的算子流,用户选择该算子流中的一个基础工程算子,点击“删除”按键,从该算子流中删除该基础工程算子;或者,用户点击该基础工程算子,对该基础工程算子中参数进行调整。数据处理系统基于用户的操作,自动更新升级,例如,用户点击数据处理系统的用户界面中的“一键升级”,数据处理系统根据模型反馈的模型性能信息,自动调整该场景特征工程算子的元信息,从而基于调整后的元信息,生成一个新的算子流,该生成的新的算子流即为升级后的场景特征工程算子。
基于以上实施例提供的数据处理方法,本发明实施例还提供了实施上述方法的数据处理系统,请参照图7,本发明实施例提供的数据分析处理系统700包括:
获取模块701,用于获取用户设置的场景数据;
选择模块702,用于基于所述场景数据从特征仓库中选择对应的特征工程算子;
处理模块703,用于使用所述特征工程算子对输入的原始数据进行处理,得到目标特征数据。
当所述场景数据包括场景,所述选择模块702用于:
基于所述场景,从特征仓库中选择对应的特征工程算子。
当所述场景数据包括场景和算法,所述选择模702块用于:
基于所述场景和算法,从特征仓库中选择对应的目标特征工程算子。
可选的,所述特征仓库包括预置的特征工程算子,所述预置的特征工程算子包括基础特征工程算子和场景特征工程算子中的至少一项。
可选的,所述基础特征工程算子包括以下至少一项:缺失值处理、归一化、标准化、数据类型转换、数值编码、特征二值化、特征分箱、独热编码、自动特征工程、特征聚合、特征衍生、递归特征筛选、递归特征消除、模型筛选、特征删除、相关性筛选和特征清洗。
可选的,所述场景特征工程算子包括:至少一个所述基础特征工程算子,所述基础特征工程算子之间的连接关系和场景特征重要性信息。
可选的,所述选择模块702具体用于:
基于所述场景数据,从所述特征仓库中获取与所述场景数据对应的场景特征工程算子。
可选的,所述选择模块702还具体用于:
基于所述场景数据,从所述特征仓库中获取与所述场景数据对应的至少一个基础特征工程算子,以及基础特征算子之间的连接关系。
可选的,所述选择模块702还具体用于:
基于所述场景数据以及用户设置的场景特征重要性信息,从所述特征仓库中获取与所述场景数据对应的至少一个基础特征工程算子,以及基础特征算子之间的连接关系。
可选的,所述处理模块703具体用于:
基于确定出的至少一个基础特征工程算子以及基础特征算子之间的连接关系,构建特征工程工作流;
基于所述特征工程工作流对所述原始数据进行处理,得到目标特征数据。
可选的,若选择出的与所述场景数据对应的场景特征工程算子大于一个,则所述选择模块702还用于:
基于所述原始数据的属性,从选择出的所述与所述场景数据对应的场景特征工程算子中确定目标场景特征工程算子。
可选的若选择出的与所述场景数据对应的场景特征工程算子中封装有至少两个算子流,则所述选择模块702还用于:
基于所述原始数据的属性从选择出的所述与所述场景数据对应的场景特征工程算子中确定目标算子流。
可选的,所述数据处理系统还包括:
封装模块,用于将确定的所述基础特征工程算子以及各个所述基本特征算子之间的连接关系构成的特征工程工作流封装成场景特征工程算子;
分布模块,用于将所述场景特征工程算子发布到所述特征仓库中。
可选的,所述数据处理系统还包括:
生成模块,用于基于用户设置的场景数据以及场景特征重要性信息生成原始数据集模板;
第一显示模块,用于显示所述原始数据集模板;
第二获取模块,用于获取用户基于所述原始数据集模板输入的所述原始数据。
可选的,所述数据处理系统还包括:
第二显示模块,用于显示所述场景特征工程算子的元信息管理界面;
管理模块,用于基于所述元信息管理界面的管理操作,对所述场景特征工程算子的元信息进行管理。
可选的,所述管理操作包括:配置操作、查询操作。
可选的,所述管理模块包括:
配置子模块,用于基于所述配置操作,对所述场景特征工程算子的元信息进行编辑;
更新子模块,用于基于编辑后的元信息,更新所述场景特征工程算子
可选的,所述配置子模块包括:
显示单元,用于显示所述场景特征工程算子对应的算子流;
增加单元,用于基于第一配置操作,将所述第一配置操作确定的基础特征算子增加至所述算子流;
删除单元,用于基于第二配置操作,将所述第二配置操作确定的基础特征算子从所述算子流中删除;
调整单元,用于基于第三配置操作,调整所述第三配置操作确定的基础特征算子的参数。
可选的,所述数据处理系统还包括:
升级模块,用于响应于用户输入的升级操作,基于获取到的模型性能信息,调整所述场景特征工程算子的元信息。
本发明实施例中的基于场景自动匹配特征仓库中的特征工程算子,从而可以自动实现将所述原始数据加工处理为特征数据,提高了数据处理的效率。、数据处理系统自动选择特征工程算子,构建特征工程,用户仅需要设置场景即可,使得不懂算法的一般人员也可以构建特征工程,降低用户使用门槛。
本发明实施例提供一种数据分析处理系统,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述实施例所述的数据处理方法的步骤。
本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述实施例所述的数据处理方法的步骤。
本发明实施例还提供一种可读存储介质,可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (34)

1.一种数据处理方法,其特征在于,包括:
获取用户设置的场景数据;
基于所述场景数据从特征仓库中选择对应的特征工程算子;
使用所述特征工程算子对输入的原始数据进行处理,得到目标特征数据;
所述特征仓库包括预置的特征工程算子,所述预置的特征工程算子包括场景特征工程算子;
所述场景特征工程算子包括:至少一个基础特征工程算子,所述基础特征工程算子之间的连接关系和场景特征重要性信息;
所述场景特征重要性信息为场景各特征信息以及各特征信息之间的关系信息。
2.根据权利要求1所述的数据处理方法,其特征在于,
当所述场景数据包括场景,所述基于所述场景数据从特征仓库中选择对应的特征工程算子,包括:基于所述场景,从特征仓库中选择对应的目标特征工程算子;
或者;
当所述场景数据包括场景和算法,所述基于所述场景数据从特征仓库中选择对应的特征工程算子,包括:基于所述场景和算法,从特征仓库中选择对应的目标特征工程算子。
3.根据权利要求1所述的数据处理方法,其特征在于,所述预置的特征工程算子还包括:基础特征工程算子,所述基础特征工程算子包括以下至少一项:缺失值处理、归一化、标准化、数据类型转换、数值编码、特征二值化、特征分箱、独热编码、自动特征工程、特征聚合、特征衍生、递归特征筛选、递归特征消除、模型筛选、特征删除、相关性筛选和特征清洗。
4.根据权利要求1所述的数据处理方法,其特征在于,所述基于所述场景数据从特征仓库中选择对应的特征工程算子的步骤包括:
基于所述场景数据,从所述特征仓库中获取与所述场景数据对应的场景特征工程算子。
5.根据权利要求3所述的数据处理方法,其特征在于,所述基于所述场景数据从特征仓库中选择对应的特征工程算子的步骤包括:
基于所述场景数据,从所述特征仓库中获取与所述场景数据对应的至少一个基础特征工程算子,以及基础特征算子之间的连接关系。
6.根据权利要求5所述的数据处理方法,其特征在于,所述基于所述场景数据从特征仓库中选择对应的特征工程算子的步骤包括:
基于所述场景数据以及用户设置的场景特征重要性信息,从所述特征仓库中获取与所述场景数据对应的至少一个基础特征工程算子,以及基础特征算子之间的连接关系。
7.根据权利要求6所述的数据处理方法,其特征在于,所述使用所述特征工程算子对所述原始数据进行处理,得到目标特征数据包括:
基于确定出的至少一个基础特征工程算子以及基础特征算子之间的连接关系,构建特征工程工作流;
基于所述特征工程工作流对所述原始数据进行处理,得到目标特征数据。
8.根据权利要求4所述的数据处理方法,其特征在于,若选择出的与所述场景数据对应的场景特征工程算子大于一个,则所述基于所述场景数据从特征仓库中选择对应的特征工程算子的步骤还包括:
基于所述原始数据的属性,从选择出的与所述场景数据对应的场景特征工程算子中确定目标场景特征工程算子。
9.根据权利要求4所述的数据处理方法,其特征在于,若选择出的与所述场景数据对应的场景特征工程算子中封装有至少两个算子流,则所述基于所述场景数据,从所述特征仓库中获取与所述场景数据对应的场景特征工程算子的步骤还包括:
基于所述原始数据的属性,从选择出的与所述场景数据对应的场景特征工程算子中确定目标算子流。
10.根据权利要求6所述的数据处理方法,其特征在于,所述方法还包括:
将确定的所述基础特征工程算子以及各个所述基础特征算子之间的连接关系构成的特征工程工作流封装成场景特征工程算子;
将所述场景特征工程算子发布到所述特征仓库中。
11.根据权利要求1-10任一项所述的数据处理方法,其特征在于,所述方法还包括:
基于用户设置的场景数据以及场景特征重要性信息生成原始数据集模板;
显示所述原始数据集模板;
获取用户基于所述原始数据集模板输入的所述原始数据。
12.根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:
显示所述场景特征工程算子的元信息管理界面;
基于所述元信息管理界面的管理操作,对所述场景特征工程算子的元信息进行管理。
13.根据权利要求12所述的数据处理方法,其特征在于,所述管理操作包括:配置操作、查询操作。
14.根据权利要求13所述的数据处理方法,其特征在于,所述基于所述元信息管理界面的管理操作,对所述场景特征工程算子的元信息进行管理,包括:
基于所述配置操作,对所述场景特征工程算子的元信息进行编辑;
基于编辑后的元信息,更新所述场景特征工程算子。
15.根据权利要求14所述的数据处理方法,其特征在于,所述基于所述配置操作,对所述场景特征工程算子的元信息进行编辑的步骤包括:
显示所述场景特征工程算子对应的算子流;
基于第一配置操作,将所述第一配置操作确定的基础特征算子增加至所述算子流;和/或,
基于第二配置操作,将所述第二配置操作确定的基础特征算子从所述算子流中删除;和/或;
基于第三配置操作,调整所述第三配置操作确定的基础特征算子的参数。
16.根据权利要求13所述的数据处理方法,其特征在于,所述方法还包括:
响应于用户输入的升级操作,基于获取到的模型性能信息,调整所述场景特征工程算子的元信息。
17.一种数据处理系统,其特征在于,包括:
第一获取模块,用于获取用户设置的场景数据;
选择模块,用于基于所述场景数据从特征仓库中选择对应的特征工程算子;
处理模块,用于使用所述特征工程算子对输入的原始数据进行处理,得到目标特征数据;
所述特征仓库包括预置的特征工程算子,所述预置的特征工程算子包括场景特征工程算子;
所述场景特征工程算子包括:至少一个基础特征工程算子,所述基础特征工程算子之间的连接关系和场景特征重要性信息;
所述场景特征重要性信息为场景各特征信息以及各特征信息之间的关系信息。
18.根据权利要求17所述的数据处理系统,其特征在于,
当所述场景数据包括场景,所述选择模块用于:基于所述场景,从特征仓库中选择对应的特征工程算子;
或者,
当所述场景数据包括场景和算法,所述选择模块用于:基于所述场景和算法,从特征仓库中选择对应的目标特征工程算子。
19.根据权利要求17所述的数据处理系统,其特征在于,所述预置的特征工程算子还包括基础特征工程算子,所述基础特征工程算子包括以下至少一项:缺失值处理、归一化、标准化、数据类型转换、数值编码、特征二值化、特征分箱、独热编码、自动特征工程、特征聚合、特征衍生、递归特征筛选、递归特征消除、模型筛选、特征删除、相关性筛选和特征清洗。
20.根据权利要求17所述的数据处理系统,其特征在于,所述选择模块具体用于:
基于所述场景数据,从所述特征仓库中获取与所述场景数据对应的场景特征工程算子。
21.根据权利要求20所述的数据处理系统,其特征在于,所述选择模块还具体用于:
基于所述场景数据,从所述特征仓库中获取与所述场景数据对应的至少一个基础特征工程算子,以及基础特征算子之间的连接关系。
22.根据权利要求21所述的数据处理系统,其特征在于,所述选择模块还具体用于:
基于所述场景数据以及用户设置的场景特征重要性信息,从所述特征仓库中获取与所述场景数据对应的至少一个基础特征工程算子,以及基础特征算子之间的连接关系。
23.根据权利要求22所述的数据处理系统,其特征在于,所述处理模块具体用于:
基于确定出的至少一个基础特征工程算子以及基础特征算子之间的连接关系,构建特征工程工作流;
基于所述特征工程工作流对所述原始数据进行处理,得到目标特征数据。
24.根据权利要求20所述的数据处理系统,其特征在于,若选择出的与所述场景数据对应的场景特征工程算子大于一个,则所述选择模块还用于:
基于所述原始数据的属性,从选择出的与所述场景数据对应的场景特征工程算子中确定目标场景特征工程算子。
25.根据权利要求20所述的数据处理系统,其特征在于,若选择出的与所述场景数据对应的场景特征工程算子中封装有至少两个算子流,则所述选择模块还用于:
基于所述原始数据的属性,从选择出的与所述场景数据对应的场景特征工程算子中确定目标算子流。
26.根据权利要求22所述的数据处理系统,其特征在于,所述数据处理系统还包括:
封装模块,用于将确定的所述基础特征工程算子以及各个所述基础特征算子之间的连接关系构成的特征工程工作流封装成场景特征工程算子;
分布模块,用于将所述场景特征工程算子发布到所述特征仓库中。
27.根据权利要求17-20、24、25任一项所述的数据处理系统,其特征在于,所述数据处理系统还包括:
生成模块,用于基于用户设置的场景数据以及场景特征重要性信息生成原始数据集模板;
第一显示模块,用于显示所述原始数据集模板;
第二获取模块,用于获取用户基于所述原始数据集模板输入的所述原始数据。
28.根据权利要求17所述的数据处理系统,其特征在于,所述数据处理系统还包括:
第二显示模块,用于显示所述场景特征工程算子的元信息管理界面;
管理模块,用于基于所述元信息管理界面的管理操作,对所述场景特征工程算子的元信息进行管理。
29.根据权利要求28所述的数据处理系统,其特征在于,所述管理操作包括:配置操作、查询操作。
30.根据权利要求29所述的数据处理系统,其特征在于,所述管理模块包括:
配置子模块,用于基于所述配置操作,对所述场景特征工程算子的元信息进行编辑;
更新子模块,用于基于编辑后的元信息,更新所述场景特征工程算子
31.根据权利要求30所述的数据处理系统,其特征在于,所述配置子模块包括:
显示单元,用于显示所述场景特征工程算子对应的算子流;
增加单元,用于基于第一配置操作,将所述第一配置操作确定的基础特征算子增加至所述算子流;
删除单元,用于基于第二配置操作,将所述第二配置操作确定的基础特征算子从所述算子流中删除;
调整单元,用于基于第三配置操作,调整所述第三配置操作确定的基础特征算子的参数。
32.根据权利要求29所述的数据处理系统,其特征在于,所述数据处理系统还包括:
升级模块,用于响应于用户输入的升级操作,基于获取到的模型性能信息,调整所述场景特征工程算子的元信息。
33.一种数据处理系统,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至16中任一项所述的数据处理方法的步骤。
34.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至16中任一项所述的数据处理方法的步骤。
CN202011065165.9A 2020-09-30 2020-09-30 一种数据处理方法和系统 Active CN112182314B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011065165.9A CN112182314B (zh) 2020-09-30 2020-09-30 一种数据处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011065165.9A CN112182314B (zh) 2020-09-30 2020-09-30 一种数据处理方法和系统

Publications (2)

Publication Number Publication Date
CN112182314A CN112182314A (zh) 2021-01-05
CN112182314B true CN112182314B (zh) 2021-07-06

Family

ID=73947958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011065165.9A Active CN112182314B (zh) 2020-09-30 2020-09-30 一种数据处理方法和系统

Country Status (1)

Country Link
CN (1) CN112182314B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113805936B (zh) * 2021-09-18 2022-07-12 中国能源建设集团广东省电力设计研究院有限公司 一种企业信息化系列产品版本管控方法
CN114064976A (zh) * 2021-10-20 2022-02-18 同盾科技有限公司 一种数据特征计算的方法、系统、电子装置和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287219A (zh) * 2019-06-28 2019-09-27 北京九章云极科技有限公司 一种数据处理方法及系统
CN110659266A (zh) * 2018-11-16 2020-01-07 创新奇智(南京)科技有限公司 一种模型的数据处理方法
CN110851428A (zh) * 2019-11-19 2020-02-28 厦门市美亚柏科信息股份有限公司 基于规则算子动态编排的数据库分析方法、装置及介质
CN111104214A (zh) * 2019-12-26 2020-05-05 北京九章云极科技有限公司 一种工作流应用方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8988524B2 (en) * 2013-03-11 2015-03-24 The United States Of America As Represented By The Secretary Of The Army Apparatus and method for estimating and using a predicted vehicle speed in an indirect vision driving task
CN110222709B (zh) * 2019-04-29 2022-01-25 上海暖哇科技有限公司 一种多标签智能打标方法及系统
CN111611240A (zh) * 2020-04-17 2020-09-01 第四范式(北京)技术有限公司 执行自动机器学习过程的方法、装置及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659266A (zh) * 2018-11-16 2020-01-07 创新奇智(南京)科技有限公司 一种模型的数据处理方法
CN110287219A (zh) * 2019-06-28 2019-09-27 北京九章云极科技有限公司 一种数据处理方法及系统
CN110851428A (zh) * 2019-11-19 2020-02-28 厦门市美亚柏科信息股份有限公司 基于规则算子动态编排的数据库分析方法、装置及介质
CN111104214A (zh) * 2019-12-26 2020-05-05 北京九章云极科技有限公司 一种工作流应用方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Zhao Zhang.Simple Yet Effective Color Principal and Discriminant Feature Extraction for Representing and Recognizing Color Images.《Neurocomputing 149》.2014, *
一种融合全局及显著性区域特征的室内场景识别方法;牛杰;《机器人》;20151231;第122-128页 *

Also Published As

Publication number Publication date
CN112182314A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN108228169B (zh) 基于eCharts工具的图表制作方法、装置、设备及介质
US11645345B2 (en) Systems and methods for issue tracking systems
CN102915237B (zh) 根据用户应用程序要求改写数据质量规则的方法和系统
CN112182314B (zh) 一种数据处理方法和系统
US20090077056A1 (en) Customization of search results
CN108509457A (zh) 一种视频数据的推荐方法和装置
CN109168047B (zh) 视频推荐方法、装置、服务器及存储介质
CN104813674A (zh) 用于优化视频的系统和方法
CN109872796A (zh) 一种菜谱推荐方法和装置
CN109902670A (zh) 数据录入方法及系统
CN109101309B (zh) 用于更新用户界面方法和装置
CN109582825A (zh) 用于生成信息的方法和装置
US9934291B2 (en) Dynamic presentation of a results set by a form-based software application
CN111125384B (zh) 一种多媒体答案生成方法、装置、终端设备以及存储介质
CN108021629A (zh) 一种广告素材数据生成方法、装置及系统
CN113821296A (zh) 可视化界面生成方法、电子设备及存储介质
CN111931256B (zh) 配色推荐的方法、装置、设备及存储介质
CN116737883A (zh) 人机交互方法、装置、设备及存储介质
CN117131179A (zh) 一种对话处理方法、装置、存储介质及电子设备
CN113033171A (zh) 模板创建方法、文件生成方法、装置及计算机设备
CN114385876B (zh) 一种模型搜索空间生成方法、装置及系统
CN108073702A (zh) 木材产品推荐方法、装置及计算机可读存储介质
CN108256957A (zh) 基于用户历史行为的车源搜索结果的展现方法及装置
CN107220273A (zh) 一种动漫人物人脸搜索方法
CN114820011A (zh) 用户群体聚类方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant