CN108008942B - 对数据记录进行处理的方法及系统 - Google Patents

对数据记录进行处理的方法及系统 Download PDF

Info

Publication number
CN108008942B
CN108008942B CN201711136593.4A CN201711136593A CN108008942B CN 108008942 B CN108008942 B CN 108008942B CN 201711136593 A CN201711136593 A CN 201711136593A CN 108008942 B CN108008942 B CN 108008942B
Authority
CN
China
Prior art keywords
field
data table
data
processing
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711136593.4A
Other languages
English (en)
Other versions
CN108008942A (zh
Inventor
戴文渊
杨强
陈雨强
张舒羽
栾淑君
杨爽
杨慧斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN201711136593.4A priority Critical patent/CN108008942B/zh
Publication of CN108008942A publication Critical patent/CN108008942A/zh
Application granted granted Critical
Publication of CN108008942B publication Critical patent/CN108008942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/31Programming languages or programming paradigms
    • G06F8/315Object-oriented languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/33Intelligent editors

Abstract

提供一种对数据记录进行处理的方法及系统。所述方法包括:(A)获取用户指定的数据表,其中,数据表的一行对应一条数据记录,数据表的一列对应一个字段;(B)向用户提供用于设置字段处理项的图形界面,其中,所述字段处理项用于限定如何对数据表中的字段进行处理;(C)接收用户为了设置字段处理项而在图形界面上执行的输入操作,并根据所述输入操作来获取用户设置的字段处理项;以及(D)基于获取的字段处理项对所述数据表中的字段进行处理,以基于处理后的字段得到与所述数据表中的数据记录相应的机器学习样本的特征。

Description

对数据记录进行处理的方法及系统
技术领域
本发明总体说来涉及数据处理领域,更具体地讲,涉及一种对数据记录进行处理的方法及系统。
背景技术
随着海量数据的出现,人们倾向于使用机器学习技术来从数据中挖掘出价值。
训练机器学习模型的基本过程主要包括:
1、导入包含历史数据记录的数据集(例如,数据表);
2、完成特征工程,其中,通过对数据集中的数据记录的属性信息(即,字段)进行各种处理,以得到各个特征(例如,可包括组合特征),这些特征构成的特征向量可作为机器学习样本;
3、训练模型,其中,按照设置的机器学习算法(例如,逻辑回归算法、决策树算法、神经网络算法等),基于经过特征工程所得到的机器学习样本来学习出模型。
然而,目前缺少能够有效地进行数据处理的工具,例如,为了对数据表中的各个字段进行处理,往往需要编写有针对性的程序代码,这需要操作者掌握专门的编程语言,提高了数据应用的技术门槛。即使在相关的应用软件中,也缺少有效的字段处理方式,并且,由于数据表中经常含有大量字段,用户手动处理字段往往需要耗费大量的时间。
发明内容
本发明的示例性实施例在于提供一种对数据记录进行处理的方法及系统,以解决现有技术存在的不能便捷地在机器学习系统中对数据表中的字段进行自动处理的问题。
根据本发明的示例性实施例,提供一种对数据记录进行处理的方法,包括:(A)获取用户指定的数据表,其中,数据表的一行对应一条数据记录,数据表的一列对应一个字段;(B)向用户提供用于设置字段处理项的图形界面,其中,所述字段处理项用于限定如何对数据表中的字段进行处理;(C)接收用户为了设置字段处理项而在图形界面上执行的输入操作,并根据所述输入操作来获取用户设置的字段处理项;以及(D)基于获取的字段处理项对所述数据表中的字段进行处理,以基于处理后的字段得到与所述数据表中的数据记录相应的机器学习样本的特征。
可选地,所述字段处理项包括以下项之中的至少一项:字段名设置项,用于指定是否将数据表的首行数据记录中的各个字段值作为字段名,使得在步骤(D)中,当指定将首行数据记录中的各个字段值作为字段名时,将所述各个字段值分别作为其所在列对应的字段的字段名,当指定不将首行数据记录中的各个字段值作为字段名时,在所述数据表中自动或手动添加各字段的字段名;特征类型声明项,用于声明数据表中的所有字段对应的特征类型,使得在步骤(D)中,按照声明的特征类型来处理所述数据表中的所有字段,其中,特征类型包括离散特征和/或连续特征。
可选地,根据用户对单选按钮的操作,特征类型声明项被设置为用于将数据表中的所有字段声明为离散特征,或者,用于将数据表中的各个字段声明为与其字段值数据类型相应的离散特征或连续特征。
可选地,所述方法还包括:生成按照设置的特征类型声明项来声明所述数据表中的所有字段对应的特征类型的声明配置文件。
可选地,所述图形界面中还显示所述数据表,其中,所述方法还包括:(E)接收用户对显示的数据表中的字段名和/或字段值数据类型的修改操作,并响应于所述修改操作对字段名和/或字段值数据类型进行修改。
可选地,用户对显示的数据表中的字段名的修改操作包括:在复制了第一数量的修改后字段名之后,选中显示的数据表中的第一数量的待修改字段名之中的首个字段名,并针对所述首个字段名进行粘贴操作,其中,在步骤(E)中,响应于所述修改操作将显示的数据表中的所述第一数量的待修改字段名按照前后顺序修改为被复制的所述第一数量的修改后字段名;和/或,用户对显示的数据表中的字段值数据类型的修改操作包括:在复制了第二数量的修改后字段值数据类型之后,选中显示的数据表中的第二数量的待修改字段值数据类型之中的首个字段值数据类型,并针对所述首个字段值数据类型进行粘贴操作,其中,在步骤(E)中,响应于所述修改操作将显示的数据表中的所述第二数量的待修改字段值数据类型按照前后顺序修改为被复制的所述第二数量的修改后字段值数据类型。
可选地,在步骤(D)中,针对每一个被声明为连续特征的字段,执行一种或多种分桶运算以得到相应的一个或多个分桶特征,并将得到的分桶特征整体作为机器学习样本的特征。
根据本发明的另一示例性实施例,提供一种对数据记录进行处理的系统,包括:数据表获取装置,用于获取用户指定的数据表,其中,数据表的一行对应一条数据记录,数据表的一列对应一个字段;显示装置,用于向用户提供用于设置字段处理项的图形界面,其中,所述字段处理项用于限定如何对数据表中的字段进行处理;处理项获取装置,用于接收用户为了设置字段处理项而在图形界面上执行的输入操作,并根据所述输入操作来获取用户设置的字段处理项;以及字段处理装置,用于基于获取的字段处理项对所述数据表中的字段进行处理,以基于处理后的字段得到与所述数据表中的数据记录相应的机器学习样本的特征。
可选地,所述字段处理项包括以下项之中的至少一项:字段名设置项,用于指定是否将数据表的首行数据记录中的各个字段值作为字段名,使得字段处理装置当指定将首行数据记录中的各个字段值作为字段名时,将所述各个字段值分别作为其所在列对应的字段的字段名,当指定不将首行数据记录中的各个字段值作为字段名时,在所述数据表中自动或手动添加各字段的字段名;特征类型声明项,用于声明数据表中的所有字段对应的特征类型,使得字段处理装置按照声明的特征类型来处理所述数据表中的所有字段,其中,特征类型包括离散特征和/或连续特征。
可选地,根据用户对单选按钮的操作,特征类型声明项被设置为用于将数据表中的所有字段声明为离散特征,或者,用于将数据表中的各个字段声明为与其字段值数据类型相应的离散特征或连续特征。
可选地,所述系统还包括:配置文件生成装置,用于生成按照设置的特征类型声明项来声明所述数据表中的所有字段对应的特征类型的声明配置文件。
可选地,所述图形界面中还显示所述数据表,其中,所述系统还包括:修改装置,用于接收用户对显示的数据表中的字段名和/或字段值数据类型的修改操作,并响应于所述修改操作对字段名和/或字段值数据类型进行修改。
可选地,用户对显示的数据表中的字段名的修改操作包括:在复制了第一数量的修改后字段名之后,选中显示的数据表中的第一数量的待修改字段名之中的首个字段名,并针对所述首个字段名进行粘贴操作,其中,修改装置响应于所述修改操作将显示的数据表中的所述第一数量的待修改字段名按照前后顺序修改为被复制的所述第一数量的修改后字段名;和/或,用户对显示的数据表中的字段值数据类型的修改操作包括:在复制了第二数量的修改后字段值数据类型之后,选中显示的数据表中的第二数量的待修改字段值数据类型之中的首个字段值数据类型,并针对所述首个字段值数据类型进行粘贴操作,其中,修改装置响应于所述修改操作将显示的数据表中的所述第二数量的待修改字段值数据类型按照前后顺序修改为被复制的所述第二数量的修改后字段值数据类型。
可选地,字段处理装置针对每一个被声明为连续特征的字段,执行一种或多种分桶运算以得到相应的一个或多个分桶特征,并将得到的分桶特征整体作为机器学习样本的特征。
根据本发明的另一示例性实施例,提供一种用于对数据记录进行处理的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行如上所述的对数据记录进行处理的方法的计算机程序。
根据本发明的另一示例性实施例,提供一种用于对数据记录进行处理的计算装置,包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行如上所述的对数据记录进行处理的方法。
根据本发明示例性实施例的对数据记录进行处理的方法及系统,提供了一种便捷高效且交互友好的字段处理过程,用户只需通过交互界面来设置用于限定如何对数据表中的字段进行处理的相关处理项,即可实现对导入到机器学习系统的数据表中的字段进行自动处理,既提高了效率,也提升了用户体验。
将在接下来的描述中部分阐述本发明总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本发明总体构思的实施而得知。
附图说明
通过下面结合示例性地示出实施例的附图进行的描述,本发明示例性实施例的上述和其他目的和特点将会变得更加清楚,其中:
图1示出根据本发明示例性实施例的对数据记录进行处理的方法的流程图;
图2至图4示出根据本发明示例性实施例的设置字段名设置项的示例;
图5示出根据本发明示例性实施例的设置特征类型声明项的示例;
图6示出根据本发明示例性实施例的生成的声明配置文件的示例;
图7示出根据本发明示例性实施例的对数据表中的字段名进行修改的示例;
图8示出根据本发明示例性实施例的对数据表中的字段值数据类型进行修改的示例;
图9示出根据本发明示例性实施例的用于训练机器学习模型的DAG图的示例;
图10示出根据本发明示例性实施例的对数据记录进行处理的系统的框图。
具体实施方式
现将详细参照本发明的实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例,以便解释本发明。
这里,机器学习是人工智能研究发展到一定阶段的必然产物,其致力于通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,通过机器学习算法,可从数据中产生“模型”,也就是说,将经验数据提供给机器学习算法,就能基于这些经验数据产生模型,在面对新的情况时,模型会提供相应的判断,即,预测结果。不论是训练机器学习模型,还是利用训练好的机器学习模型进行预测,数据都需要转换为包括各种特征的机器学习样本。机器学习可被实现为“有监督学习”、“无监督学习”或“半监督学习”的形式,应注意,本发明的示例性实施例对具体的机器学习算法并不进行特定限制。此外,还应注意,在训练和应用模型的过程中,还可结合统计算法等其他手段。
图1示出根据本发明示例性实施例的对数据记录进行处理的方法的流程图。这里,作为示例,所述方法可通过计算机程序来执行,也可由专门的对数据记录进行处理的系统或计算装置来执行。
在步骤S10中,获取用户指定的数据表。这里,数据表的一行对应一条数据记录,数据表的一列对应一个字段。换言之,数据表中的每条数据记录具有与各个字段相应的字段值。作为示例,每条数据记录可被看作关于一个事件或对象的描述,对应于一个示例或样例,每个字段可用于描述事件或对象在一个方面的表现或性质(例如,名字、年龄、职业等)。
作为示例,可根据用户在用于指定数据表的图形界面上执行的输入操作,来确定用户所指定的数据表。
在步骤S20中,向用户提供用于设置字段处理项的图形界面,其中,所述字段处理项用于限定如何对数据表中的字段进行处理。根据本发明的示例性实施例,对数据表中的字段的处理可基于用户设置的字段处理项来执行。
在步骤S30中,接收用户为了设置字段处理项而在图形界面上执行的输入操作,并根据所述输入操作来获取用户设置的字段处理项。
作为示例,向用户提供的图形界面可包括与每个字段处理项对应的输入控件以选择和/或编辑内容,从而可通过接收用户的选择操作和/或编辑操作来获取用户所设置的字段处理项。
在步骤S40中,基于获取的字段处理项对所述数据表中的字段进行处理,以基于处理后的字段得到与所述数据表中的数据记录相应的机器学习样本的特征。
作为示例,字段处理项可包括以下项之中的至少一项:字段名设置项和特征类型声明项。应该理解,字段处理项也可包括其他的用于限定如何对数据表中的字段进行处理的处理项。
具体说来,字段名设置项用于指定是否将数据表的首行数据记录中的各个字段值作为字段名,使得在步骤S40中,当指定将首行数据记录中的各个字段值作为字段名时,将所述各个字段值分别作为其所在列对应的字段的字段名,当指定不将首行数据记录中的各个字段值作为字段名时,在数据表中自动或手动添加各字段的字段名。换言之,用户可通过字段名设置项来设置是否将数据表的首行数据记录中的各个字段值作为字段名,并可当用户由于数据表中没有字段名而将字段名设置项设置为“不将首行数据记录中的各个字段值作为字段名”时,在数据表中自动添加各字段的字段名,或者,响应于用户的输入操作,在数据表中为各个字段添加字段名。根据本发明的示例性实施例,使得导入到机器学习系统的数据表不需要首行必须为字段名,提高了灵活性。下面结合图2至图4来描述根据本发明示例性实施例的由用户通过图形界面来设置字段名设置项的示例。如图2所示,用于设置字段名设置项的图形界面可显示用于开启或关闭“将首行作为字段名”的开关按钮。如图3所示,可响应于用户开启开关按钮的操作(即,用户将字段名设置项设置为“将首行作为字段名”),直接将数据表的首行数据记录中的各个字段值(“age”、“job”、“marital”、“education”等)作为其所在字段的字段名;如图4所示,可响应于用户关闭开关按钮的操作(即,用户将字段名设置项设置为“不将首行作为字段名”),在数据表中自动添加各字段的字段名(“col_1”、“col_2”、“col_3”、“col_4”等)。应理解,本发明的示例性实施例在设置字段名设置项时的具体交互细节不限于图2至图4所示的示例。
特征类型声明项用于声明数据表中的所有字段对应的特征类型,使得在步骤S40中,按照声明的特征类型来处理数据表中的所有字段,其中,特征类型包括离散特征和/或连续特征。这里,连续特征是与离散特征(例如,类别特征)相对的一种特征,其取值可以是具有一定连续性的数值,例如,年龄、金额等。相对地,作为示例,离散特征的取值不具有连续性,例如,可以是“来自北京”、“来自上海”或“来自天津”、“性别为男”、“性别为女”等无序分类的特征。
作为示例,可根据用户对单选按钮的操作,特征类型声明项被设置为用于将数据表中的所有字段声明为离散特征,或者,用于将数据表中的各个字段声明为与其字段值数据类型相应的离散特征或连续特征。根据本发明的示例性实施例,用户通过一键操作,即可实现声明数据表中的所有字段的特征类型,不仅有助于后续形成机器学习样本特征,而且通过特定的分类处理方式避免了逐个字段声明所需的繁琐操作。
作为示例,字段的字段值数据类型可为连续型(例如,数值型(例如,整型int))或离散型(例如,文本型(例如,字符串型string))。作为示例,如果特征类型声明项被设置为“将数据表中的各个字段声明为与其字段值数据类型相应的离散特征或连续特征”,则可将数据表中的字段值数据类型为离散型的字段声明为离散特征,并将数据表中的字段值数据类型为连续型的字段声明为连续特征。作为示例,如果特征类型声明项被设置为“用于将数据表中的所有字段声明为离散特征”,则可将数据表中的所有字段全部声明为离散特征,并使得在步骤S40中,对数据表中的字段值数据类型为连续型的字段进行离散化处理。
下面结合图5来描述根据本发明示例性实施例的由用户通过图形界面来设置特征类型声明项的示例。如图5所示,用于设置特征类型声明项的图形界面可显示单选按钮“全部离散”和“离散+连续”,可响应于用户对单选按钮“全部离散”的选择操作,将数据表中的所有字段声明为离散特征;可响应于用户对单选按钮“离散+连续”的选择操作,根据各个字段的数据类型将所述字段设置为相应的离散特征或连续特征,这里,可根据字段值的特性来自动判断出字段的数据类型,并进而根据数据类型为离散型还是连续型将字段声明为离散特征或连续特征。此外,所述图形界面的左侧还可显示数据表中的各字段的字段名及字段值数据类型。应理解,本发明的示例性实施例在设置特征类型声明项时的具体交互细节不限于图5所示的示例。
此外,作为示例,根据本发明示例性实施例的对数据记录进行处理的方法还可包括:生成按照设置的特征类型声明项来声明所述数据表中的所有字段对应的特征类型的声明配置文件。以便在执行后续的机器学习步骤时可根据用户需求直接调用,或者在进行其他机器学习流程时可根据用户需求直接调用。图6示出根据本发明示例性实施例的生成的声明配置文件的示例,如图6所示,以“f_education=discrete(education)”为例,其指示将字段名为“education”的字段声明为离散特征。
应该理解,以上基于设置项来对数据记录进行处理的方式仅仅是作为示例而起到解释和说明作用,本发明的示例性实施例并不受限于上述示例。
作为示例,在步骤S40中,可针对每一个被声明为连续特征的字段,执行一种或多种分桶运算以得到相应的一个或多个分桶特征,并将得到的分桶特征整体作为机器学习样本的特征。
这里,分桶(binning)运算是指将被声明为连续特征的字段进行分散化的一种特定方式,即,将被声明为连续特征的字段的值域划分为多个区间(即,多个桶),并基于划分的桶来确定相应的分桶特征值。分桶运算大体上可划分为有监督分桶和无监督分桶,这两种类型各自包括一些具体的分桶方式,例如,有监督分桶可包括最小熵分桶、最小描述长度分桶等,而无监督分桶可包括等宽分桶、等深分桶、基于k均值聚类的分桶等。在每种分桶方式下,可设置相应的分桶参数,例如,宽度、深度等。
应注意,根据本发明的示例性实施例,在步骤S40中执行的分桶运算不限制分桶方式的种类,也不限制分桶运算的参数,并且,相应产生的分桶特征的具体表示方式也不受限制。
作为示例,在步骤S40中针对每一个被声明为连续特征的字段执行的多种分桶运算可以在分桶方式和/或分桶参数方面存在差异。例如,所述多种分桶运算可以是种类相同但具有不同运算参数(例如,深度、宽度等)的分桶运算,也可以是不同种类的分桶运算。相应地,每一种分桶运算可得到一个分桶特征,这些分桶特征共同组成一个分桶组特征,该分桶组特征可体现出不同分桶运算,从而提升了机器学习素材的有效性,为机器学习模型的训练/预测提供了较好的基础。
也就是说,根据本发明的示例性实施例,可针对每一个被声明为连续特征的字段执行至少一种分桶运算而得到相应的至少一个分桶特征,将每一个分桶特征作为一个组成元素而得到与每一个被声明为连续特征的字段对应的特征,并将该特征作为机器学习样本的特征。这里,应理解,分桶运算的执行使得被声明为连续特征的字段被分散化地置入相应的特定桶中,在转换后的多个分桶特征中,每个维度既可以指示桶中是否被分配了连续特征的离散值(例如,“0”或“1”),也可以指示具体的连续数值(例如,连续特征的实际特征值或其归一化值、所述桶中各连续特征的平均值、中间值、边界值等)。相应地,在机器学习中具体应用各个维度的离散值(例如,针对分类问题)或连续数值(例如,针对回归问题)时,可进行离散值之间的组合(例如,笛卡尔积等)或连续数值之间的组合(例如,算术运算组合等)。
此外,作为示例,用于设置字段处理项的图形界面还可显示被处理的数据表,根据本发明示例性实施例的对数据记录进行处理的方法还可包括:接收用户对显示的数据表中的字段名和/或字段值数据类型的修改操作,并响应于所述修改操作对字段名和/或字段值数据类型进行修改。根据本发明的示例性实施例,能够对上传到机器学习系统的数据表中的字段名和/或字段值数据类型进行修改,提高了灵活性。
作为示例,对显示的数据表中的字段名的修改操作可以是对单个字段名进行修改的操作,也可以是对多个字段名进行批量修改的操作。作为示例,当接收到的用户对显示的数据表中的字段名的修改操作为:在复制了第一数量的修改后字段名之后,选中显示的数据表中的第一数量的待修改字段名之中的首个字段名,并针对所述首个字段名进行粘贴操作时,可响应于所述修改操作将显示的数据表中的所述第一数量的待修改字段名按照前后顺序修改为被复制的所述第一数量的修改后字段名。根据本发明的示例性实施例,能够便捷地实现对多个字段名进行批量修改。下面结合图7来描述根据本发明示例性实施例的对数据表中的字段名进行修改的示例,如图7所示,用户对字段名进行修改的操作可以是:在与想要修改的字段名对应的输入框内直接进行编辑操作;或者,在复制了一定数量的修改后字段名之后,对想要修改的一定数量的字段名之中的首个字段名进行粘贴操作。
作为示例,对显示的数据表中的字段值数据类型的修改操作可以是对单个字段值数据类型进行修改的操作,也可以是对多个字段值数据类型进行批量修改的操作。作为示例,当接收到的用户对显示的数据表中的字段值数据类型的修改操作为:在复制了第二数量的修改后字段值数据类型之后,选中显示的数据表中的第二数量的待修改字段值数据类型之中的首个字段值数据类型,并针对所述首个字段值数据类型进行粘贴操作时,可响应于所述修改操作将显示的数据表中的所述第二数量的待修改字段值数据类型按照前后顺序修改为被复制的所述第二数量的修改后字段值数据类型。根据本发明的示例性实施例,能够便捷地实现对多个字段值数据类型进行批量修改。下面结合图8示来描述根据本发明示例性实施例的对数据表中的字段值数据类型进行修改的示例。如图8所示,用户对字段值数据类型进行修改的操作可以是:在与想要修改的字段值数据类型对应的下拉框内直接进行选择操作;或者,在复制了一定数量的修改后字段值数据类型之后,对想要修改的一定数量的字段值数据类型之中的首个字段值数据类型进行粘贴操作。
根据本发明的示例性实施例,可通过有向无环图(DAG图)的形式来执行机器学习流程,该机器学习流程可涵盖用于进行机器学习模型训练、测试或预估的全部或部分步骤。例如,可针对机器学习模型训练来建立包括历史数据导入步骤、数据拆分步骤、特征抽取步骤、逻辑回归步骤、模型预测步骤的DAG图。也即,上述各个步骤可作为DAG图中的节点而被执行。
图9示出根据本发明示例性实施例的用于训练机器学习模型的DAG图的示例。
参照图9,第一步:建立数据导入节点。作为示例,可响应于用户操作对数据导入节点进行设置以获取名称为“bank”的银行业务数据表(即,将该数据表导入机器学习平台中),其中,该数据表中可包含多条历史数据记录。进一步地,还可响应于用户操作对数据表“bank”中的数据记录进行处理,例如,当接收到用户点击“bank”的操作时,可向用户提供如图2至8所示的用于设置字段处理项的图形界面,以便于用户通过所述图形界面来设置用于数据表“bank”的字段处理项。
第二步:建立数据拆分节点,并将数据导入节点连接到数据拆分节点,以将上述导入的数据表拆分为训练集和验证集,其中,训练集中的数据记录用于转换为机器学习样本以学习出模型,而验证集中的数据记录用于转换为测试样本以验证学习出的模型的效果。可响应于用户操作对数据拆分节点进行设置以按照设置的方式将上述导入的数据表拆分为训练集和验证集。
第三步:建立两个特征抽取节点,并将数据拆分节点分别连接特到这两个特征抽取节点,以对数据拆分节点输出的训练集和验证集分别进行特征抽取,例如,默认数据拆分节点左侧输出的是训练集,右侧输出的是验证集。可基于用户在特征抽取节点中设置的特征配置或编写的代码对训练集和验证集进行特征抽取。应理解,对于机器学习样本和测试样本而言,两者的特征抽取方式是对应一致的。用户可将对左侧特征抽取节点配置的特征抽取方式直接应用于对右侧特征抽取节点的特征抽取,或者,平台可将二者设为自动同步设置。
第四步:建立特点算法(例如,逻辑回归)节点(也即,模型训练节点),并将左侧特征抽取节点连接到逻辑回归节点,以利用逻辑回归算法基于机器学习样本来训练出机器学习模型。可响应于用户操作对逻辑回归节点进行设置以按照设置的逻辑回归算法来训练机器学习模型。
第五步:建立模型预测节点,并将逻辑回归节点和右侧特征抽取节点连接到模型预测节点,以基于测试样本来验证训练出的机器学习模型的效果。可响应于用户操作对模型预测节点进行设置以按照设置的验证方式来验证机器学习模型的效果。
在建立包括上述步骤的DAG图之后,可根据用户的指示来运行整个
DAG图。在运行过程中,机器学习平台会根据用户设置的设置项来对数据表中的数据记录进行处理。
图10示出根据本发明示例性实施例的对数据记录进行处理的系统的框图。如图10所示,根据本发明示例性实施例的对数据记录进行处理的系统包括:数据表获取装置10、显示装置20、处理项获取装置30、字段处理装置40。
数据表获取装置10用于获取用户指定的数据表。这里,数据表的一行对应一条数据记录,数据表的一列对应一个字段。
显示装置20用于向用户提供用于设置字段处理项的图形界面,其中,所述字段处理项用于限定如何对数据表中的字段进行处理。
处理项获取装置30用于接收用户为了设置字段处理项而在图形界面上执行的输入操作,并根据所述输入操作来获取用户设置的字段处理项。
字段处理装置40用于基于获取的字段处理项对所述数据表中的字段进行处理,以基于处理后的字段得到与所述数据表中的数据记录相应的机器学习样本的特征。
作为示例,字段处理项可包括以下项之中的至少一项:字段名设置项和特征类型声明项。
具体说来,字段名设置项用于指定是否将数据表的首行数据记录中的各个字段值作为字段名,使得字段处理装置40当指定将首行数据记录中的各个字段值作为字段名时,将所述各个字段值分别作为其所在列对应的字段的字段名,当指定不将首行数据记录中的各个字段值作为字段名时,在所述数据表中自动或手动添加各字段的字段名。
特征类型声明项用于声明数据表中的所有字段对应的特征类型,使得字段处理装置40按照声明的特征类型来处理所述数据表中的所有字段,其中,特征类型包括离散特征和/或连续特征。
作为示例,可根据用户对单选按钮的操作,特征类型声明项被设置为用于将数据表中的所有字段声明为离散特征,或者,用于将数据表中的各个字段声明为与其字段值数据类型相应的离散特征或连续特征。
作为示例,根据本发明示例性实施例的对数据记录进行处理的系统还可包括:配置文件生成装置(未示出)。配置文件生成装置用于生成按照设置的特征类型声明项来声明所述数据表中的所有字段对应的特征类型的声明配置文件。
此外,作为示例,字段处理装置40可针对每一个被声明为连续特征的字段,执行一种或多种分桶运算以得到相应的一个或多个分桶特征,并将得到的分桶特征整体作为机器学习样本的特征。
此外,作为示例,用于设置字段处理项的图形界面还可显示被处理的数据表,根据本发明示例性实施例的对数据记录进行处理的系统还可包括:修改装置(未示出)。
修改装置用于接收用户对显示的数据表中的字段名和/或字段值数据类型的修改操作,并响应于所述修改操作对字段名和/或字段值数据类型进行修改。
作为示例,用户对显示的数据表中的字段名的修改操作可包括:在复制了第一数量的修改后字段名之后,选中显示的数据表中的第一数量的待修改字段名之中的首个字段名,并针对所述首个字段名进行粘贴操作,其中,修改装置可响应于所述修改操作将显示的数据表中的所述第一数量的待修改字段名按照前后顺序修改为被复制的所述第一数量的修改后字段名。
作为示例,用户对显示的数据表中的字段值数据类型的修改操作可包括:在复制了第二数量的修改后字段值数据类型之后,选中显示的数据表中的第二数量的待修改字段值数据类型之中的首个字段值数据类型,并针对所述首个字段值数据类型进行粘贴操作,其中,修改装置可响应于所述修改操作将显示的数据表中的所述第二数量的待修改字段值数据类型按照前后顺序修改为被复制的所述第二数量的修改后字段值数据类型。
应该理解,根据本发明示例性实施例的对数据记录进行处理的系统的具体实现方式可参照结合图1至图9描述的相关具体实现方式来实现,在此不再赘述。
根据本发明示例性实施例的对数据记录进行处理的系统所包括的装置可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,这些装置可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,这些装置所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
应理解,根据本发明示例性实施例的对数据记录进行处理的方法可通过记录在计算可读介质上的程序来实现,例如,根据本发明的示例性实施例,可提供一种用于对数据记录进行处理的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序:(A)获取用户指定的数据表,其中,数据表的一行对应一条数据记录,数据表的一列对应一个字段;(B)向用户提供用于设置字段处理项的图形界面,其中,所述字段处理项用于限定如何对数据表中的字段进行处理;(C)接收用户为了设置字段处理项而在图形界面上执行的输入操作,并根据所述输入操作来获取用户设置的字段处理项;以及(D)基于获取的字段处理项对所述数据表中的字段进行处理,以基于处理后的字段得到与所述数据表中的数据记录相应的机器学习样本的特征。
上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经参照图1至图9进行了描述,这里为了避免重复将不再进行赘述。
应注意,根据本发明示例性实施例的对数据记录进行处理的系统可完全依赖计算机程序的运行来实现相应的功能,即,各个装置与计算机程序的功能架构中与各步骤相应,使得整个系统通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,根据本发明示例性实施例的对数据记录进行处理的系统所包括的各个装置也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
例如,本发明的示例性实施例还可以实现为计算装置,该计算装置包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行对数据记录进行处理的方法。
具体说来,所述计算装置可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点装置上。此外,所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。
这里,所述计算装置并非必须是单个的计算装置,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在所述计算装置中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
根据本发明示例性实施例的对数据记录进行处理的方法中所描述的某些操作可通过软件方式来实现,某些操作可通过硬件方式来实现,此外,还可通过软硬件结合的方式来实现这些操作。
处理器可运行存储在存储部件之一中的指令或代码,其中,所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,所述网络接口装置可采用任何已知的传输协议。
存储部件可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储部件可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储部件中的文件。
此外,所述计算装置还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。
根据本发明示例性实施例的对数据记录进行处理的方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而,这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。
例如,如上所述,根据本发明示例性实施例的用于对数据记录进行处理的计算装置可包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:(A)获取用户指定的数据表,其中,数据表的一行对应一条数据记录,数据表的一列对应一个字段;(B)向用户提供用于设置字段处理项的图形界面,其中,所述字段处理项用于限定如何对数据表中的字段进行处理;(C)接收用户为了设置字段处理项而在图形界面上执行的输入操作,并根据所述输入操作来获取用户设置的字段处理项;以及(D)基于获取的字段处理项对所述数据表中的字段进行处理,以基于处理后的字段得到与所述数据表中的数据记录相应的机器学习样本的特征。
以上描述了本发明的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本发明不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的范围为准。

Claims (12)

1.一种对数据记录进行处理的方法,包括:
(A)获取用户指定的数据表,其中,数据表的一行对应一条数据记录,数据表的一列对应一个字段;
(B)向用户提供用于设置字段处理项的图形界面,其中,所述字段处理项用于限定如何对数据表中的字段进行处理;
(C)接收用户为了设置字段处理项而在图形界面上执行的输入操作,并根据所述输入操作来获取用户设置的字段处理项;以及
(D)基于获取的字段处理项对所述数据表中的字段进行处理,以基于处理后的字段得到与所述数据表中的数据记录相应的机器学习样本的特征,
其中,所述字段处理项包括:字段名设置项,用于指定是否将数据表的首行数据记录中的各个字段值作为字段名,使得在步骤(D)中,当指定将首行数据记录中的各个字段值作为字段名时,将所述各个字段值分别作为其所在列对应的字段的字段名,当指定不将首行数据记录中的各个字段值作为字段名时,在所述数据表中自动添加各字段的字段名;特征类型声明项,用于声明数据表中的所有字段对应的特征类型,使得在步骤(D)中,按照声明的特征类型来处理所述数据表中的所有字段,其中,特征类型包括离散特征和/或连续特征,
其中,根据用户对单选按钮的操作,特征类型声明项被设置为用于将数据表中的所有字段声明为离散特征,或者,用于将数据表中的各个字段声明为与其字段值数据类型相应的离散特征或连续特征。
2.根据权利要求1所述的方法,还包括:
生成按照设置的特征类型声明项来声明所述数据表中的所有字段对应的特征类型的声明配置文件。
3.根据权利要求1所述的方法,其中,所述图形界面中还显示所述数据表,其中,所述方法还包括:
(E)接收用户对显示的数据表中的字段名和/或字段值数据类型的修改操作,并响应于所述修改操作对字段名和/或字段值数据类型进行修改。
4.根据权利要求3所述的方法,其中,用户对显示的数据表中的字段名的修改操作包括:在复制了第一数量的修改后字段名之后,选中显示的数据表中的第一数量的待修改字段名之中的首个字段名,并针对所述首个字段名进行粘贴操作,其中,在步骤(E)中,响应于所述修改操作将显示的数据表中的所述第一数量的待修改字段名按照前后顺序修改为被复制的所述第一数量的修改后字段名;
和/或,用户对显示的数据表中的字段值数据类型的修改操作包括:在复制了第二数量的修改后字段值数据类型之后,选中显示的数据表中的第二数量的待修改字段值数据类型之中的首个字段值数据类型,并针对所述首个字段值数据类型进行粘贴操作,其中,在步骤(E)中,响应于所述修改操作将显示的数据表中的所述第二数量的待修改字段值数据类型按照前后顺序修改为被复制的所述第二数量的修改后字段值数据类型。
5.根据权利要求1所述的方法,其中,在步骤(D)中,针对每一个被声明为连续特征的字段,执行一种或多种分桶运算以得到相应的一个或多个分桶特征,并将得到的分桶特征整体作为机器学习样本的特征。
6.一种对数据记录进行处理的系统,包括:
数据表获取装置,用于获取用户指定的数据表,其中,数据表的一行对应一条数据记录,数据表的一列对应一个字段;
显示装置,用于向用户提供用于设置字段处理项的图形界面,其中,所述字段处理项用于限定如何对数据表中的字段进行处理;
处理项获取装置,用于接收用户为了设置字段处理项而在图形界面上执行的输入操作,并根据所述输入操作来获取用户设置的字段处理项;以及
字段处理装置,用于基于获取的字段处理项对所述数据表中的字段进行处理,以基于处理后的字段得到与所述数据表中的数据记录相应的机器学习样本的特征,
其中,所述字段处理项包括:字段名设置项,用于指定是否将数据表的首行数据记录中的各个字段值作为字段名,使得字段处理装置当指定将首行数据记录中的各个字段值作为字段名时,将所述各个字段值分别作为其所在列对应的字段的字段名,当指定不将首行数据记录中的各个字段值作为字段名时,在所述数据表中自动添加各字段的字段名;特征类型声明项,用于声明数据表中的所有字段对应的特征类型,使得字段处理装置按照声明的特征类型来处理所述数据表中的所有字段,其中,特征类型包括离散特征和/或连续特征,
其中,根据用户对单选按钮的操作,特征类型声明项被设置为用于将数据表中的所有字段声明为离散特征,或者,用于将数据表中的各个字段声明为与其字段值数据类型相应的离散特征或连续特征。
7.根据权利要求6所述的系统,还包括:
配置文件生成装置,用于生成按照设置的特征类型声明项来声明所述数据表中的所有字段对应的特征类型的声明配置文件。
8.根据权利要求6所述的系统,其中,所述图形界面中还显示所述数据表,其中,所述系统还包括:
修改装置,用于接收用户对显示的数据表中的字段名和/或字段值数据类型的修改操作,并响应于所述修改操作对字段名和/或字段值数据类型进行修改。
9.根据权利要求8所述的系统,其中,用户对显示的数据表中的字段名的修改操作包括:在复制了第一数量的修改后字段名之后,选中显示的数据表中的第一数量的待修改字段名之中的首个字段名,并针对所述首个字段名进行粘贴操作,其中,修改装置响应于所述修改操作将显示的数据表中的所述第一数量的待修改字段名按照前后顺序修改为被复制的所述第一数量的修改后字段名;
和/或,用户对显示的数据表中的字段值数据类型的修改操作包括:在复制了第二数量的修改后字段值数据类型之后,选中显示的数据表中的第二数量的待修改字段值数据类型之中的首个字段值数据类型,并针对所述首个字段值数据类型进行粘贴操作,其中,修改装置响应于所述修改操作将显示的数据表中的所述第二数量的待修改字段值数据类型按照前后顺序修改为被复制的所述第二数量的修改后字段值数据类型。
10.根据权利要求6所述的系统,其中,字段处理装置针对每一个被声明为连续特征的字段,执行一种或多种分桶运算以得到相应的一个或多个分桶特征,并将得到的分桶特征整体作为机器学习样本的特征。
11.一种用于对数据记录进行处理的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行如权利要求1至5任一所述的对数据记录进行处理的方法的计算机程序。
12.一种用于对数据记录进行处理的计算装置,包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行如权利要求1至5任一所述的对数据记录进行处理的方法。
CN201711136593.4A 2017-11-16 2017-11-16 对数据记录进行处理的方法及系统 Active CN108008942B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711136593.4A CN108008942B (zh) 2017-11-16 2017-11-16 对数据记录进行处理的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711136593.4A CN108008942B (zh) 2017-11-16 2017-11-16 对数据记录进行处理的方法及系统

Publications (2)

Publication Number Publication Date
CN108008942A CN108008942A (zh) 2018-05-08
CN108008942B true CN108008942B (zh) 2020-04-07

Family

ID=62052450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711136593.4A Active CN108008942B (zh) 2017-11-16 2017-11-16 对数据记录进行处理的方法及系统

Country Status (1)

Country Link
CN (1) CN108008942B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112130723B (zh) * 2018-05-25 2023-04-18 第四范式(北京)技术有限公司 用于针对数据执行特征处理的方法及系统
CN109299119A (zh) * 2018-08-30 2019-02-01 上海艾融软件股份有限公司 一种针对大量数据分布式批处理的控制系统及方法
CN109408592B (zh) * 2018-10-12 2021-09-24 北京聚云位智信息科技有限公司 一种决策型分布式数据库系统中ai的特征工程知识库及其实现方法
CN111444170B (zh) * 2018-12-28 2023-10-03 第四范式(北京)技术有限公司 基于预测业务场景的自动机器学习方法和设备
CN110502579A (zh) * 2019-08-26 2019-11-26 第四范式(北京)技术有限公司 用于批量和实时特征计算的系统和方法
CN111814445A (zh) * 2020-06-19 2020-10-23 第四范式(北京)技术有限公司 一种数据表的生成方法、装置及系统
CN112036492B (zh) * 2020-09-01 2024-02-02 腾讯科技(深圳)有限公司 样本集处理方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101702152A (zh) * 2009-10-28 2010-05-05 金蝶软件(中国)有限公司 数据智能处理方法、装置及系统
CN105677353A (zh) * 2016-01-08 2016-06-15 北京物思创想科技有限公司 特征抽取方法、机器学习方法及其装置
CN106407999A (zh) * 2016-08-25 2017-02-15 北京物思创想科技有限公司 结合规则来进行机器学习的方法及系统
CN106779088A (zh) * 2016-12-06 2017-05-31 北京物思创想科技有限公司 执行机器学习流程的方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9720971B2 (en) * 2008-06-30 2017-08-01 International Business Machines Corporation Discovering transformations applied to a source table to generate a target table

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101702152A (zh) * 2009-10-28 2010-05-05 金蝶软件(中国)有限公司 数据智能处理方法、装置及系统
CN105677353A (zh) * 2016-01-08 2016-06-15 北京物思创想科技有限公司 特征抽取方法、机器学习方法及其装置
CN106407999A (zh) * 2016-08-25 2017-02-15 北京物思创想科技有限公司 结合规则来进行机器学习的方法及系统
CN106779088A (zh) * 2016-12-06 2017-05-31 北京物思创想科技有限公司 执行机器学习流程的方法及系统

Also Published As

Publication number Publication date
CN108008942A (zh) 2018-05-08

Similar Documents

Publication Publication Date Title
CN108008942B (zh) 对数据记录进行处理的方法及系统
CN111652380B (zh) 针对机器学习算法进行算法参数调优的方法及系统
WO2019129060A1 (zh) 自动生成机器学习样本的特征的方法及系统
US11468366B2 (en) Parallel development and deployment for machine learning models
CN107766946B (zh) 生成机器学习样本的组合特征的方法及系统
US11232257B2 (en) Apparatuses, systems, and methods for providing a visual program for machine vision systems
US11416768B2 (en) Feature processing method and feature processing system for machine learning
Chen et al. Machine learning-based configuration parameter tuning on hadoop system
JP6758368B2 (ja) データ発見ノード
CN108228861B (zh) 用于执行机器学习的特征工程的方法及系统
CN109034394B (zh) 一种机器学习模型的更新方法和装置
CN106293653B (zh) 代码处理方法及装置、计算机可读介质
US11416754B1 (en) Automated cloud data and technology solution delivery using machine learning and artificial intelligence modeling
Nasridinov et al. Decision tree construction on GPU: ubiquitous parallel computing approach
CN108830383B (zh) 用于展示机器学习建模过程的方法及系统
US20210295158A1 (en) End-to-end optimization
US20210326761A1 (en) Method and System for Uniform Execution of Feature Extraction
CN111373406A (zh) 使用问题匹配的先验知识提取的加速仿真设置过程
CN110895718A (zh) 用于训练机器学习模型的方法及系统
CN111078500A (zh) 运行配置参数的调整方法、装置、计算机设备和存储介质
CN114282686A (zh) 用于构建机器学习建模过程的方法及系统
CN111316191A (zh) 用于多级模式发现和视觉分析推荐的预测引擎
CN116383521B (zh) 主题词挖掘方法及装置、计算机设备及存储介质
CN108681426B (zh) 用于针对数据执行特征处理的方法及系统
JP6802109B2 (ja) ソフトウェア仕様分析装置、及びソフトウェア仕様分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant