CN109670601A - 机器学习特征生成方法及装置、电子设备和存储介质 - Google Patents

机器学习特征生成方法及装置、电子设备和存储介质 Download PDF

Info

Publication number
CN109670601A
CN109670601A CN201811572272.3A CN201811572272A CN109670601A CN 109670601 A CN109670601 A CN 109670601A CN 201811572272 A CN201811572272 A CN 201811572272A CN 109670601 A CN109670601 A CN 109670601A
Authority
CN
China
Prior art keywords
feature
machine learning
sub
file
machining information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811572272.3A
Other languages
English (en)
Other versions
CN109670601B (zh
Inventor
余鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rajax Network Technology Co Ltd
Lazhasi Network Technology Shanghai Co Ltd
Original Assignee
Lazhasi Network Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lazhasi Network Technology Shanghai Co Ltd filed Critical Lazhasi Network Technology Shanghai Co Ltd
Priority to CN201811572272.3A priority Critical patent/CN109670601B/zh
Publication of CN109670601A publication Critical patent/CN109670601A/zh
Application granted granted Critical
Publication of CN109670601B publication Critical patent/CN109670601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及机器学习技术领域,公开了一种机器学习特征生成方法及装置、电子设备和存储介质。该方法包括:在配置文件中配置特征加工信息;对配置文件中配置的特征加工信息进行解析,并根据解析出的特征加工信息生成脚本文件;执行脚本文件得到机器学习特征。本发明实施方式可以通过配置化的方式自动生成细分特征,从而可以大幅简化开发人员工作量,提高效率。

Description

机器学习特征生成方法及装置、电子设备和存储介质
技术领域
本发明涉及机器学习技术领域,特别涉及一种机器学习特征生成方法及装置、电子设备和存储介质。
背景技术
近年来,在线餐饮服务发展迅速,对于平台的服务能力要求也越来越高。运用机器学习技术不断优化在线餐饮服务质量成为重要手段。在进行机器学习时,需要提供机器学习所需的机器学习特征,例如用户特征以及商户特征等。而不同的机器学习特征又可以继续进行演进,例如不断细分,提供给机器学习模型的机器学习特征越细,模型越准确。以商户的点击率(Click-Through-Rate,CTR)为例,其是该商户的点击数与曝光数之商,点击率可以按照时间条件不断细分,例如可以细分为3天、5天、7天、9天、11天等的五种细分点击率指标,也可以按照早、中、晚进行细分。
发明人发现相关技术至少存在以下问题:机器学习所使用的相关特征需要从数据源中进行挖掘,现有在生成机器学习特征时,一般采用人工编写代码的方式对数据源中的数据进行加工得到。这样,若需对某个特征进行细分得到多种细分特征时,每个细分特征均需要单独编写代码。因此,现有为了生成细分的机器学习特征,常常需要手动编写数千行代码,工作量大且效率低。
发明内容
本发明实施方式的目的在于提供一种机器学习特征生成方法及装置、电子设备和存储介质,可以通过配置化的方式自动生成细分特征,从而可以大幅简化开发人员工作量,提高效率。
为解决上述技术问题,本发明的实施方式提供了一种机器学习特征生成方法,包括:
在配置文件中配置特征加工信息;
对所述配置文件中配置的特征加工信息进行解析,并根据解析出的所述特征加工信息生成脚本文件;
执行所述脚本文件得到机器学习特征。
本发明的实施方式还提供了一种机器学习特征生成装置,包括:
配置模块,用于在配置文件中配置特征加工信息;
文件生成模块,用于对所述配置文件中配置的特征加工信息进行解析,并根据解析出的所述特征加工信息生成脚本文件;
特征生成模块,用于执行所述脚本文件得到机器学习特征。
本发明的实施方式还提供了一种电子设备,包括:存储器和处理器,存储器存储计算机程序,处理器运行所述计算机程序以实现:
在配置文件中配置特征加工信息;
对所述配置文件中配置的特征加工信息进行解析,并根据解析出的所述特征加工信息生成脚本文件;
执行所述脚本文件得到机器学习特征。
本发明的实施方式还提供了一种存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行如上所述的机器学习特征生成方法。
本发明实施方式相对于现有技术而言,发明人通过研究发现机器学习特征可以分为根特征以及细分特征,且随着数据挖掘的不断演进,细分特征的种类以及数量会迅速增加,而用于生成细分特征的功能代码通常是在用于生成根特征的功能代码的基础上添加相关的细分条件,基于此,本发明实施方式摈弃了传统的通过手动编写代码生成机器学习特征的方式,而是通过配置文件对特征加工信息配置,即配置根特征以及相关的细分条件,并对配置文件进行解析得到解析结果,然后根据解析结果自动生成脚本文件,即自动生成用于生成机器学习特征,尤其是机器学习细分特征的脚本文件。因此,本实施方式能够大幅降低开发人员的工作量,提高功率效率。
作为一个实施例,所述特征加工信息包括:根特征、若干个细分条件以及所述细分条件之间的组合规则;其中,各所述细分条件包括若干个条件参数;
对所述配置文件中配置的特征加工信息进行解析,并根据解析出的所述特征加工信息生成脚本文件,具体包括:
预制预留有多个空位的脚本模板;
从所述配置文件中解析出所述根特征、各所述细分条件下的条件参数以及各所述细分条件之间的组合规则;
按照所述组合规则将各所述细分条件下的条件参数进行组合得到细分特征参数;
将所述根特征以及细分特征参数填写入所述脚本模板的空位中。
作为一个实施例,所述细分条件包括以下一者或其任意组合:天数、时间段、天气条件、商户属性以及用户属性。
作为一个实施例,所述组合规则包括:特征交叉和/或特征连接。
作为一个实施例,所述配置文件采用以下任意一者:可扩展标记语言、JSON、Freemark、Velocity。
作为一个实施例,在所述执行所述脚本文件得到机器学习特征之后,还包括:
对所述机器学习特征进行合并。
作为一个实施例,在所述对所述机器学习特征进行合并之后,还包括:
对合并后的机器学习特征进行持久化。
附图说明
图1是根据本发明第一实施方式中的机器学习特征生成方法流程图;
图2是根据本发明第一实施方式中的机器学习特征生成方法中的细分条件组合示意图;
图3是根据本发明第二实施方式中的机器学习特征生成方法流程图;
图4是根据本发明第三实施方式中的机器学习特征生成装置示意图;
图5是根据本发明第四实施方式中的电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本发明而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本发明所要求保护的技术方案。
本发明的第一实施方式涉及一种机器学习特征生成方法,应用于服务器侧。如图1所示,该方法包括步骤101至步骤103。
步骤101:在配置文件中配置特征加工信息。
特征加工信息可以包括:根特征、若干个细分条件以及细分条件之间的组合规则。其中,根特征可以理解为机器学习中的各种未添加细分条件的基本特征。以CTR这一机器学习特征为例,其根特征是商户的点击数与曝光数之商,对应的SQL代码可以表示为click_num/exposure_num。本实施方式对于根特征的种类不做具体限制,例如根特征还可以为转化率(Click Value Rate,CVR)。细分条件可以包括以下一者或其任意组合:天数、时间段、天气条件、商户属性以及用户属性等,然不限于此。以CTR为例,天数这一细分条件下的条件参数例如是0~3天、0~5天、0~7天等,时间段这一细分条件下的条件参数例如是早上、中午以及晚上等,商户属性细分条件下的条件参数例如为是否为新商户,用户属性细分条件下的条件参数例如为是否为新用户等,本实施方式对于细分条件的种类以及其下的条件参数的数量均不作具体限制。
在生成细分的机器学习特征时,各细分条件下的条件参数可以按照一定的规则进行组合,其中,各细分条件之间的组合规则可以包括:特征交叉和/或特征连接,然不限于此。特征交叉是指多个细分条件同时使用,特征连接是指使用多个细分条件中的某一个。以CTR为例,特征交叉例如是将多个细分条件下的条件参数进行笛卡尔乘积。其中,细分条件的种类例如为3个,每种细分条件的条件参数数量分别用M、N、O表示,则组合后的细分特征参数(请见下文)的数量即为M、N、O三者的乘积。可以看出,随着各个细分条件下的条件参数不断增加,则能够组合出的细分特征参数的数量也会相应地快速增加,例如,当M的取值增加3时,组合出的细分特征参数的数量就会增加3*N*O。本实施方式对于细分条件之间的组合规则不做具体限制。在实际应用中,还可以通过对多个条件进行求或、求与等的方式实现特征组合,此处不再赘述。
发明人通过研究发现用于生成细分机器学习特征的功能代码之间的主要区别在于细分条件以及细分条件下的条件参数的组合规则不同。在此基础上,发明人提出了通过配置文件对特征加工信息进行配置,例如配置多个细分条件下的条件参数以及各细分条件之间的组合规则,然后根据配置的特征加工信息自动生成脚本文件,通过执行脚本文件即可得到机器学习特征。
其中,各细分条件下的条件参数可以看做不同的层,因此配置文件可以采用规则化、层次化的文件格式,从而可以通过配置文件规范、准确表达各细分条件下的各条件参数之间的层次。在实际应用中,配置文件可以采用以下任意一者:可扩展标记语言(Extensible Markup Language,XML)、JSON、Freemark、Velocity。然不限于此,也可以采用其他规则化的层次化文件格式。
以生成CTR特征为例,步骤101中,可以在配置文件中配置CTR的根特征以及细分条件。其中可以采用index标识根特征,dim标识细分条件。细分条件以天数为例,配置的条件参数可以包括:0~3天、0~5天、0~7天、0~9天以及0~11天等,细分条件还可以为时间段,时间段的条件参数可以包括早上、中午以及晚上等。细分条件之间的组合规则可以是天数条件下的各条件参数与时间段条件下的各条件参数的乘积,从而可以得到更为精细的机器学习特征。具体地,对于两个不同的商户而言,其总的点击率可能接近,但是在某个细分条件下,例如0~3天的点击率两者可能存在差异;或者该两个商户的0~3天的点击率也接近时,则还可能在时间段的细分条件下,例如0~3天中的某个时间段的点击率存在差异,通过不断提高数据的精细度,有利于不断优化模型的精确度。因此,可以基于机器学习的训练需求对配置文件进行配置,即在配置文件中设置某个特征的各种细分条件以及各细分条件下的条件参数、各细分条件之间的组合规则等。在实际应用中,还可以通过可视化界面对配置文件进行配置,以提高特征加工信息的配置效率。
步骤102:对配置文件中配置的特征加工信息进行解析,并根据解析出的特征加工信息生成脚本文件。
其中,解析结果包括:根特征、若干个细分条件、各细分条件下的条件参数以及各细分条件之间的组合规则。步骤102例如可以通过编写JAVA代码实现,然不限于此。由于配置文件具有规则化层次化的结构,所以通过编写代码方式等可以方便地解析得到解析结果。
其中,步骤102具体包括:预制预留有多个空位的脚本模板;从配置文件中解析出根特征、各细分条件下的条件参数以及各细分条件之间的组合规则;按照组合规则将各细分条件下的条件参数进行组合得到细分特征参数;将根特征以及细分特征参数填写入脚本模板的空位中。
请参阅图2,解析出的细分条件例如为条件1~条件3,各细分条件的组合规则例如为,条件1与条件2组合,条件1与条件3组合,则步骤103中,根据解析出的细分条件之间的组合规则可以得到细分特征参数:条件1*条件2以及条件1*条件3。可以看出,细分条件的种类越多,各细分条件下的条件参数越多,且各细分条件之间的交叉越多,组合出的细分特征参数就越多。步骤102在得到细分特征参数后,再将根特征以及各细分特征参数拷贝至脚本模板中的空位即可得到脚本文件。
步骤103:执行脚本文件得到机器学习特征。
脚本文件中的各特征生成功能代码可以自动读取数据源中的数据,并自动计算得到相应的机器学习特征,例如可以计算得到若干个细分条件组合的细分特征。
举例而言,脚本模板可以为SQL(Structured Query Language,结构化查询语言)脚本模板,SQL脚本模板中可以通过占位符预留多个空位。以生成细分CTR特征为例,天数细分条件的条件参数例如是0~3天、0~7天,则对应在配置文件中配置条件参数ctr_0_3,ctr_0_7,用户属性细分条件的条件参数例如是男和女,则在配置文件中配置条件参数为ctr_man,ctr_women,则可以组合得到细分特征参数:ctr_0_3_man,ctr_0_3_woman,ctr_0_7_man,ctr_0_7_woman。将根特征以及组合出的细分特征参数填写入脚本模板中并执行脚本文件后,即可得出前述四种细分特征参数对应的细分CTR特征。因此,开发人员通过配置细分条件下的条件参数以及组合规则,即可自动生成大量的细分机器学习特征。
需要说明的是,本实施方式对于细分条件的组合规则适用的根特征亦不做具体限制。举例而言,CTR以及CVR可以配置相同的细分条件、条件参数以及细分条件的组合规则等的特征加工信息,并且可以配置该特征加工信息适用根特征CTR和/或CVR,这样,在生成细分特征参数时,可以同时自动为根特征CTR和/或CVR生成相同的细分特征参数,有利于进一步提高效率。
因此,本实施方式通过采用规则化、层次化的配置文件对各细分条件下的条件参数以及各细分条件之间的组合规则进行配置,配置完成后,即可通过对配置文件进行自动解析,并可自动根据解析结果对条件参数进行组合得到细分特征参数,然后将根特征以及细分特征参数填写入预先编制的脚本模板中预留的空位中,即可自动生成用于生成各种机器学习特征,尤其是细分机器学习特征的功能代码。因此,本实施方式可以大幅降低开发人员工作量,提高工作效率。
本发明的第二实施方式涉及一种机器学习特征生成方法,如图3所示,本实施方式包括步骤301至步骤305。
步骤301:在配置文件中配置特征加工信息。
特征加工信息可以包括:根特征、若干个细分条件以及细分条件之间的组合规则。其中,根特征可以理解为机器学习中的各种未添加细分条件的基本特征。以CTR这一机器学习特征为例,其根特征是商户的点击数与曝光数之商,对应的SQL代码可以表示为click_num/exposure_num。本实施方式对于根特征的种类不做具体限制,例如根特征还可以为转化率(Click Value Rate,CVR)。细分条件可以包括以下一者或其任意组合:天数、时间段、天气条件、商户属性以及用户属性等,然不限于此。以CTR为例,天数这一细分条件下的条件参数例如是0~3天、0~5天、0~7天等,时间段这一细分条件下的条件参数例如是早上、中午以及晚上等,商户属性细分条件下的条件参数例如为是否为新商户,用户属性细分条件下的条件参数例如为是否为新用户等,本实施方式对于细分条件的种类以及其下的条件参数的数量均不作具体限制。
在生成细分的机器学习特征时,各细分条件下的条件参数可以按照一定的规则进行组合,其中,各细分条件之间的组合规则可以包括:特征交叉和/或特征连接,然不限于此。特征交叉是指多个细分条件同时使用,特征连接是指使用多个细分条件中的某一个。以CTR为例,特征交叉例如是将多个细分条件下的条件参数进行笛卡尔乘积。其中,细分条件的种类例如为3个,每种细分条件的条件参数数量分别用M、N、O表示,则组合后的细分特征参数(请见下文)的数量即为M、N、O三者的乘积。可以看出,随着各个细分条件下的条件参数不断增加,则能够组合出的细分特征参数的数量也会相应地快速增加,例如,当M的取值增加3时,组合出的细分特征参数的数量就会增加3*N*O。本实施方式对于细分条件之间的组合规则不做具体限制。在实际应用中,还可以通过对多个条件进行求或、求与等的方式实现特征组合,此处不再赘述。
发明人通过研究发现用于生成细分机器学习特征的功能代码之间的主要区别在于细分条件以及细分条件下的条件参数的组合规则不同。在此基础上,发明人提出了通过配置文件对特征加工信息进行配置,例如配置多个细分条件下的条件参数以及各细分条件之间的组合规则,然后根据配置的特征加工信息自动生成脚本文件,通过执行脚本文件即可得到机器学习特征。
其中,各细分条件下的条件参数可以看做不同的层,因此配置文件可以采用规则化、层次化的文件格式,从而可以通过配置文件规范、准确表达各细分条件下的各条件参数之间的层次。在实际应用中,配置文件可以采用以下任意一者:可扩展标记语言(Extensible Markup Language,XML)、JSON、Freemark、Velocity。然不限于此,也可以采用其他规则化的层次化文件格式。
以生成CTR特征为例,步骤301中,可以在配置文件中配置CTR的根特征以及细分条件。其中可以采用index标识根特征,dim标识细分条件。细分条件以天数为例,配置的条件参数可以包括:0~3天、0~5天、0~7天、0~9天以及0~11天等,细分条件还可以为时间段,时间段的条件参数可以包括早上、中午以及晚上等。细分条件之间的组合规则可以是天数条件下的各条件参数与时间段条件下的各条件参数的乘积,从而可以得到更为精细的机器学习特征。具体地,对于两个不同的商户而言,其总的点击率可能接近,但是在某个细分条件下,例如0~3天的点击率两者可能存在差异;或者该两个商户的0~3天的点击率也接近时,则还可能在时间段的细分条件下,例如0~3天中的某个时间段的点击率存在差异,通过不断提高数据的精细度,有利于不断优化模型的精确度。因此,可以基于机器学习的训练需求对配置文件进行配置,即在配置文件中设置某个特征的各种细分条件以及各细分条件下的条件参数、各细分条件之间的组合规则等。在实际应用中,还可以通过可视化界面对配置文件进行配置,以提高特征加工信息的配置效率。
步骤302:对配置文件中配置的特征加工信息进行解析,并根据解析出的特征加工信息生成脚本文件。
其中,解析结果包括:根特征、若干个细分条件、各细分条件下的条件参数以及各细分条件之间的组合规则。步骤302例如可以通过编写JAVA代码实现,然不限于此。由于配置文件具有规则化层次化的结构,所以通过编写代码方式等可以方便地解析得到解析结果。
其中,步骤302具体包括:预制预留有多个空位的脚本模板;从配置文件中解析出根特征、各细分条件下的条件参数以及各细分条件之间的组合规则;按照组合规则将各细分条件下的条件参数进行组合得到细分特征参数;将根特征以及细分特征参数填写入脚本模板的空位中。
请继续参阅图2,解析出的细分条件例如为条件1~条件3,各细分条件的组合规则例如为,条件1与条件2组合,条件1与条件3组合,则步骤103中,根据解析出的细分条件之间的组合规则可以得到细分特征参数:条件1*条件2以及条件1*条件3。可以看出,细分条件的种类越多,各细分条件下的条件参数越多,且各细分条件之间的交叉越多,组合出的细分特征参数就越多。步骤302在得到细分特征参数后,再将根特征以及各细分特征参数拷贝至脚本模板中的空位即可得到脚本文件。
步骤303:执行脚本文件得到机器学习特征。
脚本文件中的各特征生成功能代码可以自动读取数据源中的数据,并自动计算得到相应的机器学习特征,例如可以计算得到若干个细分条件组合的细分特征。
举例而言,脚本模板可以为SQL(Structured Query Language,结构化查询语言)脚本模板,SQL脚本模板中可以通过占位符预留多个空位。以生成细分CTR特征为例,天数细分条件的条件参数例如是0~3天、0~7天,则对应在配置文件中配置条件参数ctr_0_3,ctr_0_7,用户属性细分条件的条件参数例如是男和女,则在配置文件中配置条件参数为ctr_man,ctr_women,则可以组合得到细分特征参数:ctr_0_3_man,ctr_0_3_woman,ctr_0_7_man,ctr_0_7_woman。将根特征以及组合出的细分特征参数填写入脚本模板中并执行脚本文件后,即可得出前述四种细分特征参数对应的细分CTR特征。因此,开发人员通过配置细分条件下的条件参数以及组合规则,即可自动生成大量的细分机器学习特征。
需要说明的是,本实施方式对于细分条件的组合规则适用的根特征亦不做具体限制。举例而言,CTR以及CVR可以配置相同的细分条件、条件参数以及细分条件的组合规则等的特征加工信息,并且可以配置该特征加工信息适用根特征CTR和/或CVR,这样,在生成细分特征参数时,可以同时自动为根特征CTR和/或CVR生成相同的细分特征参数,有利于进一步提高效率。
步骤304:对机器学习特征进行合并。
在实际应用中,步骤303得到的机器学习特征中可能存在大量的稀疏特征,因此,通过增加步骤304,可以对稀疏特征进行合并,从而可以降低计算成本,并且有利于提高模型的准确性。
步骤305:对合并后的机器学习特征进行持久化。
步骤305中例如可以将整合后的机器学习特征持久化到Hadoop数据库中以备机器学习模型使用。
本实施方式在前述实施方式的基础上,进一步对生成的机器学习特征进行整合,从而有利于减少计算量,提高模型精度。
本发明的第三实施方式涉及一种机器学习特征生成装置,应用于服务器侧。请参阅图4,该机器学习特征生成装置400包括:
配置模块401,用于在配置文件中配置特征加工信息;
文件生成模块402,用于对配置文件中配置的特征加工信息进行解析,并根据解析出的特征加工信息生成脚本文件;以及
特征生成模块403,用于执行脚本文件得到机器学习特征。
在实际应用中,特征加工信息可以包括:根特征、若干个细分条件以及细分条件之间的组合规则。其中,各细分条件包括若干个条件参数。其中,细分条件可以包括以下一者或其任意组合:天数、时间段、天气条件、商户属性以及用户属性。细分条件之间的组合规则可以包括:特征交叉和/或特征连接等。本实施方式对于特征加工信息不做具体限制。
配置文件可以为能够表达细分条件下的条件参数之间的层次关系的规则化、层次化的格式文件,例如,配置文件可以采用可扩展标记语言、JSON、Freemark、Velocity中的任意一种。
文件生成模块402具体用于:预制预留有多个空位的脚本模板;从配置文件中解析出根特征、各所述细分条件下的条件参数以及各细分条件之间的组合规则;
按照组合规则将各细分条件下的条件参数进行组合得到细分特征参数;
将根特征以及细分特征参数填写入脚本模板的空位中。
在一个例子中,机器学习特征生成装置400还可以包括合并模块以及持久化模块(图未示)。合并模块用于对机器学习特征进行合并,持久化模块,则用于对合并后的机器学习特征进行持久化。
本实施方式的机器学习特征生成装置通过采用规则化、层次化的配置文件对各细分条件下的条件参数以及各细分条件之间的组合规则进行配置,配置完成后,即可通过对配置文件进行自动解析,并可自动根据解析结果对条件参数进行组合得到细分特征参数,然后将根特征以及细分特征参数填写入预先编制的脚本模板中预留的空位中,即可自动生成用于生成各种机器学习特征,尤其是细分机器学习特征的功能代码。因此,本实施方式可以大幅降低开发人员工作量,提高工作效率。
本发明的第四实施方式涉及一种电子设备,如图5所示,该电子设备包括:存储器502和处理器501,存储器502存储计算机程序,处理器501运行所述计算机程序以实现:
在配置文件中配置特征加工信息;
对配置文件中配置的特征加工信息进行解析,并根据解析出的特征加工信息生成脚本文件;
执行脚本文件得到机器学习特征。
一个或多个处理器501以及存储器502,图5中以一个处理器501为例。处理器501、存储器502可以通过总线或者其他方式连接,图5中以通过总线连接为例。存储器502作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器501通过运行存储在存储器502中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述机器学习特征生成方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储过滤器等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器502中,当被一个或者多个处理器501执行时,执行上述任意方法实施方式中的机器学习特征生成方法。
上述设备可执行本发明实施方式所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施方式中详尽描述的技术细节,可参见本发明实施方式所提供的方法。
本实施方式的电子设备通过采用规则化、层次化的配置文件对各细分条件下的条件参数以及各细分条件之间的组合规则进行配置,配置完成后,即可通过对配置文件进行自动解析,并可自动根据解析结果对条件参数进行组合得到细分特征参数,然后将根特征以及细分特征参数填写入预先编制的脚本模板中预留的空位中,即可自动生成用于生成各种机器学习特征,尤其是细分机器学习特征的功能代码。因此,本实施方式可以大幅降低开发人员工作量,提高工作效率。
本发明的第五实施方式涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
本申请实施例公开了A1.一种机器学习特征生成方法,包括:
在配置文件中配置特征加工信息;
对所述配置文件中配置的特征加工信息进行解析,并根据解析出的所述特征加工信息生成脚本文件;
执行所述脚本文件得到机器学习特征。
A2.如A1所述的机器学习特征生成方法,所述特征加工信息包括:根特征、若干个细分条件以及所述细分条件之间的组合规则;其中,各所述细分条件包括若干个条件参数;
对所述配置文件中配置的特征加工信息进行解析,并根据解析出的所述特征加工信息生成脚本文件,具体包括:
预制预留有多个空位的脚本模板;
从所述配置文件中解析出所述根特征、各所述细分条件下的条件参数以及各所述细分条件之间的组合规则;
按照所述组合规则将各所述细分条件下的条件参数进行组合得到细分特征参数;
将所述根特征以及细分特征参数填写入所述脚本模板的空位中。
A3.如A2所述的机器学习特征生成方法,所述细分条件包括以下一者或其任意组合:天数、时间段、天气条件、商户属性以及用户属性。
A4.如A2所述的机器学习特征生成方法,所述组合规则包括:特征交叉和/或特征连接。
A5.如A1至A4中任一项所述的机器学习特征生成方法,所述配置文件采用以下任意一者:可扩展标记语言、JSON、Freemark、Velocity。
A6.如A5所述的机器学习特征生成方法,在所述执行所述脚本文件得到机器学习特征之后,还包括:
对所述机器学习特征进行合并。
A7.如A6所述的机器学习特征生成方法,在所述对所述机器学习特征进行合并之后,还包括:
对合并后的机器学习特征进行持久化。
本申请实施例还公开了B1.一种机器学习特征生成装置,包括:
配置模块,用于在配置文件中配置特征加工信息;
文件生成模块,用于对所述配置文件中配置的特征加工信息进行解析,并根据解析出的所述特征加工信息生成脚本文件;
特征生成模块,用于执行所述脚本文件得到机器学习特征。
B2.如B1所述的机器学习特征生成装置,所述特征加工信息包括:根特征、若干个细分条件以及所述细分条件之间的组合规则;其中,各所述细分条件包括若干个细分参数;
所述文件生成模块,具体用于:
预制预留有多个空位的脚本模板;
从所述配置文件中解析出所述根特征、各所述细分条件下的条件参数以及各所述细分条件之间的组合规则;
按照所述组合规则将各所述细分条件下的条件参数进行组合得到细分特征参数;
将所述根特征以及细分特征参数填写入所述脚本模板的空位中。
B3.如B2所述的机器学习特征生成装置,所述细分条件包括以下一者或其任意组合:天数、时间段、天气条件、商户属性以及用户属性。
B4.如B2所述的机器学习特征生成装置,所述组合规则包括:特征交叉和/或特征连接。
B5.如B1至B4中任一项所述的机器学习特征生成装置,所述配置文件采用以下任意一者:可扩展标记语言、JSON、Freemark、Velocity。
B6.如B5所述的机器学习特征生成装置,还包括:
合并模块,用于对所述机器学习特征进行合并。
B7.如B6所述的机器学习特征生成装置,还包括:
持久化模块,用于对合并后的机器学习特征进行持久化。
本申请实施例还公开了C1.一种电子设备,包括:存储器和处理器,存储器存储计算机程序,处理器运行所述计算机程序以实现:
在配置文件中配置特征加工信息;
对所述配置文件中配置的特征加工信息进行解析,并根据解析出的所述特征加工信息生成脚本文件;
执行所述脚本文件得到机器学习特征。
C2.如C1所述的电子设备,所述处理器还用于执行如A2至A7中任一项所述的机器学习特征生成方法。
本申请实施例还公开了D1.一种存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行如A1至A7中任一项所述的机器学习特征生成方法。

Claims (10)

1.一种机器学习特征生成方法,其特征在于,包括:
在配置文件中配置特征加工信息;
对所述配置文件中配置的特征加工信息进行解析,并根据解析出的所述特征加工信息生成脚本文件;
执行所述脚本文件得到机器学习特征。
2.根据权利要求1所述的机器学习特征生成方法,其特征在于,所述特征加工信息包括:根特征、若干个细分条件以及所述细分条件之间的组合规则;其中,各所述细分条件包括若干个条件参数;
对所述配置文件中配置的特征加工信息进行解析,并根据解析出的所述特征加工信息生成脚本文件,具体包括:
预制预留有多个空位的脚本模板;
从所述配置文件中解析出所述根特征、各所述细分条件下的条件参数以及各所述细分条件之间的组合规则;
按照所述组合规则将各所述细分条件下的条件参数进行组合得到细分特征参数;
将所述根特征以及细分特征参数填写入所述脚本模板的空位中。
3.根据权利要求2所述的机器学习特征生成方法,其特征在于,所述细分条件包括以下一者或其任意组合:天数、时间段、天气条件、商户属性以及用户属性。
4.根据权利要求2所述的机器学习特征生成方法,其特征在于,所述组合规则包括:特征交叉和/或特征连接。
5.根据权利要求1至4中任一项所述的机器学习特征生成方法,其特征在于,所述配置文件采用以下任意一者:可扩展标记语言、JSON、Freemark、Ve l oc ity。
6.根据权利要求5所述的机器学习特征生成方法,其特征在于,在所述执行所述脚本文件得到机器学习特征之后,还包括:
对所述机器学习特征进行合并。
7.根据权利要求6所述的机器学习特征生成方法,其特征在于,在所述对所述机器学习特征进行合并之后,还包括:
对合并后的机器学习特征进行持久化。
8.一种机器学习特征生成装置,其特征在于,包括:
配置模块,用于在配置文件中配置特征加工信息;
文件生成模块,用于对所述配置文件中配置的特征加工信息进行解析,并根据解析出的所述特征加工信息生成脚本文件;
特征生成模块,用于执行所述脚本文件得到机器学习特征。
9.一种电子设备,其特征在于,包括:存储器和处理器,存储器存储计算机程序,处理器运行所述计算机程序以实现:
在配置文件中配置特征加工信息;
对所述配置文件中配置的特征加工信息进行解析,并根据解析出的所述特征加工信息生成脚本文件;
执行所述脚本文件得到机器学习特征。
10.一种计算机可读存储介质,其特征在于,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行如权利要求1至7中任一项所述的机器学习特征生成方法。
CN201811572272.3A 2018-12-21 2018-12-21 机器学习特征生成方法及装置、电子设备和存储介质 Active CN109670601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811572272.3A CN109670601B (zh) 2018-12-21 2018-12-21 机器学习特征生成方法及装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811572272.3A CN109670601B (zh) 2018-12-21 2018-12-21 机器学习特征生成方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN109670601A true CN109670601A (zh) 2019-04-23
CN109670601B CN109670601B (zh) 2021-06-29

Family

ID=66147087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811572272.3A Active CN109670601B (zh) 2018-12-21 2018-12-21 机器学习特征生成方法及装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN109670601B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273117A (zh) * 2017-05-25 2017-10-20 深圳市彬讯科技有限公司 一种编程友好型的敏捷代码自动生成系统
CN107291450A (zh) * 2017-05-25 2017-10-24 深圳市彬讯科技有限公司 一种编程友好型的敏捷代码自动生成方法
CN108762764A (zh) * 2018-06-05 2018-11-06 中国平安人寿保险股份有限公司 代码自动生成方法、装置、计算机设备及存储介质
CN108804091A (zh) * 2018-05-25 2018-11-13 广州小天软件有限公司 一种软件代码生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273117A (zh) * 2017-05-25 2017-10-20 深圳市彬讯科技有限公司 一种编程友好型的敏捷代码自动生成系统
CN107291450A (zh) * 2017-05-25 2017-10-24 深圳市彬讯科技有限公司 一种编程友好型的敏捷代码自动生成方法
CN108804091A (zh) * 2018-05-25 2018-11-13 广州小天软件有限公司 一种软件代码生成方法
CN108762764A (zh) * 2018-06-05 2018-11-06 中国平安人寿保险股份有限公司 代码自动生成方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MARK SANTOLUCITO等: "Synthesizing Configuration File Specifications with Association Rule Learning", 《ACM》 *

Also Published As

Publication number Publication date
CN109670601B (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN111708531B (zh) 数据处理方法和装置
WO2019127821A1 (zh) 可视化报表的制作方法、装置、终端设备及存储介质
CN111813963B (zh) 知识图谱构建方法、装置、电子设备及存储介质
CN107885499A (zh) 一种接口文档生成方法及终端设备
US9778922B2 (en) Automated code-generation for cross-language development, testing, and integration
CN104915793A (zh) 基于大数据分析挖掘的公共信息智能分析平台
CN109754068A (zh) 基于深度学习预训练模型的迁移学习方法及终端设备
KR102366139B1 (ko) 기계학습을 적용한 가상 네트워크 기능 자원의 수요 예측 방법
CN108491511A (zh) 基于图数据的数据挖掘方法和装置、模型训练方法和装置
CN110046981A (zh) 一种信用评估方法、装置及存储介质
CN108921600A (zh) 实现信息分类的装置和方法及存储介质
CN108280562A (zh) 一种规范电力企业数据资源的方法
CN108009715A (zh) 一种自动分析指标波动根因的方法
US11288427B2 (en) Automated root-cause analysis, visualization, and debugging of static verification results
CN105574032A (zh) 规则匹配运算方法及装置
CN115358204A (zh) 一种报表生成方法、装置、电子设备及存储介质
CN114035793A (zh) 页面生成方法、页面生成装置、设备及存储介质
CN106250110A (zh) 建立模型的方法及装置
CN104199882B (zh) 一种基于智能模版定制的结构化知识及其本体的获取方法
CN109670601A (zh) 机器学习特征生成方法及装置、电子设备和存储介质
CN116822462A (zh) 电力系统的仿真报告的生成方法与生成装置
CN103544338A (zh) 一种面向三维装配指令发布的工艺信息建模方法
CN107003869A (zh) 重构数据流应用而不进行源代码改变或重新编译
CN111145038B (zh) 基于可视化数据流图的电网调控大数据交互式分析方法
CN110990256B (zh) 开源代码检测方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant