CN113535737B - 特征的生成方法、装置、电子设备及计算机存储介质 - Google Patents

特征的生成方法、装置、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN113535737B
CN113535737B CN202111079503.9A CN202111079503A CN113535737B CN 113535737 B CN113535737 B CN 113535737B CN 202111079503 A CN202111079503 A CN 202111079503A CN 113535737 B CN113535737 B CN 113535737B
Authority
CN
China
Prior art keywords
feature
generating
name
field
configuration information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111079503.9A
Other languages
English (en)
Other versions
CN113535737A (zh
Inventor
余关祥
郭飞
王蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sohu New Media Information Technology Co Ltd
Original Assignee
Beijing Sohu New Media Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sohu New Media Information Technology Co Ltd filed Critical Beijing Sohu New Media Information Technology Co Ltd
Priority to CN202111079503.9A priority Critical patent/CN113535737B/zh
Publication of CN113535737A publication Critical patent/CN113535737A/zh
Application granted granted Critical
Publication of CN113535737B publication Critical patent/CN113535737B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种特征的生成方法、装置、电子设备及计算机存储介质,所述特征的生成方法包括:首先,获取目标配置信息;其中,所述目标配置信息包括至少一个表名和至少一个字段名;然后,将所述表名和所述字段名与特征名进行聚合,得到至少一个第一配置信息;再针对每一个所述第一配置信息,生成数据仓库对应格式的结构化查询语句;之后执行所述结构化查询语句,得到查询结果,并读取所述查询结果中每一行的字段的标识;针对每一个所述字段的标识,确定所述字段对应的特征名的特征生成方式;最终,按照所述特征生成方式,生成所述字段对应的至少一个第一特征。从而达到快捷的生成特征的目的,并不再需要算法工程师人工进行提炼特征。

Description

特征的生成方法、装置、电子设备及计算机存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种特征的生成方法、装置、电子设备及计算机存储介质。
背景技术
目前,在使用机器学习模型的过程中,通过伴随着繁杂的特征工程工作,特征工程是指对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。从本质上来讲,特征工程是一个表示和展现数据的过程。
但是,在现有技术中,提炼特征的过程只能由算法工程师人工进行提炼特征,这让算法工程师耗费大量的精力,且十分耗费时间。
发明内容
有鉴于此,本申请提供一种特征的生成方法、装置、电子设备及计算机存储介质,可以快捷的生成特征。
本申请第一方面提供了一种特征的生成方法,包括:
获取目标配置信息;其中,所述目标配置信息包括至少一个表名和至少一个字段名;
将所述表名和所述字段名与特征名进行聚合,得到至少一个第一配置信息;
针对每一个所述第一配置信息,生成数据仓库对应格式的结构化查询语句;
执行所述结构化查询语句,得到查询结果,并读取所述查询结果中每一行的字段的标识;
针对每一个所述字段的标识,确定所述字段对应的特征名的特征生成方式;
按照所述特征生成方式,生成所述字段对应的至少一个第一特征。
可选的,所述按照所述特征生成方式,生成所述字段对应的至少一个第一特征之后,还包括:
针对每一个所述第一特征,按照预设的字符串的生成方法,生成目标格式的第一存储数据;
将所有所述第一存储数据存入数据库。
可选的,所述特征的生成方法,还包括:
实时监听分布式发布订阅消息系统;
针对所述分布式发布订阅消息系统中的每一个用户实体,解析得到配置所述用户实体的特征列表;
针对用户实体的特征列表中的每一个第二特征,查找所述第二特征对应的源数据信息;
对所述第二特征对应的源数据信息按照所述第二特征对应的源数据信息对应的特征生成方式,生成第三特征;
针对每一个所述第三特征,按照预设的字符串的生成方法,生成目标格式的第二存储数据;
将所述第二存储数据存储至所述用户实体的标识对应的第一配置信息中。
可选的,所述特征的生成方法,还包括:
获取目标物品的物品类型;
解析得到配置所述物品类型的特征列表;
针对所述物品类型的特征列表的每一个第四特征,查找所述第四特征对应的源数据信息;
对所述第四特征对应的源数据信息按照所述第四特征对应的源数据信息对应的特征生成方式,生成第五特征;
针对每一个所述第五特征,按照预设的字符串的生成方法,生成目标格式的第三存储数据;
将所述第三存储数据存储至所述物品类型的标识对应的第一配置信息中。
可选的,所述特征的生成方法,还包括:
获取当前的行为日志;其中,所述行为日志中的每一行均包括用户的标识、物品的标识以及点击标签;所述点击标签用于表明所述用户的标识和所述物品的标识是否被点击;
针对每一个所述用户的标识,在所述数据库中提取出所述用户的标识对应物品的标识的特征,以及所述用户的标识对应的点击标签的特征;
获取训练模型所需的训练样本列表中的所有特征的特征顺序;
按照所述训练样本列表中的特征顺序,添加所述用户的标识、所述用户的标识对应物品的标识的特征以及所述用户的标识对应的点击标签的特征,得到目标训练样本列表。
可选的,所述特征的生成方法,还包括:
获取预测样本的配置文件;其中,所述预测样本的配置文件与所述目标训练样本列表中的训练样本的配置文件相同;
读取所述预测样本的配置文件的特征列表;其中,所述预测样本的配置文件的特征列表中包含至少一个预测特征;
针对每一个所述预测特征,根据所述预测特征的源数据信息,获取得到所述预测特征的表名以及字段名;
根据所述预测特征的标识、类型、表名以及字段名,查找得到与所述预测特征的第一特征;
利用所述预测特征的第一特征生成预测样本。
本申请第二方面提供了一种特征的生成装置,包括:
第一获取单元,用于获取目标配置信息;其中,所述目标配置信息包括至少一个表名和至少一个字段名;
聚合单元,用于将所述表名和所述字段名与特征名进行聚合,得到至少一个第一配置信息;
语句生成单元,用于针对每一个所述第一配置信息,生成数据仓库对应格式的结构化查询语句;
执行单元,用于执行所述结构化查询语句,得到查询结果,并读取所述查询结果中每一行的字段的标识;
确定单元,用于针对每一个所述字段的标识,确定所述字段对应的特征名的特征生成方式;
第一生成单元,用于按照所述特征生成方式,生成所述字段对应的至少一个第一特征。
可选的,所述特征的生成装置,包括:
第一存储数据生成单元,用于针对每一个所述第一特征,按照预设的字符串的生成方法,生成目标格式的第一存储数据;
第一存储单元,用于将所有所述第一存储数据存入数据库。
可选的,所述特征的生成装置,包括:
监听单元,用于针对所述分布式发布订阅消息系统中的每一个用户实体,解析得到配置所述用户实体的特征列表;
第一查找单元,用于针对用户实体的特征列表中的每一个第二特征,查找所述第二特征对应的源数据信息;
第二生成单元,用于对所述第二特征对应的源数据信息按照所述第二特征对应的源数据信息对应的特征生成方式,生成第三特征;
第二存储数据生成单元,用于针对每一个所述第三特征,按照预设的字符串的生成方法,生成目标格式的第二存储数据;
第二存储单元,用于将所述第二存储数据存储至所述用户实体的标识对应的第一配置信息中。
可选的,所述特征的生成装置,包括:
第二获取单元,用于获取目标物品的物品类型;
解析单元,用于解析得到配置所述物品类型的特征列表;
第二查找单元,用于针对所述物品类型的特征列表的每一个第四特征,查找所述第四特征对应的源数据信息;
第三生成单元,用于对所述第四特征对应的源数据信息按照所述第四特征对应的源数据信息对应的特征生成方式,生成第五特征;
第三存储数据生成单元,用于针对每一个所述第五特征,按照预设的字符串的生成方法,生成目标格式的第三存储数据;
第三存储单元,用于将所述第三存储数据存储至所述物品类型的标识对应的第一配置信息中。
可选的,所述特征的生成装置,包括:
第三获取单元,用于获取当前的行为日志;其中,所述行为日志中的每一行均包括用户的标识、物品的标识以及点击标签;所述点击标签用于表明所述用户的标识和所述物品的标识是否被点击;
提取单元,用于针对每一个所述用户的标识,在数据仓库中提取出所述用户的标识对应物品的标识的特征,以及所述用户的标识对应的点击标签的特征;
第四获取单元,用于获取训练模型所需的训练样本列表中的所有特征的特征顺序;
添加单元,用于按照所述训练样本列表中的特征顺序,添加所述用户的标识、所述用户的标识对应物品的标识的特征以及所述用户的标识对应的点击标签的特征,得到目标训练样本列表。
可选的,所述特征的生成装置,包括:
第五获取单元,用于获取预测样本的配置文件;其中,所述预测样本的配置文件与所述目标训练样本列表中的训练样本的配置文件相同;
读取单元,用于读取所述预测样本的配置文件的特征列表;其中,所述预测样本的配置文件的特征列表中包含至少一个预测特征;
第六获取单元,用于针对每一个所述预测特征,根据所述预测特征的源数据信息,获取得到所述预测特征的表名以及字段名;
第三查找单元,用于根据所述预测特征的标识、类型、表名以及字段名,查找得到与所述预测特征的第一特征;
第四生成单元,用于利用所述预测特征的第一特征生成预测样本。
本申请第三方面提供了一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如第一方面任意一项所述的特征的生成方法。
本申请第四方面提供了一种计算机存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如第一方面任意一项所述的特征的生成方法。
由以上方案可知,本申请提供的一种特征的生成方法、装置、电子设备及计算机存储介质,所述特征的生成方法包括:首先,获取目标配置信息;其中,所述目标配置信息包括至少一个表名和至少一个字段名;然后,将所述表名和所述字段名与特征名进行聚合,得到至少一个第一配置信息;再针对每一个所述第一配置信息,生成数据仓库对应格式的结构化查询语句;之后执行所述结构化查询语句,得到查询结果,并读取所述查询结果中每一行的字段的标识;针对每一个所述字段的标识,确定所述字段对应的特征名的特征生成方式;最终,按照所述特征生成方式,生成所述字段对应的至少一个第一特征。从而达到快捷的生成特征的目的,并不再需要算法工程师人工进行提炼特征。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种特征的生成方法的具体流程图;
图2为本申请另一实施例提供的一种实时用户特征的生成方法的流程图;
图3为本申请另一实施例提供的一种实时物品特征的生成方法的流程图;
图4为本申请另一实施例提供的一种训练样本的生成方法的流程图;
图5为本申请另一实施例提供的一种预测样本的生成方法的流程图;
图6为本申请另一实施例提供的一种特征的生成装置的示意图;
图7为本申请另一实施例提供的一种实现特征的生成方法的电子设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要注意,本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系,而术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本申请实施例提供了一种特征的生成方法,如图1所示,具体包括以下步骤:
S101、获取目标配置信息。
其中,目标配置信息包括至少一个表名和至少一个字段名。
S102、将表名和字段名与特征名进行聚合,得到至少一个第一配置信息。
具体的聚合方式可以是但不限于在某一表名下将字段名与特征名进行关联,例如:表1包括字段名1-1与特征名1的对应关系、字段名1-2与特征名2的对应关系、字段名1-3与特征名1的对应关系1等;表2包括字段名2-1与特征名1的对应关系、字段名2-2与特征名2的对应关系、字段名2-3与特征名1的对应关系1等,此处不做限定。
S103、针对每一个第一配置信息,生成数据仓库对应格式的结构化查询语句。
其中,数据仓库可以是但不限于hive数据仓库,此处不做限定。hive数据仓库是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的结构化查询语句(Structured Query Language,SQL)查询功能。Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
S104、执行结构化查询语句,得到查询结果,并读取查询结果中每一行的字段的标识。
续接上述实例,若采用的是hive数据仓库,那么就调用hive数据仓库执行步骤S103中生成的结构化查询语句,会得到包含至少一行数据的查询结果,可以是但不限于在弹性分布式数据集(Resilient Distributed Dataset,RDD)读取查询结果中每一行的字段的标识。
S105、针对每一个字段的标识,确定字段对应的特征名的特征生成方式。
其中,不同特征名的特征生成方式为预先存储的方式,其至少包括特征填充、向量化等方法,此处不做限定。
S106、按照特征生成方式,生成字段对应的至少一个第一特征。
可选的,在本申请的另一实施例中,在生成第一特征之后,特征的生成方法的一种实施方式,还包括:
针对每一个第一特征,按照预设的字符串的生成方法,生成目标格式的第一存储数据,并将所有第一存储数据存入数据库。
需要说明的是,数据库可以是但不限于HBase等数据库,此处不做限定。其中HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文"Bigtable:一个结构化数据的分布式存储系统"。
可选的,在本申请的另一实施例中,特征的生成方法的一种实施方式,如图2所示,还包括:
S201、实时监听分布式发布订阅消息系统。
其中,分布式发布订阅消息系统可以是但不限于kafka系统,此处不做限定。Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。
S202、针对分布式发布订阅消息系统中的每一个用户实体,解析得到配置用户实体的特征列表。
S203、针对用户实体的特征列表中的每一个第二特征,查找第二特征对应的源数据信息。
S204、对第二特征对应的源数据信息按照第二特征对应的源数据信息对应的特征生成方式,生成第三特征。
其中,源数据信息对应的特征生成方式为预先存储的方式,其至少包括特征填充中、向量化等方法,此处不做限定。
S205、针对每一个第三特征,按照预设的字符串的生成方法,生成目标格式的第二存储数据。
S206、将第二存储数据存储至用户实体的标识对应的第一配置信息中。
即将第二存储数据存储至用户实体的标识对应的第一配置信息中表名、字段名部分。
可选的,在本申请的另一实施例中,特征的生成方法的一种实施方式,如图3所示,还包括:
S301、获取目标物品的物品类型。
S302、解析得到配置物品类型的特征列表。
S303、针对物品类型的特征列表的每一个第四特征,查找第四特征对应的源数据信息。
S304、对第四特征对应的源数据信息按照第四特征对应的源数据信息对应的特征生成方式,生成第五特征。
其中,源数据信息对应的特征生成方式为预先存储的方式,其至少包括特征填充中、向量化等方法,此处不做限定。
S305、针对每一个第五特征,按照预设的字符串的生成方法,生成目标格式的第三存储数据。
S306、将第三存储数据存储至物品类型的标识对应的第一配置信息中。
即将第三存储数据存储至物品类型的标识对应的第一配置信息中表名、字段名部分。
可选的,在本申请的另一实施例中,特征的生成方法的一种实施方式,如图4所示,还包括:
S401、获取当前的行为日志。
其中,行为日志中的每一行均包括用户的标识、物品的标识以及点击标签;点击标签用于表明用户的标识和物品的标识是否被点击。例如,用户的标识的点击标签为1时说明用户的标识被点击了,用户的标识的点击标签为0时说明用户的标识未被点击。
需要说明的是,在获取得到当前的行为日志后,还可以对行为日志中的数据进行数据清洗、数据采样等操作,得到最终的行为日志,此处不做限定。
S402、针对每一个用户的标识,在数据库中提取出用户的标识对应物品的标识的特征,以及用户的标识对应的点击标签的特征。
S403、获取训练模型所需的训练样本列表中的所有特征的特征顺序。
S404、按照训练样本列表中的特征顺序,添加用户的标识、用户的标识对应物品的标识的特征以及用户的标识对应的点击标签的特征,得到目标训练样本列表。
需要说明的是,在获取获取训练模型所需的训练样本列表中的所有特征的特征顺序后,还可以计算每一个特征的维度,并按照特征的顺序加入偏移量,最终生成向量。将向量按照预设的字符串的生成方法,生成向量的目标字符串,也就训练样本的目标字符串,将目标字符串保存至分布式文件系统中。
可选的,在本申请的另一实施例中,特征的生成方法的一种实施方式,如图5所示,还包括:
S501、获取预测样本的配置文件。
其中,预测样本的配置文件与目标训练样本列表中的训练样本的配置文件相同。预测样本的配置文件通过推理服务器端或者模型使用方自己实现的各种变种预测接口提供,此处不做限定。
S502、读取预测样本的配置文件的特征列表。
其中,预测样本的配置文件的特征列表中包含至少一个预测特征。
S503、针对每一个预测特征,根据预测特征的源数据信息,获取得到预测特征的表名以及字段名。
S504、根据预测特征的标识、类型、表名以及字段名,查找得到与预测特征的第一特征。
S505、利用预测特征的第一特征生成预测样本。
需要说明的是,利用预测特征的第一特征生成预测样本的过程中还可以加上这个特征的偏移量,需要注意的是,这个偏移量由这个第一特征在预测样本的配置文件的特征列表中的顺序,以及维度进行唯一确定。
由以上方案可知,本申请提供的一种特征的生成方法:首先,获取目标配置信息;其中,目标配置信息包括至少一个表名和至少一个字段名;然后,将表名和字段名与特征名进行聚合,得到至少一个第一配置信息;再针对每一个第一配置信息,生成数据仓库对应格式的结构化查询语句;之后执行结构化查询语句,得到查询结果,并读取查询结果中每一行的字段的标识;针对每一个字段的标识,确定字段对应的特征名的特征生成方式;最终,按照特征生成方式,生成字段对应的至少一个第一特征。从而达到快捷的生成特征的目的,并不再需要算法工程师人工进行提炼特征。
本申请另一实施例提供了一种特征的生成装置,如图6所示,具体包括:
第一获取单元601,用于获取目标配置信息。
其中,目标配置信息包括至少一个表名和至少一个字段名。
聚合单元602,用于将表名和字段名与特征名进行聚合,得到至少一个第一配置信息。
语句生成单元603,用于针对每一个第一配置信息,生成数据仓库对应格式的结构化查询语句。
执行单元604,用于执行结构化查询语句,得到查询结果,并读取查询结果中每一行的字段的标识。
确定单元605,用于针对每一个字段的标识,确定字段对应的特征名的特征生成方式。
第一生成单元606,用于按照特征生成方式,生成字段对应的至少一个第一特征。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图1所示,此处不再赘述。
可选的,在本申请的另一实施例中,特征的生成装置的一种实施方式,还包括:
第一存储数据生成单元,用于针对每一个第一特征,按照预设的字符串的生成方法,生成目标格式的第一存储数据。
第一存储单元,用于将所有第一存储数据存入数据库。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,此处不再赘述。
可选的,在本申请的另一实施例中,特征的生成装置的一种实施方式,还包括:
监听单元,用于针对分布式发布订阅消息系统中的每一个用户实体,解析得到配置用户实体的特征列表。
第一查找单元,用于针对用户实体的特征列表中的每一个第二特征,查找第二特征对应的源数据信息。
第二生成单元,用于对第二特征对应的源数据信息按照第二特征对应的源数据信息对应的特征生成方式,生成第三特征。
第二存储数据生成单元,用于针对每一个第三特征,按照预设的字符串的生成方法,生成目标格式的第二存储数据。
第二存储单元,用于将第二存储数据存储至用户实体的标识对应的第一配置信息中。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图2所示,此处不再赘述。
可选的,在本申请的另一实施例中,特征的生成装置的一种实施方式,还包括:
第二获取单元,用于获取目标物品的物品类型。
解析单元,用于解析得到配置物品类型的特征列表。
第二查找单元,用于针对物品类型的特征列表的每一个第四特征,查找第四特征对应的源数据信息。
第三生成单元,用于对第四特征对应的源数据信息按照第四特征对应的源数据信息对应的特征生成方式,生成第五特征。
第三存储数据生成单元,用于针对每一个第五特征,按照预设的字符串的生成方法,生成目标格式的第三存储数据。
第三存储单元,用于将第三存储数据存储至物品类型的标识对应的第一配置信息中。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图3所示,此处不再赘述。
可选的,在本申请的另一实施例中,特征的生成装置的一种实施方式,还包括:
第三获取单元,用于获取当前的行为日志。
其中,行为日志中的每一行均包括用户的标识、物品的标识以及点击标签;点击标签用于表明用户的标识和物品的标识是否被点击。
提取单元,用于针对每一个用户的标识,在数据仓库中提取出用户的标识对应物品的标识的特征,以及用户的标识对应的点击标签的特征。
第四获取单元,用于获取训练模型所需的训练样本列表中的所有特征的特征顺序。
添加单元,用于按照训练样本列表中的特征顺序,添加用户的标识、用户的标识对应物品的标识的特征以及用户的标识对应的点击标签的特征,得到目标训练样本列表。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图4所示,此处不再赘述。
可选的,在本申请的另一实施例中,特征的生成装置的一种实施方式,还包括:
第五获取单元,用于获取预测样本的配置文件。
其中,预测样本的配置文件与目标训练样本列表中的训练样本的配置文件相同。
读取单元,用于读取预测样本的配置文件的特征列表。
其中,预测样本的配置文件的特征列表中包含至少一个预测特征。
第六获取单元,用于针对每一个预测特征,根据预测特征的源数据信息,获取得到预测特征的表名以及字段名。
第三查找单元,用于根据预测特征的标识、类型、表名以及字段名,查找得到与预测特征的第一特征。
第四生成单元,用于利用预测特征的第一特征生成预测样本。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图5所示,此处不再赘述。
由以上方案可知,本申请提供的一种特征的生成装置:首先,第一获取单元601获取目标配置信息;其中,目标配置信息包括至少一个表名和至少一个字段名;然后,聚合单元602将表名和字段名与特征名进行聚合,得到至少一个第一配置信息;语句生成单元603再针对每一个第一配置信息,生成数据仓库对应格式的结构化查询语句;之后执行单元604执行结构化查询语句,得到查询结果,并读取查询结果中每一行的字段的标识;确定单元605针对每一个字段的标识,确定字段对应的特征名的特征生成方式;最终,第一生成单元606按照特征生成方式,生成字段对应的至少一个第一特征。从而达到快捷的生成特征的目的,并不再需要算法工程师人工进行提炼特征。
本申请另一实施例提供了一种电子设备,如图7所示,包括:
一个或多个处理器701。
存储装置702,其上存储有一个或多个程序。
当所述一个或多个程序被所述一个或多个处理器701执行时,使得所述一个或多个处理器701实现如上述实施例中任意一项所述的特征的生成方法。
本申请另一实施例提供了一种计算机存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现如上述实施例中任意一项所述的特征的生成方法。
在本申请公开的上述实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本公开的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本公开各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,直播设备,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种特征的生成方法,其特征在于,包括:
获取目标配置信息;其中,所述目标配置信息包括至少一个表名和至少一个字段名;
将所述表名和所述字段名与特征名进行聚合,得到至少一个第一配置信息;
针对每一个所述第一配置信息,生成数据仓库对应格式的结构化查询语句;
执行所述结构化查询语句,得到查询结果,并读取所述查询结果中每一行的字段的标识;
针对每一个所述字段的标识,确定所述字段对应的特征名的特征生成方式;
按照所述特征生成方式,生成所述字段对应的至少一个第一特征;
实时监听分布式发布订阅消息系统;
针对所述分布式发布订阅消息系统中的每一个用户实体,解析得到配置所述用户实体的特征列表;
针对用户实体的特征列表中的每一个第二特征,查找所述第二特征对应的源数据信息;
对所述第二特征对应的源数据信息按照所述第二特征对应的源数据信息对应的特征生成方式,生成第三特征;
针对每一个所述第三特征,按照预设的字符串的生成方法,生成目标格式的第二存储数据;
将所述第二存储数据存储至所述用户实体的标识对应的第一配置信息中。
2.根据权利要求1所述的生成方法,其特征在于,所述按照所述特征生成方式,生成所述字段对应的至少一个第一特征之后,还包括:
针对每一个所述第一特征,按照预设的字符串的生成方法,生成目标格式的第一存储数据;
将所有所述第一存储数据存入数据库。
3.根据权利要求2所述的生成方法,其特征在于,还包括:
获取目标物品的物品类型;
解析得到配置所述物品类型的特征列表;
针对所述物品类型的特征列表的每一个第四特征,查找所述第四特征对应的源数据信息;
对所述第四特征对应的源数据信息按照所述第四特征对应的源数据信息对应的特征生成方式,生成第五特征;
针对每一个所述第五特征,按照预设的字符串的生成方法,生成目标格式的第三存储数据;
将所述第三存储数据存储至所述物品类型的标识对应的第一配置信息中。
4.根据权利要求2所述的生成方法,其特征在于,还包括:
获取当前的行为日志;其中,所述行为日志中的每一行均包括用户的标识、物品的标识以及点击标签;所述点击标签用于表明所述用户的标识和所述物品的标识是否被点击;
针对每一个所述用户的标识,在所述数据库中提取出所述用户的标识对应物品的标识的特征,以及所述用户的标识对应的点击标签的特征;
获取训练模型所需的训练样本列表中的所有特征的特征顺序;
按照所述训练样本列表中的特征顺序,添加所述用户的标识、所述用户的标识对应物品的标识的特征以及所述用户的标识对应的点击标签的特征,得到目标训练样本列表。
5.根据权利要求4所述的生成方法,其特征在于,还包括:
获取预测样本的配置文件;其中,所述预测样本的配置文件与所述目标训练样本列表中的训练样本的配置文件相同;
读取所述预测样本的配置文件的特征列表;其中,所述预测样本的配置文件的特征列表中包含至少一个预测特征;
针对每一个所述预测特征,根据所述预测特征的源数据信息,获取得到所述预测特征的表名以及字段名;
根据所述预测特征的标识、类型、表名以及字段名,查找得到与所述预测特征的第一特征;
利用所述预测特征的第一特征生成预测样本。
6.一种特征的生成装置,其特征在于,包括:
第一获取单元,用于获取目标配置信息;其中,所述目标配置信息包括至少一个表名和至少一个字段名;
聚合单元,用于将所述表名和所述字段名与特征名进行聚合,得到至少一个第一配置信息;
语句生成单元,用于针对每一个所述第一配置信息,生成数据仓库对应格式的结构化查询语句;
执行单元,用于执行所述结构化查询语句,得到查询结果,并读取所述查询结果中每一行的字段的标识;
确定单元,用于针对每一个所述字段的标识,确定所述字段对应的特征名的特征生成方式;
第一生成单元,用于按照所述特征生成方式,生成所述字段对应的至少一个第一特征;
监听单元,用于实时监听分布式发布订阅消息系统;针对分布式发布订阅消息系统中的每一个用户实体,解析得到配置用户实体的特征列表;
第一查找单元,用于针对用户实体的特征列表中的每一个第二特征,查找第二特征对应的源数据信息;
第二生成单元,用于对第二特征对应的源数据信息按照第二特征对应的源数据信息对应的特征生成方式,生成第三特征;
第二存储数据生成单元,用于针对每一个第三特征,按照预设的字符串的生成方法,生成目标格式的第二存储数据;
第二存储单元,用于将第二存储数据存储至用户实体的标识对应的第一配置信息中。
7.根据权利要求6所述的生成装置,其特征在于,还包括:
第一存储数据生成单元,用于针对每一个所述第一特征,按照预设的字符串的生成方法,生成目标格式的第一存储数据;
第一存储单元,用于将所有所述第一存储数据存入数据库。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至5中任一所述的特征的生成方法。
9.一种计算机存储介质,其特征在于,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至5中任一所述的特征的生成方法。
CN202111079503.9A 2021-09-15 2021-09-15 特征的生成方法、装置、电子设备及计算机存储介质 Active CN113535737B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111079503.9A CN113535737B (zh) 2021-09-15 2021-09-15 特征的生成方法、装置、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111079503.9A CN113535737B (zh) 2021-09-15 2021-09-15 特征的生成方法、装置、电子设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN113535737A CN113535737A (zh) 2021-10-22
CN113535737B true CN113535737B (zh) 2022-03-01

Family

ID=78123131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111079503.9A Active CN113535737B (zh) 2021-09-15 2021-09-15 特征的生成方法、装置、电子设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN113535737B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346678A (zh) * 2013-08-07 2015-02-11 厦门易法法务信息管理有限公司 一种业务接收与服务管理一体化的高效法律服务方法及系统
CN106372240A (zh) * 2016-09-14 2017-02-01 北京搜狐新动力信息技术有限公司 一种数据分析的方法和装置
CN110910108A (zh) * 2019-11-01 2020-03-24 华青融天(北京)软件股份有限公司 一种数据关联方法、装置、电子设备及存储介质
CN110990445A (zh) * 2019-12-05 2020-04-10 北京蜜莱坞网络科技有限公司 一种数据处理方法、装置、设备和介质
CN112507193A (zh) * 2020-10-30 2021-03-16 长沙市到家悠享网络科技有限公司 数据更新方法、装置、设备和存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7774361B1 (en) * 2005-07-08 2010-08-10 Symantec Corporation Effective aggregation and presentation of database intrusion incidents
CN104866589B (zh) * 2015-05-28 2018-06-15 北京京东尚科信息技术有限公司 数据报表的生成方法和装置
CN108572963A (zh) * 2017-03-09 2018-09-25 北京京东尚科信息技术有限公司 信息获取方法和装置
CN110096266B (zh) * 2019-05-13 2023-12-22 度小满科技(北京)有限公司 一种特征加工方法和装置
CN111708740A (zh) * 2020-06-16 2020-09-25 荆门汇易佳信息科技有限公司 基于云平台的海量搜索查询日志计算分析系统
CN111949886B (zh) * 2020-08-28 2023-11-24 腾讯科技(深圳)有限公司 一种用于信息推荐的样本数据生成方法和相关装置
CN112989211B (zh) * 2021-05-17 2021-08-13 北京搜狐新媒体信息技术有限公司 一种确定信息相似度的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346678A (zh) * 2013-08-07 2015-02-11 厦门易法法务信息管理有限公司 一种业务接收与服务管理一体化的高效法律服务方法及系统
CN106372240A (zh) * 2016-09-14 2017-02-01 北京搜狐新动力信息技术有限公司 一种数据分析的方法和装置
CN110910108A (zh) * 2019-11-01 2020-03-24 华青融天(北京)软件股份有限公司 一种数据关联方法、装置、电子设备及存储介质
CN110990445A (zh) * 2019-12-05 2020-04-10 北京蜜莱坞网络科技有限公司 一种数据处理方法、装置、设备和介质
CN112507193A (zh) * 2020-10-30 2021-03-16 长沙市到家悠享网络科技有限公司 数据更新方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN113535737A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN106951925B (zh) 数据处理方法、装置、服务器及系统
CN108932294B (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
CN106557695B (zh) 一种恶意应用检测方法和系统
CN110019616B (zh) 一种poi现势状态获取方法及其设备、存储介质、服务器
CN112749284B (zh) 知识图谱构建方法、装置、设备及存储介质
CN112069498A (zh) 一种sql注入检测模型构建方法及检测方法
CN105786941B (zh) 一种信息挖掘方法和装置
CN116881430A (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN117668180A (zh) 文档问答方法、文档问答设备以及可读存储介质
CN114328632A (zh) 基于位图的用户数据分析方法、装置及计算机设备
CN104298671A (zh) 数据统计分析方法及装置
CN113535737B (zh) 特征的生成方法、装置、电子设备及计算机存储介质
CN113806647A (zh) 识别开发框架的方法及相关设备
CN113434627A (zh) 工单的处理方法、装置和计算机可读存储介质
CN107992538B (zh) 报文日志生成方法、装置、查询方法及信息处理系统
CN110851597A (zh) 一种基于同类实体替换的语句标注的方法及装置
CN113283677B (zh) 指标数据处理方法、装置、设备及存储介质
CN111143356B (zh) 报表检索方法及装置
CN114968725A (zh) 任务依赖关系校正方法、装置、计算机设备及存储介质
CN111522854B (zh) 一种数据标注方法、装置、存储介质及计算机设备
JP5824429B2 (ja) スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム
CN110851400A (zh) 文本数据的处理方法及装置
CN114372082B (zh) 基于人工智能的数据查询方法、装置、电子设备及介质
CN117251384B (zh) 一种接口自动化测试用例生成方法及系统
Wang et al. Behavior prediction for industrial control system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant