CN111242318B - 基于异构特征库的业务模型训练方法及装置 - Google Patents

基于异构特征库的业务模型训练方法及装置 Download PDF

Info

Publication number
CN111242318B
CN111242318B CN202010033281.6A CN202010033281A CN111242318B CN 111242318 B CN111242318 B CN 111242318B CN 202010033281 A CN202010033281 A CN 202010033281A CN 111242318 B CN111242318 B CN 111242318B
Authority
CN
China
Prior art keywords
feature
features
user
fusion
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010033281.6A
Other languages
English (en)
Other versions
CN111242318A (zh
Inventor
马庚
周小又
姜谷雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rajax Network Technology Co Ltd
Original Assignee
Rajax Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rajax Network Technology Co Ltd filed Critical Rajax Network Technology Co Ltd
Priority to CN202010033281.6A priority Critical patent/CN111242318B/zh
Publication of CN111242318A publication Critical patent/CN111242318A/zh
Application granted granted Critical
Publication of CN111242318B publication Critical patent/CN111242318B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Stored Programmes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于异构特征库的业务模型训练方法及装置,其中,基于异构特征库的业务模型训练方法包括:对不同业务场景的多个异构特征库进行融合处理,得到融合特征库;针对任一业务场景,采集该业务场景的用户行为日志数据,读取该业务场景的样本特征配置文件;根据样本特征配置文件,将用户行为日志数据与融合特征库中的特征进行关联,得到训练样本;根据训练样本,训练得到业务场景对应的业务模型。该方案实现了针对不同业务场景的训练流程的统一,针对任一业务场景,将该业务场景的用户行为日志数据与融合特征库中的特征进行关联,能够快速、便捷地生成该业务场景所需的训练样本,有效地提高了训练样本的获取效率和业务模型的训练效率。

Description

基于异构特征库的业务模型训练方法及装置
技术领域
本发明涉及计算机技术领域,具体涉及一种基于异构特征库的业务模型训练方法及装置。
背景技术
机器学习是当前人工智能领域的研究热点,其理论和方法被广泛用于解决各个领域的复杂问题。通过特定的机器学习算法以及训练样本可以训练各种业务模型。为了使得训练得到的业务模型具有较高的准确率和较好的预测效果,一般会使用海量的训练样本参与模型训练,例如几十万或几百万的训练样本。然而,在不同业务场景下的特征库大多数据、结构是不同的,为异构特征库,其通用性较差;而且在业务模型训练过程中,不同业务场景下由于侧重点或需求不同,因此所需的训练样本和特征各不相同。因此,针对不同业务场景,都需要耗费大量时间进行样本数据采集和特征处理,导致现有的模型训练方式存在着效率较低的问题。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的基于异构特征库的业务模型训练方法及装置。
根据本发明实施例的一个方面,提供了一种基于异构特征库的业务模型训练方法,该方法包括:
对不同业务场景的多个异构特征库进行融合处理,得到融合特征库;
针对任一业务场景,采集该业务场景的用户行为日志数据,读取该业务场景的样本特征配置文件;
根据样本特征配置文件,将用户行为日志数据与融合特征库中的特征进行关联,得到训练样本;
根据训练样本,训练得到业务场景对应的业务模型。
进一步地,融合特征库包含用户特征表和店铺特征表。
进一步地,根据样本特征配置文件,将用户行为日志数据与融合特征库中的特征进行关联,得到训练样本进一步包括:
根据样本特征配置文件,确定待关联用户特征和待关联店铺特征;
依据用户行为日志数据中的用户标识,从融合特征库中的用户特征表中提取符合用户标识的待关联用户特征;
依据用户行为日志数据中的店铺标识,从融合特征库中的店铺特征表中提取符合店铺标识的待关联店铺特征;
将用户行为日志数据与提取到的符合用户标识的待关联用户特征以及符合店铺标识的待关联店铺特征进行关联,得到训练样本。
进一步地,对不同业务场景的多个异构特征库进行融合处理,得到融合特征库进一步包括:
从多个异构特征库中提取具有相同特征名称的多个特征;
对多个特征的特征属性进行分析,得到特征分析结果;
根据特征分析结果,对多个特征进行融合处理。
进一步地,对多个特征的特征属性进行分析,得到特征分析结果进一步包括:
对多个特征的特征名称意义、特征值类型以及特征值取值范围进行分析,得到特征分析结果。
进一步地,根据特征分析结果,对多个特征进行融合处理进一步包括:
若多个特征的特征名称意义不一致,则在多个特征的特征名称中添加区分标识;
若多个特征的特征名称意义一致且特征值类型不一致,或者,多个特征的特征名称意义一致且特征值类型为离散枚举类型,则将多个特征的特征值映射至同一枚举取值范围内;
若多个特征的特征名称意义一致且特征值类型为连续实数类型,则根据多个特征的特征值进行归一化和加权处理,得到计算结果,将计算结果确定为多个特征的融合后特征值。
根据本发明实施例的另一方面,提供了一种基于异构特征库的业务模型训练装置,该装置包括:
融合模块,适于对不同业务场景的多个异构特征库进行融合处理,得到融合特征库;
获取模块,适于针对任一业务场景,采集该业务场景的用户行为日志数据,读取该业务场景的样本特征配置文件;
关联模块,适于根据样本特征配置文件,将用户行为日志数据与融合特征库中的特征进行关联,得到训练样本;
训练模块,适于根据训练样本,训练得到业务场景对应的业务模型。
进一步地,融合特征库包含用户特征表和店铺特征表。
进一步地,关联模块进一步适于:
根据样本特征配置文件,确定待关联用户特征和待关联店铺特征;
依据用户行为日志数据中的用户标识,从融合特征库中的用户特征表中提取符合用户标识的待关联用户特征;
依据用户行为日志数据中的店铺标识,从融合特征库中的店铺特征表中提取符合店铺标识的待关联店铺特征;
将用户行为日志数据与提取到的符合用户标识的待关联用户特征以及符合店铺标识的待关联店铺特征进行关联,得到训练样本。
进一步地,融合模块进一步适于:
从多个异构特征库中提取具有相同特征名称的多个特征;
对多个特征的特征属性进行分析,得到特征分析结果;
根据特征分析结果,对多个特征进行融合处理。
进一步地,融合模块进一步适于:
对多个特征的特征名称意义、特征值类型以及特征值取值范围进行分析,得到特征分析结果。
进一步地,融合模块进一步适于:
若多个特征的特征名称意义不一致,则在多个特征的特征名称中添加区分标识;
若多个特征的特征名称意义一致且特征值类型不一致,或者,多个特征的特征名称意义一致且特征值类型为离散枚举类型,则将多个特征的特征值映射至同一枚举取值范围内;
若多个特征的特征名称意义一致且特征值类型为连续实数类型,则根据多个特征的特征值进行归一化和加权处理,得到计算结果,将计算结果确定为多个特征的融合后特征值。
根据本发明实施例的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行上述基于异构特征库的业务模型训练方法对应的操作。
根据本发明实施例的再一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行如上述基于异构特征库的业务模型训练方法对应的操作。
根据本发明实施例提供的技术方案,通过对不同业务场景的多个异构特征库的融合,能够得到适用于不同业务场景的融合特征库;还实现了针对不同业务场景的训练流程的统一,针对任一业务场景,根据该业务场景的样本特征配置文件,将该业务场景的用户行为日志数据与融合特征库中的特征进行关联,能够快速、便捷地生成该业务场景所需的训练样本,无需针对每个业务场景都耗费大量时间进行样本数据采集和特征处理,有效地提高了训练样本的获取效率;并且,在业务场景变换时也无需对训练代码进行修改,实现了训练代码的统一,有效地提高了业务模型的训练效率,优化了业务模型的训练方式。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的基于异构特征库的业务模型训练方法的流程图;
图2示出了本发明另一实施例提供的基于异构特征库的业务模型训练方法的流程图;
图3示出了本发明实施例提供的基于异构特征库的业务模型训练装置的结构示意图;
图4示出了根据本发明实施例的一种计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的基于异构特征库的业务模型训练方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,对不同业务场景的多个异构特征库进行融合处理,得到融合特征库。
由于不同业务场景下大多采用不同的设置方式对其特征库中的特征名称、特征名称意义、特征值类型以及特征值取值范围等方面进行设置,使得不同业务场景所形成的特征库存在数据、结构不一致的问题,为异构特征库。为了能够便捷地将不同业务场景中已有的多个异构特征库应用至各个业务场景对应的业务模型训练过程中,需要对不同业务场景的多个异构特征库进行融合处理。具体地,可从业务服务器或数据库中获取不同业务场景的多个异构特征库,接着通过对多个异构特征库进行分析、融合等处理,得到融合特征库。
步骤S102,针对任一业务场景,采集该业务场景的用户行为日志数据,读取该业务场景的样本特征配置文件。
当需要针对某个业务场景进行模型训练时,可从用户端中采集该业务场景的用户行为日志数据,从配置管理中心读取该业务场景的样本特征配置文件。本领域技术人员可根据实际需要对所采集的用户行为日志数据的数量、日志产生时间范围等进行设置。例如,可从用户端中采集在该业务场景下近3个月内产生的所有的用户行为日志数据。其中,用户行为日志数据可包括有:用户标识、店铺标识、用户行为、行为内容、日志产生时间等数据。用户标识具体可为用户ID,店铺标识具体可为店铺ID。
为了能够便捷地得到不同业务场景的训练样本,可在配置管理中心中设置不同业务场景的样本特征配置文件。每个业务场景的样本特征配置文件记录了该业务场景下训练样本所需要的待关联特征。本领域技术人员可根据实际需要对不同业务场景的样本特征配置文件进行设置。
步骤S103,根据样本特征配置文件,将用户行为日志数据与融合特征库中的特征进行关联,得到训练样本。
在得到了该业务场景的用户行为日志数据以及样本特征配置文件之后,就可根据该业务场景的用户行为日志数据以及样本特征配置文件生成该业务场景的训练样本。具体地,样本特征配置文件记录了训练样本所需要的待关联特征,根据样本特征配置文件,从融合特征库中提取待关联特征,将用户行为日志数据与提取到的待关联特征进行关联,得到训练样本。通过这种处理方式,能够快速、便捷地生成不同业务场景所需的大量的训练样本,无需针对每个业务场景都耗费大量时间进行样本数据采集和特征处理,有效地提高了训练样本的获取效率,进而提高业务模型的训练效率。
步骤S104,根据训练样本,训练得到业务场景对应的业务模型。
在得到了训练样本之后,就可通过对训练样本进行训练得到业务场景对应的业务模型。具体地,可将训练样本输入至机器学习工具中进行模型训练,得到该业务场景对应的业务模型。
本实施例提供的基于异构特征库的业务模型训练方法,通过对不同业务场景的多个异构特征库的融合,能够得到适用于不同业务场景的融合特征库;还实现了针对不同业务场景的训练流程的统一,针对任一业务场景,根据该业务场景的样本特征配置文件,将该业务场景的用户行为日志数据与融合特征库中的特征进行关联,能够快速、便捷地生成该业务场景所需的训练样本,无需针对每个业务场景都耗费大量时间进行样本数据采集和特征处理,有效地提高了训练样本的获取效率;并且,在业务场景变换时也无需对训练代码进行修改,实现了训练代码的统一,有效地提高了业务模型的训练效率,优化了业务模型的训练方式。
图2示出了本发明另一实施例提供的基于异构特征库的业务模型训练方法的流程图,如图2所示,该方法包括如下步骤:
步骤S201,对不同业务场景的多个异构特征库进行融合处理,得到融合特征库。
具体地,可从不同业务场景的多个异构特征库中提取具有相同特征名称的多个特征,接着对多个特征的特征属性进行分析,得到特征分析结果,然后根据特征分析结果,对多个特征进行融合处理,得到融合特征库。其中,特征属性包括:特征名称意义、特征值类型以及特征值取值范围等。那么在从多个异构特征库中提取了具有相同特征名称的多个特征之后,可对多个特征的特征名称意义、特征值类型以及特征值取值范围进行分析,从而得到特征分析结果。
一般情况下,特征值类型可分为连续实数类型和离散枚举类型。其中,若特征值取值范围为某一实数区间,例如0至100的区间,则其特征值类型为连续实数类型;若特征值取值范围为几个离散的枚举值,例如“1”、“2”和“3”,则其特征值类型为离散枚举类型。那么针对具有相同特征名称的多个特征,特征分析结果可包括多个特征的特征名称意义不一致、多个特征的特征名称意义一致且特征值类型不一致、多个特征的特征名称意义一致且特征值类型为离散枚举类型以及多个特征的特征名称意义一致且特征值类型为连续实数类型这四种结果。
(1)若多个特征的特征名称意义不一致,说明这多个特征虽然具有相同特征名称,但其表示的意义并不相同,为不同的特征,则在多个特征的特征名称中添加区分标识,例如通过前后缀方式在多个特征的特征名称中添加区分标识,区分标识可用于标识特征的来源库或意义,然后将特征名称添加有区分标识的多个特征保留至融合特征库中。
(2)若多个特征的特征名称意义一致且特征值类型不一致,或者,多个特征的特征名称意义一致且特征值类型为离散枚举类型,则将多个特征的特征值映射至同一枚举取值范围内。
假设异构特征库A中的特征A和异构特征库B中的特征B具有相同特征名称,在特征A和特征B的特征名称意义一致的情况下,说明特征A和特征B不仅具有相同特征名称,其表示的意义也相同,那么需要对特征A和特征B的特征值类型和特征值取值范围进行统一。
如果特征A和特征B的特征值类型不一致,例如特征A的特征值类型为连续实数类型,而特征B的特征值类型为离散枚举类型,可通过分桶算法等将特征A和特征B的特征值映射至同一枚举取值范围内。
如果特征A和特征B的特征值类型一致且均为离散枚举类型,那么也需要将特征A和特征B的特征值映射至同一枚举取值范围内。以特征A和特征B为用户距离敏感等级特征为例,特征A的特征值取值范围为“1”、“2”和“3”,特征B的特征值取值范围为“1”、“2”、“3”、“4”和“5”,那么可将特征B的特征值映射至特征A的枚举取值范围内。具体地,可在特征A和特征B中提取用户标识相同的数据,构建特征A和特征B之间的特征值关系对,特征值关系对包含特征A的特征值、特征B的特征值以及两个特征值之间的关联关系,可将特征值关系对表示为(特征A的特征值,特征B的特征值);而后针对每个特征值关系对,统计相同用户标识在该特征值关系对中的出现总次数;根据各个特征值关系对以及各个特征值关系对对应的出现总次数,确定特征A的特征值和特征B的特征值之间的映射关系。其中,在确定映射关系时,可去除出现总次数较小的特征值关系对;针对特征B的同一特征值存在不同特征值关系对的情况,可去除出现总次数较小的特征值关系对。
假设针对特征A和特征B,构建得到了6个特征值关系对,分别为特征值关系对(1,1),特征值关系对(1,2),特征值关系对(1,3),特征值关系对(2,3),特征值关系对(3,4)以及特征值关系对(3,5),其中,特征值关系对(1,1)对应的出现总次数为90,特征值关系对(1,2)对应的出现总次数为30,特征值关系对(1,3)对应的出现总次数为20,特征值关系对(2,3)对应的出现总次数为100,特征值关系对(3,4)对应的出现总次数为40,特征值关系对(3,5)对应的出现总次数为60。那么可从6个特征值关系对中去除特征值关系对(1,3),将特征B的特征值“1”和“2”都映射为特征A的特征值“1”,将特征B的特征值“3”映射为特征A的特征值“2”,将特征B的特征值“4”和“5”都映射为特征A的特征值“3”。
(3)若多个特征的特征名称意义一致且特征值类型为连续实数类型,则根据多个特征的特征值进行归一化和加权处理,得到计算结果,将计算结果确定为多个特征的融合后特征值。具体地,通过对多个特征的特征值中的最大值和最小值进行归一化处理,映射至统一区间,例如[-1,1],然后对经归一化处理的特征值进行加权处理,得到计算结果。本领域技术人员可根据实际需要对加权的权重值进行设置。
以特征A和特征B为店铺曝光转化率特征为例,可依据店铺订单交易量确定权重值。假设针对某一店铺,对应的特征A的特征值和特征B的特征值经过归一化处理后分别为0.8和0.4,该店铺在异构特征库A中对应的店铺订单交易量为8000,在异构特征库B中对应的店铺订单交易量为2000,那么特征A的权重值为8000/(8000+2000),特征B的权重值为2000/(8000+2000),即特征A的权重值为0.8,特征B的权重值为0.2,则通过加权计算得到的计算结果为0.72,将0.72为特征A和特征B的融合后特征值。
另外,对于多个异构特征库中的具有不同特征名称的特征,可直接将其保留至融合特征库中。
以不同业务场景为不同的外卖业务场景为例,假设不同的外卖业务场景包括场景1和场景2,那么可对场景1的异构特征库1和场景2的异构特征库2进行融合处理,将两个异构特征库融合为一个特征库,将融合得到的特征库称为融合特征库。其中,融合特征库可包含有用户特征表和店铺特征表。具体地,针对外卖业务场景,用户特征表可包括有:用户性别特征、用户消费等级特征、用户预设时间段内的店铺偏好特征、用户优惠敏感度特征以及用户距离敏感等级特征等;店铺特征表可包括有:店铺曝光转化率特征、店铺评价得分特征、店铺菜品口味特征以及店铺复购率特征等。
步骤S202,针对任一业务场景,采集该业务场景的用户行为日志数据,读取该业务场景的样本特征配置文件。
当需要针对某个业务场景进行模型训练时,可从用户端中采集该业务场景的用户行为日志数据,从配置管理中心读取该业务场景的样本特征配置文件。其中,用户行为日志数据可包括有:用户标识、店铺标识、用户行为、行为内容、日志产生时间等数据。以业务场景为外卖场景为例,该业务场景的用户行为日志数据中的店铺标识为外卖店铺标识,用户行为可为外卖购买行为,行为内容可为用户所购买的物品内容。
可选地,考虑到采集到的用户行为日志数据中可能存在字段缺失、重复等情况,那么在采集到的用户行为日志数据之后,可对采集到的用户行为日志数据进行数据预处理,例如,去除字段缺失以及重复存在的用户行为日志数据,去除噪声数据等。
步骤S203,根据样本特征配置文件,确定待关联用户特征和待关联店铺特征。
由于每个业务场景的样本特征配置文件记录了该业务场景下训练样本所需要的待关联特征,具体地,待关联特征可包括待关联用户特征和待关联店铺特征,那么可根据样本特征配置文件,确定待关联用户特征和待关联店铺特征。
步骤S204,依据用户行为日志数据中的用户标识,从融合特征库中的用户特征表中提取符合用户标识的待关联用户特征。
其中,用户行为日志数据中包括用户标识和店铺标识,融合特征库中的用户特征表是按照用户标识对各个特征进行管理的,店铺特征表是按照店铺标识对各个特征进行管理的。那么可将用户行为日志数据中的用户标识与融合特征库的用户特征表中的用户标识进行关联,根据由样本特征配置文件所确定的待关联用户特征,从用户特征表中提取符合用户标识的待关联用户特征。
步骤S205,依据用户行为日志数据中的店铺标识,从融合特征库中的店铺特征表中提取符合店铺标识的待关联店铺特征。
将用户行为日志数据中的店铺标识与融合特征库的店铺特征表中的店铺标识进行关联,根据由样本特征配置文件所确定的待关联店铺特征,从店铺特征表中提取符合店铺标识的待关联店铺特征。
步骤S206,将用户行为日志数据与提取到的符合用户标识的待关联用户特征以及符合店铺标识的待关联店铺特征进行关联,得到训练样本。
在从融合特征库中提取得到符合用户标识的待关联用户特征以及符合店铺标识的待关联店铺特征之后,将用户行为日志数据与提取到的待关联用户特征以及待关联店铺特征进行关联,即可便捷地生成训练样本。训练样本的生成数量可由参与关联的该业务场景的用户行为日志数据的数量来决定,能够实现大量训练样本的快速生成,有效地提高了训练样本的获取效率。
步骤S207,根据训练样本,训练得到业务场景对应的业务模型。
其中,可将训练样本输入至机器学习工具中进行模型训练,得到该业务场景对应的业务模型。
本实施例提供的基于异构特征库的业务模型训练方法,从特征名称、特征名称意义、特征值类型以及特征值取值范围等多方面对不同业务场景的多个异构特征库中的特征进行分析,为各种特征分析结果制定对应的融合方案,实现了对多个异构特征库的精准融合,得到适用于不同业务场景的融合特征库;还实现了针对不同业务场景的训练流程的统一,针对任一业务场景,依据该业务场景的样本特征配置文件以及该业务场景的用户行为日志数据中的用户标识和店铺标识,将用户行为日志数据与融合特征库中的特征进行关联,能够快速、便捷地生成该业务场景所需的训练样本,有效地提高了训练样本的获取效率;并且,在业务场景变换时也无需对训练代码进行修改,实现了训练代码的统一,有效地提高了业务模型的训练效率,优化了业务模型的训练方式。
图3示出了本发明实施例提供的基于异构特征库的业务模型训练装置的结构示意图,如图3所示,该装置包括:融合模块301、获取模块302、关联模块303和训练模块304。
融合模块301适于:对不同业务场景的多个异构特征库进行融合处理,得到融合特征库。
其中,融合特征库包含用户特征表和店铺特征表。
获取模块302适于:针对任一业务场景,采集该业务场景的用户行为日志数据,读取该业务场景的样本特征配置文件。
关联模块303适于:根据样本特征配置文件,将用户行为日志数据与融合特征库中的特征进行关联,得到训练样本。
训练模块304适于:根据训练样本,训练得到业务场景对应的业务模型。
可选地,关联模块303进一步适于:根据样本特征配置文件,确定待关联用户特征和待关联店铺特征;依据用户行为日志数据中的用户标识,从融合特征库中的用户特征表中提取符合用户标识的待关联用户特征;依据用户行为日志数据中的店铺标识,从融合特征库中的店铺特征表中提取符合店铺标识的待关联店铺特征;将用户行为日志数据与提取到的符合用户标识的待关联用户特征以及符合店铺标识的待关联店铺特征进行关联,得到训练样本。
可选地,融合模块301进一步适于:从多个异构特征库中提取具有相同特征名称的多个特征;对多个特征的特征属性进行分析,得到特征分析结果;根据特征分析结果,对多个特征进行融合处理。
可选地,融合模块301进一步适于:对多个特征的特征名称意义、特征值类型以及特征值取值范围进行分析,得到特征分析结果。
可选地,融合模块301进一步适于:若多个特征的特征名称意义不一致,则在多个特征的特征名称中添加区分标识;若多个特征的特征名称意义一致且特征值类型不一致,或者,多个特征的特征名称意义一致且特征值类型为离散枚举类型,则将多个特征的特征值映射至同一枚举取值范围内;若多个特征的特征名称意义一致且特征值类型为连续实数类型,则根据多个特征的特征值进行归一化和加权处理,得到计算结果,将计算结果确定为多个特征的融合后特征值。
本实施例提供的基于异构特征库的业务模型训练装置,从特征名称、特征名称意义、特征值类型以及特征值取值范围等多方面对不同业务场景的多个异构特征库中的特征进行分析,为各种特征分析结果制定对应的融合方案,实现了对多个异构特征库的精准融合,得到适用于不同业务场景的融合特征库;还实现了针对不同业务场景的训练流程的统一,针对任一业务场景,依据该业务场景的样本特征配置文件以及该业务场景的用户行为日志数据中的用户标识和店铺标识,将用户行为日志数据与融合特征库中的特征进行关联,能够快速、便捷地生成该业务场景所需的训练样本,有效地提高了训练样本的获取效率;并且,在业务场景变换时也无需对训练代码进行修改,实现了训练代码的统一,有效地提高了业务模型的训练效率,优化了业务模型的训练方式。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的基于异构特征库的业务模型训练方法。
图4示出了根据本发明实施例的一种计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图4所示,该计算设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:
处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。
通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器402,用于执行程序410,具体可以执行上述基于异构特征库的业务模型训练方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以用于使得处理器402执行上述任意方法实施例中的基于异构特征库的业务模型训练方法。程序410中各步骤的具体实现可以参见上述基于异构特征库的业务模型训练实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明实施例的内容,并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明示例性实施例的描述中,各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (8)

1.一种基于异构特征库的业务模型训练方法,所述方法包括:
从不同业务场景的多个异构特征库中提取具有相同特征名称的多个特征;
对所述多个特征的特征属性进行分析,得到特征分析结果;
根据所述特征分析结果,对所述多个特征进行融合处理,得到融合特征库,所述融合特征库包含用户特征表和店铺特征表;
针对任一业务场景,采集该业务场景的用户行为日志数据,读取该业务场景的样本特征配置文件,所述用户行为日志数据是从用户端中采集的;
根据所述样本特征配置文件,确定待关联用户特征和待关联店铺特征;
依据所述用户行为日志数据中的用户标识,从所述融合特征库中的用户特征表中提取符合所述用户标识的待关联用户特征;
依据所述用户行为日志数据中的店铺标识,从所述融合特征库中的店铺特征表中提取符合所述店铺标识的待关联店铺特征;
将所述用户行为日志数据与提取到的符合所述用户标识的待关联用户特征以及符合所述店铺标识的待关联店铺特征进行关联,得到训练样本;
根据所述训练样本,训练得到业务场景对应的业务模型。
2.根据权利要求1所述的方法,其中,所述对所述多个特征的特征属性进行分析,得到特征分析结果进一步包括:
对所述多个特征的特征名称意义、特征值类型以及特征值取值范围进行分析,得到特征分析结果。
3.根据权利要求1或2所述的方法,其中,所述根据所述特征分析结果,对所述多个特征进行融合处理进一步包括:
若所述多个特征的特征名称意义不一致,则在所述多个特征的特征名称中添加区分标识;
若所述多个特征的特征名称意义一致且特征值类型不一致,或者,所述多个特征的特征名称意义一致且特征值类型为离散枚举类型,则将所述多个特征的特征值映射至同一枚举取值范围内;
若所述多个特征的特征名称意义一致且特征值类型为连续实数类型,则根据所述多个特征的特征值进行归一化和加权处理,得到计算结果,将所述计算结果确定为所述多个特征的融合后特征值。
4.一种基于异构特征库的业务模型训练装置,所述装置包括:
融合模块,适于从不同业务场景的多个异构特征库中提取具有相同特征名称的多个特征;对所述多个特征的特征属性进行分析,得到特征分析结果;根据所述特征分析结果,对所述多个特征进行融合处理,得到融合特征库,所述融合特征库包含用户特征表和店铺特征表;
获取模块,适于针对任一业务场景,采集该业务场景的用户行为日志数据,读取该业务场景的样本特征配置文件,所述用户行为日志数据是从用户端中采集的;
关联模块,适于根据所述样本特征配置文件,确定待关联用户特征和待关联店铺特征;依据所述用户行为日志数据中的用户标识,从所述融合特征库中的用户特征表中提取符合所述用户标识的待关联用户特征;依据所述用户行为日志数据中的店铺标识,从所述融合特征库中的店铺特征表中提取符合所述店铺标识的待关联店铺特征;将所述用户行为日志数据与提取到的符合所述用户标识的待关联用户特征以及符合所述店铺标识的待关联店铺特征进行关联,得到训练样本;
训练模块,适于根据所述训练样本,训练得到业务场景对应的业务模型。
5.根据权利要求4所述的装置,其中,所述融合模块进一步适于:
对所述多个特征的特征名称意义、特征值类型以及特征值取值范围进行分析,得到特征分析结果。
6.根据权利要求4或5所述的装置,其中,所述融合模块进一步适于:
若所述多个特征的特征名称意义不一致,则在所述多个特征的特征名称中添加区分标识;
若所述多个特征的特征名称意义一致且特征值类型不一致,或者,所述多个特征的特征名称意义一致且特征值类型为离散枚举类型,则将所述多个特征的特征值映射至同一枚举取值范围内;
若所述多个特征的特征名称意义一致且特征值类型为连续实数类型,则根据所述多个特征的特征值进行归一化和加权处理,得到计算结果,将所述计算结果确定为所述多个特征的融合后特征值。
7.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-3中任一项所述的基于异构特征库的业务模型训练方法对应的操作。
8.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-3中任一项所述的基于异构特征库的业务模型训练方法对应的操作。
CN202010033281.6A 2020-01-13 2020-01-13 基于异构特征库的业务模型训练方法及装置 Active CN111242318B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010033281.6A CN111242318B (zh) 2020-01-13 2020-01-13 基于异构特征库的业务模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010033281.6A CN111242318B (zh) 2020-01-13 2020-01-13 基于异构特征库的业务模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN111242318A CN111242318A (zh) 2020-06-05
CN111242318B true CN111242318B (zh) 2024-04-26

Family

ID=70877693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010033281.6A Active CN111242318B (zh) 2020-01-13 2020-01-13 基于异构特征库的业务模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN111242318B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113762688A (zh) * 2021-01-06 2021-12-07 北京沃东天骏信息技术有限公司 业务分析系统、方法以及存储介质
CN112416982B (zh) * 2021-01-25 2021-09-21 北京轻松筹信息技术有限公司 一种实时用户特征的计算方法及装置
CN113987324A (zh) * 2021-10-21 2022-01-28 北京达佳互联信息技术有限公司 一种数据处理方法、装置、设备及存储介质
CN117009921B (zh) * 2023-08-04 2024-02-23 振宁(无锡)智能科技有限公司 一种数据融合引擎的优化数据处理方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346899A (zh) * 2011-10-08 2012-02-08 亿赞普(北京)科技有限公司 一种基于用户行为的广告点击率预测方法和装置
CN103914478A (zh) * 2013-01-06 2014-07-09 阿里巴巴集团控股有限公司 网页训练方法及系统、网页预测方法及系统
CN104602116A (zh) * 2014-12-26 2015-05-06 北京农业智能装备技术研究中心 一种交互式富媒体可视化渲染方法及系统
WO2017202336A1 (zh) * 2016-05-24 2017-11-30 腾讯科技(深圳)有限公司 广告反作弊方法,装置及存储介质
CN108681696A (zh) * 2018-04-28 2018-10-19 河海大学 融合多特征降维和迁移学习的红外目标稳健性识别方法
CN108846384A (zh) * 2018-07-09 2018-11-20 北京邮电大学 融合视频感知的多任务协同识别方法及系统
CN109033387A (zh) * 2018-07-26 2018-12-18 广州大学 一种融合多源数据的物联网搜索系统、方法及存储介质
CN109242007A (zh) * 2018-08-24 2019-01-18 华中科技大学鄂州工业技术研究院 一种基于张量的跨域异构大数据多视角聚类方法和装置
CN109583482A (zh) * 2018-11-13 2019-04-05 河海大学 一种基于多特征融合与多核迁移学习的红外人体目标图像识别方法
CN109857175A (zh) * 2019-01-23 2019-06-07 南京邮电大学 一种非侵入式人体热舒适的ai感知方法
CN110162700A (zh) * 2019-04-23 2019-08-23 腾讯科技(深圳)有限公司 信息推荐及模型的训练方法、装置、设备以及存储介质
CN110188148A (zh) * 2019-05-23 2019-08-30 北京建筑大学 面向多模异构特征的实体识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170091629A1 (en) * 2015-09-30 2017-03-30 Linkedin Corporation Intent platform

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346899A (zh) * 2011-10-08 2012-02-08 亿赞普(北京)科技有限公司 一种基于用户行为的广告点击率预测方法和装置
CN103914478A (zh) * 2013-01-06 2014-07-09 阿里巴巴集团控股有限公司 网页训练方法及系统、网页预测方法及系统
CN104602116A (zh) * 2014-12-26 2015-05-06 北京农业智能装备技术研究中心 一种交互式富媒体可视化渲染方法及系统
WO2017202336A1 (zh) * 2016-05-24 2017-11-30 腾讯科技(深圳)有限公司 广告反作弊方法,装置及存储介质
CN108681696A (zh) * 2018-04-28 2018-10-19 河海大学 融合多特征降维和迁移学习的红外目标稳健性识别方法
CN108846384A (zh) * 2018-07-09 2018-11-20 北京邮电大学 融合视频感知的多任务协同识别方法及系统
CN109033387A (zh) * 2018-07-26 2018-12-18 广州大学 一种融合多源数据的物联网搜索系统、方法及存储介质
CN109242007A (zh) * 2018-08-24 2019-01-18 华中科技大学鄂州工业技术研究院 一种基于张量的跨域异构大数据多视角聚类方法和装置
CN109583482A (zh) * 2018-11-13 2019-04-05 河海大学 一种基于多特征融合与多核迁移学习的红外人体目标图像识别方法
CN109857175A (zh) * 2019-01-23 2019-06-07 南京邮电大学 一种非侵入式人体热舒适的ai感知方法
CN110162700A (zh) * 2019-04-23 2019-08-23 腾讯科技(深圳)有限公司 信息推荐及模型的训练方法、装置、设备以及存储介质
CN110188148A (zh) * 2019-05-23 2019-08-30 北京建筑大学 面向多模异构特征的实体识别方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
杨炳儒,陈新中,李岩.源于信息挖掘的新型智能化决策支持系统.计算机工程.2003,(第15期),全文. *
段青玲 ; 刘怡然 ; 张璐 ; 李道亮 ; .水产养殖大数据技术研究进展与发展趋势分析.农业机械学报.2018,(第06期),全文. *
水产养殖大数据技术研究进展与发展趋势分析;段青玲;刘怡然;张璐;李道亮;;农业机械学报;20180625(第06期);全文 *
源于信息挖掘的新型智能化决策支持系统;杨炳儒, 陈新中, 李岩;计算机工程;20030805(第15期);全文 *

Also Published As

Publication number Publication date
CN111242318A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN111242318B (zh) 基于异构特征库的业务模型训练方法及装置
US20210035126A1 (en) Data processing method, system and computer device based on electronic payment behaviors
US11915104B2 (en) Normalizing text attributes for machine learning models
CN107423613A (zh) 依据相似度确定设备指纹的方法、装置及服务器
CN108932625B (zh) 用户行为数据的分析方法、装置、介质和电子设备
CN110737821B (zh) 相似事件查询的方法、装置、存储介质和终端设备
CN111553137B (zh) 报告生成方法、装置、存储介质及计算机设备
CN111090807A (zh) 一种基于知识图谱的用户识别方法及装置
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
CN109062947A (zh) 用户画像标签查询方法、设备及计算机可读存储介质
CN113543117A (zh) 携号转网用户的预测方法、装置及计算设备
CN114756669A (zh) 问题意图的智能分析方法、装置、电子设备及存储介质
CN108959289B (zh) 网站类别获取方法和装置
CN110796178B (zh) 决策模型训练方法及样本特征选择方法、装置和电子设备
CN112435068A (zh) 一种恶意订单识别方法、装置、电子设备及存储介质
CN112052310A (zh) 基于大数据的信息获取方法、装置、设备及存储介质
CN109409091B (zh) 检测Web页面的方法、装置、设备以及计算机存储介质
CN114398562B (zh) 一种店铺数据管理方法、装置、设备及存储介质
CN115168509A (zh) 风控数据的处理方法及装置、存储介质、计算机设备
CN107291722B (zh) 一种描述词的分类方法及设备
CN112131215B (zh) 自底向上的数据库信息获取方法及装置
CN111209397B (zh) 一种确定企业产业类别的方法
CN113849618A (zh) 基于知识图谱的策略确定方法、装置、电子设备及介质
CN113918471A (zh) 测试用例的处理方法、装置及计算机可读存储介质
CN111930815A (zh) 一种基于行业属性和经营属性构建企业画像的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant