CN111309766B - 业务特征构造方法以及装置 - Google Patents

业务特征构造方法以及装置 Download PDF

Info

Publication number
CN111309766B
CN111309766B CN202010079761.6A CN202010079761A CN111309766B CN 111309766 B CN111309766 B CN 111309766B CN 202010079761 A CN202010079761 A CN 202010079761A CN 111309766 B CN111309766 B CN 111309766B
Authority
CN
China
Prior art keywords
service
screening
model
data
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010079761.6A
Other languages
English (en)
Other versions
CN111309766A (zh
Inventor
李友
王凯
朱训
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010079761.6A priority Critical patent/CN111309766B/zh
Publication of CN111309766A publication Critical patent/CN111309766A/zh
Application granted granted Critical
Publication of CN111309766B publication Critical patent/CN111309766B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供业务特征构造方法以及装置,其中所述业务特征构造方法包括:在数据库中读取用户访问目标业务的业务执行页面生成的业务访问记录,并利用多种数据筛选方法对所述业务访问记录进行数据筛选,以获得对应的筛选结果,对筛选结果中包含的业务访问记录进行组合生成多个业务序列,并将多个业务序列输入特征构造模型,获取特征构造模型输出的用于训练目标业务的业务模型的业务特征。

Description

业务特征构造方法以及装置
技术领域
本说明书实施例涉及机器学习技术领域,特别涉及一种业务特征构造方法。本说明书一个或者多个实施例同时涉及一种业务特征构造装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
随着信息化社会的发展,用户接触到的信息越来越庞大、繁杂,同时用户对生活的便利性也要求越来越高,为了满足用户对生活便利性的需求,因此越来越多的应用程序应运而生。
用户可通过应用程序进行购物、投资理财以及缴费等,并且用户在通过应用程序办理相关业务的同时,会生成大量与业务相关的业务数据,而业务端为保证业务的正常运行,则需利用这些业务数据对业务指标进行预测,例如,在商品推荐业务中,可对用户的喜好进行预测,以为用户推荐喜欢的商品,或者在风控领域,可对用户的交易风险进行预测,以降低业务的不良率;对于大部分业务指标的预测,往往会用到预测模型,因此,亟需一种特征构造方法,以提高模型学习结果的准确度。
发明内容
有鉴于此,本说明书施例提供了一种业务特征构造方法。本说明书一个或者多个实施例同时涉及一种业务特征构造装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种业务特征构造方法,包括:
在数据库中读取用户访问目标业务的业务执行页面生成的业务访问记录;
利用多种数据筛选方法对所述业务访问记录进行数据筛选;
对筛选结果中包含的业务访问记录进行组合生成多个业务序列;
将所述业务序列输入特征构造模型,获取所述特征构造模型输出的业务特征,所述业务特征用于对所述目标业务的业务模型进行训练。
可选地,所述利用多种数据筛选方法对所述业务访问记录进行数据筛选,包括:
利用至少一种数据筛选算法对所述业务访问记录进行数据筛选处理,将筛选生成的至少一种筛选结果进行整合生成第一筛选集合;
利用数据筛选模型对所述业务访问记录进行数据筛选处理,生成第二筛选集合;
相应的,所述利用多种数据筛选方法对所述业务访问记录进行数据筛选步骤执行之后,所述对筛选结果中包含的业务访问记录进行组合生成多个业务序列步骤执行之前,还包括:
将所述第一筛选集合以及所述第二筛选集合中包含的业务访问记录作为所述筛选结果。
可选地,所述利用多种数据筛选方法对所述业务访问记录进行数据筛选,包括:
按照多个数据维度对所述业务访问记录进行筛选生成与所述多个数据维度分别对应的数据集合;
根据所述数据维度确定分别与所述数据集合对应的数据筛选方法;
利用所述数据筛选方法对与所述数据筛选方法对应的数据集合中包含的业务访问记录进行数据筛选;
其中,所述数据筛选方法包括至少一种数据筛选算法或数据筛选模型。
可选地,所述利用多种数据筛选方法对所述业务访问记录进行数据筛选,包括:
利用至少一种数据筛选算法对所述业务访问记录进行数据筛选,将筛选生成的至少一种筛选结果进行整合生成第三筛选集合;
利用数据筛选模型对所述第三筛选集合中包含的业务访问记录进行数据筛选。
可选地,所述特征构造模型采用如下方式进行训练:
基于所述业务访问记录与所述业务特征的关联关系构建预训练模型;
将所述业务序列作为训练样本输入所述预训练模型进行模型的预训练,获得初始特征构造模型;
将有标注的业务序列作为训练样本对所述初始特征构造模型进行训练,获得所述特征构造模型。
可选地,所述将所述业务序列作为训练样本输入所述预训练模型进行模型的预训练,获得初始特征构造模型,包括:
将所述业务序列输入所述预训练模型,利用所述预训练模型的编码端对所述业务序列进行编码处理,获得第一业务特征;
对所述业务序列中包含的业务访问记录进行删减处理生成目标业务序列,并对所述目标业务序列进行编码处理生成第二业务特征;
根据所述第一业务特征和所述第二业务特征计算所述预训练模型的数据删减损失值,并根据所述数据删减损失值调整所述预训练模型的参数,获得所述初始特征构造模型。
可选地,所述将所述业务序列作为训练样本输入所述预训练模型进行模型的预训练,获得初始特征构造模型,包括:
对所述业务序列中包含的业务访问记录进行拆分处理生成多个子序列,并将所述子序列进行组合生成组合业务序列;
将所述组合业务序列输入所述预训练模型,获取所述组合业务序列中各个子序列的同源识别结果;
根据预存的损失函数和所述同源识别结果确定所述预训练模型的序列组合损失值;
根据所述序列组合损失值调整所述预训练模型的参数,获得所述初始特征构造模型。
可选地,所述将有标注的业务序列作为训练样本对所述初始特征构造模型进行训练,获得所述特征构造模型,包括:
对所述业务序列进行真值标注处理;其中,真值标注结果用于表示所述业务序列中包含的业务访问记录对应的业务指标类型;
将所述业务序列作为训练样本,以及所述真值标注结果作为样本标签对所述初始构造模型进行迭代训练,获得所述特征构造模型。
可选地,所述业务序列通过以下方式生成:
对所述筛选结果中包含的业务访问记录进行组合生成多个组合数据集合;
对所述组合数据集合中包含的业务访问记录进行关键词提取;
统计所述组合数据集合中所述关键词对应的出现频次;
对所述关键词以及所述关键词对应的出现频次进行整合生成所述业务序列。
根据本说明书实施例的第二方面,提供了一种业务特征构造装置,包括:
读取模块,被配置为在数据库中读取用户访问目标业务的业务执行页面生成的业务访问记录;
筛选模块,被配置为利用多种数据筛选方法对所述业务访问记录进行数据筛选;
对筛选结果中包含的业务访问记录进行组合生成多个业务序列;
获取模块,被配置为将所述业务序列输入特征构造模型,获取所述特征构造模型输出的业务特征,所述业务特征用于对所述目标业务的业务模型进行训练。
可选地,所述筛选模块,包括:
第一筛选子模块,被配置为利用至少一种数据筛选算法对所述业务访问记录进行数据筛选处理,将筛选生成的至少一种筛选结果进行整合生成第一筛选集合;
第二筛选子模块,被配置为利用数据筛选模型对所述业务访问记录进行数据筛选处理,生成第二筛选集合;
相应的,所述业务特征构造装置,还包括:
筛选结果确定模块,被配置为将所述第一筛选集合以及所述第二筛选集合中包含的业务访问记录作为所述筛选结果。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
在数据库中读取用户访问目标业务的业务执行页面生成的业务访问记录;
利用多种数据筛选方法对所述业务访问记录进行数据筛选;
对筛选结果中包含的业务访问记录进行组合生成多个业务序列;
将所述业务序列输入特征构造模型,获取所述特征构造模型输出的业务特征,所述业务特征用于对所述目标业务的业务模型进行训练。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现任意一项所述业务特征构造方法的步骤。
本说明书一个实施例实现了通过在数据库中读取用户的业务访问记录,利用多种数据筛选方法对读取的业务访问记录进行筛选,保证了筛选结果中包含的业务访问记录的全面性和精准性,并且在降低模型进行任务学习所使用的数据量的同时,保证了模型学习结果的准确性,将筛选结果中包含的业务访问记录进行组合生成多个业务序列,并将业务序列输入特征构造模型进行业务特征构造,同样能够提高特征构造结果的准确率以及效率。
附图说明
图1是本说明书一个实施例提供的一种业务特征构造方法的处理流程图;
图2是本说明书一个实施例提供的一种业务特征构造过程的示意图;
图3是本说明书一个实施例提供的一种业务特征构造方法的处理过程流程图;
图4是本说明书一个实施例提供的一种业务特征构造装置的示意图;
图5是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在本说明书中,提供了一种业务特征构造方法,本说明书同时涉及一种业务特征构造装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
本说明书实施例提供的一种业务特征构造方法实施例如下:
参照附图1,其示出了本说明书实施例提供的一种业务特征构造方法的流程图,参照附图2,其示出了本说明实施例提供的一种业务特征构造过程的示意图。
步骤102,在数据库中读取用户访问目标业务的业务执行页面生成的业务访问记录。
随着技术的发展,同时也为了满足用户对生活便利性的需求,因此越来越多的应用程序应运而生,用户可通过应用程序进行购物、投资理财以及缴费等,而用户办理不同类型的业务所生成的业务数据对该类型业务中业务指标的评估有着很大的增益。
基于此,本说明书实施例提供一种业务特征构造方法,通过在数据库中读取用户的业务访问记录,对读取的业务访问记录进行筛选,将筛选结果中包含的业务访问记录进行组合生成多个业务序列,然后将业务序列输入特征构造模型进行业务特征构造;
由于使用应用程序的用户数量较多,从而生成的业务数据量巨大,在采用机器学习的方式对业务指标进行评估的情况下,若直接利用这些业务数据,并采用深度学习框架进行模型学习,会存在计算性能问题和模型增益上的局限,因此,本说明书实施例所述的业务特征构造方法,利用多种数据筛选方法对业务访问记录进行筛选,保证了筛选结果中包含的业务访问记录的全面性和精准性,并且在降低模型进行任务学习所使用的数据量的同时,保证了模型学习结果的准确性。
具体的,所述目标业务包括风控业务、商品推荐业务以及理财业务等,业务执行页面包括目标业务的业务信息浏览页面、业务交易页面或业务事件处理页面等,所述业务访问记录即用户在所述业务信息浏览页面进行点击浏览生成的浏览数据、在所述业务交易页面进行业务交易生成的交易数据或在所述业务事件处理页面进行事件处理生成的处理数据。
以所述目标业务为风控业务为例,则如图2所示,用户在访问风控业务的业务执行页面生成的业务访问记录(即基础数据)可包括用户在风控业务的信息浏览页面进行点击浏览生成的浏览数据、在风控业务的风险交易页面进行交易生成的交易数据或在风控业务的事件处理页面进行风控事件处理生成的处理数据。
终端在获取用户的业务访问记录后,将其存储于数据库,在有利用用户的业务访问记录进行业务特征构造的情况下,可在数据库中读取所述用户的业务访问记录,并且在用户的业务访问记录数据量较大的情况下,可通过对其进行筛选以保留部分有效数据,用于业务特征的构造。
步骤104,利用多种数据筛选方法对所述业务访问记录进行数据筛选。
具体的,如前所述,在数据库中读取用户访问目标业务的业务执行页面生成的业务访问记录后,因业务访问记录数据量较大,因此需对其进行筛选,以在降低模型进行任务学习所使用的数据量的同时,保证了模型学习结果的准确性。
本说明书实施例所述的多种数据筛选方法包括规则方法和模型方法,如图2所示,在读取基础数据后,需利用规则方法和模型方法进行数据筛选处理,其中,规则方法即至少一种数据筛选算法,可以包括长尾筛选算法和波动性筛选算法,长尾筛选算法即对于单个业务访问记录或事件而言,若其用户量过少导致统计意义不强,则直接将所述单个业务访问记录或事件删除;波动性筛选算法即表示若业务访问记录或事件在具有统计意义的时间窗口内用户量或用户群体波动严重,则将所述业务访问记录或事件直接删除;而模型方法即采用数据筛选模型进行数据筛选,具体为采用通过统计生成用户各业务访问记录的基础统计值,通过支持高维稀疏的模型进行学习,得到对于业务指标具有较好的区分能力的业务访问记录或事件。
实际应用中,长尾筛选算法、波动性筛选算法和数据筛选模型三种数据筛选方法可两两任意组合,使用组合后的数据数据方法,并按照一定筛选逻辑对业务访问记录进行筛选处理,获得筛选结果。
具体实施时,利用数据筛选算法和数据筛选模型分别对业务访问记录进行筛选,并将筛选获得的两个集合取并集作为最终的筛选结果,具体可通过以下方式实现:
利用至少一种数据筛选算法对所述业务访问记录进行数据筛选处理,将筛选生成的至少一种筛选结果进行整合生成第一筛选集合;
利用数据筛选模型对所述业务访问记录进行数据筛选处理,生成第二筛选集合;
相应的,所述利用多种数据筛选方法对所述业务访问记录进行数据筛选步骤执行之后,所述对筛选结果中包含的业务访问记录进行组合生成多个业务序列步骤执行之前,还包括:
将所述第一筛选集合以及所述第二筛选集合中包含的业务访问记录作为所述筛选结果。
具体的,在数据库中读取用户的业务访问记录后,若业务访问记录数据量较大,则需采用数据筛选方法对业务访问记录进行数据筛选,本说明书实施例利用至少一种数据筛选算法和数据筛选模型对业务访问记录进行数据筛选,并将筛选获得的筛选结果取并集作为最终的筛选结果;其中,所述利用至少一种数据筛选算法对所述业务访问记录进行数据筛选处理的筛选逻辑包含以下几种情况:
1)利用长尾筛选算法或波动性筛选对所述业务访问记录进行数据筛选处理,并将筛选结果作为第一筛选集合。
2)利用长尾筛选算法和波动性筛选算法分别对业务访问记录进行数据筛选处理,并将获得的两个筛选结果整合生成第一筛选集合。
3)利用长尾筛选算法对业务访问记录进行数据筛选处理,获得初始筛选集合,并利用波动性筛选算法对所述初始筛选集合中包含的业务访问记录进行筛选获得第一筛选集合。
4)利用波动性筛选算法对业务访问记录进行数据筛选处理,获得初始筛选集合,并利用长尾筛选算法对所述初始筛选集合中包含的业务访问记录进行筛选获得第一筛选集合。
利用至少一种数据筛选算法和数据筛选模型分别对业务访问记录进行数据筛选处理获得对应的第一筛选集合和第二筛选集合后,将第一筛选集合和第二筛选集合取并集作为最终的筛选结果。
由于采用不同的数据筛选方法、数据筛选方法的不同组合方式以及不同的筛选逻辑分别进行数据筛选处理得到的筛选结果均不同,本说明书实施例仅以长尾筛选算法、波动性筛选算法、数据筛选模型以及以上四种筛选逻辑为例进行示意性说明,具体的数据筛选方法、组合方式以及筛选逻辑可根据实际需要确定,在此不做任何限制。
通过在数据库中读取用户的业务访问记录,利用多种数据筛选方法对读取的业务访问记录进行筛选,保证了筛选结果中包含的业务访问记录的全面性和精准性,并且在降低模型进行任务学习所使用的数据量的同时,保证了模型学习结果的准确性。
另外,除利用数据筛选算法和数据筛选模型分别对业务访问记录进行筛选外,还可以对业务访问记录根据不同数据维度进行划分,并根据各个维度对应的数据筛选方法对划分结果进行数据筛选,具体可用过以下方式实现:
按照多个数据维度对所述业务访问记录进行筛选生成与所述多个数据维度分别对应的数据集合;
根据所述数据维度确定分别与所述数据集合对应的数据筛选方法;
利用所述数据筛选方法对与所述数据筛选方法对应的数据集合中包含的业务访问记录进行数据筛选;
其中,所述数据筛选方法包括至少一种数据筛选算法或数据筛选模型。
具体的,在数据库中读取用户的业务访问记录后,若业务访问记录数据量较大,则需采用数据筛选方法对业务访问记录进行数据筛选,由于业务访问记录中包含多个维度的数据,因此,可通过对业务访问记录根据维度对数据进行划分,并利用不同维度对应的数据筛选方法对划分后的数据集合进行筛选,将筛选获得的不同维度对应的筛选结果取并集作为最终的筛选结果。
通过在数据库中读取用户的业务访问记录,利用多种数据筛选方法对读取的业务访问记录进行筛选,保证了筛选结果中包含的业务访问记录的全面性和精准性,并且在降低模型进行任务学习所使用的数据量的同时,保证了模型学习结果的准确性。
除前述实施方式所述的利用数据筛选算法和数据筛选模型分别对业务访问记录进行筛选,并将筛选后的两个结果取并集作为最终的筛选结果外,还可采用以下方式进行数据筛选:
利用至少一种数据筛选算法对所述业务访问记录进行数据筛选,将筛选生成的至少一种筛选结果进行整合生成第三筛选集合;
利用数据筛选模型对所述第三筛选集合中包含的业务访问记录进行数据筛选。
具体的,在数据库中读取用户的业务访问记录后,如果业务访问记录的数据量较大,则需采用数据筛选方法对业务访问记录进行数据筛选,如前所述,至少一种数据筛选算法包括长尾筛选算法和波动性筛选算法,利用至少一种数据筛选算法对所述业务访问记录进行数据筛选处理的筛选逻辑仍然包含如前所述的4种情况,在此不再赘述。
利用至少一种数据筛选算法对所述业务访问记录进行数据筛选处理,并将筛选结果整合生成第三筛选集合后,再利用数据筛选模型对所述第三筛选集合中包含的业务访问记录进行数据筛选生成最终的筛选结果。
除上述实施方式所述的数据筛选逻辑外,本说明书还提供另外一种可选的数据筛选方式,即利用数据筛选模型对所述业务访问记录进行筛选获得第四筛选集合,再利用至少一种数据筛选算法对所述第四筛选集合进行筛选生成最终的筛选结果,具体的实现过程可参照前述内容,在此不再赘述。
此外,除利用至少一种数据筛选算法和数据筛选模型分别对业务访问记录进行数据筛选,并将筛选获得的结果取并集作为最终的筛选结果外,还可以利用至少一种数据筛选算法和数据筛选模型分别对业务访问记录进行数据筛选,并获得的筛选结果取交集作为最终的筛选结果,具体的数据筛选逻辑可根据实际需要确定,在此不做任何限定。
利用不同的数据筛选逻辑对业务访问记录进行筛选,获得不同的筛选结果,有利于保证用于业务特征构造的模型学习结果的准确性。
步骤106,对筛选结果中包含的业务访问记录进行组合生成多个业务序列。
具体的,业务序列即由用户的业务访问记录组成的序列,由于数据库中存储的用户的业务访问记录数据量较大,因此在读取业务访问记录后,需利用多种数据筛选方法对所述业务访问记录进行数据筛选获得对应的筛选结果,并将筛选结果中包含的业务访问记录进行组合生成多个业务序列;其中,所述业务序列的组合方式有多种,一种组合方式即为对业务访问记录进行随机组合,此外,还可以根据预设的其他数据组合方式对所述业务访问记录进行组合,具体的组合方式可根据实际需要确定,在此不做任何限定。
业务序列除通过前述的对筛选结果中包含的业务访问记录进行组合生成外,还可通过以下方式生成:
对所述筛选结果中包含的业务访问记录进行组合生成多个组合数据集合;
对所述组合数据集合中包含的业务访问记录进行关键词提取;
统计所述组合数据集合中所述关键词对应的出现频次;
对所述关键词以及所述关键词对应的出现频次进行整合生成所述业务序列。
具体的,在读取用户的业务访问记录,并利用数据筛选方法对其进行筛选获得筛选结果后,需将筛选结果中包含的业务访问记录转换为业务序列的形式,并通过将业务序列输入特征构造模型的方式获得用于对业务模型进行训练的业务特征。
实际应用中,将筛选结果中包含的业务访问记录转换为业务序列的转换方式除前述实施例所述的通过将业务访问记录进行随机组合的方式进行转换外,还可通过将业务访问记录进行组合生成多个数据集合,并通过对每个数据集合进行关键词提取,并将数据集合中的关键词以及所述关键词的出现频次进行整合生成与所述数据集合对应的业务序列,将所述业务序列输入所述特征构造模型即可获得用于对业务模型进行训练的业务特征。
以所述业务数据为一段文字为例,若提取的关键词为:关键词1、关键词2和关键词3,经统计得出这段文字中关键词1、关键词2和关键词3对应的出现频次分别为20次、50次和100次,则对关键词1、关键2、关键词3以及各个关键词对应的出现频次进行整合生成的业务序列为“一段包含20个关键词1、50个关键词2以及100个关键词3的文字”。
利用关键词以及关键词在数据集合中的出现频次构造业务序列,有利于降低业务序列的复杂度,提高模型的学习效率。
步骤108,将所述业务序列输入特征构造模型,获取所述特征构造模型输出的业务特征,所述业务特征用于对所述目标业务的业务模型进行训练。
具体的,所述特征构造模型用于输出业务特征,而所述业务特征用于对所述目标业务的业务模型进行训练,如前所述,所述目标业务包括风控业务、商品推荐业务或理财业务等,若所述目标业务为风控业务,则所述业务模型即为风控模型,若所述目标业务为商品推荐业务,则所述业务模型即为商品推荐模型,若所述目标业务为理财业务,则所述业务模型即为价格预测模型。
在读取用户的业务访问记录并利用数据筛选方法对其进行筛选获得筛选结果后,将筛选结果中的业务访问记录转换为业务序列,并通过将业务序列输入预先训练的特征构造模型即可获得用于对所述目标业务的业务模型进行训练的业务特征。
本说明书提供的一个实施例中,所述特征构造模型通过以下方式进行训练:
基于所述业务访问记录与所述业务特征的关联关系构建预训练模型;
将所述业务序列作为训练样本输入所述预训练模型进行模型的预训练,获得初始特征构造模型;
将有标注的业务序列作为训练样本对所述初始特征构造模型进行训练,获得所述特征构造模型。
具体的,所述特征构造模型即用于输出业务特征,并且所述业务特征用于训练所述目标业务的业务模型,但在利用特征构造模型获取业务特征之前,需先进行模型训练以获得所述特征构造模型,本说明书实施例采用无监督和有监督两种训练方式进行模型训练,即首先采用无监督的训练方式对预训练模型进行模型训练,获得初始特征构造模型,再利用有监督的训练方式对所述初始特征构造模型进行模型训练,获得所述特征构造模型。
结合有监督和无监督两种训练方式对模型进行训练是一种优选的模型训练方式,实际应用中,也可在有监督或无监督两种训练方式中选择任意一种进行模型训练,具体可根据实际需要确定,在此不做任何限制。
采用有效的模型任务使得模型产出的业务特征更加有效,结合无监督和有监督的训练方式,对于无样本标签的业务或者有样本标签且训练样本数据量较大的业务,都能带来一定的增益,并且有利于提高模型学习结果的准确性。
进一步的,前述实施方式所述的将所述业务序列作为训练样本输入所述预训练模型进行模型的预训练,获得初始特征构造模型,具体可通过以下方式实现:
将所述业务序列输入所述预训练模型,利用所述预训练模型的编码端对所述业务序列进行编码处理,获得第一业务特征;
对所述业务序列中包含的业务访问记录进行删减处理生成目标业务序列,并对所述目标业务序列进行编码处理生成第二业务特征;
根据所述第一业务特征和所述第二业务特征计算所述预训练模型的数据删减损失值,并根据所述数据删减损失值调整所述预训练模型的参数,获得所述初始特征构造模型。
具体的,预训练模型是深度学习架构,是基于用户的业务访问记录与业务特征之间的关联关系构建而成,并且所述预训练模型已经过训练以执行部分业务特征构造任务。使用预训练模型可以在解决业务特征构造的问题时不用从零开始训练一个新的模型,可以在已经经过训练的模型的基础上进行深度训练,提高训练模型的效率。
具体实施时,如图2所示,图2中的模型任务部分包含两部分,一部分为无监督任务,另一部分为有监督任务,而无监督任务同样包含两部分,分别为重构任务和同源任务,重构任务是指通过删除业务序列中的一部分数据形成目标业务序列,预训练模型通过计算业务序列与目标业务序列各自对应的业务特征之间的损失值,从而判断目标业务序列的有效性,并根据损失值调整预训练模型的参数以提高目标业务序列有效性的判断结果,在判断结果满足预设条件的情况下,则停止调整预训练模型的参数,获得所述初始预测模型。
利用重构任务对预训练模型进行模型训练,一方面有利于提高模型学习的效率,另一方面有利于提高模型学习结果的准确性。
除前述实施方式中利用重构任务对预训练模型进行训练外,本说明书提供的一个实施例中,还可以利用同源任务对预训练模型进行训练,具体可通过以下方式实现:
对所述业务序列中包含的业务访问记录进行拆分处理生成多个子序列,并将所述子序列进行组合生成组合业务序列;
将所述组合业务序列输入所述预训练模型,获取所述组合业务序列中各个子序列的同源识别结果;
根据预存的损失函数和所述同源识别结果确定所述预训练模型的序列组合损失值;
根据所述序列组合损失值调整所述预训练模型的参数,获得所述初始特征构造模型。
具体的,如前所述,图2中模型任务中的无监督任务包含两部分,分别为重构任务和同源任务,同源任务是指通过将业务序列进行拆分,并将拆分后的子序列按照新的组合方式重新组合生成组合业务序列,并由初始特征构造模型输出组合业务序列中各个子序列的同源识别结果,即输出组合业务序列中各个子序列是否来源于同一业务序列的识别结果,并根据损失函数和所述同源识别结果计算所述预训练模型的损失值,根据所述损失值调整预训练模型的参数以提高模型输出的同源识别结果的准确性,在输出结果满足预设条件的情况下,则停止调整预训练模型的参数,获得所述初始预测模型。
利用同源任务对预训练模型进行模型训练,一方面有利于提高模型学习的效率,另一方面有利于提高模型学习结果的准确性。
采用有效的模型任务使得模型产出的业务特征更加有效,结合无监督和有监督的训练方式,对于无样本标签的业务或者有样本标签且训练样本数据量较大的业务,都能带来一定的增益,并且有利于提高模型学习结果的准确性。
除此之外,所述将有标注的业务序列作为训练样本对所述初始特征构造模型进行训练,获得所述特征构造模型,包括:
对所述业务序列进行真值标注处理;其中,真值标注结果用于表示所述业务序列中包含的业务访问记录对应的业务指标类型;
将所述业务序列作为训练样本,以及所述真值标注结果作为样本标签对所述初始构造模型进行迭代训练,获得所述特征构造模型。
具体的,对业务序列进行真值标注处理即对业务序列进行打标,将业务序列作为训练样本、真值标注结果作为业务序列的标签,输入所述初始特征构造模型进行模型训练,以获得所述特征构造模型,其中,真值标注结果用于表示业务序列中包含的业务访问记录对应的业务指标类型。
以所述目标业务为风控业务为例,所述业务序列中包含用户的交易数据,且对所述交易数据进行打标的依据为所述交易数据的交易双方是否有至少一方为高风险用户,若所述交易数据的交易双方中其中一方或者双方为高风险用户,则将所述业务序列打标为存在风险,用1表示;若所述交易数据的交易双方中双方均为低风险用户,则将所述业务序列打标为不存在风险,用0表示。
特征构造模型训练完成后,将业务序列输入特征构造模型即可得到业务特征(即图2所示的中间层特征),所述业务特征可用于业务模型的训练,若所述目标业务为风控业务,则所述业务模型即为风控模型,实际应用中,风控模型包括图2所示的PD(违约概率)模型、多头模型、欺诈模型以及聚集性模型,
本说明书一个实施例实现了通过在数据库中读取用户的业务访问记录,利用多种数据筛选方法对读取的业务访问记录进行筛选,保证了筛选结果中包含的业务访问记录的全面性和精准性,并且在降低模型进行任务学习所使用的数据量的同时,保证了模型学习结果的准确性,将筛选结果中包含的业务访问记录进行组合生成多个业务序列,并将业务序列输入特征构造模型进行业务特征构造,同样能够提高特征构造结果的准确率以及效率。
下述结合附图3,以本说明书提供的业务特征构造方法在风控业务的应用为例,对所述业务特征构造方法进行进一步说明。其中,图3示出了本说明书一个实施例提供的一种业务特征构造方法应用于风控业务的处理过程流程图,具体步骤包括步骤302至步骤320。
步骤302,在数据库中读取用户访问风控业务的业务交易页面生成的交易数据。
具体的,终端在获取用户的交易数据后,将其存储于数据库,在有利用用户的交易数据进行风险特征构造的情况下,可在数据库中读取所述用户的交易数据,并且在用户的交易数据的数据量较大的情况下,可通过对其进行筛选以保留部分有效数据,用于风险特征的构造。
步骤304,利用长尾筛选算法对所述交易数据进行数据筛选处理,生成第一筛选集合。
具体的,如前所述,在数据库中读取用户访问风控业务的业务交易页面生成的交易数据后,因交易数据的数据量较大,因此需对其进行筛选,以在降低模型进行任务学习所使用的数据量的同时,保证了模型学习结果的准确性。
本说明书实施例所述的长尾筛选算法,对于单个类型的交易数据或交易事件而言,若其用户量过少导致统计意义不强,则直接将该类型的交易数据或事件删除。
除使用长尾筛选算法对交易数据进行筛选外,还可采用波动性筛选算法对交易数据进行筛选;除单独使用一种筛选算法进行数据筛选外,还可将两种或两种以上的筛选算法进行组合,并利用组合后的两种或两种以上的筛选算法按照一定的数据筛选逻辑对交易数据进行筛选即可。
步骤306,利用数据筛选模型对所述交易数据进行数据筛选处理,生成第二筛选集合。
具体的,采用通过统计生成用户各交易数据的基础统计值,通过支持高维稀疏的模型进行学习,得到对于风控指标具有较好的区分能力的交易数据或事件。
步骤308,将所述第一筛选集合以及所述第二筛选集合中包含的交易数据作为筛选结果。
具体的,利用至少一种数据筛选算法和数据筛选模型分别对交易数据进行数据筛选处理获得对应的第一筛选集合和第二筛选集合后,将第一筛选集合和第二筛选集合取并集作为最终的筛选结果。
步骤310,对数据筛选生成的筛选结果中包含的交易数据进行复杂度计算。
具体的,由于数据库中存储的用户的交易数据的数据量较大,因此在读取交易数据后,需利用多种数据筛选方法对所述交易数据进行数据筛选,并且在获得筛选结果后,还需对筛选结果中包含的交易数据进行复杂度计算,以使得筛选结果的复杂度能够满足模型任务学习的要求的同时,保证模型学习结果的准确性。
步骤312,在复杂度满足预设条件的情况下,对所述筛选结果中包含的交易数据进行组合生成多个组合数据集合。
步骤314,对所述组合数据集合中包含的交易数据进行关键词提取。
步骤316,统计所述组合数据集合中所述关键词对应的出现频次。
步骤318,对所述关键词以及所述关键词对应的出现频次进行整合生成风控业务序列。
具体的,在读取用户的交易数据,并利用数据筛选方法对其进行筛选获得筛选结果后,在对筛选结果中包含的业务数据进行复杂度计算得到的计算结果满足复杂度阈值的情况下,则需将筛选结果中包含的交易数据转换为风控业务序列的形式,并通过将风控业务序列输入特征构造模型的方式获得用于对风控模型进行训练的风控业务特征。
实际应用中,将筛选结果中包含的交易数据转换为风控业务序列的转换方式包括:通过将交易数据进行组合生成多个数据集合,并通过对每个数据集合进行关键词提取,并将数据集合中的关键词以及所述关键词的出现频次进行整合生成与所述数据集合对应的风控业务序列,将所述风控业务序列输入所述特征构造模型即可获得用于对风控模型进行训练的风控业务特征。
步骤320,将所述风控业务序列输入特征构造模型,获取所述特征构造模型输出的风控业务特征,所述风控业务特征用于对所述风控业务的风控模型进行训练。
具体的,特征构造模型训练完成后,将风控业务序列输入特征构造模型即可得到风控业务特征,所述风控业务特征可用于风控模型的训练,实际应用中,风控模型包括PD(违约概率)模型、多头模型、欺诈模型以及聚集性模型。
本说明书一个实施例实现了通过在数据库中读取用户的交易数据,利用多种数据筛选方法对读取的交易数据进行筛选,保证了筛选结果中包含的交易数据的全面性和精准性,并且在降低模型进行任务学习所使用的数据量的同时,保证了模型学习结果的准确性,将筛选结果中包含的交易数据进行组合生成多个风控业务序列,并将风控业务序列输入特征构造模型进行风控业务特征构造,同样能够提高特征构造结果的准确率以及效率。
与上述方法实施例相对应,本说明书还提供了业务特征构造装置实施例,图4示出了本说明书一个实施例提供的一种业务特征构造装置的结构示意图。如图4所示,该装置包括:
读取模块402,被配置为在数据库中读取用户访问目标业务的业务执行页面生成的业务访问记录;
筛选模块404,被配置为利用多种数据筛选方法对所述业务访问记录进行数据筛选;
组合模块406,被配置为对筛选结果中包含的业务访问记录进行组合生成多个业务序列;
获取模块408,被配置为将所述业务序列输入特征构造模型,获取所述特征构造模型输出的业务特征,所述业务特征用于对所述目标业务的业务模型进行训练。
可选地,所述筛选模块404,包括:
第一筛选子模块,被配置为利用至少一种数据筛选算法对所述业务访问记录进行数据筛选处理,将筛选生成的至少一种筛选结果进行整合生成第一筛选集合;
第二筛选子模块,被配置为利用数据筛选模型对所述业务访问记录进行数据筛选处理,生成第二筛选集合;
相应的,所述业务特征构造装置,还包括:
筛选结果确定模块,被配置为将所述第一筛选集合以及所述第二筛选集合中包含的业务访问记录作为所述筛选结果。
可选地,所述筛选模块404,包括:
第三筛选子模块,被配置为按照多个数据维度对所述业务访问记录进行筛选生成与所述多个数据维度分别对应的数据集合;
确定子模块,被配置为根据所述数据维度确定分别与所述数据集合对应的数据筛选方法;
第四筛选子模块,被配置为利用所述数据筛选方法对与所述数据筛选方法对应的数据集合中包含的业务访问记录进行数据筛选;
其中,所述数据筛选方法包括至少一种数据筛选算法或数据筛选模型。
可选地,所述筛选模块404,包括:
第五筛选子模块,被配置为利用至少一种数据筛选算法对所述业务访问记录进行数据筛选,将筛选生成的至少一种筛选结果进行整合生成第三筛选集合;
第六筛选子模块,被配置为利用数据筛选模型对所述第三筛选集合中包含的业务访问记录进行数据筛选。
可选地,所述业务特征构造装置,还包括:
模型训练模块,被配置为基于所述业务访问记录与所述业务特征的关联关系构建预训练模型;将所述业务序列作为训练样本输入所述预训练模型进行模型的预训练,获得初始特征构造模型;将有标注的业务序列作为训练样本对所述初始特征构造模型进行训练,获得所述特征构造模型。
可选地,所述模型训练模块,包括:
第一编码子模块,被配置为将所述业务序列输入所述预训练模型,利用所述预训练模型的编码端对所述业务序列进行编码处理,获得第一业务特征;
第二编码子模块,被配置为对所述业务序列中包含的业务访问记录进行删减处理生成目标业务序列,并对所述目标业务序列进行编码处理生成第二业务特征;
第一参数调整子模块,被配置为根据所述第一业务特征和所述第二业务特征计算所述预训练模型的数据删减损失值,并根据所述数据删减损失值调整所述预训练模型的参数,获得所述初始特征构造模型。
可选地,所述模型训练模块,包括:
拆分子模块,被配置为对所述业务序列中包含的业务访问记录进行拆分处理生成多个子序列,并将所述子序列进行组合生成组合业务序列;
结果获取子模块,被配置为将所述组合业务序列输入所述预训练模型,获取所述组合业务序列中各个子序列的同源识别结果;
损失值确定子模块,被配置为根据预存的损失函数和所述同源识别结果确定所述预训练模型的序列组合损失值;
第二参数调整子模块,被配置为根据所述序列组合损失值调整所述预训练模型的参数,获得所述初始特征构造模型。
可选地,所述模型训练模块,包括:
处理子模块,被配置为对所述业务序列进行真值标注处理;其中,真值标注结果用于表示所述业务序列中包含的业务访问记录对应的业务指标类型;
模型训练子模块,被配置为将所述业务序列作为训练样本,以及所述真值标注结果作为样本标签对所述初始构造模型进行迭代训练,获得所述特征构造模型。
可选地,所述业务特征构造装置,还包括:
业务序列生成模块,被配置为对所述筛选结果中包含的业务访问记录进行组合生成多个组合数据集合;对所述组合数据集合中包含的业务访问记录进行关键词提取;统计所述组合数据集合中所述关键词对应的出现频次;对所述关键词以及所述关键词对应的出现频次进行整合生成所述业务序列。
本说明书一个实施例实现了通过在数据库中读取用户的业务访问记录,利用多种数据筛选方法对读取的业务访问记录进行筛选,保证了筛选结果中包含的业务访问记录的全面性和精准性,并且在降低模型进行任务学习所使用的数据量的同时,保证了模型学习结果的准确性,将筛选结果中包含的业务访问记录进行组合生成多个业务序列,并将业务序列输入特征构造模型进行业务特征构造,同样能够提高特征构造结果的准确率以及效率。
上述为本实施例的一种业务特征构造装置的示意性方案。需要说明的是,该业务特征构造装置的技术方案与上述的业务特征构造方法的技术方案属于同一构思,业务特征构造装置的技术方案未详细描述的细节内容,均可以参见上述业务特征构造方法的技术方案的描述。
图5示出了根据本说明书一个实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接,数据库550用于保存数据。
计算设备500还包括接入设备540,接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图5所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备500可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。
其中,所述存储器510用于存储计算机可执行指令,处理器520用于执行如下计算机可执行指令:
在数据库中读取用户访问目标业务的业务执行页面生成的业务访问记录;
利用多种数据筛选方法对所述业务访问记录进行数据筛选;
对筛选结果中包含的业务访问记录进行组合生成多个业务序列;
将所述业务序列输入特征构造模型,获取所述特征构造模型输出的业务特征,所述业务特征用于对所述目标业务的业务模型进行训练。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的业务特征构造方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述业务特征构造方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于实现所述业务特征构造方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的业务特征构造方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述业务特征构造方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (13)

1.一种业务特征构造方法,包括:
在数据库中读取用户访问目标业务的业务执行页面生成的业务访问记录;
利用多种数据筛选方法对所述业务访问记录进行数据筛选;
对筛选结果中包含的业务访问记录进行组合生成多个业务序列;
将所述业务序列输入特征构造模型,获取所述特征构造模型输出的业务特征,所述业务特征用于对所述目标业务的业务模型进行训练。
2.根据权利要求1所述的业务特征构造方法,所述利用多种数据筛选方法对所述业务访问记录进行数据筛选,包括:
利用至少一种数据筛选算法对所述业务访问记录进行数据筛选处理,将筛选生成的至少一种筛选结果进行整合生成第一筛选集合;
利用数据筛选模型对所述业务访问记录进行数据筛选处理,生成第二筛选集合;
相应的,所述利用多种数据筛选方法对所述业务访问记录进行数据筛选步骤执行之后,所述对筛选结果中包含的业务访问记录进行组合生成多个业务序列步骤执行之前,还包括:
将所述第一筛选集合以及所述第二筛选集合中包含的业务访问记录作为所述筛选结果。
3.根据权利要求1所述的业务特征构造方法,所述利用多种数据筛选方法对所述业务访问记录进行数据筛选,包括:
按照多个数据维度对所述业务访问记录进行筛选生成与所述多个数据维度分别对应的数据集合;
根据所述数据维度确定分别与所述数据集合对应的数据筛选方法;
利用所述数据筛选方法对与所述数据筛选方法对应的数据集合中包含的业务访问记录进行数据筛选;
其中,所述数据筛选方法包括至少一种数据筛选算法或数据筛选模型。
4.根据权利要求1所述的业务特征构造方法,所述利用多种数据筛选方法对所述业务访问记录进行数据筛选,包括:
利用至少一种数据筛选算法对所述业务访问记录进行数据筛选,将筛选生成的至少一种筛选结果进行整合生成第三筛选集合;
利用数据筛选模型对所述第三筛选集合中包含的业务访问记录进行数据筛选。
5.根据权利要求1所述的业务特征构造方法,所述特征构造模型采用如下方式进行训练:
基于所述业务访问记录与所述业务特征的关联关系构建预训练模型;
将所述业务序列作为训练样本输入所述预训练模型进行模型的预训练,获得初始特征构造模型;
将有标注的业务序列作为训练样本对所述初始特征构造模型进行训练,获得所述特征构造模型。
6.根据权利要求5所述的业务特征构造方法,所述将所述业务序列作为训练样本输入所述预训练模型进行模型的预训练,获得初始特征构造模型,包括:
将所述业务序列输入所述预训练模型,利用所述预训练模型的编码端对所述业务序列进行编码处理,获得第一业务特征;
对所述业务序列中包含的业务访问记录进行删减处理生成目标业务序列,并对所述目标业务序列进行编码处理生成第二业务特征;
根据所述第一业务特征和所述第二业务特征计算所述预训练模型的数据删减损失值,并根据所述数据删减损失值调整所述预训练模型的参数,获得所述初始特征构造模型。
7.根据权利要求5所述的业务特征构造方法,所述将所述业务序列作为训练样本输入所述预训练模型进行模型的预训练,获得初始特征构造模型,包括:
对所述业务序列中包含的业务访问记录进行拆分处理生成多个子序列,并将所述子序列进行组合生成组合业务序列;
将所述组合业务序列输入所述预训练模型,获取所述组合业务序列中各个子序列的同源识别结果;
根据预存的损失函数和所述同源识别结果确定所述预训练模型的序列组合损失值;
根据所述序列组合损失值调整所述预训练模型的参数,获得所述初始特征构造模型。
8.根据权利要求5所述的业务特征构造方法,所述将有标注的业务序列作为训练样本对所述初始特征构造模型进行训练,获得所述特征构造模型,包括:
对所述业务序列进行真值标注处理;其中,真值标注结果用于表示所述业务序列中包含的业务访问记录对应的业务指标类型;
将所述业务序列作为训练样本,以及所述真值标注结果作为样本标签对所述初始特征构造模型进行迭代训练,获得所述特征构造模型。
9.根据权利要求1所述的业务特征构造方法,所述业务序列通过以下方式生成:
对所述筛选结果中包含的业务访问记录进行组合生成多个组合数据集合;
对所述组合数据集合中包含的业务访问记录进行关键词提取;
统计所述组合数据集合中所述关键词对应的出现频次;
对所述关键词以及所述关键词对应的出现频次进行整合生成所述业务序列。
10.一种业务特征构造装置,包括:
读取模块,被配置为在数据库中读取用户访问目标业务的业务执行页面生成的业务访问记录;
筛选模块,被配置为利用多种数据筛选方法对所述业务访问记录进行数据筛选;
组合模块,被配置为对筛选结果中包含的业务访问记录进行组合生成多个业务序列;
获取模块,被配置为将所述业务序列输入特征构造模型,获取所述特征构造模型输出的业务特征,所述业务特征用于对所述目标业务的业务模型进行训练。
11.根据权利要求10所述的业务特征构造装置,所述筛选模块,包括:
第一筛选子模块,被配置为利用至少一种数据筛选算法对所述业务访问记录进行数据筛选处理,将筛选生成的至少一种筛选结果进行整合生成第一筛选集合;
第二筛选子模块,被配置为利用数据筛选模型对所述业务访问记录进行数据筛选处理,生成第二筛选集合;
相应的,所述业务特征构造装置,还包括:
筛选结果确定模块,被配置为将所述第一筛选集合以及所述第二筛选集合中包含的业务访问记录作为所述筛选结果。
12.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
在数据库中读取用户访问目标业务的业务执行页面生成的业务访问记录;
利用多种数据筛选方法对所述业务访问记录进行数据筛选;
对筛选结果中包含的业务访问记录进行组合生成多个业务序列;
将所述业务序列输入特征构造模型,获取所述特征构造模型输出的业务特征,所述业务特征用于对所述目标业务的业务模型进行训练。
13.一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求1至9任意一项所述业务特征构造方法的步骤。
CN202010079761.6A 2020-02-04 2020-02-04 业务特征构造方法以及装置 Active CN111309766B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010079761.6A CN111309766B (zh) 2020-02-04 2020-02-04 业务特征构造方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010079761.6A CN111309766B (zh) 2020-02-04 2020-02-04 业务特征构造方法以及装置

Publications (2)

Publication Number Publication Date
CN111309766A CN111309766A (zh) 2020-06-19
CN111309766B true CN111309766B (zh) 2023-09-12

Family

ID=71145692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010079761.6A Active CN111309766B (zh) 2020-02-04 2020-02-04 业务特征构造方法以及装置

Country Status (1)

Country Link
CN (1) CN111309766B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294614A (zh) * 2016-08-01 2017-01-04 华为技术有限公司 用于访问业务的方法和装置
CN106776873A (zh) * 2016-11-29 2017-05-31 珠海市魅族科技有限公司 一种推荐结果生成方法以及装置
CN107920062A (zh) * 2017-11-03 2018-04-17 北京知道创宇信息技术有限公司 一种业务逻辑攻击检测模型的构建方法和计算设备
CN108256907A (zh) * 2018-01-09 2018-07-06 北京腾云天下科技有限公司 一种客户分群模型的构建方法和计算设备
WO2019047790A1 (zh) * 2017-09-08 2019-03-14 第四范式(北京)技术有限公司 生成机器学习样本的组合特征的方法及系统
CN109858970A (zh) * 2019-02-02 2019-06-07 中国银行股份有限公司 一种用户行为预测方法、装置及存储介质
CN110727857A (zh) * 2019-09-04 2020-01-24 口碑(上海)信息技术有限公司 针对业务对象识别潜在用户的关键特征的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294614A (zh) * 2016-08-01 2017-01-04 华为技术有限公司 用于访问业务的方法和装置
CN106776873A (zh) * 2016-11-29 2017-05-31 珠海市魅族科技有限公司 一种推荐结果生成方法以及装置
WO2019047790A1 (zh) * 2017-09-08 2019-03-14 第四范式(北京)技术有限公司 生成机器学习样本的组合特征的方法及系统
CN107920062A (zh) * 2017-11-03 2018-04-17 北京知道创宇信息技术有限公司 一种业务逻辑攻击检测模型的构建方法和计算设备
CN108256907A (zh) * 2018-01-09 2018-07-06 北京腾云天下科技有限公司 一种客户分群模型的构建方法和计算设备
CN109858970A (zh) * 2019-02-02 2019-06-07 中国银行股份有限公司 一种用户行为预测方法、装置及存储介质
CN110727857A (zh) * 2019-09-04 2020-01-24 口碑(上海)信息技术有限公司 针对业务对象识别潜在用户的关键特征的方法及装置

Also Published As

Publication number Publication date
CN111309766A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN109492772B (zh) 生成信息的方法和装置
CN112883227B (zh) 一种基于多尺度时序特征的视频摘要生成方法和装置
CN110555749B (zh) 基于神经网络的信用行为预测方法以及装置
CN112995414B (zh) 基于语音通话的行为质检方法、装置、设备及存储介质
CN113538070B (zh) 用户生命价值周期检测方法、装置和计算机设备
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
Zhang et al. OMCBIR: Offline mobile content-based image retrieval with lightweight CNN optimization
CN111582341A (zh) 用户异常操作预测方法及装置
CN112330442A (zh) 基于超长行为序列的建模方法及装置、终端、存储介质
CN113850630B (zh) 满意度预测方法及装置、存储介质、电子设备
CN112464106B (zh) 对象推荐方法及装置
CN117422490A (zh) 用户流失预测方法、装置、设备、介质和程序产品
CN113034193A (zh) 一种app2vec在风控系统中建模的工作方法
CN110929285B (zh) 一种隐私数据的处理方法及装置
CN111309766B (zh) 业务特征构造方法以及装置
CN112328899B (zh) 信息处理方法、信息处理装置、存储介质与电子设备
CN114897607A (zh) 产品资源的数据处理方法及装置、电子设备、存储介质
CN110163761B (zh) 基于图像处理的可疑项目成员识别方法及装置
CN116562952A (zh) 虚假交易订单检测方法及装置
CN113627514A (zh) 知识图谱的数据处理方法、装置、电子设备和存储介质
CN113780318A (zh) 用于生成提示信息的方法、装置、服务器和介质
WO2024021630A1 (zh) 一种计算指标数据的方法和装置
CN118154270A (zh) 资源对象推荐方法、装置、计算机设备和存储介质
CN117035961A (zh) 银行产品推荐方法、装置、计算机设备和可读存储介质
CN116340638A (zh) 一种交互结果的确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant