CN108985770A - 模型训练方法、特征序列生成方法和服务器 - Google Patents

模型训练方法、特征序列生成方法和服务器 Download PDF

Info

Publication number
CN108985770A
CN108985770A CN201810579566.2A CN201810579566A CN108985770A CN 108985770 A CN108985770 A CN 108985770A CN 201810579566 A CN201810579566 A CN 201810579566A CN 108985770 A CN108985770 A CN 108985770A
Authority
CN
China
Prior art keywords
behavioral data
data
encoding
user
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810579566.2A
Other languages
English (en)
Inventor
傅欣艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810579566.2A priority Critical patent/CN108985770A/zh
Publication of CN108985770A publication Critical patent/CN108985770A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Technology Law (AREA)
  • Development Economics (AREA)
  • Computer Security & Cryptography (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例提供一种模型训练方法、特征序列生成方法和服务器。所述特征序列生成方法包括:获取用户在指定时间区间内的行为数据;确定所述行为数据对应的数据编码;以所述数据编码形成的矩阵为行为矩阵,将所述行为矩阵输入至编码模型得到特征序列;所述特征序列用于表征所述用户的行为特征。

Description

模型训练方法、特征序列生成方法和服务器
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种模型训练方法、特征序列生成方法和服务器。
背景技术
随着互联网的发展,在实际业务的运营过程中,通常需要根据用户的行为数据来对该用户的风险水平进行评估,并根据评估结果来支撑业务的运营。例如,通常需要根据用户的行为数据来对该用户的账户风险水平进行评估,以识别该用户的账户是否为垃圾账户。另举一例,通常需要根据用户的行为数据来对该用户的交易数据风险水平进行评估,以识别该用户的交易数据是否为作弊交易数据。
在相关技术中,通常可以选取统计量,并可以根据选取的统计量来对该用户的风险水平进行评估。所述统计量例如可以包括最大值和平均值等。但是,一方面,统计量通常是根据用户经验来选取的,用户经验缺乏科学性和合理性;另一方面,统计量通常无法全面反映用户的行为特征。因此,上述根据统计量来对用户的风险水平进行评估的方法,准确率较低。
发明内容
本说明书实施例的目的是提供一种模型训练方法、特征序列生成方法和服务器,以提高评估结果的准确性。
为实现上述目的,本说明书实施例提供一种模型训练方法,包括:获取至少一个用户在指定时间区间内的行为数据;确定所述行为数据对应的数据编码;以所述数据编码形成的矩阵为行为矩阵,使用所述行为矩阵训练基于编码模型和解码模型构建的数学模型,以使所述数学模型的输入和输出之间的差别满足预设条件。
为实现上述目的,本说明书实施例提供一种服务器,包括:获取单元,用于获取至少一个用户在指定时间区间内的行为数据;确定单元,用于确定所述行为数据对应的数据编码;训练单元,用于以所述数据编码形成的矩阵为行为矩阵,使用所述行为矩阵训练基于编码模型和解码模型构建的数学模型,以使所述数学模型的输入和输出之间的差别满足预设条件。
为实现上述目的,本说明书实施例提供一种服务器,包括:存储器,用于存储计算机指令;处理器,用于执行所述计算机指令实现以下步骤:获取至少一个用户在指定时间区间内的行为数据;确定所述行为数据对应的数据编码;以所述数据编码形成的矩阵为行为矩阵,使用所述行为矩阵训练基于编码模型和解码模型构建的数学模型,以使所述数学模型的输入和输出之间的差别满足预设条件。
为实现上述目的,本说明书实施例提供一种特征序列生成方法,包括:获取用户在指定时间区间内的行为数据;确定所述行为数据对应的数据编码;以所述数据编码形成的矩阵为行为矩阵,将所述行为矩阵输入至编码模型得到特征序列;所述特征序列用于表征所述用户的行为特征。
为实现上述目的,本说明书实施例提供一种服务器,包括:获取单元,用于获取用户在指定时间区间内的行为数据;确定单元,用于确定所述行为数据对应的数据编码;输入单元,用于以所述数据编码形成的矩阵为行为矩阵,将所述行为矩阵输入至编码模型得到特征序列;所述特征序列用于表征所述用户的行为特征。
为实现上述目的,本说明书实施例提供一种服务器,包括:存储器,用于存储计算机指令;处理器,用于执行所述计算机指令实现以下步骤:获取用户在指定时间区间内的行为数据;确定所述行为数据对应的数据编码;以所述数据编码形成的矩阵为行为矩阵,将所述行为矩阵输入至编码模型得到特征序列;所述特征序列用于表征所述用户的行为特征。
由以上本说明书实施例提供的技术方案可见,本说明书实施例中,服务器可以获取用户在指定时间区间内的行为数据;可以确定所述行为数据对应的数据编码;可以以所述数据编码形成的矩阵为行为矩阵,将所述行为矩阵输入至编码模型得到特征序列。所述特征序列可以用于表征用户的行为特征。所述特征序列是基于行为数据本身生成的,不依赖于用户经验,能够全面反映用户的行为特征。基于所述特征序列来对用户的风险水平进行评估,可以提高评估结果的准确性。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例一种模型训练方法的流程图;
图2为本说明书实施例一种序列到序列模型的功能结构示意图;
图3为本说明书实施例一种特征序列生成方法的流程图;
图4为本说明书实施例一种服务器的功能结构示意图;
图5为本说明书实施例一种服务器的功能结构示意图;
图6为本说明书实施例一种服务器的功能结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
请参阅图1和图2。本说明书实施例提供一种模型训练方法。所述模型训练方法以服务器为执行主体,可以包括如下步骤。
步骤S10:获取至少一个用户在指定时间区间内的行为数据。
在本实施例中,所述指定时间区间可以为开发人员在所述服务器输入的具有任意长度的时间区间。所述指定时间区间的长度例如可以为1个月、1.5个月、或3个月等。每个用户在所述指定时间区间内的行为数据的数量可以为至少一个。所述行为数据可以用于描述用户的行为。所述行为数据例如可以包括“登录”、“转账”、和“付款”等。行为数据“登录”可以用于描述用户的登录账户行为;行为数据“转账”可以用于描述用户的转账行为;行为数据“付款”可以用于描述用户的付款行为。
在本实施例的一个实施方式中,所述服务器获取的行为数据可以对应有用户标识和时间信息。所述用户标识可以标识用户,例如可以为用户的手机号、或用户的电子邮箱地址等。所述时间信息可以用于描述行为数据的产生时间。例如,所述服务器获取的行为数据可以如下表1所示。
表1
在本实施例中,所述服务器可以采用任意方式来获取行为数据,例如可以从日志数据中提取行为数据;或者,还可以接收与自身业务相对应的应用程序发来的行为数据。
步骤S12:确定所述行为数据对应的数据编码。
在本实施例中,经过步骤S10,所述服务器可以获得至少一个用户在所述指定时间区间内的至少一个行为数据。所述服务器可以确定每个行为数据对应的数据编码。所述服务器具体可以使用编码算法,计算每个行为数据对应的数据编码。所述编码算法可以将所述行为数据映射为能够被所述服务器识别的编码。所述编码算法可以包括独热编码(One-Hot Encoding)算法、或word2vec算法等。所述word2vec算法可以包括Cbow模型和/或Skip-Gram模型。所述服务器可以使用Cbow模型和/或Skip-Gram模型计算行为数据对应的数据编码。当然本领域技术人员应当能够理解,所述编码算法还可以包括其它任意能够将所述行为数据映射为编码的算法。所述数据编码的长度可以根据实际需要灵活设定,例如可以为200、或300等。所述数据编码例如可以包括词向量(word embedding)等。
以下以独热编码算法为例,详细介绍所述服务器计算每个行为数据对应的数据编码的过程。当然本领域技术人员应当能够理解,此处的过程仅为示例,在实际中独热编码算法还可以有其它的变形或变化。此外,所述服务器还可以使用其它数据编码算法,计算每个行为数据对应的数据编码。在此不再依次列举介绍。
所述服务器可以构建词典,所述词典可以包括在步骤S10获取的行为数据;可以以所述词典中行为数据的数量作为向量的长度,构建目标向量。所述词典中的每个行为数据在所述目标向量中对应有唯一位置。所述目标向量中的每个位置可以具有初始值。针对所述词典中的每个行为数据,所述服务器可以将该行为数据在所述目标向量中对应位置的值设定为目标值;可以保持其它位置的值不变;可以将设定后的所述目标向量作为该行为数据对应的数据编码。所述初始值和所述目标值均可以为任意数值。例如所述初始值可以为0;所述目标值可以为1。例如,所述词典可以包括行为数据“登录”、“转账”、和“付款”;所述目标向量可以为[0 0 0];所述行为数据“登录”对应的数据编码可以为[1 0 0];所述行为数据“转账”对应的数据编码可以为[0 1 0];所述行为数据“付款”对应的数据编码可以为[0 0 1]。
在本实施例的一个实施方式中,步骤S10获取的各个用户的行为数据数量有可能是不同的,从而经过步骤S12各个用户的数据编码数量有可能是不同的。如此开发人员可以在所述服务器输入数量。开发人员输入的数量例如可以为50、200、或350等。所述服务器可以接收开发人员输入的数量作为指定数量;可以以每个用户在指定时间区间内的行为数据形成的集合为行为数据集合;可以将所述行为数据集合中行为数据的数量与指定数量进行比对。在所述行为数据集合中行为数据的数量大于或等于所述指定数量的条件下,所述服务器可以从所述行为数据集合中选取所述指定数量个行为数据;可以确定所述指定数量个行为数据对应的数据编码。在所述行为数据集合中行为数据的数量小于所述指定数量的条件下,所述服务器可以将默认行为数据添加至所述行为数据集合,以使所述行为数据集合中行为数据的数量等于所述指定数量;可以确定所述行为数据集合中各个行为数据对应的数据编码。这样各个用户的数据编码数量能够保持一致。
所述服务器可以采用任意方式从所述行为数据集合中选取所述指定数量个行为数据。例如,如前所述,所述服务器获取的行为数据可以对应有时间信息,所述时间信息可以用于描述行为数据的产生时间。那么,所述服务器可以基于行为数据对应的时间信息,从所述行为数据集合中选取产生时间最晚的所述指定数量个行为数据。
所述默认行为数据可以根据实际需要灵活设定,例如可以为“default”等。
步骤S14:以基于所述数据编码形成的矩阵为行为矩阵,使用所述行为矩阵训练基于编码模型和解码模型构建的数学模型,以使所述数学模型的输入和输出之间的差别满足预设条件。
在本实施例中,经过步骤S12,所述服务器得到的数据编码的数量可以为至少一个。基于所述至少一个数据编码,所述服务器可以构建至少一个行为矩阵。每个行为矩阵可以包括至少一个数据编码。在每个行为矩阵中各个数据编码对应的行为数据来自同一用户。例如,所述服务器可以获取用户UserA在指定时间区间内的行为数据BehaviorA_1、BehaviorA_2、和BehaviorA_3;可以获取用户UserB在指定时间区间内的行为数据BehaviorB_1、BehaviorB_2、和BehaviorB_3;可以分别计算行为数据BehaviorA_1、BehaviorA_2、BehaviorA_3、BehaviorB_1BehaviorB_2、和BehaviorB_3对应的数据编码CodeA_1、CodeA_2、CodeA_3、CodeB_1、CodeB_2、和CodeB_3;可以基于数据编码CodeA_1、CodeA_2、和CodeA_3,构建行为矩阵MatrixA;可以基于数据编码CodeB_1、CodeB_2、和CodeB_3,构建行为矩阵MatrixB。所述行为矩阵MatrixA可以对应用户UserA。所述行为矩阵MatrixB可以对应用户UserB。
在本实施例的一个实施方式中,在每个行为矩阵中各个数据编码可以依据与其对应的行为数据的产生时间顺序进行排序。延续前例,行为数据BehaviorA_1、BehaviorA_2、和BehaviorA_3对应的时间信息可以分别为TimeA_1、TimeA_2、和TimeA_3。时间信息TimeA_1、TimeA_2、和TimeA_3描述的产生时间依次递增。那么,所述行为矩阵行为数据BehaviorB_1、BehaviorB_2、和BehaviorB_3对应的时间信息可以分别为TimeB_1、TimeB_2、和TimeB_3。时间信息TimeB_2、TimeB_1、和TimeB_3描述的产生时间依次递增。那么,所述行为矩阵这样在使用所述行为矩阵训练数学模型时,能够使所述数学模型学习到行为数据的先后顺序特征。
在本实施例中,所述编码模型(Encoder)可以用于对所述数学模型的输入进行编码得到特征序列。所述解码模型(Decoder)用于对所述特征序列进行解码得到所述数学模型的输出。所述编码模型和所述解码模型可以基于循环神经网络(Recurrent NeuralNetwork,RNN)实现,例如长短期记忆(Long Short-Term Memory,LSTM)网络。所述特征序列可以具有任意固定长度,能够用于表征用户的行为特征。
所述数学模型的输入可以为行为矩阵,输出可以为目标矩阵。所述数学模型的训练目标可以为输入和输出之间的差别满足预设条件。所述预设条件可以包括以下至少一种:所述差别的度量值达到最小;所述差别的度量值小于或等于预设阈值等。所述预设阈值可以根据实际需要灵活设定。所述度量值可以包括以下至少一种:均方误差(Mean-SquareError,MSE);均方根误差(Root Mean Square Error,RMSE);平均绝对误差(Mean AbsoluteError,MAE)等。例如,所述数学模型的输入可以为行为矩阵CodeA_1=[A11 A12 A13];CodeA_2=[A21 A22 A23];CodeA_3=[A31 A32 A33]。所述数学模型的输出可以为目标矩阵那么,行为矩阵MatrixA和目标矩阵T之间的均方误差
所述数学模型具体可以包括序列到序列(Sequence to Sequence,Seq2seq)模型。当然本领域技术人员应当能够理解,所述数学模型还可以包括其它任意包括有编码模型和解码模型的模型。图2为所述序列到序列模型的结构示意图。当然本领域技术人员应当能够理解,此处的结构示意图仅为示例,在实际中所述序列到序列模型还可以有其它的变形或变化。
所述编码模型的输入可以为行为矩阵。具体地,所述编码模型可以包括多个节点,每个节点可以根据输入计算出对应的输出,每个节点的输入可以包括行为矩阵中的一个数据编码、和与该节点相邻的前一个节点的输出。例如,所述编码模型可以包括节点he0、he1、he2、…、hen;节点he0可以为初始节点;节点he1的输入可以包括行为矩阵中的数据编码x1、和节点he0的输出(节点he0本身);节点he2的输入可以包括该行为矩阵中的数据编码x2、和节点he1的输出;依次类推,节点hen的输入可以包括该行为矩阵中的数据编码xn、和节点he(n-1)的输出。节点hen的输出可以为特征序列C。
所述解码模型可以包括多个节点,每个节点可以根据输入计算出对应的输出,每个节点的输入可以包括特征序列、和与该节点相邻的前一个节点的输出。例如,所述编码模型可以包括节点hd0、hd1、hd2、…、hen;节点hd0可以为初始节点;节点hd1的输入可以包括特征序列C、和节点hd0的输出(节点hd0本身),输出可以包括数据编码y1;节点hd2的输入可以包括特征序列C、和数据编码y1,输出可以包括数据编码y2;依次类推,节点hdn的输入可以包括特征序列C、和数据编码yn-1,输出可以包括数据编码yn。所述解码模型的输出可以包括数据编码y1、y2、…、yn。所述数据编码y1、y2、…、yn可以形成目标矩阵。
在本实施例中,所述服务器可以获取至少一个用户在指定时间区间内的行为数据;可以确定所述行为数据对应的数据编码;可以以所述数据编码形成的矩阵为行为矩阵,使用所述行为矩阵训练基于编码模型和解码模型构建的数学模型,以使所述数学模型的输入和输出之间的差别满足预设条件。训练后的数学模型可以用于生成特征序列。所述特征序列可以用于表征用户的行为特征。
请参阅图3。本说明书实施例还提供一种特征序列生成方法。所述特征序列生成方法以服务器为执行主体,可以包括如下步骤。
步骤S20:获取用户在指定时间区间内的行为数据。
步骤S22:确定所述行为数据对应的数据编码。
步骤S24:以所述数据编码形成的矩阵为行为矩阵,将所述行为矩阵输入至编码模型得到特征序列。
在本实施例中,所述服务器可以获取所述用户在指定时间区间内的行为数据;可以确定所述行为数据对应的数据编码;可以基于所述行为数据对应的数据编码,构建所述用户的行为矩阵;可以将所述行为矩阵输入至编码模型得到所述用户的特征序列。所述编码模型可以来自数学模型,所述数学模型可以基于前述实施例训练得到。
在本实施例中,所述特征序列可以用于表征所述用户的行为特征。基于所述特征序列可以对所述用户的风险水平进行评估。例如,基于所述特征序列,可以使用聚类、或分类等算法识别所述用户的账户是否为垃圾账户。
在本实施例的一个实施方式中,在所述行为矩阵中各个数据编码可以依据与其对应的行为数据的产生时间顺序进行排序。这样将所述行为矩阵输入至编码模型得到的特征序列,能够表征所述用户不同行为之间的顺序特征。
在本实施例中,所述服务器可以获取用户在指定时间区间内的行为数据;可以确定所述行为数据对应的数据编码;可以以所述数据编码形成的矩阵为行为矩阵,将所述行为矩阵输入至编码模型得到特征序列。所述特征序列可以用于表征用户的行为特征。所述特征序列是基于行为数据本身生成的,不依赖于用户经验,能够全面反映用户的行为特征。基于所述特征序列来对用户的风险水平进行评估,可以提高评估结果的准确性。
请参阅图4。本说明书实施例提供一种服务器。所述服务器可以包括如下单元。
获取单元30,用于获取至少一个用户在指定时间区间内的行为数据;
确定单元32,用于确定所述行为数据对应的数据编码;
训练单元34,用于以所述数据编码形成的矩阵为行为矩阵,使用所述行为矩阵训练基于编码模型和解码模型构建的数学模型,以使所述数学模型的输入和输出之间的差别满足预设条件。
请参阅图5。本说明书实施例提供一种服务器。所述服务器可以包括存储器和处理器。
在本实施例中,所述存储器包括但不限于动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)和静态随机存取存储器(Static Random Access Memory,SRAM)等。所述存储器可以用于存储计算机指令。
在本实施例中,所述处理器可以按任何适当的方式实现。例如,所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以用于执行所述计算机指令实现以下步骤:获取至少一个用户在指定时间区间内的行为数据;确定所述行为数据对应的数据编码;以所述数据编码形成的矩阵为行为矩阵,使用所述行为矩阵训练基于编码模型和解码模型构建的数学模型,以使所述数学模型的输入和输出之间的差别满足预设条件。
请参阅图6。本说明书实施例提供一种服务器。所述服务器可以包括如下单元。
获取单元40,用于获取用户在指定时间区间内的行为数据;
确定单元42,用于确定所述行为数据对应的数据编码;
输入单元44,用于以所述数据编码形成的矩阵为行为矩阵,将所述行为矩阵输入至编码模型得到特征序列;所述特征序列用于表征所述用户的行为特征。
请参阅图5。本说明书实施例提供一种服务器。所述服务器可以包括存储器和处理器。
在本实施例中,所述存储器包括但不限于动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)和静态随机存取存储器(Static Random Access Memory,SRAM)等。所述存储器可以用于存储计算机指令。
在本实施例中,所述处理器可以按任何适当的方式实现。例如,所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以用于执行所述计算机指令实现以下步骤:获取用户在指定时间区间内的行为数据;确定所述行为数据对应的数据编码;以所述数据编码形成的矩阵为行为矩阵,将所述行为矩阵输入至编码模型得到特征序列;所述特征序列用于表征所述用户的行为特征。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其对于服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
另外,可以理解的是,所属领域技术人员在阅读本说明书文件之后,可以无需创造性劳动想到本说明书文件中列举的部分或全部实施例之间可以组合,这些组合也在本说明书公开和保护的范围内。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片2。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims (24)

1.一种模型训练方法,包括:
获取至少一个用户在指定时间区间内的行为数据;
确定所述行为数据对应的数据编码;
以所述数据编码形成的矩阵为行为矩阵,使用所述行为矩阵训练基于编码模型和解码模型构建的数学模型,以使所述数学模型的输入和输出之间的差别满足预设条件。
2.如权利要求1所述的方法,所述行为数据的数量为至少一个;所述至少一个行为数据对应的数据编码的数量为至少一个;所述至少一个数据编码形成的行为矩阵的数量为至少一个;在每个行为矩阵中各个数据编码对应的行为数据来自同一用户。
3.如权利要求1所述的方法,在所述行为矩阵中各个数据编码依据与其对应的行为数据的产生时间顺序进行排序。
4.如权利要求1所述的方法,所述数学模型包括序列到序列模型。
5.如权利要求1所述的方法,所述编码模型用于对所述数学模型的输入进行编码得到特征序列;所述解码模型用于对所述特征序列进行解码得到所述数学模型的输出。
6.如权利要求5所述的方法,所述特征序列用于表征用户的行为特征。
7.如权利要求1所述的方法,所述预设条件包括以下至少一种:
所述差别的度量值达到最小;
所述差别的度量值小于或等于预设阈值。
8.如权利要求7所述的方法,所述度量值包括以下至少一种:
平均绝对误差;
均方根误差;
均方误差。
9.如权利要求1所述的方法,所述确定所述行为数据对应的数据编码,包括:
使用编码算法,计算所述行为数据对应的数据编码。
10.如权利要求9所述的方法,所述编码算法包括以下至少一种:
独热编码算法;
word2vec算法。
11.如权利要求1所述的方法,所述方法还包括:
以每个用户在指定时间区间内的行为数据形成的集合为行为数据集合,将所述行为数据集合中行为数据的数量与指定数量进行比对;
相应地,所述确定所述行为数据对应的数据编码,包括:
在所述行为数据集合中行为数据的数量大于或等于所述指定数量的条件下,从所述行为数据集合中选取所述指定数量个行为数据;
确定所述指定数量个行为数据对应的数据编码。
12.如权利要求1所述的方法,所述方法还包括:
以每个用户在指定时间区间内的行为数据形成的集合为行为数据集合,将所述行为数据集合中行为数据的数量与指定数量进行比对;
相应地,所述确定所述行为数据对应的数据编码,包括:
在所述行为数据集合中行为数据的数量小于所述指定数量的条件下,将默认行为数据添加至所述行为数据集合,以使所述行为数据集合中行为数据的数量等于所述指定数量;
确定所述行为数据集合中各个行为数据对应的数据编码。
13.一种服务器,包括:
获取单元,用于获取至少一个用户在指定时间区间内的行为数据;
确定单元,用于确定所述行为数据对应的数据编码;
训练单元,用于以所述数据编码形成的矩阵为行为矩阵,使用所述行为矩阵训练基于编码模型和解码模型构建的数学模型,以使所述数学模型的输入和输出之间的差别满足预设条件。
14.一种服务器,包括:
存储器,用于存储计算机指令;
处理器,用于执行所述计算机指令实现以下步骤:获取至少一个用户在指定时间区间内的行为数据;确定所述行为数据对应的数据编码;以所述数据编码形成的矩阵为行为矩阵,使用所述行为矩阵训练基于编码模型和解码模型构建的数学模型,以使所述数学模型的输入和输出之间的差别满足预设条件。
15.一种特征序列生成方法,包括:
获取用户在指定时间区间内的行为数据;
确定所述行为数据对应的数据编码;
以所述数据编码形成的矩阵为行为矩阵,将所述行为矩阵输入至编码模型得到特征序列;所述特征序列用于表征所述用户的行为特征。
16.如权利要求15所述的方法,在所述行为矩阵中各个数据编码依据与其对应的行为数据的产生时间顺序进行排序。
17.如权利要求15所述的方法,所述编码模型来自数学模型;所述数学模型基于如权利要求1至12中任一项所述方法训练得到。
18.如权利要求15所述的方法,所述数学模型包括序列到序列模型。
19.如权利要求15所述的方法,所述确定所述行为数据对应的数据编码,包括:
使用编码算法,计算所述行为数据对应的数据编码。
20.如权利要求19所述的方法,所述编码算法包括以下至少一种:
独热编码算法;
word2vec算法。
21.如权利要求15所述的方法,所述方法还包括:
以所述用户在指定时间区间内的行为数据形成的集合为行为数据集合,将所述行为数据集合中行为数据的数量与指定数量进行比对;
相应地,所述确定所述行为数据对应的数据编码,包括:
在所述行为数据集合中行为数据的数量大于或等于所述指定数量的条件下,从所述行为数据集合中选取所述指定数量个行为数据;
确定所述指定数量个行为数据对应的数据编码。
22.如权利要求15所述的方法,所述方法还包括:
以所述用户在指定时间区间内的行为数据形成的集合为行为数据集合,将所述行为数据集合中行为数据的数量与指定数量进行比对;
相应地,所述确定所述行为数据对应的数据编码,包括:
在所述行为数据集合中行为数据的数量小于所述指定数量的条件下,将默认行为数据添加至所述行为数据集合,以使所述行为数据集合中行为数据的数量等于所述指定数量;
确定所述行为数据集合中各个行为数据对应的数据编码。
23.一种服务器,包括:
获取单元,用于获取用户在指定时间区间内的行为数据;
确定单元,用于确定所述行为数据对应的数据编码;
输入单元,用于以所述数据编码形成的矩阵为行为矩阵,将所述行为矩阵输入至编码模型得到特征序列;所述特征序列用于表征所述用户的行为特征。
24.一种服务器,包括:
存储器,用于存储计算机指令;
处理器,用于执行所述计算机指令实现以下步骤:获取用户在指定时间区间内的行为数据;确定所述行为数据对应的数据编码;以所述数据编码形成的矩阵为行为矩阵,将所述行为矩阵输入至编码模型得到特征序列;所述特征序列用于表征所述用户的行为特征。
CN201810579566.2A 2018-06-07 2018-06-07 模型训练方法、特征序列生成方法和服务器 Pending CN108985770A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810579566.2A CN108985770A (zh) 2018-06-07 2018-06-07 模型训练方法、特征序列生成方法和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810579566.2A CN108985770A (zh) 2018-06-07 2018-06-07 模型训练方法、特征序列生成方法和服务器

Publications (1)

Publication Number Publication Date
CN108985770A true CN108985770A (zh) 2018-12-11

Family

ID=64540925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810579566.2A Pending CN108985770A (zh) 2018-06-07 2018-06-07 模型训练方法、特征序列生成方法和服务器

Country Status (1)

Country Link
CN (1) CN108985770A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741105A (zh) * 2018-12-29 2019-05-10 星潮闪耀移动网络科技(中国)有限公司 一种向量生成方法及装置
CN111046751A (zh) * 2019-11-22 2020-04-21 华中师范大学 公式识别方法和装置
CN113011884A (zh) * 2021-01-29 2021-06-22 腾讯科技(深圳)有限公司 账户特征的提取方法、装置、设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451854A (zh) * 2017-07-12 2017-12-08 阿里巴巴集团控股有限公司 确定用户类型的方法及装置、电子设备
CN107562787A (zh) * 2017-07-31 2018-01-09 北京三快在线科技有限公司 一种poi编码方法及装置、poi推荐方法,电子设备
CN107886243A (zh) * 2017-11-10 2018-04-06 阿里巴巴集团控股有限公司 风险识别模型构建和风险识别方法、装置及设备
CN107993085A (zh) * 2017-10-19 2018-05-04 阿里巴巴集团控股有限公司 模型训练方法、基于模型的用户行为预测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451854A (zh) * 2017-07-12 2017-12-08 阿里巴巴集团控股有限公司 确定用户类型的方法及装置、电子设备
CN107562787A (zh) * 2017-07-31 2018-01-09 北京三快在线科技有限公司 一种poi编码方法及装置、poi推荐方法,电子设备
CN107993085A (zh) * 2017-10-19 2018-05-04 阿里巴巴集团控股有限公司 模型训练方法、基于模型的用户行为预测方法及装置
CN107886243A (zh) * 2017-11-10 2018-04-06 阿里巴巴集团控股有限公司 风险识别模型构建和风险识别方法、装置及设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741105A (zh) * 2018-12-29 2019-05-10 星潮闪耀移动网络科技(中国)有限公司 一种向量生成方法及装置
CN111046751A (zh) * 2019-11-22 2020-04-21 华中师范大学 公式识别方法和装置
CN111046751B (zh) * 2019-11-22 2024-02-13 华中师范大学 公式识别方法和装置
CN113011884A (zh) * 2021-01-29 2021-06-22 腾讯科技(深圳)有限公司 账户特征的提取方法、装置、设备及可读存储介质
CN113011884B (zh) * 2021-01-29 2023-08-04 腾讯科技(深圳)有限公司 账户特征的提取方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN110738026B (zh) 用于生成描述文本的方法和设备
US10515155B2 (en) Conversational agent
US10747959B2 (en) Dialog generation method, apparatus, and electronic device
US11663479B2 (en) Apparatus and method of constructing neural network translation model
CN109815459A (zh) 生成被调整到目标受众词汇的文本内容的目标概要
CN110234018B (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
CN108985770A (zh) 模型训练方法、特征序列生成方法和服务器
CN110414567A (zh) 数据处理方法、装置和电子设备
US10984794B1 (en) Information processing system, information processing apparatus, information processing method, and recording medium
CN110209803B (zh) 故事生成方法、装置、计算机设备及存储介质
CN111105029A (zh) 神经网络的生成方法、生成装置和电子设备
CN109784365B (zh) 一种特征选择方法、终端、可读介质及计算机程序
CN112528637A (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN113223101B (zh) 基于隐私保护的图像处理方法、装置及设备
CN111767394A (zh) 一种基于人工智能专家系统的摘要提取方法及装置
US11481648B2 (en) Software categorization based on knowledge graph and machine learning techniques
EP3525107A1 (en) Conversational agent
CN116108157B (zh) 训练文本生成模型的方法、文本生成方法及装置
CN108595395B (zh) 一种昵称的生成方法、装置及设备
CN115374141B (zh) 虚拟形象的更新处理方法及装置
CN110413750A (zh) 根据用户问句召回标准问句的方法和装置
CN113077383B (zh) 一种模型训练方法及模型训练装置
CN111475618B (zh) 用于生成信息的方法和装置
CN111310460B (zh) 语句的调整方法及装置
CN109145084B (zh) 数据处理方法、数据处理装置和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200930

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200930

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: Greater Cayman, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20181211

RJ01 Rejection of invention patent application after publication