CN111062416A - 用户聚类及特征学习方法、设备、计算机可读介质 - Google Patents

用户聚类及特征学习方法、设备、计算机可读介质 Download PDF

Info

Publication number
CN111062416A
CN111062416A CN201911115032.5A CN201911115032A CN111062416A CN 111062416 A CN111062416 A CN 111062416A CN 201911115032 A CN201911115032 A CN 201911115032A CN 111062416 A CN111062416 A CN 111062416A
Authority
CN
China
Prior art keywords
sequence
transaction
clustering
transaction behavior
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911115032.5A
Other languages
English (en)
Other versions
CN111062416B (zh
Inventor
李怀松
潘健民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN201911115032.5A priority Critical patent/CN111062416B/zh
Publication of CN111062416A publication Critical patent/CN111062416A/zh
Priority to TW109115042A priority patent/TWI752485B/zh
Priority to PCT/CN2020/104002 priority patent/WO2021093368A1/zh
Application granted granted Critical
Publication of CN111062416B publication Critical patent/CN111062416B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种用户聚类及特征学习方案,结合了聚类算法和深度学习网络中的编码解码模型,可以先基于用户的交易行为数据确定用户的交易行为序列,而后基于深度学习网络的编码器,将各个用户的交易行为序列进行编码,生成深度特征;在根据所述深度特征对用户进行聚类获取聚类结果的同时,基于深度学习网络的解码器,对所述深度特征进行解码,获得还原的交易行为序列;而后根据聚类结果和解码结果确定学习目标,并根据学习目标对所述深度学习网络的编码器和解码器的参数进行迭代调整,由此在完成聚类的同时,能够优化深度学习网络,以获得更好的、用于实现聚类的深度特征。

Description

用户聚类及特征学习方法、设备、计算机可读介质
技术领域
本申请涉及信息技术领域,尤其涉及一种用户聚类及特征学习方法、 设备、计算机可读介质。
背景技术
随着互联网技术以及电子商务的发展,涌现了大量的电商平台,给消 费者带来了便利。而电商平台中接入的用户数量也越来越多,虽然其中正 常用户的数量一般占绝大多数,但其中也会隐藏一些实施非法行为的用户, 此类用户会给电商平台以及使用电商平台的消费者带来风险。
为了能够识别出此类用户,目前常用的方式是使用聚类算法对所有用 户进行划分,根据聚类结果了解风险客户的分布。而目前常用的聚类算法, 如k均值聚类算法(K_means)、基于密度的噪声应用空间聚类算法(DBscan) 等,虽然在一定数据集上有较好的表现,但是使用的聚类特征大都依赖人 工的经验形成的,在数据集发生变化后其性能会显著降低,需要再次通过 人工的方式重新确定聚类特征。
申请内容
本申请的一个目的是提供一种用户聚类及特征学习的方案,用以解决现 有方案中无法在聚类的同时快速获得用于聚类的特征的问题。
本申请实施例提供了一种用户聚类及特征学习方法,该方法包括:
获取用户的交易行为数据,并根据所述交易行为数据确定各个用户的 交易行为序列,所述交易行为序列中的序列元素用于表示所述用户在一个 时间窗口内的交易行为数据;
基于深度学习网络的编码器,将各个用户的交易行为序列进行编码, 生成深度特征;
基于深度学习网络的解码器,对所述深度特征进行解码,获得还原的 交易行为序列,并根据所述深度特征对用户进行聚类,获取聚类结果;
根据所述深度学习网络的损失函数和聚类的目标函数确定学习目标, 所述深度学习网络的损失函数根据还原的交易行为序列与原始的交易行 为序列之间的差异信息确定,所述聚类的目标函数根据所述聚类结果确定;
根据所述学习目标对所述深度学习网络的编码器和解码器的参数进 行迭代调整,以使所述学习目标符合预设条件。
本申请实施例还提供了一种用户聚类及特征学习设备,该设备包括:
数据获取模块,用于获取用户的交易行为数据,并根据所述交易行为 数据确定各个用户的交易行为序列,所述交易行为序列中的序列元素用于 表示所述用户在一个时间窗口内的交易行为数据;
深度学习模块,用于基于深度学习网络的编码器,将各个用户的交易 行为序列进行编码,生成深度特征;以及基于深度学习网络的解码器,对 所述深度特征进行解码,获得还原的交易行为序列;
聚类模块,用于根据所述深度特征对用户进行聚类,获取聚类结果;
迭代处理模块,用于根据所述深度学习网络的损失函数和聚类的目标 函数确定学习目标,所述深度学习网络的损失函数根据还原的交易行为序 列与原始的交易行为序列之间的差异信息确定,所述聚类的目标函数根据 所述聚类结果确定;以及根据所述学习目标对所述深度学习网络的编码器 和解码器的参数进行迭代调整,以使所述学习目标符合预设条件。
此外,本申请的一些实施例还提供了一种计算设备,该设备包括用于 存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中, 当该计算机程序指令被该处理器执行时,触发所述用户聚类及特征学习方 法。
本申请的另一些实施例还提供了一种计算机可读介质,其上存储有计 算机程序指令,所述计算机可读指令可被处理器执行以实现所述用户聚类 及特征学习方法。
本申请实施例提供的用户聚类及特征学习方案结合了聚类算法和深 度学习网络中的编码解码模型,可以先基于用户的交易行为数据确定用户 的交易行为序列,而后基于深度学习网络的编码器,将各个用户的交易行 为序列进行编码,生成深度特征;在根据所述深度特征对用户进行聚类获 取聚类结果的同时,基于深度学习网络的解码器,对所述深度特征进行解 码,获得还原的交易行为序列;而后根据聚类结果和解码结果确定学习目标,并根据学习目标对所述深度学习网络的编码器和解码器的参数进行迭 代调整,由此在完成聚类的同时,能够优化深度学习网络以获得更好的、 用于实现聚类的深度特征。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申 请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例提供的一种用户聚类及特征学习方法的处理流程 图;
图2为本申请的实施例中进行解码和编码过程的处理原理图;
图3为本申请实施例提供的一种用户聚类及特征学习设备的结构示意 图;
图4为本申请实施例提供的一种用于实现用户聚类及特征学习的计算 设备的结构示意图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备均包括一个或多 个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可 以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据 结构、程序的装置或其他数据。计算机的存储介质的例子包括,但不限于 相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电 可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读 光盘(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带, 磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可 以被计算设备访问的信息。
本申请实施例提供了一种用户聚类及特征学习方法,该方法结合了聚 类算法和深度学习网络中的编码解码模型,能够根据聚类结果和解码结果 确定学习目标,并根据学习目标对所述深度学习网络的编码器和解码器的 参数进行迭代调整,由此在完成聚类的同时,能够优化深度学习网络以获 得更好的、用于实现聚类的深度特征,从而解决现有方案中无法在聚类的 同时快速获得用于聚类的特征的问题。
在实际场景中,该方法的执行主体可以是用户设备、网络设备或者用 户设备与网络设备通过网络相集成所构成的设备,此外也可以是运行于上 述设备中的程序。所述用户设备包括但不限于计算机、手机、平板电脑等 各类终端设备;所述网络设备包括但不限于如网络主机、单个网络服务器、 多个网络服务器集或基于云计算的计算机集合等实现。在此,云由基于云 计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟计算机。
图1示出了本申请实施例提供的一种用户聚类及特征学习方法,该方 法包括以下处理步骤:
步骤S101,获取用户的交易行为数据,并根据所述交易行为数据确定 各个用户的交易行为序列。
其中,所述用户的交易行为数据可以是任意能够反映出用户在交易过 程中所实施的相关行为的数据。在本申请的一些实施例中,所述交易行为 数据可以是用户在多个时间窗口所对应的多项交易行为信息,例如可以是 连续几天内的交易金额、交易笔数、交易对象的数量、交易集中发生的时 间段、交易对象的主要地域等。由于相似的用户之间,交易行为也会存在 一定的相似性,例如都倾向于在每天同一时间段内进行交易,每天的交易笔数相似,每天的交易金额相似等,因此基于用户的交易行为数据作为输 入数据,实现用户的聚类处理。
所述交易行为序列是基于用户的交易行为数据进行数据处理后,按照 预设形式所呈现的数据内容。所述交易行为序列中的序列元素用于表示所 述用户在一个时间窗口内的交易行为数据,每个时间窗口内的交易行为数 据可以采用向量的形式表示。
例如,对于一个用户A而言,以一周为统计周期,其交易行为序列可 以包含7天内的交易行为数据,若每个时间窗口设定为1天,则该用户A 的交易行为序列包含7个序列元素{SA1,SA2,SA3,SA4,SA5,SA6,SA7},每个序 列元素即为1天中的交易行为数据组成的向量。若本实施例中所采用的交 易行为数据包括了时间窗口内的交易金额、交易笔数、交易对象的数量和 交易集中发生的时间段这4项交易行为信息,则每个序列元素对应的交易 行为数据的向量为[时间窗口内的交易金额,交易笔数,交易对象的数量, 交易集中发生的时间段]。此时,所述交易行为序列可以表示为如下的矩阵:
Figure BDA0002273799520000051
其中,矩阵中的每一个行表示一个序列元素对应的向量,每一个行中 的向量元素依次分别为时间窗口内的交易金额,交易笔数,交易对象的数 量,交易集中发生的时间段,例如,矩阵中的第一行[10000,20,8,17]即为 第一天的交易行为数据,交易金额为10000,交易笔数为20,交易对象的 数量为8,交易集中发生的时间段为第17个小时,即16:00:00-17:00:00。
在本申请的一些实施例中,也可以将每个序列元素(即一个时间窗口 内的交易行为数据组成的向量)进行嵌入(embedding)处理,即,将每 个序列元素视为自然语言处理中的单词,进行类似词嵌入的操作,具体的 处理方式如下:
首先,对数据集中所有用户的每个时间窗口的交易行为数据进行编码, 例如,本申请实施例中数据集中所有用户的各个时间窗口中交易行为数据 有2000种不同的情况,即序列元素对应的向量一共有2000种,此时可以 将这2000种不同的序列元素映射为2000个N维的向量。其中,N为 embedding时的嵌入维度数,可以根据实际情况设定,例如可以设定512、 256等。由此,所有的2000个序列元素可以如表1的形式所示:
序列元素序号 维度1 维度2 维度3 …… 维度N-1 维度N
0 0.33645 0.823 0.9238 …… 0.7257 0.8446
1 0.54 0.701 0.957 …… 0.4029 0.923
2 0.844 0.854 0.17 …… 0.54029 0.7317
…… …… …… …… …… …… ……
1998 0.029 0.364 0.4029 …… 0.446 0.257
1999 0.23 0.6731 0.29 …… 0.755 0.8462
表1
然后,可以根据每个用户实际包含的序列元素,将交易行为序列中的 每个序列元素采用上述N维向量进行表示。例如,对于前述的用户A,其 交易行为序列{SA1,SA2,SA3,SA4,SA5,SA6,SA7}中的序列元素的序号分别为1、 7、3、2、11、6、100。由此,进行嵌入处理后的交易行为序列可以表示 为表2的形式:
排序位置 序列元素 维度1 维度2 维度3 …… 维度N-1 维度N
1 S[1] 0.54 0.701 0.957 …… 0.4029 0.923
2 S[7] 0.113 0.657 0.732 …… 0.1001 0.255
3 S[3] 0.456 0.811 0.71 …… 0.565 0.875
4 S[2] 0.844 0.854 0.17 …… 0.54029 0.7317
5 S[11] 0.2315 0.2343 0.786 …… 0.1234 0.25
6 S[6] 0.213 0.752 0.875 …… 0.741 0.441
7 S[100] 0.23 0.6731 0.29 …… 0.755 0.8462
表2
由此,前述用户A的交易行为序列在进行embedding处理之后,可以 表示为如下的矩阵Matrix_A:
Figure BDA0002273799520000071
步骤S102,基于深度学习网络的编码器(Encoder),将各个用户的交 易行为序列进行编码,生成深度特征。
步骤S103,基于深度学习网络的解码器(Decoder),对所述深度特征 进行解码,获得还原的交易行为序列。
在本申请的实施例中,是利用基于编码解码模型(Encoder-Decoder) 的深度学习网络来实现深度特征的学习。编码解码模型的原理在于:可以 通过迭代的方式调整编码器和解码器的参数,在解码还原的输入内容与原 始的输入内容之间的差异小到足够的程度时,可以认为编码获得的深度特 征具有足够的区分样本的能力,此时通过这些深度特征进行聚类,可以获 得较好的聚类效果。
为了能够更好地获取各个交易行为序列内部各个向量之间的关系,从 而提取聚类性能更好的深度特征,在编码和解码过程中,可以采用多头注 意力机制(Multi-headattention)。
在采用多头注意力机制时,由于相同序列元素在处于交易行为序列的 不同排序位置时,会体现出不同的信息,因此可以对输入的数据进行位置 编码(Positionalencoding),使得采用多头注意力机制的编码器能够获得 更好的深度特征。由此,本申请一些实施例中,在基于深度学习网络的编 码器,将每个用户的交易行为序列进行编码,生成深度特征时,可以先对 用户的交易行为序列进行位置编码,确定序列元素在交易行为序列中的相 对位置信息,而后再将携带有相对位置信息的交易行为序列,输入采用多 头注意力机制的深度学习网络的编码器,获得深度特征。
进行位置编码时,其目的在交易行为序列中插入位置编码信息,使得 序列元素在交易行为序列中的相对位置信息能够被确定。在本申请的一些 实施例中,可以根据序列元素在交易行为序列中的排序位置和元素序列的 维度,确定序列元素在交易行为序列中的相对位置信息。以前述embedding 处理后的用户A交易行为序列为例,所述排序位置对应于时间窗口顺序, 例如第2天的交易行为数据对应的序列元素S[7],其排序位置为即为2, 可以记为pos=2,元素序列的维度,即为embedding处理时所映射的向量 的维度N,若本实施例中为512,则可以记为d_model=512,由此,位置 编码信息可以表示为函数f(pos,i),其中,i∈[1,2,3,4,...,d_model]。
由此,用户A的交易行为序列的位置编码信息可以如下表3所示:
排序位置 维度1 维度2 维度3 …… 维度N-1 维度N
1 f(1,1) f(1,2) f(1,3) …… f(1,N-1) f(1,N)
2 f(2,1) f(2,2) f(2,3) …… f(2,N-1) f(2,N)
3 f(3,1) f(3,2) f(3,3) …… f(3,N-1) f(3,N)
4 f(4,1) f(4,2) f(4,3) …… f(4,N-1) f(4,N)
5 f(5,1) f(5,2) f(5,3) …… f(5,N-1) f(5,N)
6 f(6,1) f(6,2) f(6,3) …… f(6,N-1) f(6,N)
7 f(7,1) f(7,2) f(7,3) …… f(7,N-1) f(7,N)
表3
在实际场景中,确定位置编码信息时可以采用的三角函数,例如当i 偶数时采用sin()函数,当i为奇数时采用cos()函数,此时位置信息可以由 以下方式确定:
Figure BDA0002273799520000081
i为偶数
Figure BDA0002273799520000082
i为奇数
在获取到位置编码信息的具体数值之后,可以获得关于位置编码信息 的矩阵Matrix_P,该矩阵Matrix_P的维度与用户交易行为序列矩阵 Matrix_A的维度相同,将两个矩阵相加之后即可获得包含位置编码信息的 新矩阵Matrix_N=Matrix_A+Matrix_P。该新矩阵Matrix_N中携带有序列 元素在交易行为序列中的相对位置信息,可以输入采用多头注意力机制的 深度学习网络的编码器,获得深度特征。
本申请实施例中,在基于深度学习网络的解码器,对所述深度特征进 行解码,获得还原的交易行为序列时,也可以采用多头注意力机制。在解 码过程中,首先将深度特征输入采用多头注意力机制的深度学习网络的解 码器,获得还原的交易行为序列中的首个序列元素,而后进行迭代处理, 将深度特征输入和前一次解码获得的序列元素,输入采用多头注意力机制 的深度学习网络的解码器,还原的交易行为序列中的后续序列元素,直至解码获得完整的交易行为序列。
例如,本申请实施例中,用户A的交易行为序列在进行编码之后所获 得深度特征表示为C,将该深度特征信息输入采用多头注意力机制的深度 学习网络的解码器进行解码时,首先获得还原的交易行为序列中的首个序 列元素,即SA1',而后进行迭代处理,将C和SA1'作为解码器的输入,获 得第二个序列元素SA2',直至获得所有交易行为序列中的所有序列元素。 在本实施例中,后续序列元素可以表示为:Sj'=f1(C,Sj-1'),其中,Sj'表示 还原的第j个序列元素,即将前一次的输入右移一位之后作为本次的输入, f1()表示解码处理,
图2示出了本申请的实施例中进行解码和编码过程的处理原理。编码 器的输入210为原始的交易行为序列,在输入编码器之前,需要进行位置 编码220。
编码器230包括了多头注意力机制(Multi-head attention)层231,残 差连接标准化(Add&norm)层232,前向反馈(Feed Forward)层233。 首先,由Multi-head attention层231对三个输入Query、Key、Value做h 次不同的投影,在编码器中Query=Key=Value,每次投影可以采用不同的 线性变换,而后根据Query和Key计算权重系数,而后根据权重系数对 Value进行加权求和,由此获得h个自注意力的结果,将这些结果拼接在 一起,经过一个线性映射即可输出多头注意力机制的处理结果。Feed Forward层233对输入进行线性变换,其输入和输出的矩阵的维度是相同 的,用于进一步优化学习深度特征。Add&norm层232用于解决深度学习 中的退化问题,避免梯度消失,实际场景中可以对前一层的输出进行随机失活(dropout)处理之后,与前一层的原始输入进行叠加,而后对结果作 标准化处理。Multi-head attention层231和Add&norm层232的输出均经 过Add&norm层232的处理。
解码器240也包括了多头注意力机制(Multi-head attention)层241, 残差连接标准化(Add&norm)层242,前向反馈(Feed Forward)层243。 与编码器230中的区别在于,所述解码器240中Multi-head attention层241 的输入与编码器230中不同,其中两个输入Key、Value即为编码器的输 出结果,即深度特征,而另一输入250Query为还原的交易行为序列右移 一位之后的序列元素,即解码器前一次的输出,并且也会进行位置编码。 编码器中的Add&norm层242和Feed Forward层243与解码器中类似,此 处不再赘述。此外,编码器还包括一线性(linear)层244,可以采用一全 连接层,用于将输入进行映射,使其恢复到原始的交易行为序列的维度和 大小,由此完成解码。
步骤S104,根据所述深度特征对用户进行聚类,获取聚类结果。其中, 所述聚类算法可以选择基于层次密度的噪声应用空间聚类算法 (HDBSCAN)、k均值聚类算法(K_means)、基于密度的噪声应用空间 聚类算法(DBscan)、谱聚类(Spectral Clustering)算法等。由于HDBSCAN 算法能将相似性很强的目标聚集在一起,且有层次结果,因此本申请的一 些实施例中,可以采用基于层次密度的噪声应用空间聚类算法,根据所述 深度特征对用户进行聚类,获取聚类结果。
在此,本领域技术人员应当理解,上述聚类的具体算法仅为举例,现 有或今后出现的基于类似原理的其它形式如果能够适用于本申请,也应该 包含在本申请的保护范围内,并以引用的形式包含于此。
步骤S105,根据所述深度学习网络的损失函数和聚类的目标函数确定 学习目标。所述深度学习网络的损失函数Loss(Decoder)可以根据还原的交 易行为序列与原始的交易行为序列之间的差异信息确定,例如,本申请实 施例中,可以是还原的交易行为序列与原始的交易行为序列的平方差,具 体可以采用如下的计算公式:
Figure BDA0002273799520000101
其中,所述xi表示原始的交易行为序列中的第i个特征,xpi表示还原 的交易行为序列中的第i个特征,M表示交易行为序列中的特征总数。
而所述聚类的目标函数Object(聚类)根据所述聚类结果确定,例如, 本申请实施例中,可以是聚类结果中各个类别对应的深度特征的标准差之 和,其公开表示如下:
Figure BDA0002273799520000111
Figure BDA0002273799520000112
其中,λ为调整值,可以由用户根据实际场景预设设定,m为聚类处 理后获得的类数量,std(Cj)为第j个类中深度特征的标准差,k为每个类 中的序列的特征维度,fi表示每个类中的第i维深度特征,std(fi)表示某 个类中第i维深度特征的标准差。
在本申请的一些实施例中,学习目标Object(total)可以是前述损失函 数与目标函数之和,即Object(total)=Loss(Decoder)+Object(聚类)。
步骤S106,根据所述学习目标对所述深度学习网络的编码器和解码器 的参数进行迭代调整,以使所述学习目标符合预设条件。其中,所述预设 条件可以是学习目标小于预设值,也可以是学习目标达到最小值,例如 min:loss(Decoder)+Object(聚类)。
在本申请的一些实施例中,可以将学习目标符合预设条件时所获得的 聚类结果以及深度特征,作为最终的输出内容,由此在完成聚类的同时, 自动学习获得到合适的特征,而依赖人工的方式根据经验来得到。
基于同一发明构思,本申请实施例中还提供了一种用户聚类及特征学 习设备,所述设备对应的方法是前述实施例中用户聚类及特征学习方法, 并且其解决问题的原理与该方法相似。
本申请实施例提供了一种用户聚类及特征学习设备,该设备结合了聚 类算法和深度学习网络中的编码解码模型,能够根据聚类结果和解码结果 确定学习目标,并根据学习目标对所述深度学习网络的编码器和解码器的 参数进行迭代调整,由此在完成聚类的同时,能够优化深度学习网络以获 得更好的、用于实现聚类的深度特征,从而解决现有方案中无法在聚类的 同时快速获得用于聚类的特征的问题。
在实际场景中,该设备的具体实现可以是用户设备、网络设备或者用 户设备与网络设备通过网络相集成所构成的设备,此外也可以是运行于上 述设备中的程序。所述用户设备包括但不限于计算机、手机、平板电脑等 各类终端设备;所述网络设备包括但不限于如网络主机、单个网络服务器、 多个网络服务器集或基于云计算的计算机集合等实现。在此,云由基于云 计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟计算机。
图3示出了本申请实施例提供的一种用户聚类及特征学习设备,该设 备包括数据获取模块310、深度学习模块320、聚类模块330和迭代处理 模块340。其中,所述数据获取模块310用于获取用户的交易行为数据, 并根据所述交易行为数据确定各个用户的交易行为序列。深度学习模块 320用于基于深度学习网络的编码器,将各个用户的交易行为序列进行编 码,生成深度特征;以及基于深度学习网络的解码器,对所述深度特征进 行解码,获得还原的交易行为序列。聚类模块330用于根据所述深度特征 对用户进行聚类,获取聚类结果。迭代处理模块340用于根据所述深度学 习网络的损失函数和聚类的目标函数确定学习目标,以及根据所述学习目 标对所述深度学习网络的编码器和解码器的参数进行迭代调整,以使所述 学习目标符合预设条件。
其中,所述用户的交易行为数据可以是任意能够反映出用户在交易过 程中所实施的相关行为的数据。在本申请的一些实施例中,所述交易行为 数据可以是用户在多个时间窗口所对应的多项交易行为信息,例如可以是 连续几天内的交易金额、交易笔数、交易对象的数量、交易集中发生的时 间段、交易对象的主要地域等。由于相似的用户之间,交易行为也会存在 一定的相似性,例如都倾向于在每天同一时间段内进行交易,每天的交易笔数相似,每天的交易金额相似等,因此基于用户的交易行为数据作为输 入数据,实现用户的聚类处理。
所述交易行为序列是基于用户的交易行为数据进行数据处理后,按照 预设形式所呈现的数据内容。所述交易行为序列中的序列元素用于表示所 述用户在一个时间窗口内的交易行为数据,每个时间窗口内的交易行为数 据可以采用向量的形式表示。
例如,对于一个用户A而言,以一周为统计周期,其交易行为序列可 以包含7天内的交易行为数据,若每个时间窗口设定为1天,则该用户A 的交易行为序列包含7个序列元素{SA1,SA2,SA3,SA4,SA5,SA6,SA7},每个序 列元素即为1天中的交易行为数据组成的向量。若本实施例中所采用的交 易行为数据包括了时间窗口内的交易金额、交易笔数、交易对象的数量和 交易集中发生的时间段这4项交易行为信息,则每个序列元素对应的交易 行为数据的向量为[时间窗口内的交易金额,交易笔数,交易对象的数量, 交易集中发生的时间段]。此时,所述交易行为序列可以表示为如下的矩阵:
Figure BDA0002273799520000131
其中,矩阵中的每一个行表示一个序列元素对应的向量,每一个行中 的向量元素依次分别为时间窗口内的交易金额,交易笔数,交易对象的数 量,交易集中发生的时间段,例如,矩阵中的第一行[10000,20,8,17]即为 第一天的交易行为数据,交易金额为10000,交易笔数为20,交易对象的 数量为8,交易集中发生的时间段为第17个小时,即16:00:00-17:00:00。
在本申请的一些实施例中,也可以将每个序列元素(即一个时间窗口 内的交易行为数据组成的向量)进行嵌入(embedding)处理,即,将每 个序列元素视为自然语言处理中的单词,进行类似词嵌入的操作,具体的 处理方式如下:
首先,对数据集中所有用户的每个时间窗口的交易行为数据进行编码, 例如,本申请实施例中数据集中所有用户的各个时间窗口中交易行为数据 有2000种不同的情况,即序列元素对应的向量一共有2000种,此时可以 将这2000种不同的序列元素映射为2000个N维的向量。其中,N为embedding时的嵌入维度数,可以根据实际情况设定,例如可以设定512、 256等。由此,所有的2000个序列元素可以如表1的形式所示。
然后,可以根据每个用户实际包含的序列元素,将交易行为序列中的 每个序列元素采用上述N维向量进行表示。例如,对于前述的用户A,其 交易行为序列{SA1,SA2,SA3,SA4,SA5,SA6,SA7}中的序列元素的序号分别为1、 7、3、2、11、6、100。由此,进行嵌入处理后的交易行为序列可以表示 为表2的形式。
由此,前述用户A的交易行为序列在进行embedding处理之后,可以 表示为如下的矩阵Matrix_A:
Figure BDA0002273799520000141
在本申请的实施例中,深度学习模块320是利用基于编码解码模型 (Encoder-Decoder)的深度学习网络来实现深度特征的学习。编码解码模 型的原理在于:可以通过迭代的方式调整编码器和解码器的参数,在解码 还原的输入内容与原始的输入内容之间的差异小到足够的程度时,可以认 为编码获得的深度特征具有足够的区分样本的能力,此时通过这些深度特 征进行聚类,可以获得较好的聚类效果。
为了能够更好地获取各个交易行为序列内部各个向量之间的关系,从 而提取聚类性能更好的深度特征,在编码和解码过程中,深度学习模块可 以采用多头注意力机制(Multi-head attention)。
在采用多头注意力机制时,由于相同序列元素在处于交易行为序列的 不同排序位置时,会体现出不同的信息,因此可以对输入的数据进行位置 编码(Positionalencoding),使得采用多头注意力机制的编码器能够获得 更好的深度特征。由此,本申请一些实施例中,在基于深度学习网络的编 码器,将每个用户的交易行为序列进行编码,生成深度特征时,深度学习 模块可以先对用户的交易行为序列进行位置编码,确定序列元素在交易行 为序列中的相对位置信息,而后再将携带有相对位置信息的交易行为序列, 输入采用多头注意力机制的深度学习网络的编码器,获得深度特征。
进行位置编码时,其目的在交易行为序列中插入位置编码信息,使得 序列元素在交易行为序列中的相对位置信息能够被确定。在本申请的一些 实施例中,可以根据序列元素在交易行为序列中的排序位置和元素序列的 维度,确定序列元素在交易行为序列中的相对位置信息。以前述embedding 处理后的用户A交易行为序列为例,所述排序位置对应于时间窗口顺序, 例如第2天的交易行为数据对应的序列元素S[7],其排序位置为即为2, 可以记为pos=2,元素序列的维度,即为embedding处理时所映射的向量 的维度N,若本实施例中为512,则可以记为d_model=512,由此,位置 编码信息可以表示为函数f(pos,i),其中,i∈[1,2,3,4,...,d_model]。
由此,用户A的交易行为序列的位置编码信息可以如下表3所示。
在实际场景中,确定位置编码信息时可以采用的三角函数,例如当i 偶数时采用sin()函数,当i为奇数时采用cos()函数,此时位置信息可以由 以下方式确定:
Figure BDA0002273799520000151
i为偶数
Figure BDA0002273799520000152
i为奇数
在获取到位置编码信息的具体数值之后,可以获得关于位置编码信息 的矩阵Matrix_P,该矩阵Matrix_P的维度与用户交易行为序列矩阵 Matrix_A的维度相同,将两个矩阵相加之后即可获得包含位置编码信息的 新矩阵Matrix_N=Matrix_A+Matrix_P。该新矩阵Matrix_N中携带有序列 元素在交易行为序列中的相对位置信息,可以输入采用多头注意力机制的 深度学习网络的编码器,获得深度特征。
本申请实施例中,在基于深度学习网络的解码器,对所述深度特征进 行解码,获得还原的交易行为序列时,深度学习模块也可以采用多头注意 力机制。在解码过程中,首先将深度特征输入采用多头注意力机制的深度 学习网络的解码器,获得还原的交易行为序列中的首个序列元素,而后进 行迭代处理,将深度特征输入和前一次解码获得的序列元素,输入采用多 头注意力机制的深度学习网络的解码器,还原的交易行为序列中的后续序列元素,直至解码获得完整的交易行为序列。
例如,本申请实施例中,用户A的交易行为序列在进行编码之后所获 得深度特征表示为C,将该深度特征信息输入采用多头注意力机制的深度 学习网络的解码器进行解码时,首先获得还原的交易行为序列中的首个序 列元素,即SA1',而后进行迭代处理,将C和SA1'作为解码器的输入,获 得第二个序列元素SA2',直至获得所有交易行为序列中的所有序列元素。 在本实施例中,后续序列元素可以表示为:Sj'=f1(C,Sj-1'),其中,Sj'表示 还原的第j个序列元素,即将前一次的输入右移一位之后作为本次的输入, f1()表示解码处理,
图2示出了本申请的实施例中进行解码和编码过程的处理原理。编码 器的输入210为原始的交易行为序列,在输入编码器之前,需要进行位置 编码220。
编码器230包括了多头注意力机制(Multi-head attention)层231,残 差连接标准化(Add&norm)层232,前向反馈(Feed Forward)层233。 首先,由Multi-head attention层231对三个输入Query、Key、Value做h 次不同的投影,在编码器中Query=Key=Value,每次投影可以采用不同的 线性变换,而后根据Query和Key计算权重系数,而后根据权重系数对 Value进行加权求和,由此获得h个自注意力的结果,将这些结果拼接在 一起,经过一个线性映射即可输出多头注意力机制的处理结果。Feed Forward层233对输入进行线性变换,其输入和输出的矩阵的维度是相同 的,用于进一步优化学习深度特征。Add&norm层232用于解决深度学习 中的退化问题,避免梯度消失,实际场景中可以对前一层的输出进行随机失活(dropout)处理之后,与前一层的原始输入进行叠加,而后对结果作 标准化处理。Multi-head attention层231和Add&norm层232的输出均经 过Add&norm层232的处理。
解码器240也包括了多头注意力机制(Multi-head attention)层241, 残差连接标准化(Add&norm)层242,前向反馈(Feed Forward)层243。 与编码器230中的区别在于,所述解码器240中Multi-head attention层241 的输入与编码器230中不同,其中两个输入Key、Value即为编码器的输 出结果,即深度特征,而另一输入250Query为还原的交易行为序列右移 一位之后的序列元素,即解码器前一次的输出,并且也会进行位置编码。 编码器中的Add&norm层242和Feed Forward层243与解码器中类似,此 处不再赘述。此外,编码器还包括一线性(linear)层244,可以采用一全 连接层,用于将输入进行映射,使其恢复到原始的交易行为序列的维度和 大小,由此完成解码。
聚类模块330所采用的聚类算法可以选择基于层次密度的噪声应用空 间聚类算法(HDBSCAN)、k均值聚类算法(K_means)、基于密度的噪 声应用空间聚类算法(DBscan)、谱聚类(Spectral Clustering)算法等。由 于HDBSCAN算法能将相似性很强的目标聚集在一起,且有层次结果,因 此本申请的一些实施例中,可以采用基于层次密度的噪声应用空间聚类算 法,根据所述深度特征对用户进行聚类,获取聚类结果。
在此,本领域技术人员应当理解,上述聚类的具体算法仅为举例,现 有或今后出现的基于类似原理的其它形式如果能够适用于本申请,也应该 包含在本申请的保护范围内,并以引用的形式包含于此。
所述深度学习网络的损失函数Loss(Decoder)可以根据还原的交易行 为序列与原始的交易行为序列之间的差异信息确定,例如,本申请实施例 中,可以是还原的交易行为序列与原始的交易行为序列的平方差,具体可 以采用如下的计算公式:
Figure BDA0002273799520000171
其中,所述xi表示原始的交易行为序列中的第i个特征,xpi表示还原 的交易行为序列中的第i个特征,M表示交易行为序列中的特征总数。
而所述聚类的目标函数Object(聚类)根据所述聚类结果确定,例如, 本申请实施例中,可以是聚类结果中各个类别对应的深度特征的标准差之 和,其公开表示如下:
Figure BDA0002273799520000181
Figure BDA0002273799520000182
其中,λ为调整值,可以由用户根据实际场景预设设定,m为聚类处 理后获得的类数量,std(Cj)为第j个类中深度特征的标准差,k为每个类 中的序列的特征维度,fi表示每个类中的第i维深度特征,std(fi)表示某 个类中第i维深度特征的标准差。
在本申请的一些实施例中,学习目标Object(total)可以是前述损失函 数与目标函数之和,即Object(total)=Loss(Decoder)+Object(聚类)。
迭代处理模块640所采用的预设条件可以是学习目标小于预设值,如 Object(total)<L,也可以是学习目标达到最小值,如min:loss(Decoder)+ Object(聚类)。
在本申请的一些实施例中,所述用户聚类及特征学习设备可以将学习 目标符合预设条件时所获得的聚类结果以及深度特征,作为最终的输出内 容,由此在完成聚类的同时,自动学习获得到合适的特征,而依赖人工的 方式根据经验来得到。
综上所述,本申请实施例提供的用户聚类及特征学习方案,结合了聚 类算法和深度学习网络中的编码解码模型,可以先基于用户的交易行为数 据确定用户的交易行为序列,而后基于深度学习网络的编码器,将各个用 户的交易行为序列进行编码,生成深度特征;在根据所述深度特征对用户 进行聚类获取聚类结果的同时,基于深度学习网络的解码器,对所述深度 特征进行解码,获得还原的交易行为序列;而后根据聚类结果和解码结果确定学习目标,并根据学习目标对所述深度学习网络的编码器和解码器的 参数进行迭代调整,由此在完成聚类的同时,能够优化深度学习网络,以 获得更好的、用于实现聚类的深度特征。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序 指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据 本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存 储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中 的数据流而被传输,和/或被存储在根据程序指令运行的计算机设备的工作 存储器中。在此,根据本申请的一些实施例包括一个如图4所示的计算设 备,该设备包括存储有计算机可读指令的一个或多个存储器410和用于执 行计算机可读指令的处理器420,其中,当该计算机可读指令被该处理器 执行时,使得所述设备执行基于前述本申请的多个实施例的方法和/或技术 方案。
此外,本申请的一些实施例还提供了一种计算机可读介质,其上存储 有计算机程序指令,所述计算机可读指令可被处理器执行以实现前述本申 请的多个实施例的方法和/或技术方案。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施, 例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬 件设备来实现。在一些实施例中,本申请的软件程序可以通过处理器执行 以实现上文步骤或功能。同样地,本申请的软件程序(包括相关的数据结 构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光 驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件 来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细 节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体 形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性 的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限 定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括 在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要 求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装 置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件 或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定 的顺序。

Claims (18)

1.一种用户聚类及特征学习方法,其中,该方法包括:
获取用户的交易行为数据,并根据所述交易行为数据确定各个用户的交易行为序列,所述交易行为序列中的序列元素用于表示所述用户在一个时间窗口内的交易行为数据;
基于深度学习网络的编码器,将各个用户的交易行为序列进行编码,生成深度特征;
基于深度学习网络的解码器,对所述深度特征进行解码,获得还原的交易行为序列,并根据所述深度特征对用户进行聚类,获取聚类结果;
根据所述深度学习网络的损失函数和聚类的目标函数确定学习目标,所述深度学习网络的损失函数根据还原的交易行为序列与原始的交易行为序列之间的差异信息确定,所述聚类的目标函数根据所述聚类结果确定;
根据所述学习目标对所述深度学习网络的编码器和解码器的参数进行迭代调整,以使所述学习目标符合预设条件。
2.根据权利要求1所述的方法,其中,基于深度学习网络的编码器,将每个用户的交易行为序列进行编码,生成深度特征,包括:
对用户的交易行为序列进行位置编码,确定序列元素在交易行为序列中的相对位置信息;
将携带有相对位置信息的交易行为序列,输入采用多头注意力机制的深度学习网络的编码器,获得深度特征。
3.根据权利要求2所述的方法,其中,基于深度学习网络的解码器,对所述深度特征进行解码,获得还原的交易行为序列,包括:
将深度特征输入采用多头注意力机制的深度学习网络的解码器,获得还原的交易行为序列中的首个序列元素;
将深度特征输入和前一次解码获得的序列元素,输入采用多头注意力机制的深度学习网络的解码器,还原的交易行为序列中的后续序列元素。
4.根据权利要求2所述的方法,其中,对用户的交易行为序列进行位置编码,确定序列元素在交易行为序列中的相对位置信息,包括:
根据序列元素在交易行为序列中的排序位置和元素序列的维度,确定序列元素在交易行为序列中的相对位置信息。
5.根据权利要求1所述的方法,其中,所述交易行为数据包括在多个时间窗口所对应的多项交易行为信息。
6.根据权利要求1所述的方法,其中,所述深度学习网络的损失函数为还原的交易行为序列与原始的交易行为序列的平方差。
7.根据权利要求1所述的方法,其中,所述聚类的目标函数为聚类结果中各个类别对应的深度特征的标准差之和。
8.根据权利要求1所述的方法,其中,根据所述深度特征对用户进行聚类,获取聚类结果,包括:
采用基于层次密度的噪声应用空间聚类算法,根据所述深度特征对用户进行聚类,获取聚类结果。
9.一种用户聚类及特征学习设备,其中,该设备包括:
数据获取模块,用于获取用户的交易行为数据,并根据所述交易行为数据确定各个用户的交易行为序列,所述交易行为序列中的序列元素用于表示所述用户在一个时间窗口内的交易行为数据;
深度学习模块,用于基于深度学习网络的编码器,将各个用户的交易行为序列进行编码,生成深度特征;以及基于深度学习网络的解码器,对所述深度特征进行解码,获得还原的交易行为序列;
聚类模块,用于根据所述深度特征对用户进行聚类,获取聚类结果;
迭代处理模块,用于根据所述深度学习网络的损失函数和聚类的目标函数确定学习目标,所述深度学习网络的损失函数根据还原的交易行为序列与原始的交易行为序列之间的差异信息确定,所述聚类的目标函数根据所述聚类结果确定;以及根据所述学习目标对所述深度学习网络的编码器和解码器的参数进行迭代调整,以使所述学习目标符合预设条件。
10.根据权利要求9所述的设备,其中,所述深度学习模块,用于对用户的交易行为序列进行位置编码,确定序列元素在交易行为序列中的相对位置信息;将携带有相对位置信息的交易行为序列,输入采用多头注意力机制的深度学习网络的编码器,获得深度特征。
11.根据权利要求10所述的设备,其中,所述深度学习模块,用于将深度特征输入采用多头注意力机制的深度学习网络的解码器,获得还原的交易行为序列中的首个序列元素;将深度特征输入和前一次解码获得的序列元素,输入采用多头注意力机制的深度学习网络的解码器,还原的交易行为序列中的后续序列元素。
12.根据权利要求10所述的设备,其中,所述深度学习模块,用于根据序列元素在交易行为序列中的排序位置和元素序列的维度,确定序列元素在交易行为序列中的相对位置信息。
13.根据权利要求9所述的设备,其中,所述交易行为数据包括在多个时间窗口所对应的多项交易行为信息。
14.根据权利要求9所述的设备,其中,所述深度学习网络的损失函数为还原的交易行为序列与原始的交易行为序列的平方差。
15.根据权利要求9所述的设备,其中,所述聚类的目标函数为聚类结果中各个类别对应的深度特征的标准差之和。
16.根据权利要求1所述的设备,其中,所述聚类模块,用于采用基于层次密度的噪声应用空间聚类算法,根据所述深度特征对用户进行聚类,获取聚类结果。
17.一种计算设备,其中,该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行权利要求1至8中任一项所述的方法。
18.一种计算机可读介质,其上存储有计算机程序指令,所述计算机可读指令可被处理器执行以实现如权利要求1至8中任一项所述的方法。
CN201911115032.5A 2019-11-14 2019-11-14 用户聚类及特征学习方法、设备、计算机可读介质 Active CN111062416B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911115032.5A CN111062416B (zh) 2019-11-14 2019-11-14 用户聚类及特征学习方法、设备、计算机可读介质
TW109115042A TWI752485B (zh) 2019-11-14 2020-05-06 用戶聚類及特徵學習方法、設備、電腦可讀媒體
PCT/CN2020/104002 WO2021093368A1 (zh) 2019-11-14 2020-07-24 用户聚类及特征学习方法、设备、计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911115032.5A CN111062416B (zh) 2019-11-14 2019-11-14 用户聚类及特征学习方法、设备、计算机可读介质

Publications (2)

Publication Number Publication Date
CN111062416A true CN111062416A (zh) 2020-04-24
CN111062416B CN111062416B (zh) 2021-09-21

Family

ID=70298556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911115032.5A Active CN111062416B (zh) 2019-11-14 2019-11-14 用户聚类及特征学习方法、设备、计算机可读介质

Country Status (3)

Country Link
CN (1) CN111062416B (zh)
TW (1) TWI752485B (zh)
WO (1) WO2021093368A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340506A (zh) * 2020-05-22 2020-06-26 支付宝(杭州)信息技术有限公司 交易行为的风险识别方法、装置、存储介质和计算机设备
CN112000863A (zh) * 2020-08-14 2020-11-27 北京百度网讯科技有限公司 用户行为数据的分析方法、装置、设备和介质
WO2021093368A1 (zh) * 2019-11-14 2021-05-20 支付宝(杭州)信息技术有限公司 用户聚类及特征学习方法、设备、计算机可读介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114973407B (zh) * 2022-05-10 2024-04-02 华南理工大学 一种基于rgb-d的视频三维人体姿态估计方法
CN116129330B (zh) * 2023-03-14 2023-11-28 阿里巴巴(中国)有限公司 基于视频的图像处理、行为识别、分割、检测方法及设备
CN116068910B (zh) * 2023-04-06 2023-06-27 江西财经大学 一种基于大数据的智能家居控制方法及系统
CN116932766B (zh) * 2023-09-15 2023-12-29 腾讯科技(深圳)有限公司 对象分类方法、装置、设备、存储介质及程序产品

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203624A (zh) * 2016-06-23 2016-12-07 上海交通大学 基于深度神经网络的矢量量化系统及方法
WO2018170421A1 (en) * 2017-03-17 2018-09-20 Magic Leap, Inc. Room layout estimation methods and techniques
CN108647730A (zh) * 2018-05-14 2018-10-12 中国科学院计算技术研究所 一种基于历史行为共现的数据划分方法及系统
CN108734338A (zh) * 2018-04-24 2018-11-02 阿里巴巴集团控股有限公司 基于lstm模型的信用风险预测方法及装置
CN109165950A (zh) * 2018-08-10 2019-01-08 哈尔滨工业大学(威海) 一种基于金融时间序列特征的异常交易识别方法,设备及可读存储介质
CN109389166A (zh) * 2018-09-29 2019-02-26 聚时科技(上海)有限公司 基于局部结构保存的深度迁移嵌入聚类机器学习方法
CN109753608A (zh) * 2019-01-11 2019-05-14 腾讯科技(深圳)有限公司 确定用户标签的方法、自编码网络的训练方法及装置
CN110260914A (zh) * 2019-05-06 2019-09-20 河海大学 一种基于测点时空特征的工程安全监测系统区域划分方法
CN110298663A (zh) * 2018-03-22 2019-10-01 中国银联股份有限公司 基于序列宽深学习的欺诈交易检测方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10068251B1 (en) * 2008-06-26 2018-09-04 Amazon Technologies, Inc. System and method for generating predictions based on wireless commerce transactions
CN104915386B (zh) * 2015-05-25 2018-04-27 中国科学院自动化研究所 一种基于深度语义特征学习的短文本聚类方法
CN105825269B (zh) * 2016-03-15 2018-06-26 中国科学院计算技术研究所 一种基于并行自动编码机的特征学习方法及系统
CN106055699B (zh) * 2016-06-15 2018-07-06 腾讯科技(深圳)有限公司 一种特征聚类的方法及装置
US10846308B2 (en) * 2016-07-27 2020-11-24 Anomalee Inc. Prioritized detection and classification of clusters of anomalous samples on high-dimensional continuous and mixed discrete/continuous feature spaces
CN110390358A (zh) * 2019-07-23 2019-10-29 杨勇 一种基于特征聚类的深度学习方法
CN111062416B (zh) * 2019-11-14 2021-09-21 支付宝(杭州)信息技术有限公司 用户聚类及特征学习方法、设备、计算机可读介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203624A (zh) * 2016-06-23 2016-12-07 上海交通大学 基于深度神经网络的矢量量化系统及方法
WO2018170421A1 (en) * 2017-03-17 2018-09-20 Magic Leap, Inc. Room layout estimation methods and techniques
CN110298663A (zh) * 2018-03-22 2019-10-01 中国银联股份有限公司 基于序列宽深学习的欺诈交易检测方法
CN108734338A (zh) * 2018-04-24 2018-11-02 阿里巴巴集团控股有限公司 基于lstm模型的信用风险预测方法及装置
CN108647730A (zh) * 2018-05-14 2018-10-12 中国科学院计算技术研究所 一种基于历史行为共现的数据划分方法及系统
CN109165950A (zh) * 2018-08-10 2019-01-08 哈尔滨工业大学(威海) 一种基于金融时间序列特征的异常交易识别方法,设备及可读存储介质
CN109389166A (zh) * 2018-09-29 2019-02-26 聚时科技(上海)有限公司 基于局部结构保存的深度迁移嵌入聚类机器学习方法
CN109753608A (zh) * 2019-01-11 2019-05-14 腾讯科技(深圳)有限公司 确定用户标签的方法、自编码网络的训练方法及装置
CN110260914A (zh) * 2019-05-06 2019-09-20 河海大学 一种基于测点时空特征的工程安全监测系统区域划分方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TONG YIN等: ""Personalized Behavior Prediction with Encoder-to-Decoder Structure"", 《2018 IEEE INTERNATIONAL CONFERENCE ON NETWORKING, ARCHITECTURE AND STORAGE (NAS)》 *
赵洪科等: ""基于深度神经网络结构的互联网金融市场动态预测"", 《计算机研究与发展》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021093368A1 (zh) * 2019-11-14 2021-05-20 支付宝(杭州)信息技术有限公司 用户聚类及特征学习方法、设备、计算机可读介质
CN111340506A (zh) * 2020-05-22 2020-06-26 支付宝(杭州)信息技术有限公司 交易行为的风险识别方法、装置、存储介质和计算机设备
CN112000863A (zh) * 2020-08-14 2020-11-27 北京百度网讯科技有限公司 用户行为数据的分析方法、装置、设备和介质
CN112000863B (zh) * 2020-08-14 2024-04-09 北京百度网讯科技有限公司 用户行为数据的分析方法、装置、设备和介质

Also Published As

Publication number Publication date
CN111062416B (zh) 2021-09-21
TW202119254A (zh) 2021-05-16
TWI752485B (zh) 2022-01-11
WO2021093368A1 (zh) 2021-05-20

Similar Documents

Publication Publication Date Title
CN111062416B (zh) 用户聚类及特征学习方法、设备、计算机可读介质
JP6371870B2 (ja) 機械学習サービス
CN111651573B (zh) 一种智能客服对话回复生成方法、装置和电子设备
CN111695938B (zh) 产品推送方法及系统
CN113032001B (zh) 一种智能合约分类方法及装置
CN112214652A (zh) 一种报文生成方法、装置及设备
CN116645668B (zh) 图像生成方法、装置、设备以及存储介质
US20200192932A1 (en) On-demand variable feature extraction in database environments
CN112527970A (zh) 数据字典标准化处理方法、装置、设备及存储介质
WO2023211543A1 (en) Generating an inpainted image from a masked image using a patch-based encoder
Ullmo et al. Encoding large-scale cosmological structure with generative adversarial networks
Wenjun et al. EA-GAN: restoration of text in ancient Chinese books based on an example attention generative adversarial network
CN114861907A (zh) 数据计算方法、装置、存储介质和设备
CN111680082A (zh) 基于数据整合的政府财政数据采集系统及数据采集方法
Wang et al. Similarity-adaptive latent low-rank representation for robust data representation
CN110348469A (zh) 一种基于DeepWalk网络嵌入模型的用户相似度度量方法
Li et al. Spherical image inpainting with frame transformation and data-driven prior deep networks
CN116977247A (zh) 图像处理方法、装置、电子设备及存储介质
CN111401641B (zh) 业务数据处理方法、装置及电子设备
CN115115920A (zh) 一种数据训练方法及装置
CN114359291A (zh) 一种训练实例分割模型的方法以及实例分割方法
Li et al. Linear screening for high‐dimensional computer experiments
CN111444331A (zh) 基于内容的分布式特征提取方法、装置、设备及介质
Zhang et al. Accurate quaternion polar harmonic transform for color image analysis
US20230359767A1 (en) Enhanced Data Privacy Through Structure-Preserving Autoencoder with Latent Space Augmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant