CN112633916A - 一种需求预测方法及装置、设备、存储介质 - Google Patents

一种需求预测方法及装置、设备、存储介质 Download PDF

Info

Publication number
CN112633916A
CN112633916A CN202011450198.5A CN202011450198A CN112633916A CN 112633916 A CN112633916 A CN 112633916A CN 202011450198 A CN202011450198 A CN 202011450198A CN 112633916 A CN112633916 A CN 112633916A
Authority
CN
China
Prior art keywords
sequence
behavior
target
user
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011450198.5A
Other languages
English (en)
Other versions
CN112633916B (zh
Inventor
黄灿锦
万磊
李旭锋
钱锦锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202011450198.5A priority Critical patent/CN112633916B/zh
Publication of CN112633916A publication Critical patent/CN112633916A/zh
Application granted granted Critical
Publication of CN112633916B publication Critical patent/CN112633916B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Marketing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Pure & Applied Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Optimization (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Operations Research (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Technology Law (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了一种需求预测方法及装置、设备、存储介质,其中,该方法包括:获取待预测的用户集合中每一目标用户特征;采用需求预测模型对所述每一目标用户特征进行预测,得到对应的目标时序行为特征模式,其中,所述需求预测模型用于表征聚类序列集合对应的目标特征集合与所述聚类序列集合对应的时序行为特征模式之间的映射关系,所述聚类序列集合是对历史的时序行为序列集合中的序列进行聚类而得到的;所述时序行为特征模式为所述聚类序列集合在预设时间长度内的时间节点上发生目标行为的概率分布;基于所述每一目标用户特征对应的目标时序行为特征模式,确定对应用户存在行为需求的时间节点。

Description

一种需求预测方法及装置、设备、存储介质
技术领域
本申请实施例涉及但不限于金融科技(Fintech)的信息技术,尤其涉及一种需求预测方法及装置、设备、存储介质。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,然而,由于金融行业的安全性、实时性要求,金融科技也对技术提出了更高的要求。金融科技领域下,相关技术对于用户融资需求预测的方法,在新用户的行为特征预测方面存在着局限性:基于单个用户的历史行为特征概率统计仅能够预测单个用户的行为特征,不适用于新用户的行为特征预测。
发明内容
有鉴于此,本申请实施例为解决相关技术中存在的至少一个问题而提供一种需求预测方法及装置、设备、存储介质。
本申请实施例的技术方案是这样实现的:
一方面,本申请实施例提供一种需求预测方法,所述方法包括:
获取待预测的用户集合中每一目标用户特征;
采用需求预测模型对所述每一目标用户特征进行预测,得到对应的目标时序行为特征模式,其中,所述需求预测模型用于表征聚类序列集合对应的目标特征集合与所述聚类序列集合对应的时序行为特征模式之间的映射关系,所述聚类序列集合是对历史的时序行为序列集合中的序列进行聚类而得到的;所述时序行为特征模式为所述聚类序列集合在预设时间长度内的时间节点上发生目标行为的概率分布;
基于所述每一目标用户特征对应的目标时序行为特征模式,确定对应用户存在行为需求的时间节点。
又一方面,本申请实施例提供一种需求预测装置,所述装置包括:
第一获取模块,用于获取待预测的用户集合中每一目标用户特征;
预测模块,用于采用需求预测模型对所述每一目标用户特征进行预测,得到对应的目标时序行为特征模式,其中,所述需求预测模型用于表征聚类序列集合对应的目标特征集合与所述聚类序列集合对应的时序行为特征模式之间的映射关系,所述聚类序列集合是对历史的时序行为序列集合中的序列进行聚类而得到的;所述时序行为特征模式为所述聚类序列集合在预设时间长度内的时间节点上发生目标行为的概率分布;
第一确定模块,用于基于所述每一目标用户特征对应的目标时序行为特征模式,确定对应用户存在行为需求的时间节点。
再一方面,本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的步骤。
还一方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的步骤。
在本申请实施例中,一方面,获取待预测的用户集合中每一目标用户特征;采用需求预测模型对所述每一目标用户特征进行预测,得到对应的目标时序行为特征模式;基于所述每一目标用户特征对应的目标时序行为特征模式,确定对应用户存在行为需求的时间节点。这样,在已知目标用户的用户特征的情况下,可以匹配到目标用户对应的目标时序行为特征模式,由于所述时序行为特征模式为所述聚类序列集合在预设时间长度内的时间节点上发生目标行为的概率分布,因此,基于目标时序行为特征模式可以预测目标用户存在行为需求的时间节点。
另一方面,本实施例中需求预测模型的形成需要对历史的时序行为序列进行聚类挖掘,聚集后的时序行为序列集合(聚类序列集合)具有足够代表性,通过聚类序列集合的时序行为特征模式来对新的目标用户进行预测,能够适用于新用户的行为特征预测,从而提供了一种适用范围更广泛的预测方法。
附图说明
图1为本申请实施例需求预测方法的实现流程示意图;
图2为本申请实施例需求预测方法的实现流程示意图;
图3为本申请实施例需求预测方法的实现流程示意图;
图4为本申请实施例需求预测方法的实现流程示意图;
图5为本申请实施例需求预测装置的组成结构示意图;
图6为本申请实施例中计算机设备的一种硬件实体示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图和实施例对本申请的技术方案进一步详细阐述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
如果申请文件中出现“第一/第二”的类似描述则增加以下的说明,在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
下面结合附图和实施例对本申请的技术方案进一步详细阐述。
本申请实施例提供一种需求预测方法,图1为本申请实施例需求预测方法的实现流程示意图,如图1所示,该方法包括:
步骤S101,获取待预测的用户集合中每一目标用户特征;
这里,所述用户集合中用户特征可以包括一个或多个用户的用户特征。所述用户集合中的元素用于描述用户特征。用户可以为个人用户也可以为企业用户,在用户为企业用户的情况下,所述用户特征可以包括以下中的至少一种:企业用户所属的行业类型、企业规模、注册资本、产品出口情况、产品市场份额、产品的销售地区、利润率、营业额和经营地区等其他的企业信息;在用户为个人用户的情况下,所述用户特征可以为个人用户的性别、年龄、学历、家庭情况、专业、年收入、特长、爱好、和职业等用户信息。
这里,所述目标用户特征为待进行需求预测分析的目标用户的特征。
步骤S102,采用需求预测模型对所述每一目标用户特征进行预测,得到对应的目标时序行为特征模式;
其中,所述需求预测模型用于表征聚类序列集合对应的目标特征集合与所述聚类序列集合对应的时序行为特征模式之间的映射关系,所述聚类序列集合是对历史的时序行为序列集合中的序列进行聚类而得到的;所述时序行为特征模式为所述聚类序列集合在预设时间长度内的时间节点上发生目标行为的概率分布;
这里,所述需求预测模型是预先生成的一个模型,可以为通过目标用户特征预测对应目标时序行为特征模式的模型。聚类序列集合中至少包括一个用户的时序行为序列。历史的时序行为序列集合是所能收集的用户的时序行为序列,时序行为序列是用户在过去一段时间内在时间节点上所发生的行为所组成的序列,例如某一年内每一天、每个月每一天、每一天的每个小时,每个小时的每一分等所发生的行为所组成的序列。在一些实施例中,时序行为序列可以简称为序列。
在实施的过程中,序列可以采用数组或矩阵等来表示,当采用数组来表示的时候,一个用户可以对应有一个数组或多个数组;当采用矩阵来表示的时候,一般来说,一个用户采用一个矩阵来表示即可。如果假设以每一年内每一天发生的历史行为组成一个序列,一个用户在过去5年内的数据,采用一维数组表示时,这个用户可以有5个时序行为序列;当采用矩阵表示时可以是一个5行366列的矩阵,或366行5列的矩阵,5行366列每一行对应一年,366行5列中的每一列也对应一年的序列。
在实施的过程中,一维数组中的每一个元素可以表示一个维度的数据信息或多个维度的数据信息。在一维数组中的元素仅仅表示一个维度的数据信息时,一维数组是按照时间的先后顺序排列的,这样一维数组内的每一个元素对应一个特定时间节点上的行为信息,这个特定的时间节点为一维数组内元素的排列次序所对应一个时间节点。特别是在面对大量用户数据的时候,这样定义的数据格式具有的优势在于,数据简单,处理起来方便,运算量小等。
一维数组中的元素也可以表示两个维度的数据信息,这样一维数组内的元素除了表示行为信息,还可以表示与行为信息对应的时间节点信息,例如用1表示发生了目标行为,用0表示没有发生目标行为,用下标表示对应的时间节点信息,例如133,表示某一年内的第33天发生了目标行为,0334,表示某一年内的第334天没有发生目标行为。
所述时序行为特征模式中的行为可以为设定的任何目标行为,例如日常生活行为、融资行为、消费行为、娱乐行为等。
这里,所述聚类序列集合可以为采用聚类算法对历史的时序行为序列集合中的序列进行聚类而得到的。这里,所述聚类算法可以为采用相似度度量时序行为序列间距离的K均值聚类算法、基于密度的聚类算法、高斯混合模型的最大期望聚类算法、凝聚层次聚类算法和图团体检测算法等。
步骤S103,基于所述每一目标用户特征对应的目标时序行为特征模式,确定对应用户存在行为需求的时间节点。
目标时序行为特征模式可以理解为一个概率分布,基于这个概率分布内的概率可以设置一些筛选条件,利用这些筛选条件可以筛选出一些满足条件的概率,这些筛选出的概率对应的时间节点就可以理解为目标用户存在行为需求的时间节点。例如行为为融资行为时,那些筛选出的概率对应的时间节点就可以理解为目标用户存在融资行为需求的时间节点。
在实施的过程中,步骤S103包括:基于所述目标时序行为特征模式中的概率分布,将大于预设概率阈值的概率确定为特定概率;将特定概率对应的时间节点,确定为对应用户存在行为需求的时间节点。
本实施例中,在已知目标用户的用户特征的情况下,可以匹配到目标用户对应的目标时序行为特征模式,基于目标时序行为特征模式可以预测目标用户存在行为需求的时间节点。
在一些实施例中,所述时序行为特征模式包括每一所述行为特征在每一特定时间段内发生的概率分布。举例说明,行为特征可以为融资行为特征,记为Iy,每一所述融资行为特征在每一特定时间段内发生的概率分布为
Figure BDA0002826521420000061
需求预测模型为
Figure BDA0002826521420000062
其中,en表示目标用户特征,x表示行为特征,d表示时间,可以为某一天。
当确定目标用户特征为e1时,根据e1,确定出对应的时序行为特征模式{P17,1,P1,30,2,P1,90,6,P1,366,8},其中,P1,7,1表示第7天发生第一行为特征中的第1种融资行为的概率,P1,30,2表示第30天发生第一行为特征中的第2种融资行为的概率;P1,90,6表示第90天发生第一行为特征中的第6种融资行为的概率;P1,366,8表示第366天发生第一行为特征中的第8种融资行为的概率。
由此可知,具有特征e1的用户存在第一行为特征中的第1、2、6和8种行为需求的时间分别为:第7天、第30天、第90天和第366天。
步骤S102在实施的过程中,可以采用下面的方式来得到:首先,根据目标用户特征和每一聚类序列集合的目标特征集合,确定目标用户特征所匹配的目标特征集合;在实施时,可以将目标用户特征与模型中每一聚类序列集合的目标特征集合之间进行相似度计算,将相似度满足条件(例如相似度最高)的目标特征集合确定为目标用户特征所属于的目标特征集合;然后,根据目标用户特征所属于的目标特征集合,查询需求预测模型,可以得到目标时序行为特征模式。目标时序行为特征模式可能有一个,多个,或者没有。
在实施的过程中,上面描述的需求预测模型是二元映射关系,二元映射关系可以是目标特征集合与时序行为特征模式之间的。在一些实施例中,需求预测模型也可以是三元映射关系,三元映射关系可以是目标特征集合与聚类序列集合、时序行为特征模式之间关系,其中,聚类序列集合可以理解为一个中间量,通过新用户特征找到一个匹配的目标特征集合,根据匹配的目标特征集合找到匹配的聚类序列集合,将匹配的聚类序列集合的时序行为特征模式,确定为新用户的时序行为特征模式来预测新用户(将目标用户特征映射到一个目标特征集合中,根据匹配的目标特征集合找到匹配的聚类序列集合,将匹配的聚类序列集合的时序行为特征模式,确定为目标时序行为特征模式)。
在本申请实施例中,一方面,获取待预测的用户集合中每一目标用户特征;采用需求预测模型对所述每一目标用户特征进行预测,得到对应的目标时序行为特征模式;基于所述每一目标用户特征对应的目标时序行为特征模式,确定对应用户存在行为需求的时间节点。这样,在已知目标用户的用户特征的情况下,可以匹配到目标用户对应的目标时序行为特征模式,由于所述时序行为特征模式为所述聚类序列集合在预设时间长度内的时间节点上发生目标行为的概率分布,因此,基于目标时序行为特征模式可以预测目标用户存在行为需求的时间节点。
另一方面,本实施例中的需求预测模型用于表征聚类序列集合对应的目标特征集合与所述聚类序列集合对应的时序行为特征模式之间的映射关系,聚类序列集合是对历史的时序行为序列集合中的序列进行聚类而得到的;可见本实施例中需求预测模型的形成需要对历史的时序行为序列进行聚类挖掘,聚集后的时序行为序列集合(聚类序列集合)具有足够代表性,通过聚类序列集合的时序行为特征模式来对新的目标用户进行预测,能够适用于新用户的行为特征预测,从而提供了一种适用范围更广泛的预测方法。
本申请实施例提供一种需求预测方法,图2为本申请实施例需求预测方法的实现流程示意图,如图2所示,该方法包括:
步骤S210,对所述历史的时序行为序列集合中的序列进行聚类,得到至少两个聚类序列集合;
这里,所述聚类序列集合可以为多种时序行为序列类型组成的集合,例如,可以为C={C1,C2,…,Cx},其中,Cx为一种时序行为类型。
这里,以融资行为为例,所述时序行为特征序列可以为时序融资行为序列。所述时序融资行为序列指的是用户在不同时间段发生的融资行为的集合。
步骤S220,确定每一所述聚类序列集合对应的时序行为特征模式;
这里,所述时序行为特征模式指聚类序列集合中每一时序行为序列类型在不同时间段发生行为的概率的集合。
步骤S230,将每一所述聚类序列集合中序列对应的用户特征,确定为目标特征集合;
步骤S240,建立每一所述聚类序列集合的目标特征集合与所述时序行为特征模式之间的第一映射关系,得到所述需求预测模型;
举例说明,每一所述聚类序列集合的目标特征集合与所述时序行为特征模式之间的第一映射关系为C={C1,C2,…,Cx}中的Cx和目标特征集合{en}之间的关系,根据第一映射关系可以得到需求预测模型Cx与时序行为特征模式之间的关系,从而得到需求预测模型。
步骤S250,获取待预测的用户集合中每一目标用户特征;
步骤S260,采用需求预测模型对所述每一目标用户特征进行预测,得到对应的目标时序行为特征模式,其中,所述需求预测模型用于表征聚类序列集合对应的目标特征集合与所述聚类序列集合对应的时序行为特征模式之间的映射关系,所述聚类序列集合是对历史的时序行为序列集合中的序列进行聚类而得到的;所述时序行为特征模式为所述聚类序列集合在预设时间长度内的时间节点上发生目标行为的概率分布;
步骤S270,基于所述每一目标用户特征对应的目标时序行为特征模式,确定对应用户存在行为需求的时间节点。
这里,步骤S210至步骤S240可以理解为形成需求预测模型的过程。形成需求预测模型之后,就可以利用该需求预测模型对新用户进行预测,首先获得新用户的用户特征,基于模型就会得到该新用户的时序行为特征模式(即目标时序行为特征模式),基于目标时序行为特征模式就可以得出新用户存在行为需求的时间节点。
本申请实施例中,建立每一所述聚类序列集合的目标特征集合与所述时序行为特征模式之间的第一映射关系,得到所述需求预测模型,这样,能够在已知目标特征集合的情况下,根据所述需求预测模型预测出所述目标特征集合对应的时序行为特征模式,从而根据所述时序行为特征模式确定目标用户存在行为需求的时间节点,实现用户行为需求的预测。
在一些实施例中,所述步骤S210,对所述历史的时序行为序列集合中的序列进行聚类,得到至少两个聚类序列集合,包括:
步骤S211,确定所述历史的时序行为序列集合中的每两个序列之间相似度;
这里,所述相似度用于度量两个时序行为序列之间的相似程度。
步骤S212,基于所述相似度,对所述历史的时序行为序列集合中的序列进行聚类,得到所述至少两个聚类序列集合。
在一些实施例中,所述步骤S212,基于所述相似度,对所述历史的时序行为序列集合中的序列进行聚类,得到所述至少两个聚类序列集合,包括:
步骤S2121,基于每一所述序列Mj与其他所有序列的相似度,确定相似度小于相似度阈值所对应的第一序列集合;
步骤S2122,确定所述第一序列集合中的序列数目;
这里,所述数目表征类型包括的时序行为序列的密度。
步骤S2123,如果所述序列Mj的序列数目大于预设数目,将序列Mj和所述第一序列集合中的所有序列确定为一个所述聚类序列集合。
在实施的过程中,也可以从某一个序列开始,例如先确定序列M1的第一序列集合,确定所述序列M1的第一序列集合中的序列数目;如果所述序列M1的序列数目大于预设数目,将序列M1和所述第一序列集合中的所有序列确定为一个所述聚类序列集合。其中,确定序列M1的第一序列集合,包括:基于每一所述序列M1与历史的时序行为序列集合中其他所有序列的相似度,确定相似度小于相似度阈值所对应的第一序列集合;
然后,从历史的时序行为序列集合中除去聚类序列集合中序列,得到更新后的历史的时序行为序列集合,从更新后的历史的时序行为序列集合继续挑选一个序列(为了保证不遗漏可以按照编号顺序依次确定序列的第一序列集合),按照上面对序列M1进行聚类的方式继续确定一个聚类序列集合,然后再更新历史的时序行为序列集合,如此往复,直至更新后的历史的时序行为序列集合没有序列。
在一些实施例中,所述方法还包括:
步骤S11,获取历史用户数据,其中,所述历史用户数据至少包括用户集合中用户的行为记录信息;
这里,所述用户数据可以为与用户相关的各类数据,例如,可以为用户的行为特征。这里,所述用户的行为特征可以为用户历史融资行为,所述用户历史融资行为可以为:满足用户资金需求的行为,例如,可以为贷款、质押、票据贴现等;所述历史融资行为可以包括用户至少一年的融资行为,例如,用户历史融资行为可以为近五年的融资行为。
步骤S12,对所述历史用户数据进行清洗,得到格式统一的枚举集合;
这里,所述清洗过程可以为格式内容清洗。例如,可以为将用户数据的时间参数清洗为统一的数据格式。在实施过程中,通过清洗用户数据可以得到参数格式统一的用户数据。这里,所述枚举集合中的元素可以为参数格式统一的用户行为特征。
步骤S13,从所述枚举集合中提取每一所述用户在所述预设时间长度内的每一时间节点上的行为特征,得到所述历史的时序行为序列集合。
这里,所述历史的时序行为序列集合可以为历史的时序融资行为序列的集合。这里,所述行为特征可以为时序融资行为特征。
以融资贷款为例进行说明,从所述枚举集合中,可以提取出每一用户在过去一年内每一天的贷款记录,将所述每一天的贷款记录记为Ii,并将所述贷款记录Ii按时间进行排列,可以得到每一用户在过去一年内的贷款记录的集合Ml,假设过去一年包括366天,则所述集合Ml={I1,I2,…,Ii,…,I365,I366}。在一些实施例中,所述集合Ml可以采用一维数组的形式进行存储。其中,Ii表示是否发生了贷款行为,例如采用0表示发生了贷款行为,采用1表示未发生贷款行为;当然也可以采用1表示发生了贷款行为,采用0表示未发生贷款行为;当然还可以有其他的表示形式。
在一些实施例中,在枚举集合中包括的用户融资行为包括至少两年的情况下,所述用户可以刻画出至少两个时序融资行为序列。例如,一个用户A的历史融资行为包括五年,可以对应的刻画出五个时序融资行为序列M1、M2、M3、M4和M5
在一些实施例中,将m个用户在过去一年内的贷款记录组成的集合记为M,则M={M1,M2,…,Mm}。m为大于等于1的整数,实际应用中m是一个很大的数据,例如可能有几十万或几百万数量级。
在本申请实施例中,获取历史用户数据,其中,所述历史用户数据至少包括用户集合中用户的行为记录信息,这样,能够避免在需求预测应用中缺少对用户行为记录信息等用户特征规律进行挖掘的问题。
在一些实施例中,所述步骤S220,确定每一所述聚类序列集合对应的时序行为特征模式,包括两种实现方式,第一种实现方式包括以下步骤:
步骤S221A,确定每一所述聚类序列集合在预设时间长度内的每一时间节点上发生目标行为的第一概率;
这里,所述时间节点可以为指定的某一天,例如,可以为第d日。
举例说明,一聚类序列集合为第x类融资行为,记为Cx,集合Cx={M1,M2,…,Mk},在第d日发生第y种融资行为的概率
Figure BDA0002826521420000121
即第一概率可以采用公式(1)进行计算:
Figure BDA0002826521420000122
其中,
Figure BDA0002826521420000123
为第x类融资行为集合Cx在第d日发生第y种融资行为的概率;Ik,d为第x类融资行为集合Cx中的第k个融资行为序列Mk在第d日发生的融资行为。
这里,Cx是相似的用户序列。在第一天有1、2、3、4和6的融资行为;第二天有3和6的融资行为。某一天发生的融资行为是相似的。例如,C1表示在第一天发生了贷款,质押;在第35天发生贷款;第60发生借款。
举例说明,Px,1,贷款为第一天发生贷款行为的概率值,例如,10个相似的序列里面有100个融资行为,其中8个为在第一天发生了贷款,则认为,第一天发生贷款的概率为0.08。
步骤S222 A,将所述第一概率对应的时间节点与所述第一概率建立第二映射关系;
步骤S223 A,将所述第二映射关系确定为所述时序行为特征模式。
这里,需要说明的是,步骤S221 A中的每一时间节点上都对应一个第一概率,如果继续以一年内366天为例,那么步骤S221 A就有366个概率。在实施的过程中,建立第二映射关系可以采用两列数据来表示,一列表示时间节点一列表示第一概率,通过对应关系形成第二映射关系。当然建立第二映射关系也可以采用一个一维数组,如果数组中的元素仅表示概率信息,那么可以是包括按照时间先后顺序排列的366个概率;如果数组的元素可以同时表达出概率信息和时间节点信息,那么就可以不用按照时间先后顺序排列。
在一些实施例中,所述步骤S220,确定每一所述聚类序列集合对应的时序行为特征模式,的第二种实现方式包括以下步骤:
步骤S221B,确定每一所述聚类序列集合在预设时间长度内的每一时间节点上发生目标行为的第一概率,得到第一概率集合;
步骤S222B,将所述第一概率集合中满足第一概率条件的第一概率确定为第一目标概率;
这里,第一概率条件可以是设置一个第一概率阈值,将大于第一概率阈值的第一概率筛选出来,作为第一目标概率。还可以是,对第一概率集合中的第一概率进行排序,然后选择最大的几个第一概率(例如前5个)作为第一目标概率;又可以是,对第一概率集合中的第一概率进行排序,然后对第一概率进行累加,得到第一累加概率,将小于或等于一个概率阈值的第一累加概率下的第一概率,作为第一目标概率。举例说明,预先设置最大概率Pmax,将Cx的所有发生的概率
Figure BDA0002826521420000131
从大到小排序,累计取得小于或等于Pmax得到的集合
Figure BDA0002826521420000132
为Cx的时序行为特征模式。
步骤S223B,将所述第一目标概率对应的时间节点与所述第一目标概率建立第三映射关系;
步骤S224B,将所述第三映射关系确定为所述时序行为特征模式。
需要说明的是,所述步骤S220的两种确定方式中,第一种方式没有对第一概率进行筛选,需要存储的数据量比较大。第二种方式中,对第一概率进行了筛选,需要存储的数据量就比较小。由于需求预测模型中需要用到时序行为特征模式,所以是否对第一概率进行筛选,可以根据实际应用中的数据量,用户数量等来决定,例如数据量大和或用户多,那么经过对第一概率进行筛选,需求预测模型所占用的数据空间,带宽等就比较小,还可以保证计算速率。
本申请实施例提供一种需求预测方法,图3为本申请实施例需求预测方法的实现流程示意图,如图3所示,该方法包括:
步骤S310,对所述历史的时序行为序列集合中的序列进行聚类,得到至少两个聚类序列集合;
步骤S320,确定每一所述聚类序列集合在预设时间长度内的每一时间节点上发生目标行为的第一概率,得到第一概率集合;
步骤S330,将所述第一概率集合中满足第一概率条件的第一概率确定为第一目标概率;
这里,需要说明的是,首先,对第一概率集合进行排序,在排序之后,取累加结果小于或等于预先设定的最大概率值的概率,可以达到只取大概率的时序行为表达这一类行为特征的目的。
举例说明,预先设置最大概率Pmax,将Cx的所有发生的概率
Figure BDA0002826521420000141
从大到小排序,累计取得小于或等于Pmax得到的集合
Figure BDA0002826521420000142
为Cx的时序行为特征模式。
步骤S340,将所述第一目标概率对应的时间节点与所述第一目标概率建立第三映射关系;
这里,所述第三映射关系为:在第一目标概率的基础上,将不具有代表性的小概率事件筛除后的,所述聚类序列集合在预设时间长度内的时间节点上发生目标行为的概率分布。
步骤S350,将所述第三映射关系确定为所述时序行为特征模式;
步骤S360,将每一所述聚类序列集合中序列对应的用户特征,确定为目标特征集合;
步骤S370,建立每一所述聚类序列集合的目标特征集合与所述时序行为特征模式之间的第一映射关系,得到所述需求预测模型;
步骤S380,获取待预测的用户集合中每一目标用户特征;
步骤S390,采用需求预测模型对所述每一目标用户特征进行预测,得到对应的目标时序行为特征模式,其中,所述需求预测模型用于表征聚类序列集合对应的目标特征集合与所述聚类序列集合对应的时序行为特征模式之间的映射关系,所述聚类序列集合是对历史的时序行为序列集合中的序列进行聚类而得到的;所述时序行为特征模式为所述聚类序列集合在预设时间长度内的时间节点上发生目标行为的概率分布;
步骤S300,基于所述每一目标用户特征对应的目标时序行为特征模式,确定对应用户存在行为需求的时间节点。
在本申请实施例中,通过将所述第一概率集合中满足第一概率条件的第一概率确定为第一目标概率,这样,能够简化时序行为序列集合表达一类行为特征的数据,能够达到只取大概率的时序行为序列集合表达这一类行为特征的目的。
本申请实施例提供一种需求预测方法,该方法包括:
步骤S31,对所述历史的时序行为序列集合中的序列进行聚类,得到至少两个聚类序列集合;
步骤S32,确定每一所述聚类序列集合对应的时序行为特征模式;
步骤S33,确定每一所述聚类序列集合中每一所述序列对应的用户特征;
步骤S34,将每一所述聚类序列集合对应的所有用户特征确定为用户特征集合;
步骤S35,确定所述用户特征集合中每一用户特征出现的第二概率,得到第二概率集合;
这里,可以采用概率统计算法对第二概率进行计算。
举例说明,取一个聚类结果Cx,以及对应的所有用户的特征值Ek={e1,e2,e3,…,ek},统计该用户群的特征出现的概率如公式(2)所示,
Figure BDA0002826521420000151
其中,
Figure BDA0002826521420000152
为每一特征在一个聚类结果Cx中出现的概率,count(en)为第en个特征在聚类结果Cx中出现的次数。
步骤S36,将所述第二概率集合中满足第二概率条件的第二概率确定为第二目标概率;
这里,所述第二目标概率为每一特征在一个每一所述聚类序列集合中出现的概率。
这里,第二概率条件可以为设置一个第二概率阈值,将大于第二概率阈值的第二概率筛选出来,作为第二目标概率。还可以是,从所述第二概率集合中选取特定数量的第二概率确定为第二目标概率,例如对第二概率集合中的第二概率进行排序,然后选择最大的几个第一概率(例如前8个)作为第二目标概率;又可以是,对第二概率集合中的第二概率进行排序,然后进行累加,将小于或等于一个概率阈值的第二概率,作为第二目标概率。
这里,所述从所述第二概率集合中选取特定数量的第二概率确定为第二目标概率可以通过设定最大特征量实现,例如,设置最大特征量TOP,将Cx对应用户群的特征按照出现概率
Figure BDA0002826521420000161
从大到小排序取前TOP个特征对应的概率作为第二目标概率。
步骤S37,将所述第二目标概率对应的用户特征确定为目标特征集合;
举例说明,
Figure BDA0002826521420000162
从大到小排序取前TOP个特征对应的概率作为第二目标概率,将第二目标概率对应的用户特征作为Cx对应用户群的目标特征集合{en}。
步骤S38,建立每一所述聚类序列集合的目标特征集合与所述时序行为特征模式之间的第一映射关系,得到所述需求预测模型;
步骤S39,获取待预测的用户集合中每一目标用户特征;
步骤S40,采用需求预测模型对所述每一目标用户特征进行预测,得到对应的目标时序行为特征模式,其中,所述需求预测模型用于表征聚类序列集合对应的目标特征集合与所述聚类序列集合对应的时序行为特征模式之间的映射关系,所述聚类序列集合是对历史的时序行为序列集合中的序列进行聚类而得到的;所述时序行为特征模式为所述聚类序列集合在预设时间长度内的时间节点上发生目标行为的概率分布;
步骤S41,基于所述每一目标用户特征对应的目标时序行为特征模式,确定对应用户存在行为需求的时间节点。
在一些实施例中,将每一所述聚类序列集合中序列对应的用户特征,确定为目标特征集合,包括:确定每一所述聚类序列集合中每一所述序列对应的用户特征;将每一所述聚类序列集合对应的所有用户特征确定为目标特征集合。
在本申请实施例中,将所述第二概率集合中满足第二概率条件的第二概率确定为第二目标概率;将所述第二目标概率对应的用户特征确定为目标特征集合。这样,能够简化目标特征集合中的用户特征数量,去除用户特征的冗余,使用最具代表性的用户特征组成目标特征集合。
相关技术中,在所述时序行为特征为融资行为,所述用户为具有融资需求的客户,所述时序行为序列集合为时序融资行为序列的集合的情况下,预测用户融资需求主要的方式有:(1)基于特征及专家经验总结得到的不同类型用户在不同时间段内可能存在的融资需求;(2)基于概率统计方法针对单个用户的融资行为规律进行总结。
由此可见,相关技术中,存在以下两方面的缺点:(1)依赖于专家经验。大部分仅能根据专家经验粗粒度地预估用户类型及融资需求发生时间段,缺乏在用户特征方面更精细化的挖掘,也缺少对用户融资行为规律的全面挖掘。例如,仅能粗粒度地预估用户类型为快消类型企业的融资需求及融资需求发生在每年重大节日前后的时间段。(2)基于单个用户的历史融资行为进行概率统计,仅能够预测单个用户的融资行为,而对于新用户融资行为的预测则存在局限性。
为解决上述问题,本申请实施例提供一种需求预测方法,该方法通过对历史用户的融资行为采用一维数组的方式进行刻画,得到一系列用户特征对应的时序融资行为模式。在已知用户特征的情况下,匹配到对应的时序融资行为模式,从而预测用户存在融资行为需求的时间。
本申请实施例提供一种需求预测方法,图4为本申请实施例需求预测方法的实现流程示意图,如图4所示,所述方法包括:
步骤S410,清洗历史用户数据;
这里,所述清洗过程可以为格式内容清洗。例如,可以为将用户数据的时间参数清洗为统一的数据格式。在实施过程中,通过清洗历史用户数据可以得到参数格式统一的用户数据。
这里,所述历史用户数据可以为用户历史融资行为和用户的基础信息。这里,所述用户历史融资行为可以为:满足用户资金需求的行为,例如,可以为贷款、质押、票据贴现等;所述历史融资行为可以包括用户至少一年的融资行为,例如,用户历史融资行为可以为近五年的融资行为。这里,所述用户的基础信息可以为能够描述用户特征的信息,例如,企业用户的行业类型、企业规模、注册资本和经营地区,也可以为个人用户的性别、年龄和职业。
步骤S420,刻画用户时序融资行为分布;
这里,所述时序融资行为序列为用户在不同时间段发生的融资行为的集合。
这里,所述时序融资行为分布为所述时序融资行为序列集合。
在一些实施例中,从所述参数格式统一的用户数据中,可以提取出每一用户在过去一年内每一天的贷款记录,将所述每一天的贷款记录记为Ii,并将所述贷款记录Ii按时间进行排列,可以得到每一用户在过去一年内的贷款记录的集合Ml,假设过去一年包括366天,则所述集合Ml={I1,I2,…,I365,I366}。在一些实施例中,所述集合Ml可以采用一维数组的形式进行存储。
在一些实施例中,在用户历史融资行为包括至少两年的情况下,所述用户可以刻画出至少两个时序融资行为序列。例如,一个用户A的历史融资行为包括五年,可以对应的刻画出五个时序融资行为序列M1、M2、M3、M4和M5
在一些实施例中,将m个用户在过去一年内的贷款记录组成的集合记为Ml,则M={M1,M2,…,Mm}。
步骤S430,挖掘所有客户时序融资行为聚类集合;
这里,挖掘所有客户时序融资行为聚类集合即从所有的用户时序融资行为序列集合,采用聚类算法得到时序融资行为的聚类集合C={C1,C2,…,Cx};
步骤S440,提取客户时序融资行为模式;
这里,提取客户时序融资行为模式即对所述聚类结果集合中的每一聚类结果采用统计概率方式确定融资行为模式,其中,所述每一聚类结果对应一融资行为类型;
步骤S450,提取客户特征;
这里,提取客户特征即从清洗后的用户的基础信息中提取出每一所述用户的特征,并确定用户特征集合;
这里,每一所述用户的特征记为ex;ex可以为企业用户的行业、企业规模、经营地区等内容;所述用户特征集合记为Ek,Ek={e1,e2,e3,…,ex,…}。
步骤S460,提取聚类集合对应主客户特征集合;
这里,提取聚类集合对应主客户特征集合即根据所述用户特征集合与聚类结果集合,确定每一所述聚类结果对应的主特征集合;
在一些实施例中,所述步骤S460包括,步骤S461,根据每一所述聚类结果和所述用户特征集合,确定所述用户特征集合中的每一所述用户特征在每一所述聚类结果中出现的概率;
举例说明,取一个聚类结果Cx,以及对应的所有用户的特征值Ek={e1,e2,e3,…,ek},统计该用户群的特征出现概率如公式(3)所示,
Figure BDA0002826521420000191
其中,
Figure BDA0002826521420000192
为每一特征在一个聚类结果Cx中出现的概率,count(en)为第en个特征在聚类结果Cx中出现的次数。
步骤S462,对所述用户特征集合中的每一所述用户特征在每一所述聚类结果中出现的概率按照特定顺序进行排列,并将预先设定数量的用户特征确定每一所述聚类结果对应的主特征集合。
举例说明,设置最大特征量TOP,将Cx对应用户群的特征按照出现概率
Figure BDA0002826521420000193
从大到小排序取前TOP个特征作为Cx对应用户群的主特征集合{en}。
步骤S470,提取主客户特征集合与时序融资行为模式的关联关系;
这里,提取主客户特征集合与时序融资行为模式的关联关系即根据用户主特征与时序融资行为模式的关联关系,在已知用户特征的情况下,根据所述用户特征确定对应的时序融资行为模式;
在一些实施例中,所述时序行为特征模式包括至少一个行为模式,每一所述行为模式为每一所述行为在每一特定时间段内发生的概率分布,所述步骤S263,确定所述时序行为特征模式和所述主特征集合的关联关系,包括:确定每一所述行为模式和和所述主特征集合的关联关系。
举例说明,集合
Figure BDA0002826521420000201
为Cx中融资行为Iy的时序融资行为模式,{en}为与每一所述行为模式对应的特征概率分布,可以得到{en}与对应的行为模式之间的关联关系,记为
Figure BDA0002826521420000202
步骤S480,预测客户存在融资需求的时间;
这里,预测客户存在融资需求的时间即将所述时序融资行为模式对应的概率分布确定为预测的所述每一用户特征存在行为需求的时间。
在一些实施例中,从步骤S470得到的关联关系,在已知用户的特征下匹配到对应的时序融资行为模式,用时序融资行为模式中融资行为发生的概率分布作为预测用户存在融资需求的时间。
在一些实施例中,所述步骤S430包括步骤S431,计算集合M中MA和MB的差异,得到差异矩阵N;例如,构造一个366×366的矩阵N。
这里,所述差异矩阵N中的每一个矩阵元组Nij用于表征MA中的元素Ii,与MB中的元素Ij之间的差异,所述差异的计算公式如公式(4)所示,
Figure BDA0002826521420000203
步骤S432,根据所述差异矩阵,确定距离矩阵;
这里,所述距离矩阵为最短累计距离矩阵。
在一些实施例中,计算矩阵N对应的累计距离矩阵G,其中,所述累计距离矩阵G中的元素Gij表示从矩阵N的第一个点N11到矩阵中的任意点Nij的最短累计距离,所述最短累计距离的计算公式如公式(5),
Figure BDA0002826521420000211
步骤S433,根据所述累计距离矩阵,确定MA和MB的差异值;
在一些实施例中,所述差异值记为D,D(MA,MB)=G366,366
步骤S434,根据所述差异值,确定MA和MB的相似度;
在一些实施例中,所述差异值的计算公式如公式(6),
Figure BDA0002826521420000212
这里,ρ(MA,MB)为MA和MB的相似度,D(MA,MB)=G366,366为MA和MB的差异值,D(M,M)为所有两两融资行为序列计算的差异值组成的集合。
步骤S435,确定初始化的中心向量;
这里,从所有时序融资行为序列库M中随机抽取一个未被标记类标号或噪声的时序模式Mj
步骤S436,确定所述中心向量与待分类时序融资行为集合中每一融资行为序列的相似度;
这里,将所述中心向量与待分类时序融资行为集合中每一融资行为序列的相似度,作为时序融资行为序列的聚类算法中的距离度量。
这里,采用步骤S431至步骤S434,计算所述初始化的中心向量与每一所述融资行为序列的距离。
步骤S437,根据所述相似度,确定在预设聚类算法的最大半径内中心向量的密度;
这里,所述密度为在预设聚类算法的最大半径Eps内融资行为序列的个数。
步骤S438,在所述密度大于等于预设最小密度的情况下,对每一所述融资行为序列标记为同一融资行为类型;
在一些实施例中,在所述密度小于预设最小密度的情况下,将所述融资行为序列标记为噪声。
举例说明,在所述密度大于预设的最小密度MinPts的情况下,则将中心向量Mj以及与Mj的相似度小于等于最大半径Eps的所有M均标记为同一融资行为类型,记为Cx;将大于最大半径Eps的所有M均标记为噪声。
步骤S439,重复步骤S435至步骤S438,确定聚类结果。
举例说明,重复步骤S435至步骤S438,直到所有时序融资行为序列被标记为类标号或噪声,得到时序融资行为序列聚类结果集合C={C1,C2,…,Cx}。
在一些实施例中,所述步骤S440包括:
步骤S441,根据每一类融资行为集合,确定所述类型对应的特定时间段内融资行为的概率;
这里,所述特定时间段可以为指定的某一天,例如,可以为第d日。
这里,第x类融资行为集合Cx={M1,M2,…,Mk}在第d日发生第y种融资行为的概率
Figure BDA0002826521420000221
可以采用公式(7)进行计算,
Figure BDA0002826521420000222
其中,
Figure BDA0002826521420000223
为第x类融资行为集合Cx在第d日发生第y种融资行为的概率;Ik,d为第x类融资行为集合Cx中的第k个融资行为序列Mk在第d日发生的融资行为。
这里,Cx是相似的用户序列。在第一天有1,2,3,4,6的融资行为;第二天有3,6的融资行为。某一天发生的融资行为是相似的。
例如,C1表示在第一天发生了贷款,质押;在第35天发生贷款;第60发生借款。
举例说明,Px,1,贷款为第一天发生贷款行为的概率值,例如,10个相似的序列里面有100个融资行为,其中8个为在第一天发生了贷款,则认为,第一天发生贷款的概率为0.08。
步骤S442,对所述特定时间段内的融资行为的概率按照特定顺序进行排列,并进行累加;
这里,将所述概率按照特定顺序进行排列可以为将所述概率按照从大到小的顺序进行排列。
步骤S443,将累计取得小于或等于预先设定的最大概率值的概率得到的集合确定为所述类型对应的融资行为模式。
这里,在排序之后,取累加结果小于或等于预先设定的最大概率值的概率,可以达到只取大概率的时序融资行为表达这一类融资行为的目的。
举例说明,预先设置最大概率,例如,累计最大概率为Pmax,将Cx的所有发生融资的概率
Figure BDA0002826521420000231
从大到小排序,累计取得小于或等于Pmax得到的集合
Figure BDA0002826521420000232
为Cx的时序融资行为模式。
在本申请实施例中,一方面,将客户的历史融资行为按照发生时间刻画为带有时序特征的一维数组,得到客户时序融资行为序列,并且提出了两个时序融资行为序列相似度的度量方法,能够有效降低由于两个序列上的时序偏差累计导致的序列整体相似度度量不准确的问题;另一方面,将两个时序序列的相似度度量作为客户时序融资行为的聚类中的距离度量的基础,根据时序融资行为分布的密度进行聚类挖掘,能够把聚集密度高的客户时序融资行为聚集在一起,保证集合中的客户时序融资行为变化规律具有足够代表性。
基于前述的实施例,本申请实施例提供一种需求预测装置,该装置包括所包括的各模块、以及各模块包括的各子模块,以及各子模块包括的各单元,可以通过计算机设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。
图5为本申请实施例需求预测装置的组成结构示意图,如图5所示,所述装置500包括第一获取模块501、预测模块502和第一确定模块503,其中:
第一获取模块501,用于获取待预测的用户集合中每一目标用户特征;
预测模块502,用于采用需求预测模型对所述每一目标用户特征进行预测,得到对应的目标时序行为特征模式,其中,所述需求预测模型用于表征聚类序列集合对应的目标特征集合与所述聚类序列集合对应的时序行为特征模式之间的映射关系,所述聚类序列集合是对历史的时序行为序列集合中的序列进行聚类而得到的;所述时序行为特征模式为所述聚类序列集合在预设时间长度内的时间节点上发生目标行为的概率分布;
第一确定模块503,用于基于所述每一目标用户特征对应的目标时序行为特征模式,确定对应用户存在行为需求的时间节点。
在一些实施例中,所述装置还包括聚类模块、第二确定模块、第三确定模块和映射模块,其中:聚类模块,用于对所述历史的时序行为序列集合中的序列进行聚类,得到至少两个聚类序列集合;第二确定模块,用于确定每一所述聚类序列集合对应的时序行为特征模式;第三确定模块,用于将每一所述聚类序列集合中序列对应的用户特征,确定为目标特征集合;映射模块,用于建立每一所述聚类序列集合的目标特征集合与所述时序行为特征模式之间的第一映射关系,得到所述需求预测模型。
在一些实施例中,所述聚类模块包括第一确定子模块和聚类子模块,其中:第一确定子模块,用于确定所述历史的时序行为序列集合中的每两个序列之间相似度;聚类子模块,用于基于所述相似度,对所述历史的时序行为序列集合中的序列进行聚类,得到所述至少两个聚类序列集合。
在一些实施例中,所述聚类子模块包括第一确定单元、第二确定单元和第三确定单元,其中:第一确定单元,用于基于每一所述序列Mj与其他所有序列的相似度,确定相似度小于相似度阈值所对应的第一序列集合;第二确定单元,用于确定所述第一序列集合中的序列数目;第三确定单元,用于如果所述序列Mj的序列数目大于预设数目,将序列Mj和所述第一序列集合中的所有序列确定为一个所述聚类序列集合。
在一些实施例中,所述装置还包括第二获取模块、清洗模块和提取模块,其中:第二获取模块,用于获取历史用户数据,其中,所述历史用户数据至少包括用户集合中用户的行为记录信息;清洗模块,用于对所述历史用户数据进行清洗,得到格式统一的枚举集合;提取模块,用于从所述枚举集合中提取每一所述用户在所述预设时间长度内的每一时间节点上的行为特征,得到所述历史的时序行为序列集合。
在一些实施例中,所述第二确定模块包括第二确定子模块、建立子模块和第三确定子模块,其中:第二确定子模块,用于确定每一所述聚类序列集合在预设时间长度内的每一时间节点上发生目标行为的第一概率;建立子模块,用于将所述第一概率对应的时间节点与所述第一概率建立第二映射关系;第三确定子模块,用于将所述第二映射关系确定为所述时序行为特征模式。
在一些实施例中,所述第二确定模块包括第四确定子模块、第五确定子模块、映射子模块和第六确定子模块,其中:第四确定子模块,用于确定每一所述聚类序列集合在预设时间长度内的每一时间节点上发生目标行为的第一概率,得到第一概率集合;第五确定子模块,用于将所述第一概率集合中满足第一概率条件的第一概率确定为第一目标概率;映射子模块,用于将所述第一目标概率对应的时间节点与所述第一目标概率建立第三映射关系;第六确定子模块,用于将所述第三映射关系确定为所述时序行为特征模式。
在一些实施例中,所述第三确定模块包括第七确定子模块和第八确定子模块,其中:第七确定子模块,用于确定每一所述聚类序列集合中每一所述序列对应的用户特征;第八确定子模块,用于将每一所述聚类序列集合对应的所有用户特征确定为目标特征集合。
在一些实施例中,所述第三确定模块包括第九确定子模块、第十确定子模块、第十一确定子模块、第十二确定子模块和第十三确定子模块,其中:第九确定子模块,用于确定每一所述聚类序列集合中每一所述序列对应的用户特征;第十确定子模块,用于将每一所述聚类序列集合对应的所有用户特征确定为用户特征集合;第十一确定子模块,用于确定所述用户特征集合中每一用户特征出现的第二概率,得到第二概率集合;第十二确定子模块,用于将所述第二概率集合中满足第二概率条件的第二概率确定为第二目标概率;第十三确定子模块,用于将所述第二目标概率对应的用户特征确定为目标特征集合。
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的需求预测方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
对应地,本申请实施例提供一种计算机设备,包括存储器和处理器所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的步骤。
对应地,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的步骤。
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,图6为本申请实施例中计算机设备的一种硬件实体示意图,如图6所示,该计算机设备600的硬件实体包括:处理器601、通信接口602和存储器603,其中
处理器601通常控制计算机设备600的总体操作。
通信接口602可以使计算机设备通过网络与其他终端或服务器通信。
存储器603配置为存储由处理器601可执行的指令和应用,还可以缓存待处理器601以及计算机设备600中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory,RAM)实现。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种需求预测方法,其特征在于,所述方法包括:
获取待预测的用户集合中每一目标用户特征;
采用需求预测模型对所述每一目标用户特征进行预测,得到对应的目标时序行为特征模式,其中,所述需求预测模型用于表征聚类序列集合对应的目标特征集合与所述聚类序列集合对应的时序行为特征模式之间的映射关系,所述聚类序列集合是对历史的时序行为序列集合中的序列进行聚类而得到的;所述时序行为特征模式为所述聚类序列集合在预设时间长度内的时间节点上发生目标行为的概率分布;
基于所述每一目标用户特征对应的目标时序行为特征模式,确定对应用户存在行为需求的时间节点。
2.根据权利要求1所述的方法,其特征在于,所述需求预测模型是采用如下方法得到的:
对所述历史的时序行为序列集合中的序列进行聚类,得到至少两个聚类序列集合;
确定每一所述聚类序列集合对应的时序行为特征模式;
将每一所述聚类序列集合中序列对应的用户特征,确定为目标特征集合;
建立每一所述聚类序列集合的目标特征集合与所述时序行为特征模式之间的第一映射关系,得到所述需求预测模型。
3.根据权利要求2所述的方法,其特征在于,所述对所述历史的时序行为序列集合中的序列进行聚类,得到至少两个聚类序列集合,包括:
确定所述历史的时序行为序列集合中的每两个序列之间相似度;
基于所述相似度,对所述历史的时序行为序列集合中的序列进行聚类,得到所述至少两个聚类序列集合。
4.根据权利要求3所述的方法,其特征在于,所述基于所述相似度,对所述历史的时序行为序列集合中的序列进行聚类,得到所述至少两个聚类序列集合,包括:
基于每一所述序列Mj与其他所有序列的相似度,确定相似度小于相似度阈值所对应的第一序列集合;
确定所述第一序列集合中的序列数目;
如果所述序列Mj的序列数目大于预设数目,将序列Mj和所述第一序列集合中的所有序列确定为一个所述聚类序列集合。
5.根据权利要求2至4任一项所述的方法,其特征在于,所述方法还包括:
获取历史用户数据,其中,所述历史用户数据至少包括用户集合中用户的行为记录信息;
对所述历史用户数据进行清洗,得到格式统一的枚举集合;
从所述枚举集合中提取每一所述用户在所述预设时间长度内的每一时间节点上的行为特征,得到所述历史的时序行为序列集合。
6.根据权利要求2至4任一项所述的方法,其特征在于,所述确定每一所述聚类序列集合对应的时序行为特征模式,包括:
确定每一所述聚类序列集合在预设时间长度内的每一时间节点上发生目标行为的第一概率;
将所述第一概率对应的时间节点与所述第一概率建立第二映射关系;
将所述第二映射关系确定为所述时序行为特征模式。
7.根据权利要求2至4任一项所述的方法,其特征在于,所述确定每一所述聚类序列集合对应的时序行为特征模式,包括:
确定每一所述聚类序列集合在预设时间长度内的每一时间节点上发生目标行为的第一概率,得到第一概率集合;
将所述第一概率集合中满足第一概率条件的第一概率确定为第一目标概率;
将所述第一目标概率对应的时间节点与所述第一目标概率建立第三映射关系;
将所述第三映射关系确定为所述时序行为特征模式。
8.根据权利要求2至4任一项所述的方法,其特征在于,所述将每一所述聚类序列集合中序列对应的用户特征,确定为目标特征集合,包括:
确定每一所述聚类序列集合中每一所述序列对应的用户特征;
将每一所述聚类序列集合对应的所有用户特征确定为目标特征集合。
9.根据权利要求2至4任一项所述的方法,其特征在于,所述将每一所述聚类序列集合中序列对应的用户特征,确定为目标特征集合,包括:
确定每一所述聚类序列集合中每一所述序列对应的用户特征;
将每一所述聚类序列集合对应的所有用户特征确定为用户特征集合;
确定所述用户特征集合中每一用户特征出现的第二概率,得到第二概率集合;
将所述第二概率集合中满足第二概率条件的第二概率确定为第二目标概率;
将所述第二目标概率对应的用户特征确定为目标特征集合。
10.一种需求预测装置,其特征在于,所述装置包括:
第一获取模块,用于获取待预测的用户集合中每一目标用户特征;
预测模块,用于采用需求预测模型对所述每一目标用户特征进行预测,得到对应的目标时序行为特征模式,其中,所述需求预测模型用于表征聚类序列集合对应的目标特征集合与所述聚类序列集合对应的时序行为特征模式之间的映射关系,所述聚类序列集合是对历史的时序行为序列集合中的序列进行聚类而得到的;所述时序行为特征模式为所述聚类序列集合在预设时间长度内的时间节点上发生目标行为的概率分布;
第一确定模块,用于基于所述每一目标用户特征对应的目标时序行为特征模式,确定对应用户存在行为需求的时间节点。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至9任一项所述方法中的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至9任一项所述方法中的步骤。
CN202011450198.5A 2020-12-09 2020-12-09 一种需求预测方法及装置、设备、存储介质 Active CN112633916B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011450198.5A CN112633916B (zh) 2020-12-09 2020-12-09 一种需求预测方法及装置、设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011450198.5A CN112633916B (zh) 2020-12-09 2020-12-09 一种需求预测方法及装置、设备、存储介质

Publications (2)

Publication Number Publication Date
CN112633916A true CN112633916A (zh) 2021-04-09
CN112633916B CN112633916B (zh) 2024-05-31

Family

ID=75309989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011450198.5A Active CN112633916B (zh) 2020-12-09 2020-12-09 一种需求预测方法及装置、设备、存储介质

Country Status (1)

Country Link
CN (1) CN112633916B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570173A (zh) * 2021-09-24 2021-10-29 深圳市大创科技信息有限公司 基于大数据整合处理的供应链管理预测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040034570A1 (en) * 2002-03-20 2004-02-19 Mark Davis Targeted incentives based upon predicted behavior
US20110264513A1 (en) * 2010-04-23 2011-10-27 Adwait Ratnaparkhi Finding Predictive Cross-Category Search Queries for Behavioral Targeting
CN109840782A (zh) * 2017-11-24 2019-06-04 腾讯科技(深圳)有限公司 点击率预测方法、装置、服务器以及存储介质
CN110415119A (zh) * 2019-07-30 2019-11-05 中国工商银行股份有限公司 模型训练、票据交易预测方法、装置、存储介质及设备
CN111724184A (zh) * 2019-03-20 2020-09-29 北京嘀嘀无限科技发展有限公司 一种转化概率预测方法及装置
CN111899047A (zh) * 2020-07-14 2020-11-06 拉扎斯网络科技(上海)有限公司 资源推荐方法、装置、计算机设备及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040034570A1 (en) * 2002-03-20 2004-02-19 Mark Davis Targeted incentives based upon predicted behavior
US20110264513A1 (en) * 2010-04-23 2011-10-27 Adwait Ratnaparkhi Finding Predictive Cross-Category Search Queries for Behavioral Targeting
CN109840782A (zh) * 2017-11-24 2019-06-04 腾讯科技(深圳)有限公司 点击率预测方法、装置、服务器以及存储介质
CN111724184A (zh) * 2019-03-20 2020-09-29 北京嘀嘀无限科技发展有限公司 一种转化概率预测方法及装置
CN110415119A (zh) * 2019-07-30 2019-11-05 中国工商银行股份有限公司 模型训练、票据交易预测方法、装置、存储介质及设备
CN111899047A (zh) * 2020-07-14 2020-11-06 拉扎斯网络科技(上海)有限公司 资源推荐方法、装置、计算机设备及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TOMOHIRO MIMURA ET AL.: "Bike-Share Demand Prediction using Attention based Sequence to Sequence and Conditional Variational AutoEncoder", 《PROCEEDINGS OF THE 3RD ACM SIGSPATIAL INTERNATIONAL WORKSHOP ON PREDICTION OF HUMAN MOBILITY》, pages 41 - 44 *
倪冬梅;赵秋红;李海滨;: "需求预测综合模型及其与库存决策的集成研究", 管理科学学报, no. 09, pages 44 - 52 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570173A (zh) * 2021-09-24 2021-10-29 深圳市大创科技信息有限公司 基于大数据整合处理的供应链管理预测方法

Also Published As

Publication number Publication date
CN112633916B (zh) 2024-05-31

Similar Documents

Publication Publication Date Title
Khalili-Damghani et al. Hybrid soft computing approach based on clustering, rule mining, and decision tree analysis for customer segmentation problem: Real case of customer-centric industries
McMahan et al. Ad click prediction: a view from the trenches
Maruotti Mixed hidden markov models for longitudinal data: An overview
US20200192894A1 (en) System and method for using data incident based modeling and prediction
Sahin et al. Detecting credit card fraud by decision trees and support vector machines
Sifa et al. Customer lifetime value prediction in non-contractual freemium settings: Chasing high-value users using deep neural networks and SMOTE
CN108133418A (zh) 实时信用风险管理系统
CN112148973B (zh) 一种信息推送的数据处理方法及装置
Xia A novel reject inference model using outlier detection and gradient boosting technique in peer-to-peer lending
CN114510735B (zh) 基于角色管理的智慧共享财务管理方法及平台
US20210125272A1 (en) Using Inferred Attributes as an Insight into Banking Customer Behavior
CN115983900A (zh) 用户营销策略的构建方法、装置、设备、介质和程序产品
CN114223012A (zh) 推送对象确定方法、装置、终端设备及存储介质
Shao et al. Toward intelligent financial advisors for identifying potential clients: a multitask perspective
CN112633916A (zh) 一种需求预测方法及装置、设备、存储介质
CN114912905A (zh) 一种目标对象的挖掘方法及装置
CN117172825A (zh) 基于大数据的电商数据分析方法、装置及计算设备
CN115965468A (zh) 基于交易数据的异常行为检测方法、装置、设备及介质
CN113065892B (zh) 一种信息推送方法、装置、设备及存储介质
Siregar et al. Classification data for direct marketing using deep learning
US20240242129A1 (en) Segmented machine learning-based modeling with period-over-period analysis
CN117992241B (zh) 基于大数据的科技型中小企业银企对接服务系统及方法
CN111738834B (zh) 一种数据处理方法和装置
US20230394512A1 (en) Methods and systems for profit optimization
CN115658878B (zh) 一种基于知识图谱的渔业知识智能推荐方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant