CN111738812A - 一种基于用户群微细分的信息推送方法及系统 - Google Patents

一种基于用户群微细分的信息推送方法及系统 Download PDF

Info

Publication number
CN111738812A
CN111738812A CN202010845957.1A CN202010845957A CN111738812A CN 111738812 A CN111738812 A CN 111738812A CN 202010845957 A CN202010845957 A CN 202010845957A CN 111738812 A CN111738812 A CN 111738812A
Authority
CN
China
Prior art keywords
user
micro
dimensional
low
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010845957.1A
Other languages
English (en)
Other versions
CN111738812B (zh
Inventor
张磊
蔺静茹
曹新建
邵俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Suoxinda Data Technology Co ltd
Original Assignee
Shenzhen Suoxinda Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Suoxinda Data Technology Co ltd filed Critical Shenzhen Suoxinda Data Technology Co ltd
Priority to CN202010845957.1A priority Critical patent/CN111738812B/zh
Publication of CN111738812A publication Critical patent/CN111738812A/zh
Application granted granted Critical
Publication of CN111738812B publication Critical patent/CN111738812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • G06Q30/0271Personalized advertisement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services

Landscapes

  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于用户群微细分的信息推送方法及系统。所述方法包括以下步骤:从服务器获取用户信息及其对应的产品信息;对所述用户信息及其对应的产品信息进行标准化处理,得到第一数据集;对所述第一数据集进行结构引力成像处理,将结构化数据转换为二维彩色等高线轮廓图;从所述二维彩色等高线轮廓图中提取低维特征向量;根据所述低维特征向量采用密度聚类的方法对用户群进行微细分以形成用户微细分簇群;将所述低维特征向量及用户微细分簇群的提升度用于优先推荐模型的优化提升;基于所述优先推荐模型的预测结果向用户群进行相应产品的信息推送。本发明可以通过识别用户深层特征并进行用户群微细分以进行精准信息推送。

Description

一种基于用户群微细分的信息推送方法及系统
技术领域
本发明属于大数据分析与数据挖掘领域,尤其涉及一种基于用户群微细分的信息推送方法及系统。
背景技术
大数据时代,数据正在迅速膨胀变大,它决定着企业的未来发展,随着时间的推移,人们将越来越多的意识到数据对企业的重要性。互联网+时代的到来,新零售的到来,打破原来很多企业原有的业务模式,企业以互联网为依托,通过运用大数据、人工智能等先进技术手段,对商品的生产、流通与销售过程进行升级改造,进而重塑业态结构与生态圈,并对线上服务、线下体验以及现代物流进行深度融合的零售新模式。
企业为了跟上时代的快速发展,业务不断的更新迭代,普遍采用产品响应预测等模型来提高营销成功率,达到精准营销和信息推送的目的。目前业界常用的产品响应预测建模大多采用XGBoost、LightGBM等树类模型算法或者是逻辑回归等统计算法,输入数据采用常见的结构化数据,常常需要进行复杂的特征工程才能发现有效特征,缺乏发现深层特征的能力,模型的准确性也难以有效提升,最终导致通过产品响应预测建模进行的信息推送准确性较低。
发明内容
针对上述现有技术中存在的缺陷,本发明的目的在于提供一种基于用户群微细分的信息推送方法及系统,其可以通过识别用户深层特征并进行用户群微细分以进行精准信息推送。
为了达到上述目的,本发明提出如下两个方面的技术方案:
第一方面,本发明实施例提供一种基于用户群微细分的信息推送方法,包括以下步骤:
从服务器获取用户信息及其对应的产品信息;
对所述用户信息及其对应的产品信息进行标准化处理,得到第一数据集;
对所述第一数据集进行结构引力成像处理,将结构化数据转换为二维彩色等高线轮廓图;
从所述二维彩色等高线轮廓图中提取低维特征向量;
根据所述低维特征向量采用密度聚类的方法对用户群进行微细分以形成用户微细分簇群;
将所述低维特征向量及用户微细分簇群的提升度用于优先推荐模型的优化提升;
基于所述优先推荐模型的预测结果向用户群进行相应产品的信息推送。
在一个实施例中,所述产品信息包括针对所述产品的用户的历史行为数据。
在一个实施例中,对所述用户信息及其对应的产品信息进行标准化处理,得到第一数据集,包括:
将所述用户信息及其对应的产品信息标准化处理为用户与产品的月日均数据宽表;
根据全体用户与各产品的数据分布,进行零值归并二次分箱离散化,通过百分位数分箱、非正数点合并、十分位数分箱,将各项数据离散化为十个分箱标签,并以箱体中位数作为分箱量化值;
所述零值归并二次分箱离散化标签的计算公式为:
Figure 644018DEST_PATH_IMAGE001
,其中n为全体用户数量
Figure 386715DEST_PATH_IMAGE002
根据用户在各产品资产占比的分箱标签,串联形成用户的分箱离散化编码,形成第一数据集。
在一个实施例中,对所述第一数据集进行结构引力成像处理,将结构化数据转换为二维彩色等高线轮廓图,从所述二维彩色等高线轮廓图中提取低维特征向量,包括:
根据全体用户的分箱离散化编码,进行相关分析,计算相关系数矩阵,将相关系数转化为变量间的引力;
根据全体用户的各个产品购买金额汇总占比和相关系数矩阵,映射为星系中的星球大小和星际引力,应用斥力算法通过迭代得到星系稳定后各星球的空间坐标;
根据稳定后的产品星球大小和空间位置,将星球大小映射为山峰海拔高度,并对二维网格中的大量缺失值进行插值填充,构建三维地形图;
根据三维地形图,进行等高线投影,并基于海拔高度的不同进行不同染色,构建二维彩色等高线轮廓图;
根据全体用户对应的大量二维彩色等高线轮廓图,通过自动编码器训练建模,以抽取二维彩色等高线轮廓图的低维特征向量,并建立分箱离散化编码和低维特征向量的映射表。
在一个实施例中,所述根据所述低维特征向量采用密度聚类的方法对用户群进行微细分以形成用户微细分簇群,包括:
根据分箱离散化编码的频数统计和低维特征向量映射表,通过频数加权还原全体用户的低维特征向量数据;
根据全体用户的低维特征向量数据,通过基于密度的聚类算法,进行聚类;
将聚类结果中的所有簇群和未形成簇群的离群点进行合并,形成最终的微细分簇群集合,以微细分簇群中心点的离散化分箱编码作为该微细分簇群的分箱离散化编码。
在一个实施例中,将所述低维特征向量及用户微细分簇群的提升度用于优先推荐模型的优化提升,包括:
将每个用户的低维特征向量作为新的特征变量,加入到现有各个优先推荐模型的宽表之中,重新训练原有预测模型,以得到各个产品对应的第一优先推荐模型;
计算每个用户微细分簇群中的阳性占比相对全体用户阳性占比的提升度,将每个用户对应微细分簇群的提升度作为新的特征变量,加入到现有各个产品对应的第一优先推荐模型的宽表之中,训练该第一优先推荐模型,以得到优化后的优先推荐模型。
第二方面,本发明实施例还提供一种基于用户群微细分的信息推送系统,包括:
数据处理单元,其用于从服务器获取用户信息及其对应的产品信息,并且对所述用户信息及其对应的产品信息进行标准化处理,得到第一数据集
结构引力成像单元,其用于对所述第一数据集进行结构引力成像处理,将结构化数据转换为二维彩色等高线轮廓图,并且从所述二维彩色等高线轮廓图中提取低维特征向量;
用户群微细分单元,其用于根据所述低维特征向量采用密度聚类的方法对用户群进行微细分以形成用户微细分簇群;
模型优化单元,其用于将所述低维特征向量及用户微细分簇群的提升度用于优先推荐模型的优化提升;
信息推送单元,其用于基于所述优先推荐模型的预测结果向用户群进行信息推送。
在一个实施例中,所述数据处理单元包括:
标准化处理单元,其用于将所述用户信息及其对应的产品信息标准化处理为用户与产品的月日均数据宽表;
百分位数分箱子单元,其用于对月日均数据宽表中的所有占比数值进行百分位数分箱;
零值合并子单元,其用于将小于等于0的百分位数分箱合并为一个,再与大于0的分箱组成新的列表;
十分位数分箱子单元,其用于对新的列表进行十分位数分箱,将原始数值转换为分箱编号;
用户编码单元,其用于根据用户在各产品资产占比的分箱标签,串联形成用户的分箱离散化编码,形成第一数据集。
在一个实施例中,所述结构引力成像单元包括:
引力构造子单元,其用于根据全体用户的分箱离散化编码,进行相关分析,计算相关系数矩阵,将相关系数转化为变量间的引力;
空间布局子单元,其用于根据全体用户的各个产品购买金额汇总占比和相关系数矩阵,映射为星系中的星球大小和星际引力,应用斥力算法通过迭代得到星系稳定后各星球的空间坐标;
三维地形图子单元,其用于根据稳定后的产品星球大小和空间位置,将星球大小映射为山峰海拔高度,并对二维网格中的大量缺失值进行插值填充,构建三维地形图;
投影染色子单元,其用于根据三维地形图,进行等高线投影,并基于海拔高度的不同进行不同染色,构建二维彩色等高线轮廓图;
特征抽取子单元,其用于根据全体用户对应的大量二维彩色等高线轮廓图,通过自动编码器训练建模,以抽取二维彩色等高线轮廓图的低维特征向量,并建立分箱离散化编码和低维特征向量的映射表。
在一个实施例中,所述用户群微细分单元包括:
特征映射子单元,其用于根据分箱离散化编码的频数统计和低维特征向量映射表,通过频数加权还原全体用户的低维特征向量数据;
密度聚类子单元,其用于根据全体用户的低维特征向量数据,通过基于密度的聚类算法,进行聚类;
簇群合并子单元,其用于将聚类结果中的所有簇群和未形成簇群的离群点进行合并,形成最终的微细分簇群集合,以微细分簇群中心点的分箱离散化编码作为该微细分簇群的分箱离散化编码。
与现有技术相比,本发明通过基于标准化后的用户与产品的月日均数据宽表,首先进行零值归并二次分箱离散化,以分箱编码代替原始数据;再进行结构引力成像,将相关系数转化为变量间引力并结合斥力算法、等高线投影和染色算法将结构化数据转换为轮廓图像(二维彩色等高线轮廓图),随后从图像中提取低维特征向量;根据二维彩色等高线轮廓图的图像特征向量(低维特征向量)采用密度聚类的方法实现大规模的用户群微细分以形成用户微细分簇群;将图像(二维彩色等高线轮廓图)中提取的低维特征向量及用户微细分簇群的提升度用于优先推荐模型的优化提升,根据优化后的优先推荐模型识别用户深层特征并对用户群进行微细分以进行精准信息推送。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:
图1是示出根据本发明实施例的信息推送方法的步骤示意流程图;
图2是示出根据本发明某一实施例的对所述用户信息及其对应的产品信息进行标准化处理的步骤示意流程图;
图3是示出根据本发明某一实施例的基于结构引力成像的用户群微细分的示意流程图;
图4是示出根据本发明某一实施例的信息推送方法的零值归并二次分箱离散化的示意流程图;
图5是示出根据本发明某一实施例的信息推送方法的结构引力成像的示意流程图;
图6是示出根据本发明某一实施例的信息推送方法的星系空间布局图;
图7是示出根据本发明某一实施例的信息推送方法的二维彩色等高线轮廓图;
图8是示出根据本发明某一实施例的信息推送方法的自动编码器模型图;
图9是示出根据本发明某一实施例的信息推送方法的低维特征向量图;
图10是示出根据本发明某一实施例的基于图像特征向量的用户微细分的示意流程图;
图11是示出根据本发明某一实施例的信息推送方法的用户群微细分结果图;
图12是示出根据本发明某一实施例的信息推送系统的示意性框图;以及
图13是示出根据本发明某一实施例的一种计算机设备的结构示意性框图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述……,但这些……不应限于这些术语。这些术语仅用来将……区分开。例如,在不脱离本发明实施例范围的情况下,第一……也可以被称为第二……,类似地,第二……也可以被称为第一……。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
下面结合附图详细说明本发明的可选实施例。
实施例一
如图1所示,本发明提供一种基于用户群微细分的信息推送方法,包括以下步骤:
从服务器获取用户信息及其对应的产品信息;
对所述用户信息及其对应的产品信息进行标准化处理,得到第一数据集;
对所述第一数据集进行结构引力成像处理,将结构化数据转换为二维彩色等高线轮廓图;
从所述二维彩色等高线轮廓图中提取低维特征向量;
根据所述低维特征向量采用密度聚类的方法对用户群进行微细分以形成用户微细分簇群;
将所述低维特征向量及用户微细分簇群的提升度用于优先推荐模型的优化提升;
基于所述优先推荐模型的预测结果向用户群进行相应产品的信息推送。
另外,本发明的微细分是从用户细分引申出来的概念。对于面向个人用户的运营商来说,因为用户数量过于庞大(通常达到上千万甚至数亿客户),任何活动都不可能针对所有用户展开,用户细分的需求由此而生。简单地说,用户细分就是把用户分成几个或几十个用户群,研究不同用户群的偏好,然后制定相应的策略进行推荐。例如,针对学生用户群主推时髦新鲜的各类产品或产品相关业务,针对底薪工资用户重点关注实惠产品等等。但是,传统的用户细分通常只是把用户分成十群以内,这中细分方式后的每个用户群内的数量还是过于庞大(至少几百万人),因此现有的用户细分对于进行精准产品的信息推送的工作人员来说没有意义,因为不可能一次推荐上百万人。相应地,开始采用微细分的概念,而微细分就需要将用户群分得更细;例如本发明在实际应用场景中,将用户分成1600多个用户群,这样才能给进行精准产品的信息推送的工作人员进行参考。
同时,本申请中的优先推荐模型是通过对每个参考特征样本中的人群的各自特征、产品特征进行特征清洗、特征补齐及特征向量化等特征预处理操作,得到对应的预处理后的训练特征集,并将预处理后的训练特征集输入到原始卷积神经网络中进行模型训练,以训练生成上述的优先推荐模型。
基于预处理后的训练特征集对原始卷积神经网络的输入层、卷积层、时序最大池化层、全连接层、多类别分类层及输出层进行训练,得到产品的优先推荐模型。
所述原始卷积神经网络包括输入层、卷积层、时序最大池化层、全连接层、多类别分类层及输出层,计算机设备可通过特征迭代反馈的方式采用预处理后的训练特征集对该原始卷积神经网络进行训练,以确保该原始卷积神经网络得以具有对特定人群在面对不同方案下的各类产品时的推荐响应状况进行预测的能力,从而得到所述优先推荐模型。
进一步地,优先推荐模型的算法公式如下:
Figure 817346DEST_PATH_IMAGE003
其中,X为输入变量集合,Y为某类目标商品,W为卷积神经网络的权重系数矩阵,
Figure 146958DEST_PATH_IMAGE004
为第l层各个神经元通过激活函数f后的输出信号值,b为截距。
由于是多层神经网络结构,除输入层和输出层外,每一层神经元的输入都是前一层神经元的输出,对应的算法公式如下:
Figure 49799DEST_PATH_IMAGE005
其中a为输入信号值,l为网络层级,f为激活函数。
实施例二
在实施例一的基础上,本发明实施例的信息推送方法,为识别用户深层特征并进行用户群微细分以便展开精准信息推送提供了重要参考。
如图2所示,对于个人用户来说,他可能购买过一项或多项产品,每项产品在产品信息里对应一定的购买金额,所有产品的购买金额合计起来即为该用户的总购买金额。这些数据是最常见的结构化数据,也是本发明深入分析用户产品偏好特征的基础数据。
为了便于对用户各产品购买金额数据进行深入分析,需对该数据进行必要的数据预处理,具体的处理步骤包括S101至S103,描述如下:
S101、获取用户各产品购买金额历史各月数据,以用户编号和年月为主键,保存为分析宽表;
S102、通过将各产品购买金额与用户总购买金额相除,将各项产品购买金额转化为[0,1]之间的标准化占比数据;
S103、计算全体用户各项产品购买金额相对总购买金额的标准化占比。
实施例三
在实施例二的基础上,本发明实施例还包括以下内容:
在本实施例中,所述分析宽表数据包括用户编号、日期年月、各产品的购买金额、全体用户的总购买金额。
该分析宽表以用户编号和日期年月为主键,每个用户每个月份对应一条记录,记录该用户在该月份各个产品的购买金额及总购买金额。具体地,某个月份的各个用户的各产品购买金额宽表如表1所示:
表1 各个用户的各产品购买金额宽表
Figure 912581DEST_PATH_IMAGE006
在表1中,用户编号是用户的唯一标识,可以用阿拉伯数字表示,也可以用字母加数字表示。其余各列为用户各项产品的购买金额,如食品生鲜购买金额、酒水饮料购买金额、钟表珠宝购买金额等,最后一列为用户当月的总购买金额。
该数据表一般保存在数据仓库或大数据平台中,具备访问权限的用户可以通过数据库访问接口进行数据读取。
实施例四
在实施例三的基础上,本发明实施例还包括以下内容:
对于S101步骤中获取的用户各产品购买金额数据(表1),本发明明显可以得到不同用户的总购买金额常常存在明显差异,有的用户总购买金额只有几百或几千元,有的用户总购买金额则可能有上千万。
而这种数量级的明显差异,导致了不同用户难以互相比较。例如,两个用户的汽车生活的购买金额都是10万元,但并不能断定这两个用户对汽车生活的偏好程度是相同的,因为前者的总购买金额为20万元,后者的总购买金额是1000万元。所以,前者更偏好汽车生活,因为他将50%的购买金额都放在汽车生活的产品上,后者只把1%的购买金额放在汽车生活的产品上。
为了便于在不同用户之间进行产品偏好的比较,就需要对表1中的数据进行标准化处理,其将每项产品的购买金额除以该用户的总购买金额,从而得到各项产品的购买金额占总购买金额的百分比,这样就能在不同用户之间进行对比。标准化处理后的结果如表2所示:
表2 标准化处理后的各个用户的各产品购买金额占比宽表
Figure 714446DEST_PATH_IMAGE007
在表2中,用户编号是用户的唯一标识,其余各列为各个产品购买金额占该用户总购买金额的百分比,包括P_食品生鲜、P_酒水饮料、P_钟表珠宝等,其中P为百分比(Percentile)的缩写。
数据标准化的公式如下:
Figure 596602DEST_PATH_IMAGE008
,其中Pi为用户第i项产品的购买金额占比,Ai 为用户第i项产品的购买金额,n为产品的总数,
Figure 7860DEST_PATH_IMAGE009
实施例五
在实施例四的基础上,本发明实施例还包括以下内容:
除了对每个用户的数据进行S102所示的标准化处理外,还需要对全体用户的汇总数据也进行同样的标准化处理,这样才能从总体上把握上千万甚至数亿用户整体上的产品偏好。具体计算分为两步:
(1)按列汇总全体用户各产品购买金额及总购买金额;
(2)将汇总后的各个产品购买金额除以总购买金额,得到汇总后的各个产品购买金额占比;
S103步骤的计算结果如表3所示:
表3 标准化处理后的全体用户各个产品的购买金额占比
Figure 961035DEST_PATH_IMAGE010
从表3可以看出,个人用户最偏好的产品为钟表珠宝、食品生鲜、汽车生活,服饰服装也较受青睐,而关注最少的产品为二手商品。
实施例六
在实施例五的基础上,本发明实施例还包括以下内容:
如图3所示,具体包括以下步骤:
S201、基于标准化处理后的用户各个产品的购买金额占比宽表,首先进行零值归并二次分箱离散化,以分箱编码代替原始数据;
S202、进行结构引力成像,将相关系数转化为变量(产品)间引力并结合斥力算法、等高线投影和染色算法将结构化数据转换为轮廓图像(二维彩色等高线轮廓图),随后从轮廓图像中提取低维特征向量;
S203、根据二维彩色等高线轮廓图的图像特征向量(低维特征向量)采用密度聚类的方法实现大规模的用户群微细分;
S204、将图像中提取的低维特征向量及微细分用户群提升度(用户群微细分形成用户微细分簇群后的提升度)用于优先推荐模型的优化提升。
实施例七
在实施例六的基础上,本发明实施例还包括以下内容:
在步骤S102中,已经将各项产品的购买金额转化为[0,1]之间的标准化占比。但在后续分析处理过程中,这种简单标准化还存在如下明显问题:
其一,不同记录间的细微差异会给分析建模带来干扰,不仅不能显著提升信息增益,反而容易造成模型的过拟合。例如,A用户的钟表珠宝占比是0.2796,B用户是0.2795,几乎没有差异,但模型算法会尝试将它们分开。
其二,如果对这种细微差异不做任何处理,就意味着每位用户都需要进行运算,这会明显增加计算复杂度。例如,分析宽表中一共包含500万条记录(对应500万名用户),每条记录进行结构引力成像所需的时间为0.1秒,则总共需要50万秒才能计算处理完毕,大约需要140小时。
为了解决上述问题,本发明提出了零值归并二次分箱离散化方法,用分箱离散化编码代替原始数据。
如图4所示,步骤S201具体包括步骤S201a至步骤S201c。
S201a、将月日均数据宽表中的所有占比数值放入列表,计算各个百分位点,进行百分位数分箱。
具体地,为了对所有标准化后的占比数据进行统一的离散化处理,首先需将月日均数据宽表中的所有占比数值放入一个大列表中,然后针对这个列表计算各个百分位点(从0到100),进行百分位数分箱。
在一个应用场景中,得到如表4所示的百分位数分箱结果:
表4 全体标准化占比数据的百分位数分箱
Figure 399713DEST_PATH_IMAGE011
根据表4可以看出,大部分分箱中包含的都是零值,这种情况在数据中很常见,呈现长尾的幂率分布。
S201b、将小于等于0的百分位数分箱合并为一个,再与大于0的分箱组成新的列表。
具体地,对于长尾的幂率分布来说,左侧的大量零值分箱毫无意义,因此将小于等于0的百分位数分箱合并为一个,再与大于0的分箱组成新的列表。
在一个应用场景中,得到如表5所示的零值合并后的百分位数分箱结果:
表5 零值合并后的百分位数分箱
Figure 31814DEST_PATH_IMAGE012
表5为表4中的100个分箱结果合并所有零值后剩下的百分位点数值。
S201c、对新的列表进行计算各个十分位点,进行十分位数分箱,将原始数值转换为分箱编号。
具体地,步骤S201c基于步骤S201b进行零值合并后的百分位数分箱结果列表,再进行十分位数分箱。在一个应用场景中,得到如表6所示的十分位数分箱结果:
表6 零值归并二次分箱离散化后的分箱编码及箱体上界
Figure 512343DEST_PATH_IMAGE013
经过S201c步骤的数据处理,可以将表2(标准化处理后的各个用户的各产品购买金额占比宽表)中各产品购买金额占比映射为相应的分箱编码,然后将各个分箱编码串联起来,形成每条记录对应的分箱离散化编码。如表7所示。
表7 零值归并二次分箱离散化编码
Figure 361833DEST_PATH_IMAGE014
通过上述对步骤S201的拆分可知,步骤S201实现了零值归并二次分箱离散化的过程:根据全体用户各产品的数据分布,进行零值归并二次分箱离散化,通过百分位数分箱、零值归并(非正数点合并)、十分位数分箱,将各项数据离散化为十个分箱标签,并以箱体中位数作为分箱量化值;
所述零值归并二次分箱离散化标签的计算公式为:
Figure 239921DEST_PATH_IMAGE001
,其中n为全体用户数量
Figure 825230DEST_PATH_IMAGE015
式中,P是Percent的缩写,即百分之几,LOC_
Figure 578291DEST_PATH_IMAGE016
为第i个百分位数的位置,LOC_
Figure 771638DEST_PATH_IMAGE017
为 第j个十分位数的位置,i和j分别表示第i和第j个分位数。
根据用户在各产品资产占比的分箱标签,串联形成用户的分箱离散化编码。
本发明的步骤S201提出了创新的零值归并二次分箱离散化方法,既能够通过离散化提高模型的泛化能力,又能显著提高数据处理效率。由于本发明会将差异细微的记录进行合并,则能大大缩短计算处理时间。在一个应用场景中,本发明将500万条记录合并为1.3万个编码,从而将处理时间从原来的50万秒(约140小时)缩短为1300秒(约22分钟),处理速度提高了400倍。
实施例八
在实施例七的基础上,本发明实施例还包括以下内容:
如图5所示,步骤S202具体包括步骤S202a至步骤S202e。
S202a、根据全体用户的分箱量化值(分箱离散化编码),进行相关分析,计算相关系数矩阵,将相关系数转化为变量(产品)间的引力;
具体地,基于表7(零值归并二次分箱离散化编码)和表6(零值归并二次分箱离散化后的分箱编码及箱体上界),可以将每位用户的分箱离散化编码还原为箱体上界值,然后对全部记录的各个产品购买金额占比离散化还原值进行相关分析,计算出相关系数矩阵。在一个应用场景中,得到结果如表8所示。
表8 分箱离散化编码还原值的相关系数矩阵
Figure 823557DEST_PATH_IMAGE018
相关系数体现了不同产品之间的相关性,取值范围为[-1,1]。绝对值越大则相关性越大,绝对值越小代表相关性越小。其中绝对值为1表示完全相关,绝对值为0表示完全无关。
本发明的相关系数可以视为产品之间的引力。
S202b、根据全体用户的各个产品购买金额汇总占比和相关系数矩阵,映射为星系中的星球大小和星际引力,应用斥力算法通过迭代得到星系稳定后各星球的空间坐标;
如图6所示,本发明将各个产品视为星系中的星球,则表3(标准化处理后的全体用户各个产品的购买金额占比)中的购买金额占比可视为各个星球的大小,表8(分箱离散化编码还原值的相关系数矩阵)中的相关系数可视为不同星球之间的引力。例如,食品生鲜星球的大小为0.2611,酒水饮料星球的大小为0.0045,食品生鲜和酒水饮料这两个星球之间的引力为-0.04。
另外,本发明基于表3和表8中的数据构造无向图结构,然后应用斥力算法进行迭代定位,首先随机分配各个产品星球的坐标位置,然后逐步迭代通过星球之间的斥力作用来移动各个星球的位置,直至引力和斥力达到平衡则完成收敛过程。
利用斥力模型的network_layout网络布局算法,最终计算各产品星球坐标位置的伪代码为:
输入:产品星球及大小<vi,si>,产品星球间引力矩阵<vi,vj,fij>,0≤i≤N
输出:产品星球二维坐标<vi,xi,yi>
初始化坐标:
初始化坐标:
for vi in V:
xi=rand(), yi=rand()
for vi in V:
for vj in V:
if(i<j):
E(i,j)=EXP(fij)
G=(V,E)
pos = network_layout(G, seed=1)
return(pos)
经过步骤S202b的处理后,得到星系空间布局图。
进一步地,步骤S202b同时还生成了各产品星球的坐标位置,包括横坐标x和纵坐标y。在一个应用场景中,得到结果如表9所示:
表9 产品星球的坐标位置及大小
Figure 413938DEST_PATH_IMAGE019
S202c、根据稳定后的产品星球大小和空间位置,将星球大小映射为山峰海拔高度,并对二维网格中的大量缺失值进行插值填充,构建三维地形图;
具体地,步骤S202b已经基于底层的结构化数据生成了星系空间布局图(如图6所示),但是图6的图像并不适合直接用来进行深度学习建模,其主要存在以下原因:
其一,图6没有鲜明的轮廓。深度学习适合学习各种轮廓(边界形状),但图6的图像中只有圆形和直线段;
其二、难以直观看出用户的产品偏好。如果产品更细更多,那么图像上只有许多大大小小的球体,很难把握特征;
其三、难以反映多产品偏好的组合。需要看到山的形状,而不是一堆石头。
基于以上原因,本发明需要对步骤S202b生成的图像进一步加工,生成轮廓更加鲜明的图像,使其可以适应深度学习建模的需要。
将表9中的产品星球视为山峰,节点大小视为山峰高度,则可将图6中的若干星球转换为若干山峰,然后对平面空白处对应的大量缺失值进行插值填充,从而可以构造三维地形图。
实现将星系空间布局图变换为三维地形图的伪代码为:
输入:星系坐标及星球大小<vi,xi,yi,si>
输出:三维地形图
初始化三维坐标数组:X,Y,Z
for i in [-1,-0.5,0,0.5,1]:
for j in [-1,-0.5,0,0.5,1]:
X.append([i])
Y.append([j])
Z.append([0])
设置标准数据网格大小:ngridx=32, ngridy=32
XX = np.linspace(-1, 1, ngridx)
YY = np.linspace(-1, 1, ngridy)
ZZ = griddata(X, Y, Z, XX, YY, interp='linear')
ZZ_impute = ZZ.nan_to_zero()
上述伪代码中主要分为两个步骤:第一步的双重循环创建了5x5x5的三维空间,用于在初始平面的5x5网格交叉点赋值为零,目的是为了避免因数据稀疏导致的图片残缺;第二步则是将5x5网格拉伸放大为新的标准数据网格(32x32),对z值进行线性插值,并将空值补缺为0。
S202d、根据三维地形图,进行等高线投影,并基于海拔高度的不同进行不同染色,构建二维彩色等高线轮廓图;
如图7所示,步骤S202c已经生成了三维地形图对应的三维数组,为了更方便地观察地形特征,通常会进行等高线投影,将三维地形图变换为二维的等高线图,同时本发明可以基于海拔高度的不同染上不同颜色,最终构建二维彩色等高线轮廓图。
S202e、根据全体用户对应的大量二维彩色等高线轮廓图,通过自动编码器训练建模,抽取图像(二维彩色等高线轮廓图)的低维特征向量,并建立分箱离散化编码和低维特征向量的映射表;
通过步骤S202d的处理,可以生成每一位用户对应的二维彩色等高线轮廓图,全体用户则对应生成大量的图像(二维彩色等高线轮廓图)。基于图像之间的类似性,就可以对图像进行聚类,从而实现用户的微细分。
进一步地,图像聚类的过程通常分为两个步骤:抽取图像特征向量和密度聚类。
通过自动编码器训练建模,可以抽取图像的低维特征向量,将非结构化的图像转换为结构化的数据,从而方便后续处理。
如图8所示,在一个应用场景中,输入和输出均为图像本身,中间层为狭窄的瓶颈式编码层。实施例中使用了14层的自动编码器神经网络,训练4963个参数。
如图9所示,通过自动编码器训练建模,从二维彩色等高线轮廓图抽取了图像的低维特征向量。在一个应用场景中,抽取了4x4x8的三维数组作为图像的特征向量(低维特征向量),即用128个数字来代表图像特征。
为了提高计算性能,避免不必要的重复运算,本发明建立了分箱离散化编码和低维特征向量的映射表,只需输入每个用户的零值归并二次分箱离散化编码,即可从数据库中直接查询出对应的低维特征向量,无需反复进行耗时的结构引力成像和自动编码器建模过程。
实施例九
在实施例八的基础上,本发明实施例还包括以下内容:
如图10所示,步骤S203具体包括步骤S203a至步骤S203c:
S203a、根据分箱离散化编码的频数统计和低维特征向量映射表,通过频数加权还原全体用户的低维特征向量数据;
具体地,通过步骤S201得到了每个用户的零值合并二次分箱离散化编码,然后对分箱离散化编码进行频数统计,计算出每个分箱离散化编码在全体用户中所占的比例。
然后通过步骤S202得到了分箱离散化编码对应的低维特征向量映射表,结合二次分箱离散化编码集合以及频数占比,即可加权还原生成全体用户的低维特征向量数据。
S203b、根据全体用户的低维特征向量数据,通过基于密度的聚类算法,进行聚类;
具体地,根据S203a生成的全体用户的低维特征向量数据,通过基于密度的聚类算法,进行聚类建模。
在一个应用场景中,本发明采用了DBSCAN(Density-Based Spatial Clusteringof Applications with Noise,具有噪声的基于密度的聚类方法)聚类算法,设定EPS(球体最小半径)为0.3,MinPts(球体内最小样本数)为30,生成了910个簇群和706个离群点,聚类结果参见表10:
表10 基于图像低维特征向量的密度聚类结果
Figure 672488DEST_PATH_IMAGE020
S203c、将聚类结果中的所有簇群和未形成簇群的离群点进行合并,形成最终的微细分簇群集合,以簇群中心点的离散化分箱编码作为该簇群的分箱离散化编码;
具体地,基于密度的聚类算法会将密度明显偏小的样本作为离群点,由于这些离群点与其它簇群存在明显差异,则本发明将其视为独立簇群。
将步骤S203b所生成聚类结果中的所有簇群和未形成簇群的离群点进行合并,形成最终的微细分簇群集合,以簇群中心点的离散化分箱编码作为该簇群的分箱离散化编码。
如图11所示,在一个应用场景中,合并之后的簇群总数为1616个,这1616个簇群即对应1616个微细分用户群。方便起见,本发明直接以簇群中心点的分箱离散化编码作为该微细分用户群(用户微细分簇群)的编码。图11中左侧为微细分用户群的中心点图像,右侧为从该微细分用户群中随机选取的样本图像。
实施例十
在实施例九的基础上,本发明实施例还包括以下内容:
步骤S204中用于优先推荐模型的优化提升具体包括以下内容:
基于结构引力成像生成的二维彩色等高线轮廓图,从图像(二维彩色等高线轮廓图)中提取的低维特征向量及微细分用户群(用户微细分簇群)提升度能够反映用户产品资产偏好的深层特征,可用于优先推荐模型的优化提升。具体方法包括如下两种:
其一、将每个用户的低维特征向量作为新的特征变量,加入到现有各个优先推荐模型的宽表之中,重新训练原有优先推荐模型,提高模型预测推荐的准确率和提升度;
在一个应用场景中,抽取了4x4x8的三维数组作为图像的特征向量,即用128个数字来代表图像特征。图9显示了实施例中一幅自动编码器建模抽取的图像对应的低维特征向量。将这128个数字作为新特征,加入到现有的第三方购买优先推荐模型的宽表之中,重新训练原有优先推荐模型,将模型(优先推荐模型)预测推荐的准确率和提升度提升了14%~25%(前10%和5%的预测名单)。
其二、计算每个用户微细分簇群中的阳性占比相对全体用户阳性占比的提升度,将每个用户对应微细分簇群的提升度作为新的特征变量,加入到现有各个优先推荐模型的宽表之中,重新训练原有优先推荐模型,提高模型预测推荐的准确率和提升度;
在一个应用场景中,首先将全体用户划分为1616个微细分群,计算得到每个簇群中大额购买率相对全体用户的提升度。将每个用户对应微细分群的提升度作为新特征,加入到现有的大额购买优先推荐模型的宽表之中,重新训练原有优先推荐模型,将模型预测推荐的准确率和提升度提升了43%~75%(前10%和5%的预测名单)。
另外,上述两种方法可以单独用于优先推荐模型的优化提升,也可以共同完成对优先推荐模型的优化提升。
实施例十一
在实施例一至十的基础上,本发明实施例还提供一种基于用户群微细分的信息推送方法,包括以下步骤:
从服务器获取用户信息及其对应的产品信息;优选地,所述产品信息包括针对所述产品的用户的历史行为数据;
对所述用户信息及其对应的产品信息进行标准化处理,得到第一数据集;
对所述第一数据集进行结构引力成像处理,将结构化数据转换为二维彩色等高线轮廓图(轮廓图像);
从所述二维彩色等高线轮廓图中提取低维特征向量;
根据所述低维特征向量采用密度聚类的方法对用户群进行微细分以形成用户微细分簇群;
将所述低维特征向量及用户微细分簇群的提升度用于优先推荐模型的优化提升;
基于所述优先推荐模型的预测结果向用户群进行相应产品的信息推送。
在一个应用场景中,为了便于对用户各产品购买金额数据进行深入分析,需对该数据进行必要的数据预处理。即对所述用户信息及其对应的产品信息进行标准化处理,得到第一数据集,具体可以包括:
将所述用户信息及其对应的产品信息标准化处理为用户与产品的月日均数据宽表;
根据全体用户与各产品的数据分布,进行零值归并二次分箱离散化,通过百分位数分箱、非正数点合并、十分位数分箱,将各项数据离散化为十个分箱标签,并以箱体中位数作为分箱量化值;
所述零值归并二次分箱离散化标签的计算公式为:
Figure 251499DEST_PATH_IMAGE021
,其中n为全体用户数量
Figure 739899DEST_PATH_IMAGE015
根据用户在各产品资产占比的分箱标签,串联形成用户的分箱离散化编码,形成第一数据集。
在一个应用场景中,为了可以适合深度学习建模,需要对结构化数据进行变换形成具有鲜明轮廓的图像。及对所述第一数据集进行结构引力成像处理,将结构化数据转换为二维彩色等高线轮廓图,从所述二维彩色等高线轮廓图中提取低维特征向量,具体可以包括:
根据全体用户的分箱离散化编码,进行相关分析,计算相关系数矩阵,将相关系数转化为变量间的引力;
根据全体用户的各个产品购买金额汇总占比和相关系数矩阵,映射为星系中的星球大小和星际引力,应用斥力算法通过迭代得到星系稳定后各星球的空间坐标;
根据稳定后的产品星球大小和空间位置,将星球大小映射为山峰海拔高度,并对二维网格中的大量缺失值进行插值填充,构建三维地形图;
根据三维地形图,进行等高线投影,并基于海拔高度的不同进行不同染色,构建二维彩色等高线轮廓图;
根据全体用户对应的大量二维彩色等高线轮廓图,通过自动编码器训练建模,以抽取二维彩色等高线轮廓图的低维特征向量,并建立分箱离散化编码和低维特征向量的映射表。
另外,所述根据所述低维特征向量采用密度聚类的方法对用户群进行微细分以形成用户微细分簇群,可以包括:
根据分箱离散化编码的频数统计和低维特征向量映射表,通过频数加权还原全体用户的低维特征向量数据;
根据全体用户的低维特征向量数据,通过基于密度的聚类算法,进行聚类;
将聚类结果中的所有簇群和未形成簇群的离群点进行合并,形成最终的微细分簇群集合,以微细分簇群中心点的分箱离散化编码作为该微细分簇群的分箱离散化编码。
为了提高优先推荐模型预测产品并推荐的准确率和提升度,需要对优先推荐模型进行优化提升。具体地,将所述低维特征向量及用户微细分簇群的提升度用于优先推荐模型的优化提升,可以包括:
将每个用户的低维特征向量作为新的特征变量,加入到现有各个优先推荐模型的宽表之中,重新训练原有优先推荐模型,以得到各个产品对应的第一优先推荐模型;
计算每个用户微细分簇群中的阳性占比相对全体用户阳性占比的提升度,将每个用户对应微细分簇群的提升度作为新的特征变量,加入到现有各个产品对应的第一优先推荐模型的宽表之中,训练该第一优先推荐模型,以得到优化后的优先推荐模型。
本发明实施例通过基于标准化后的用户与产品的月日均数据宽表,首先进行零值归并二次分箱离散化,以分箱编码代替原始数据;再进行结构引力成像,将相关系数转化为变量间引力并结合斥力算法、等高线投影和染色算法将结构化数据转换为轮廓图像(二维彩色等高线轮廓图),随后从图像中提取低维特征向量;根据二维彩色等高线轮廓图的图像特征向量(低维特征向量)采用密度聚类的方法实现大规模的用户群微细分以形成用户微细分簇群;将图像(二维彩色等高线轮廓图)中提取的低维特征向量及用户微细分簇群的提升度用于优先推荐模型的优化提升,从而可以根据优化后的优先推荐模型识别用户深层特征并对用户群进行微细分以进行精准信息推送。
实施例十二
如图12所示,本实施例还提供一种基于用户群微细分的信息推送系统1200,该信息推送系统1200可以配置于服务器或终端中,其中,服务器可以为独立的服务器,也可以为服务器集群。该终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。
另外,所述信息推送系统1200包括数据处理单元1210、结构引力成像单元1220、用户群微细分单元1230、模型优化单元1240和信息推送单元1250;其中,
所述数据处理单元1210用于从服务器获取用户信息及其对应的产品信息,并且对所述用户信息及其对应的产品信息进行标准化处理,得到第一数据集;所述结构引力成像单元1220用于对所述第一数据集进行结构引力成像处理,将结构化数据转换为二维彩色等高线轮廓图(轮廓图像),并且从所述二维彩色等高线轮廓图中提取低维特征向量;所述用户群微细分单元1230用于根据所述低维特征向量采用密度聚类的方法对用户群进行微细分以形成用户微细分簇群;所述模型优化单元1240用于将所述低维特征向量及用户微细分簇群的提升度用于优先推荐模型的优化提升;所述信息推送单元1250用于基于所述优先推荐模型的预测结果向用户群进行信息推送。
在一个应用场景中,所述数据处理单元1210包括标准化处理单元1211、百分位数分箱子单元1212、零值合并子单元1213、十分位数分箱子单元1214和用户编码单元1215;其中,
所述标准化处理单元1211用于将所述用户信息及其对应的产品信息标准化处理为用户与产品的月日均数据宽表;所述百分位数分箱子单元1212用于对月日均数据宽表中的所有占比数值进行百分位数分箱;所述零值合并子单元1213用于将小于等于0的百分位数分箱合并为一个,再与大于0的分箱组成新的列表;所述十分位数分箱子单元1214用于对新的列表进行十分位数分箱,将原始数值转换为分箱编号;所述用户编码单元1215用于根据用户在各产品资产占比的分箱标签,串联形成用户的分箱离散化编码,形成第一数据集。
在一个应用场景中,所述结构引力成像单元1220包括引力构造子单元1221、空间布局子单元1222、三维地形图子单元1223、投影染色子单元1224和特征抽取子单元1225;其中,
所述引力构造子单元1221用于根据全体用户的分箱离散化编码,进行相关分析,计算相关系数矩阵,将相关系数转化为变量间的引力;所述空间布局子单元1222用于根据全体用户的各个产品购买金额汇总占比和相关系数矩阵,映射为星系中的星球大小和星际引力,应用斥力算法通过迭代得到星系稳定后各星球的空间坐标;所述三维地形图子单元1223用于根据稳定后的产品星球大小和空间位置,将星球大小映射为山峰海拔高度,并对二维网格中的大量缺失值进行插值填充,构建三维地形图;所述投影染色子单元1224用于根据三维地形图,进行等高线投影,并基于海拔高度的不同进行不同染色,构建二维彩色等高线轮廓图;所述特征抽取子单元1225用于根据全体用户对应的大量二维彩色等高线轮廓图,通过自动编码器训练建模,以抽取二维彩色等高线轮廓图的低维特征向量,并建立分箱离散化编码和低维特征向量的映射表。
在一个应用场景中,所述用户群微细分单元1230包括特征映射子单元1231、密度聚类子单元1232和簇群合并子单元1233;其中,
所述特征映射子单元1231用于根据分箱离散化编码的频数统计和低维特征向量映射表,通过频数加权还原全体用户的低维特征向量数据;所述密度聚类子单元1232用于根据全体用户的低维特征向量数据,通过基于密度的聚类算法,进行聚类;所述簇群合并子单元1233用于将聚类结果中的所有簇群和未形成簇群的离群点进行合并,形成最终的微细分簇群集合,以微细分簇群中心点的分箱离散化编码作为该微细分簇群的分箱离散化编码。
在一个应用场景中,所述模型优化单元1240包括特征向量优化子单元1241和提升度优化子单元1242;其中,
所述特征向量优化子单元1241用于将每个用户的低维特征向量作为新的特征变量,加入到现有各个优先推荐模型的宽表之中,重新训练原有优先推荐模型,以得到各个产品对应的第一优先推荐模型,其提高了模型预测的准确率和提升度;所述提升度优化子单元1242用于计算每个用户微细分簇群中的阳性占比相对全体用户阳性占比的提升度,将每个用户对应微细分簇群的提升度作为新的特征变量,加入到现有各个产品对应的第一优先推荐模型的宽表之中,训练该第一优先推荐模型,以得到优化后的优先推荐模型,进一步提高了模型预测的准确率和提升度。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的基于用户群微细分的信息推送系统1200和各单元的具体工作过程,可以参考前述基于用户群微细分的信息推送方法实施例中的对应过程,在此不再赘述。
实施例十三
如图13所示,本实施例的信息推送系统1200可以实现为一种计算机程序的形式,该计算机程序可以在如图13所示的计算机设备上运行。该计算机设备可以是服务器或终端。
该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种信息推送方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种信息推送方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
基于标准化后的用户与产品的月日均数据宽表,首先进行零值归并二次分箱离散化,以分箱编码代替原始数据;再进行结构引力成像,将相关系数转化为变量间引力并结合斥力算法、等高线投影和染色算法将结构化数据转换为轮廓图像(二维彩色等高线轮廓图),随后从图像中提取低维特征向量;根据二维彩色等高线轮廓图的图像特征向量(低维特征向量)采用密度聚类的方法实现大规模的用户群微细分以形成用户微细分簇群;将图像(二维彩色等高线轮廓图)中提取的低维特征向量及用户微细分簇群的提升度用于优先推荐模型的优化提升,根据优化后的优先推荐模型识别用户深层特征并对用户群进行微细分以进行精准信息推送。
实施例十四
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请实施例提供的任一项基于用户群微细分的信息推送方法。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(AN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
以上介绍了本发明的较佳实施方式,旨在使得本发明的精神更加清楚和便于理解,并不是为了限制本发明,凡在本发明的精神和原则之内,所做的修改、替换、改进,均应包含在本发明所附的权利要求概括的保护范围之内。

Claims (10)

1.一种基于用户群微细分的信息推送方法,其特征在于,包括以下步骤:
从服务器获取用户信息及其对应的产品信息;
对所述用户信息及其对应的产品信息进行标准化处理,得到第一数据集;
对所述第一数据集进行结构引力成像处理,将结构化数据转换为二维彩色等高线轮廓图;
从所述二维彩色等高线轮廓图中提取低维特征向量;
根据所述低维特征向量采用密度聚类的方法对用户群进行微细分以形成用户微细分簇群;
将所述低维特征向量及用户微细分簇群的提升度用于优先推荐模型的优化提升;
基于所述优先推荐模型的预测结果向用户群进行相应产品的信息推送。
2.如权利要求1所述的方法,其特征在于,其中所述产品信息包括针对所述产品的用户的历史行为数据。
3.如权利要求1所述的方法,其特征在于,其中对所述用户信息及其对应的产品信息进行标准化处理,得到第一数据集,包括:
将所述用户信息及其对应的产品信息标准化处理为用户与产品的月日均数据宽表;
根据全体用户与各产品的数据分布,进行零值归并二次分箱离散化,通过百分位数分箱、非正数点合并、十分位数分箱,将各项数据离散化为十个分箱标签,并以箱体中位数作为分箱量化值;
所述零值归并二次分箱离散化标签的计算公式为:
Figure 958691DEST_PATH_IMAGE001
,其中n为全体用户数量
Figure 515312DEST_PATH_IMAGE002
式中, LOC_
Figure 956701DEST_PATH_IMAGE003
为第i个百分位数的位置,LOC_
Figure 24014DEST_PATH_IMAGE004
为第j个十分位数的位置,i和j分别 表示第i和第j个分位数;
根据用户在各产品资产占比的分箱标签,串联形成用户的分箱离散化编码,形成第一数据集。
4.如权利要求3所述的方法,其特征在于,其中对所述第一数据集进行结构引力成像处理,将结构化数据转换为二维彩色等高线轮廓图,从所述二维彩色等高线轮廓图中提取低维特征向量,包括:
根据全体用户的分箱离散化编码,进行相关分析,计算相关系数矩阵,将相关系数转化为变量间的引力;
根据全体用户的各个产品购买金额汇总占比和相关系数矩阵,映射为星系中的星球大小和星际引力,应用斥力算法通过迭代得到星系稳定后各星球的空间坐标;
根据稳定后的产品星球大小和空间位置,将星球大小映射为山峰海拔高度,并对二维网格中的大量缺失值进行插值填充,构建三维地形图;
根据三维地形图,进行等高线投影,并基于海拔高度的不同进行不同染色,构建二维彩色等高线轮廓图;
根据全体用户对应的大量二维彩色等高线轮廓图,通过自动编码器训练建模,以抽取二维彩色等高线轮廓图的低维特征向量,并建立分箱离散化编码和低维特征向量的映射表。
5.如权利要求4所述的方法,其特征在于,其中所述根据所述低维特征向量采用密度聚类的方法对用户群进行微细分以形成用户微细分簇群,包括:
根据分箱离散化编码的频数统计和低维特征向量映射表,通过频数加权还原全体用户的低维特征向量数据;
根据全体用户的低维特征向量数据,通过基于密度的聚类算法,进行聚类;
将聚类结果中的所有簇群和未形成簇群的离群点进行合并,形成最终的微细分簇群集合,以微细分簇群中心点的分箱离散化编码作为该微细分簇群的分箱离散化编码。
6.如权利要求5所述的方法,其特征在于,其中将所述低维特征向量及用户微细分簇群的提升度用于优先推荐模型的优化提升,包括:
将每个用户的低维特征向量作为新的特征变量,加入到现有各个优先推荐模型的宽表之中,重新训练原有预测模型,以得到各个产品对应的第一优先推荐模型;
计算每个用户微细分簇群中的阳性占比相对全体用户阳性占比的提升度,将每个用户对应微细分簇群的提升度作为新的特征变量,加入到现有各个产品对应的第一优先推荐模型的宽表之中,训练该第一优先推荐模型,以得到优化后的优先推荐模型。
7.一种基于用户群微细分的信息推送系统,其特征在于,包括:
数据处理单元,其用于从服务器获取用户信息及其对应的产品信息,并且对所述用户信息及其对应的产品信息进行标准化处理,得到第一数据集;
结构引力成像单元,其用于对所述第一数据集进行结构引力成像处理,将结构化数据转换为二维彩色等高线轮廓图,并且从所述二维彩色等高线轮廓图中提取低维特征向量;
用户群微细分单元,其用于根据所述低维特征向量采用密度聚类的方法对用户群进行微细分以形成用户微细分簇群;
模型优化单元,其用于将所述低维特征向量及用户微细分簇群的提升度用于优先推荐模型的优化提升;
信息推送单元,其用于基于所述优先推荐模型的预测结果向用户群进行信息推送。
8.如权利要求7所述的系统,其特征在于,其中所述数据处理单元包括:
标准化处理单元,其用于将所述用户信息及其对应的产品信息标准化处理为用户与产品的月日均数据宽表;
百分位数分箱子单元,其用于对月日均数据宽表中的所有占比数值进行百分位数分箱;
零值合并子单元,其用于将小于等于0的百分位数分箱合并为一个,再与大于0的分箱组成新的列表;
十分位数分箱子单元,其用于对新的列表进行十分位数分箱,将原始数值转换为分箱编号;
用户编码单元,其用于根据用户在各产品资产占比的分箱标签,串联形成用户的分箱离散化编码,形成第一数据集。
9.如权利要求7所述的系统,其特征在于,其中所述结构引力成像单元包括:
引力构造子单元,其用于根据全体用户的分箱离散化编码,进行相关分析,计算相关系数矩阵,将相关系数转化为变量间的引力;
空间布局子单元,其用于根据全体用户的各个产品购买金额汇总占比和相关系数矩阵,映射为星系中的星球大小和星际引力,应用斥力算法通过迭代得到星系稳定后各星球的空间坐标;
三维地形图子单元,其用于根据稳定后的产品星球大小和空间位置,将星球大小映射为山峰海拔高度,并对二维网格中的大量缺失值进行插值填充,构建三维地形图;
投影染色子单元,其用于根据三维地形图,进行等高线投影,并基于海拔高度的不同进行不同染色,构建二维彩色等高线轮廓图;
特征抽取子单元,其用于根据全体用户对应的大量二维彩色等高线轮廓图,通过自动编码器训练建模,以抽取二维彩色等高线轮廓图的低维特征向量,并建立分箱离散化编码和低维特征向量的映射表。
10.如权利要求7所述的系统,其特征在于,其中所述用户群微细分单元包括:
特征映射子单元,其用于根据分箱离散化编码的频数统计和低维特征向量映射表,通过频数加权还原全体用户的低维特征向量数据;
密度聚类子单元,其用于根据全体用户的低维特征向量数据,通过基于密度的聚类算法,进行聚类;
簇群合并子单元,其用于将聚类结果中的所有簇群和未形成簇群的离群点进行合并,形成最终的微细分簇群集合,以微细分簇群中心点的分箱离散化编码作为该微细分簇群的分箱离散化编码。
CN202010845957.1A 2020-08-21 2020-08-21 一种基于用户群微细分的信息推送方法及系统 Active CN111738812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010845957.1A CN111738812B (zh) 2020-08-21 2020-08-21 一种基于用户群微细分的信息推送方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010845957.1A CN111738812B (zh) 2020-08-21 2020-08-21 一种基于用户群微细分的信息推送方法及系统

Publications (2)

Publication Number Publication Date
CN111738812A true CN111738812A (zh) 2020-10-02
CN111738812B CN111738812B (zh) 2020-12-08

Family

ID=72658633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010845957.1A Active CN111738812B (zh) 2020-08-21 2020-08-21 一种基于用户群微细分的信息推送方法及系统

Country Status (1)

Country Link
CN (1) CN111738812B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806338A (zh) * 2021-11-18 2021-12-17 深圳索信达数据技术有限公司 一种基于数据样本图像化的数据甄别的方法与系统
CN113934948A (zh) * 2021-10-29 2022-01-14 广州紫麦信息技术有限公司 一种产品智能推荐方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090190833A1 (en) * 2008-01-30 2009-07-30 Siemens Corporate Research, Inc. Piecewise Smooth Mumford-Shah on an Arbitrary Graph
US20170235848A1 (en) * 2012-08-29 2017-08-17 Dennis Van Dusen System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction
CN110070024A (zh) * 2019-04-16 2019-07-30 温州医科大学 一种皮肤压力性损伤热成像图像识别的方法、系统及手机
CN110209928A (zh) * 2019-04-28 2019-09-06 平安科技(深圳)有限公司 一种信息推荐方法、装置及存储介质
CN110334293A (zh) * 2019-07-12 2019-10-15 吉林大学 一种面向位置社交网络基于模糊聚类的具有时间感知位置推荐方法
CN111259263A (zh) * 2020-01-15 2020-06-09 腾讯云计算(北京)有限责任公司 一种物品推荐方法、装置、计算机设备及存储介质
CN111311136A (zh) * 2020-05-14 2020-06-19 深圳索信达数据技术有限公司 风控决策方法、计算机设备及存储介质
CN111353103A (zh) * 2020-03-03 2020-06-30 京东数字科技控股有限公司 用于确定用户社群信息的方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090190833A1 (en) * 2008-01-30 2009-07-30 Siemens Corporate Research, Inc. Piecewise Smooth Mumford-Shah on an Arbitrary Graph
US20170235848A1 (en) * 2012-08-29 2017-08-17 Dennis Van Dusen System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction
CN110070024A (zh) * 2019-04-16 2019-07-30 温州医科大学 一种皮肤压力性损伤热成像图像识别的方法、系统及手机
CN110209928A (zh) * 2019-04-28 2019-09-06 平安科技(深圳)有限公司 一种信息推荐方法、装置及存储介质
CN110334293A (zh) * 2019-07-12 2019-10-15 吉林大学 一种面向位置社交网络基于模糊聚类的具有时间感知位置推荐方法
CN111259263A (zh) * 2020-01-15 2020-06-09 腾讯云计算(北京)有限责任公司 一种物品推荐方法、装置、计算机设备及存储介质
CN111353103A (zh) * 2020-03-03 2020-06-30 京东数字科技控股有限公司 用于确定用户社群信息的方法和装置
CN111311136A (zh) * 2020-05-14 2020-06-19 深圳索信达数据技术有限公司 风控决策方法、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113934948A (zh) * 2021-10-29 2022-01-14 广州紫麦信息技术有限公司 一种产品智能推荐方法及系统
CN113806338A (zh) * 2021-11-18 2021-12-17 深圳索信达数据技术有限公司 一种基于数据样本图像化的数据甄别的方法与系统

Also Published As

Publication number Publication date
CN111738812B (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
Bharadiya A comparative study of business intelligence and artificial intelligence with big data analytics
Kotu et al. Predictive analytics and data mining: concepts and practice with rapidminer
CN111784455A (zh) 一种物品推荐方法及推荐设备
CN112291807B (zh) 一种基于深度迁移学习和跨域数据融合的无线蜂窝网络流量预测方法
Verdhan Supervised learning with python
CN111738812B (zh) 一种基于用户群微细分的信息推送方法及系统
CN110097287B (zh) 一种物流司机的群体画像方法
CN112070577A (zh) 一种商品推荐方法、系统、设备及介质
CN111861759A (zh) 产品与客户群体的匹配方法和系统
CN113781139A (zh) 物品推荐方法、物品推荐装置、设备和介质
CN114997916A (zh) 潜在用户的预测方法、系统、电子设备和存储介质
Xu et al. Repurchase prediction based on ensemble learning
CN112487284A (zh) 银行客户画像生成方法、设备、存储介质及装置
Murugesan et al. Forecasting agricultural commodities prices using deep learning-based models: basic LSTM, bi-LSTM, stacked LSTM, CNN LSTM, and convolutional LSTM
CN116029760A (zh) 消息推送方法、装置、计算机设备和存储介质
CN114429384B (zh) 基于电商平台的产品智能推荐方法及系统
Farkaš et al. Artificial Neural Networks and Machine Learning–ICANN 2020: 29th International Conference on Artificial Neural Networks, Bratislava, Slovakia, September 15–18, 2020, Proceedings, Part II
CN111667307B (zh) 一种理财产品销量的预测方法及装置
CN113032648A (zh) 一种数据筛选方法、装置、计算机设备及存储介质
CN112862395A (zh) 基于区块链的物流供应链管理系统
Mehdi¹ et al. Check for updates Regularization in CNN: A Mathematical Study for L1, L2 and Dropout Regularizers
Liu et al. Inventory Management of Automobile After-sales Parts Based on Data Mining
WO2021029835A1 (en) A method and system for clustering performance evaluation and increment
Dheenadayalan et al. Multimodal neural network for demand forecasting
US20230368035A1 (en) Multi-level time series forecasting using artificial intelligence techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant