CN115576789A - 流失用户识别方法和系统 - Google Patents

流失用户识别方法和系统 Download PDF

Info

Publication number
CN115576789A
CN115576789A CN202211290166.2A CN202211290166A CN115576789A CN 115576789 A CN115576789 A CN 115576789A CN 202211290166 A CN202211290166 A CN 202211290166A CN 115576789 A CN115576789 A CN 115576789A
Authority
CN
China
Prior art keywords
user
data
loss
operation data
attrition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211290166.2A
Other languages
English (en)
Inventor
周振雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hode Information Technology Co Ltd
Original Assignee
Shanghai Hode Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hode Information Technology Co Ltd filed Critical Shanghai Hode Information Technology Co Ltd
Priority to CN202211290166.2A priority Critical patent/CN115576789A/zh
Publication of CN115576789A publication Critical patent/CN115576789A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施例提供了一种流失用户识别方法和系统,其中,所述的方法包括:获取用户的操作数据;根据预置的流失用户识别模型对所述用户的操作数据进行识别以得到流失概率;在所述流失概率大于预设阈值的情况下,确定所述用户为流失用户,并根据预置的流失类别判定模型对所述用户的操作数据进行处理以确定所述流失用户的流失类型。通过预先利用用户的操作数据训练得到预置的流失用户识别模型和预置的流失类别判定模型,利用训练得到的模型对用户的操作数据进行分析得到流失用户的流失类型,从而可以分析用户流失的原因以针对性地设计挽留策略,而且可以及时触发执行相应的挽留策略,避免挽留策略触达不及时,提升挽留用户的效果。

Description

流失用户识别方法和系统
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种流失用户识别方法、系统、计算机设备及计算机可读存储介质。
背景技术
用户流失会对经营APP(Application,应用程序)的企业造成不良影响,例如降低企业收入,影响企业业绩,降低企业收益率等等,用户流失一直是企业最关注的指标之一。目前,对用户流失的分析存在由于流失用户的信息过少,导致很难分析流失的原因和规律,特别是新用户的信息更少,无法针对性地设计挽留策略。
发明内容
本申请实施例的目的是提供一种流失用户识别方法、系统、计算机设备及计算机可读存储介质,用于解决以下问题:分析用户流失的原因和规律较为困难,无法针对性地设计挽留策略。
本申请实施例的一个方面提供了一种流失用户识别方法,包括:
获取用户的操作数据;
根据预置的流失用户识别模型对所述用户的操作数据进行识别以得到流失概率;
在所述流失概率大于预设阈值的情况下,确定所述用户为流失用户,并根据预置的流失类别判定模型对所述用户的操作数据进行处理以确定所述流失用户的流失类型。
可选地,还包括:
查找与所述流失类型匹配的目标挽留策略,并执行所述目标挽留策略以挽留所述流失用户。
可选地,所述用户的操作数据包含视线数据,手势操作数据和界面内容数据;
在所述获取用户的操作数据的步骤之后,还包括:
根据所述界面内容数据将所述视线数据转化为视线埋点数据,以及将所述手势操作数据转化为操作埋点数据;
将所述界面内容数据转化为数据标签集合。
可选地,在所述获取用户的操作数据的步骤之后,还包括:
对所述用户的操作数据进行向量化处理以得到特征向量。
本申请实施例的一个方面又提供了一种流失用户识别模型的生成方法,包括:
获取第一预设时长内用户的操作数据;
将所述用户标记为流失用户或留存用户,并根据添加标记后的所述用户的操作数据训练初始识别模型以得到预置的流失用户识别模型;
对所述流失用户的操作数据进行分析以确定流失原因,并根据所述流失原因标注所述流失用户的操作数据得到样本数据,根据所述样本数据训练初始分类模型以得到预置的流失类别判定模型。
可选地,所述用户的操作数据包含最近打开APP的时间;所述将所述用户标记为流失用户或留存用户包括:
根据所述最近打开APP的时间判断所述用户在第二预设时长内是否打开APP;
若所述用户在第二预设时长内未打开APP,则将所述用户标记为流失用户;或,若所述用户在第二预设时长内打开过APP,则将所述用户标记为留存用户。
可选地,所述对所述流失用户的操作数据进行分析以确定流失原因,包括:
对所述流失用户的操作数据进行聚类分析得到聚类结果数据;
根据所述聚类结果数据进行分析以确定流失原因。
本申请实施例的一个方面又提供了一种流失用户识别系统,包括:
流失用户识别模型的生成装置,用于获取预设时长内用户的操作数据;将所述用户标记为流失用户或留存用户,并根据添加标记后的所述用户的操作数据训练初始识别模型以得到预置的流失用户识别模型;对所述流失用户的操作数据进行分析以确定流失原因,并根据所述流失原因标注所述流失用户的操作数据得到样本数据,根据所述样本数据训练初始分类模型以得到预置的流失类别判定模型;
流失用户识别装置,用于获取用户的操作数据;对所述用户的操作数据进行向量化处理以得到特征向量;根据预置的流失用户识别模型对所述用户的操作数据进行识别以得到流失概率;在所述流失概率大于预设阈值的情况下,确定所述用户为流失用户,并根据预置的流失类别判定模型对所述用户的操作数据进行处理以确定所述流失用户的流失类型。
本申请实施例的一个方面又提供了一种计算机设备,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述的流失用户识别方法的步骤和流失用户识别模型的生成方法的步骤。
本申请实施例的一个方面又提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行所述计算机程序时实现如上述的流失用户识别方法的步骤和流失用户识别模型的生成方法的步骤。
本申请实施例提供的流失用户识别的方法、系统、设备及计算机可读存储介质,通过预先利用用户的操作数据训练得到预置的流失用户识别模型和预置的流失类别判定模型,利用训练得到的模型对用户的操作数据进行分析得到流失用户的流失类型,从而可以分析用户流失的原因以针对性地设计挽留策略,而且可以及时触发执行相应的挽留策略,避免挽留策略触达不及时,提升挽留用户的效果。
附图说明
图1示意性示出了根据本申请实施例的流失用户识别方法的应用环境图;
图2示意性示出了根据本申请实施例一的流失用户识别方法的流程图;
图3示意性示出了根据本申请实施例一的一种视线数据识别的示意图;
图4示意性示出了根据本申请实施例二的流失用户识别模型的生成方法的流程图;
图5示意性示出了根据本申请实施例二的流失用户识别模型的生成方法的新增步骤流程图;
图6示意性出了根据本申请实施例二的一种可视化聚类结果数据的示意图;
图7示意性示出了根据本申请实施例三的流失用户识别系统的框图;
图8示意性示出了根据本申请实施例四的流失用户识别装置的框图;
图9示意性示出了根据本申请实施例五的流失用户识别模型的生成装置的框图;及
图10示意性示出了根据本申请实施例六的适于实现流失用户识别方法的计算机设备的硬件架构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本申请实施例中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
目前,对用户流失的分析和挽留在业内一直存在如下两个问题:一是流失用户的信息过少,很难分析流失的原因和规律,特别是新用户,导致无法针对性地设计挽留策略;二是挽留策略触达的不及时,很多挽留策略都是在发现用户长时间没有上线后通过短信或APP推送消息来召回用户,这时候很多用户已经卸载APP或者忙于别的事,召回效果往往很差。
有鉴于此,本申请旨在提出一种流失用户识别模型的生成方法,通过获取第一预设时长内用户的操作数据;将所述用户标记为流失用户或留存用户,并根据添加标记后的所述用户的操作数据训练初始识别模型以得到预置的流失用户识别模型;对所述流失用户的操作数据进行分析以确定流失原因,并根据所述流失原因标注所述流失用户的操作数据得到样本数据,根据所述样本数据训练初始分类模型以得到预置的流失类别判定模型。同时,本申请还提出了一种流失用户识别的方法,通过获取用户的操作数据;根据预置的流失用户识别模型对所述用户的操作数据进行识别以得到流失概率;在所述流失概率大于预设阈值的情况下,确定所述用户为流失用户,并根据预置的流失类别判定模型对所述用户的操作数据进行处理以确定所述流失用户的流失类型。从而通过预先利用用户的操作数据训练得到预置的流失用户识别模型和预置的流失类别判定模型,利用训练得到的模型对用户的操作数据进行分析得到流失用户的流失类型,以便于根据用户流失类型及时触发挽留策略。
本申请提供了多个实施例进一步介绍流失用户识别方案,具体参照下文。
在本申请的描述中,需要理解的是,步骤前的数字标号并不标识执行步骤的前后顺序,仅用于方便描述本申请及区别每一步骤,因此不能理解为对本申请的限制。
以下为本申请的术语解释:
端智能:在设备端(如iPhone手机、安卓手机等)上部署运行AI模型。
视线追踪:识别追踪视线在屏幕上的坐标位置。
手势识别:识别操作介质(如用户的手指或触控笔等)在屏幕上的操作,如点击、滑动、双击、长按等。
词向量:将字词转化为一个多维向量。
聚类模型:将向量距离相近的数据归为一类的模型。
图1示意性示出了根据本申请实施例的环境应用示意图。如图1所示:
计算机设备10000可以通过网络20000连接客户端30000。
计算机设备10000可以提供服务,如进行网络调试,或返回流失用户识别结果数据给客户端30000等。
计算机设备10000可以位于诸如单个场所之类的数据中心,或者分布在不同的地理位置(例如,在多个场所)中。计算机设备10000可以经由一个或多个网络20000提供服务。网络20000包括各种网络设备,例如路由器,交换机,多路复用器,集线器,调制解调器,网桥,中继器,防火墙,代理设备和/或类似。网络20000可以包括物理链路,例如同轴电缆链路,双绞线电缆链路,光纤链路,其组合等。网络20000可以包括无线链路,诸如蜂窝链路,卫星链路,Wi-Fi链路等。
计算机设备10000可以由一个或多个计算节点实现。一个或多个计算节点可以包括虚拟化的计算实例。虚拟化的计算实例可以包括虚拟机,例如计算机系统,操作系统,服务器等的仿真。计算节点可以基于虚拟映像和/或定义用于仿真的特定软件(例如,操作系统,专用应用程序,服务器)的其他数据,由计算节点加载虚拟机。随着对不同类型的处理服务的需求改变,可以在一个或多个计算节点上加载和/或终止不同的虚拟机。可以实现管理程序来管理同一计算节点上不同虚拟机的使用。
客户端30000可以被配置为访问计算机设备10000的内容和服务。客户端30000可以包括任何类型的电子设备,诸如移动设备、平板设备、膝上型计算机、工作站、虚拟现实设备,游戏设备、机顶盒、数字流媒体设备、车辆终端、智能电视、机顶盒等。
客户端30000可以将流失用户识别结果数据等输出(例如,显示、渲染、呈现)给用户。
以下将通过多个实施例介绍网络调试方案。该方案可以通过计算机设备10000实施。
实施例一
图2示意性示出了根据本申请实施例一的流失用户识别方法的流程图。包括步骤S200-S204,其中,
步骤S200,获取用户的操作数据;
在本实施例中,通过获取用户的操作数据,以基于用户的操作数据分析用户是否会流失。用户的操作数据可以包含视线数据,手势操作数据和界面内容数据等。其中,视线数据用于描述人眼在终端设备的屏幕上的位置,具体可以通过获取终端设别的摄像装置拍摄用户图像,然后利用算法根据用户图像计算得到视线数据,例如,安装iPhone系统的终端设备上可以使用iPhone系统自带的AR Face Tracking方法实现对用户视线数据的追踪,在安装Android系统的终端设备上可以使用第三方的GazeTracking框架实现对用户视线数据的追踪,如图3所示,通过算法根据用户图像计算得到实现数据为(282,574)。手势操作数据用于描述用户在终端设备上进行的手势操作和所操作的页面内容,例如,手势操作可以为点击、双击、上滑、下滑、左滑、右滑等。
步骤S202,根据预置的流失用户识别模型对所述用户的操作数据进行识别以得到流失概率;
其中,预置的流失用户识别模型为预先采用大量的操作数据训练完成的模型,用于识别用户是否会流失。在具体实现中,通过对用户的操作数据进行向量化处理得到特征向量,然后将特征向量输入至预置的流失用户识别模型中进行识别,并输出流失概率。
在本实施例中,预置的流失用户识别模型是一个预测模型,其可以预测用户会发生流失的概率,需要注意的是,流失概率描述的是用户会发生流失的倾向,此时用户还没有发生流失。预置的流失用户识别模型通常基于机器学习进行研究;具体来说,是基于二元分类算法进行研究,将用户分为两组(类)——已流失的和未流失的,分组的同时,还会输出用户属于某一组的概率,即流失概率。在一些可行的示例中,预置的流失用户识别模型使用的分类算法可以为逻辑回归算法、随机森林算法、或GBM算法等。
步骤S204,在所述流失概率大于预设阈值的情况下,确定所述用户为流失用户,并根据预置的流失类别判定模型对所述用户的操作数据进行处理以确定所述流失用户的流失类型。
其中,预设阈值为预先设定的概率临界值,如0.8。在本实施例中,通过对比流失概率和预设阈值,如果流失概率大于预设阈值,则表示该用户可能会流失,则可以确定用户为流失用户,并根据预置的流失类别判定模型对用户的操作数据进行处理以确定流失用户的流失类型,以基于流失类型进行后续的挽留策略。如果流失概率小于或等于预设阈值,则表示该用户可能不会流失,则可以确定用户为留存用户,不需要进行后续的挽留策略。
在本实施例中,预置的流失类别判定模型为预先采用大量的操作数据训练完成的模型,用于识别流失用户的流失类型,该流失类型可以包含广告干扰类型、内容不够吸引类型、Bug较多类型等等。在具体实现中,通过对用户的操作数据进行向量化处理得到特征向量,然后将特征向量输入至预置的流失类别判定模型中进行分类识别,并输出流失用户的流失类型。
其中,预置的流失用户识别模型是一个分类模型,利用采集的样本数据训练分分类器的参数,使得预置的流失用户识别模型的效果可以达到预期。在一些可行的示例中,预置的流失用户识别模型使用的分类算法可以为:NBC算法(Naive Bayesian Classifier,朴素贝叶斯分类)、LR算法(Logistic Regress,逻辑回归)、SVM算法(Support VectorMachine,支持向量机)、KNN算法(K-Nearest Neighbor,K最近邻近)、ANN算法(ArtificialNeural Network,人工神经网络)等。
以下提供几个可选地实施例,以进行优化所述流失用户识别方法,具体如下:
在本申请的一种优选实施例中,如图4所示,在所述步骤S204之后还可以包括步骤S206:查找与所述流失类型匹配的目标挽留策略,并执行所述挽留策略以挽留所述流失用户。
在本实施例中,每一种流失类型都具有一一对应的挽留策略,通过查找与流失类型匹配的目标挽留策略,并执行目标挽留策略以及时挽留流失用户。作为示例,若流失类型为广告干扰类型,则挽留策略可以为给用户开通临时会员;若流失类型为内容不够吸引类型,则挽留策略可以为给用户推荐其他内容而不再基于用户画像进行个性化推荐;若流失类型为Bug较多类型,则挽留策略可以为提醒用户更新到最新的应用版本等。
在本申请的一种优选实施例中,所述用户的操作数据包含视线数据,手势操作数据和界面内容数据;在所述步骤S200之后,还可以包括如下步骤:根据所述界面内容数据将所述视线数据转化为视线埋点数据,以及将所述手势操作数据转化为操作埋点数据;将所述界面内容数据转化为数据标签集合。
在本实施例中,获取到用户的操作数据之后还可以对这些数据进行转化,其中,对于视线数据,可以结合界面内容数据将视线数据转化为视线埋点数据,该视线埋点数据即为用户视线所看的组件,作为一种示例,视线数据先转化为每隔预设时长(如0.5s)视线在屏幕上的位置数组,如[(125,80),(225,180),(15,120)],然后转化为每个位置在用户界面上对应的操作组件,如[第一个单元格,广告弹窗,关闭按钮]。对于手势操作数据,可以结合界面内容数据将视线数据转化为操作埋点数据,该操作埋点数据即为用户对界面上的组件所做的操作,例如,手势操作为[点击、双击、上划、左滑],转化后[点击第一个单元格,上划广告弹窗,双击关闭按钮]。对于界面内容数据可以转化为数据标签集合,其中,数据标签可以为界面内容数据对应的关键字词,包含界面所显示的内容的标题,页数或集数,类型,标签等信息,例如,数据标签集合为{鬼灭之刃,日漫,兄妹,第五集}。
通过结合界面内容数据对视线数据进行转化,以及结合界面内容数据对手势操作数据进行转化,可以使得数据的语义更为完整,有利于后续的步骤中利用这些数据分析用户的流失。对于界面内容数据,由于包含的内容较多,而且有些内容是图片或视频画面等,而对用户流失的分析通常只需要对应的一些关键字词,通过将界面内容数据转化为数据标签集合,便于采用这些数据分析用户的流失。
在本申请的一种优选实施例中,在所述步骤S200之后,还可以包括如下步骤:对所述用户的操作数据进行向量化处理以得到特征向量。
在模型分析的过程中通常需要对文本词进行特征提取,在本实施例中,通过对用户的操作数据进行向量化处理得到特征向量,该特征向量用于描述字词的语义信息,可以作为输入数据,输入到预置的流失用户识别模型中分析用户的流失概率,或输入到预置的流失类别判定模型中分析用户流失原因。
作为一种示例,可以通过Bert模型(BidirectionalEncoder Representationsfrom Transformer)将经过上述步骤转化得到的视线埋点数据,操作埋点数据和数据标签集合,转化为768维的词向量并拼接保存,以在后续步骤中将转化后的特征向量输入至训练好的模型中识别用户是否会流失以及流失的类型,并及时对流失用户执行相应的挽留策略。
Bert模型的主要输入是文本中各个字/词的原始词向量,该向量既可以随机初始化,也可以利用Word2Vector等算法进行预训练以作为初始值;输出是文本中各个字/词融合了全文语义信息后的向量表示,采用Bert模型进行处理得到的特征向量进行用户流失分析,进一步提高分析的准确率。
在本实施例中,可以通过客户端上集成TensorFlow Lite框架,然后将上述的预置的流失用户识别模型和预置的流失类别判定模型转化为tflite格式,并部署在客户端。两个模型已经部署之后,当用户使用APP时,实时根据视线数据,手势操作数据和界面内容数据转化为多维向量数据,多维向量数据先输入预置的流失用户识别模型,如果识别为不流失则不处理,如果识别为会流失,则执行预置的流失类别判定模型,以根据流失类别实时调用对应挽留策略,比如广告原因流失用户会给临时会员、内容原因会推其他头部内容等,通过这个方案来实时挽留用户。
实施例二
图5示意性示出了根据本申请实施例二的流失用户识别模型的生成方法的流程图。包括步骤S500-S504,其中,
步骤S500,获取第一预设时长内用户的操作数据;
其中,第一预设时长为预先设定的一段时间,例如,30天或45天等,本实施例对此不作限制。在本实施例中,可以采集一段时间内的用户的操作数据作为样本来训练流失用户识别模型和流失类别判定模型。
步骤S502,将所述用户标记为流失用户或留存用户,并根据添加标记后的所述用户的操作数据训练初始识别模型以得到预置的流失用户识别模型;
在本实施例中,通过首先对用户进行标注,将用户标注为流失用户或留存用户,然后根据添加标注后的用户的操作数据训练初始识别模型以得到预置的流失用户识别模型。
步骤S504,对所述流失用户的操作数据进行分析以确定流失原因,并根据所述流失原因标注所述流失用户的操作数据得到样本数据,根据所述样本数据训练初始分类模型以得到预置的流失类别判定模型。
在本实施例中,通过对流失用户的操作数据进行分析以确定流失原因,例如,可以采用聚类分析的方式,对用户的操作数据进行聚类,然后通过分析每一类别中用户最后几步的操作的共同点,并确定该类别用户的流失原因。
在分析得到流失原因之后,利用这些流失原因标注流失用户的操作数据得到样本数据,例如,用户的流失原因是“广告原因”,则给该用户的操作数据添加“广告原因”作为标注信息;用户的流失原因是“内容原因”,则给该用户的操作数据添加“内容原因”作为标注信息;用户的流失原因是“Bug原因”,则给该用户的操作数据添加“Bug原因”作为标注信息。
最后,将根据流失原因对用户的操作数据进行标注之后的数据作为样本数据,根据这些样本数据训练初始分类模型以得到预置的流失类别判定模型。例如,初始分类模型可以为KNN(K-NearestNeighbor,k最邻近分类算法)模型,通过利用KNN模型进行训练,在模型收敛后保存,得到预置的流失类别判定模型。
以下提供几个可选地实施例,以进行优化所述流失用户识别模型的生成方法,具体如下:
在本申请的一种优选实施例中,所述用户的操作数据包含最近打开APP的时间;所述步骤S502可以包括如下步骤:根据所述最近打开APP的时间判断所述用户在第二预设时长内是否打开APP;若所述用户在第二预设时长内未打开APP,则将所述用户标记为流失用户;或,若所述用户在第二预设时长内打开过APP,则将所述用户标记为留存用户。
其中,第二预设时长为预先设定的时间长度,例如,10天或15天等,本实施例对此不作限制。在具体实现中,根据最近打开APP的时间和当前时间确用户未打开的时长,然后对比用户未打开的时长和第二预设时长来判断用户在第二预设时长内是否打开APP,若用户在第二预设时长内未打开APP,则将该用户标注为流失用户;或,若用户在第二预设时长内打开过APP,则将该用户标注为留存用户。
在本申请的一种优选实施例中,所述步骤S504可以包括如下步骤:对所述流失用户的操作数据进行聚类分析得到聚类结果数据;根据所述聚类结果数据进行分析以确定流失原因。
作为一种示例,可以将流失用户的操作数据通过K-Means模型聚类,可视化后得到类似如图6所示的聚类结果。进而,通过对聚类后的结果分析,从最后几步操作可以分析出有流失原因,例如,最后几步操作是关闭广告则分析出是广告原因,最后几步操作是切换剧集则分析出是内容原因,最后的操作是非正常退出则分析出是Bug原因等等。
在本申请的一种优选实施例中,所述用户的操作数据还包含视线数据,手势操作数据和界面内容数据;在所述步骤S500之后,还可以包括如下步骤:根据所述界面内容数据将所述视线数据转化为视线埋点数据,以及将所述手势操作数据转化为操作埋点数据;将所述界面内容数据转化为数据标签集合。
在本实施例中,获取到用户的操作数据之后还可以对这些数据进行转化,其中,对于视线数据,可以结合界面内容数据将视线数据转化为视线埋点数据,该视线埋点数据即为用户视线所看的组件,作为一种示例,视线数据先转化为每隔预设时长(如0.5s)视线在屏幕上的位置数组,如[(125,80),(225,180),(15,120)],然后转化为每个位置在用户界面上对应的操作组件,如[第一个单元格,广告弹窗,关闭按钮]。对于手势操作数据,可以结合界面内容数据将视线数据转化为操作埋点数据,该操作埋点数据即为用户对界面上的组件所做的操作,例如,手势操作为[点击、双击、上划、左滑],转化后[点击第一个单元格,上划广告弹窗,双击关闭按钮]。对于界面内容数据可以转化为数据标签集合,其中,数据标签可以为界面内容数据对应的检索关键字词,包含界面所显示的内容的标题,页数或集数,类型,标签等信息,例如,数据标签集合为{鬼灭之刃,日漫,兄妹,第五集}。
通过结合界面内容数据对视线数据进行转化,以及结合界面内容数据对手势操作数据进行转化,可以使得数据的语义更为完整,有利于后续的步骤中利用这些数据分析用户的流失。对于界面内容数据,由于包含的内容较多,而且有些内容是图片或视频画面等,而对用户流失的分析通常只需要对应的一些关键字词,通过将界面内容数据转化为数据标签集合,便于采用这些数据分析用户的流失。
在本申请的一种优选实施例中,在所述步骤S500之后,还可以包括如下步骤:对所述用户的操作数据进行向量化处理以得到特征向量。
作为一种示例,可以通过Bert模型将经过上述步骤转化得到的视线埋点数据,操作埋点数据和数据标签集合,转化为768维的词向量并拼接保存,以在后续步骤中将转化后的特征向量输入至训练好的模型中识别用户是否会流失以及流失的类型,并及时对流失用户执行相应的挽留策略。
实施例三
图7示意性示出了根据本申请实施例三的流失用户识别系统的框图,该流失用户识别系统可以被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本申请实施例。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,以下描述将具体介绍本申请实施例中各程序模块的功能。
如图7所示,该流失用户识别系统700可以包括如下装置:
流失用户识别模型的生成装置710,用于获取预设时长内用户的操作数据;将所述用户标记为流失用户或留存用户,并根据添加标记后的所述用户的操作数据训练初始识别模型以得到预置的流失用户识别模型;对所述流失用户的操作数据进行分析以确定流失原因,并根据所述流失原因标注所述流失用户的操作数据得到样本数据,根据所述样本数据训练初始分类模型以得到预置的流失类别判定模型;
流失用户识别装置720,用于获取用户的操作数据;对所述用户的操作数据进行向量化处理以得到特征向量;根据预置的流失用户识别模型对所述用户的操作数据进行识别以得到流失概率;在所述流失概率大于预设阈值的情况下,确定所述用户为流失用户,并根据预置的流失类别判定模型对所述用户的操作数据进行处理以确定所述流失用户的流失类型。
实施例四
图8示意性示出了根据本申请实施例四的流失用户识别装置的框图,该流失用户识别装置可以被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本申请实施例。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,以下描述将具体介绍本申请实施例中各程序模块的功能。
如图8所示,该流失用户识别装置800可以包括如下模块:
数据获取模块810,用于获取用户的操作数据;
流失概率识别模块820,用于根据预置的流失用户识别模型对所述用户的操作数据进行识别以得到流失概率;
流失类型识别模块830,用于在所述流失概率大于预设阈值的情况下,确定所述用户为流失用户,并根据预置的流失类别判定模型对所述用户的操作数据进行处理以确定所述流失用户的流失类型。
在本申请的一种优选实施例中,还包括:
挽留策略执行模块,用于查找与所述流失类型匹配的目标挽留策略,并执行所述目标挽留策略以挽留所述流失用户。
在本申请的一种优选实施例中,所述用户的操作数据包含视线数据,手势操作数据和界面内容数据;所述装置还包括:
第一数据转化模块,用于根据所述界面内容数据将所述视线数据转化为视线埋点数据,以及将所述手势操作数据转化为操作埋点数据;
第二数据转化模块,用于将所述界面内容数据转化为数据标签集合。
在本申请的一种优选实施例中,所述装置还包括:
向量化处理处理模块,用于对所述用户的操作数据进行向量化处理以得到特征向量。
实施例五
图9示意性示出了根据本申请实施例五的流失用户识别模型的生成装置的框图,该流失用户识别装置可以被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本申请实施例。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,以下描述将具体介绍本申请实施例中各程序模块的功能。
如图9所示,该流失用户识别模型的生成900可以包括如下模块:
数据获取模块910,用于获取第一预设时长内用户的操作数据;
第一模型训练模块920,用于将所述用户标记为流失用户或留存用户,并根据添加标记后所述用户的操作数据训练初始识别模型以得到预置的流失用户识别模型;
第二模型训练模块930,用于对所述流失用户的操作数据进行分析以确定流失原因,并根据所述流失原因标注所述流失用户的操作数据得到样本数据,根据所述样本数据训练初始分类模型以得到预置的流失类别判定模型。
在本申请的一种优选实施例中,所述用户的操作数据包含最近打开APP的时间;所述第一模型训练模块920包括:
判断子模块,用于根据所述最近打开APP的时间判断所述用户在第二预设时长内是否打开APP;
标注模块,用于若所述用户在第二预设时长内未打开APP,则将所述用户标记为流失用户;或,若所述用户在第二预设时长内打开过APP,则将所述用户标记为留存用户。
在本申请的一种优选实施例中,所述第二模型训练模块930,包括:
聚类分析子模块,用于对所述流失用户的操作数据进行聚类分析得到聚类结果数据;
流失原因确定模块,用于根据所述聚类结果数据进行分析以确定流失原因。
在本申请的一种优选实施例中,所述用户的操作数据还包含视线数据,手势操作数据和界面内容数据;所述装置还包括:
第一数据转化模块,用于根据所述界面内容数据将所述视线数据转化为视线埋点数据,以及将所述手势操作数据转化为操作埋点数据;
第二数据转化模块,用于将所述界面内容数据转化为数据标签集合。
在本申请的一种优选实施例中,所述装置还包括:
向量化处理处理模块,用于对所述用户的操作数据进行向量化处理以得到特征向量。
实施例六
图10示意性示出了根据本申请实施例六的适于实现流失用户识别方法的计算机设备10000的硬件架构示意图。本实施例中,计算机设备10000是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括FEN独立的服务器,或者多个服务器所组成的服务器集群)等。如图10所示,计算机设备10000至少包括但不限于:可通过系统总线相互通信链接存储器10010、处理器10020、网络接口10030。其中:
存储器10010至少包括一种类型的计算机可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器10010可以是计算机设备10000的内部存储模块,例如该计算机设备10000的硬盘或内存。在另一些实施例中,存储器10010也可以是计算机设备10000的外部存储设备,例如该计算机设备10000上配备的插接式硬盘,智能存储卡(Smart Media Card,简称为SMC),安全数字(Secure Digital,简称为SD)卡,闪存卡(Flash Card)等。当然,存储器10010还可以既包括计算机设备10000的内部存储模块也包括其外部存储设备。本实施例中,存储器10010通常用于存储安装于计算机设备10000的操作系统和各类应用软件,例如流失用户识别方法和流失用户识别模型的生成方法的程序代码等。此外,存储器10010还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器10020在一些实施例中可以是中央处理器(Central Processing Unit,简称为CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器10020通常用于控制计算机设备10000的总体操作,例如执行与计算机设备10000进行数据交互或者通信相关的控制和处理等。本实施例中,处理器10020用于运行存储器10010中存储的程序代码或者处理数据。
网络接口10030可包括无线网络接口或有线网络接口,该网络接口10030通常用于在计算机设备10000与其他计算机设备之间建立通信链接。例如,网络接口10030用于通过网络将计算机设备10000与外部终端相连,在计算机设备10000与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,简称为GSM)、宽带码分多址(Wideband Code Division Multiple Access,简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图10仅示出了具有部件10010-10030的计算机设备,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器10010中的流失用户识别生成方法还可以被分割为一个或者多个程序模块,并由一个或多个处理器(本实施例为处理器10020)所执行,以完成本申请实施例。
实施例七
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质其上存储有计算机程序,计算机程序被处理器执行时实现实施例中的流失用户识别方法的步骤。
本实施例中,计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,计算机可读存储介质可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,计算机可读存储介质也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,简称为SMC),安全数字(Secure Digital,简称为SD)卡,闪存卡(Flash Card)等。当然,计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例中流失用户识别方法的程序代码等。此外,计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。
显然,本领域的技术人员应该明白,上述的本申请实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请实施例不限制于任何特定的硬件和软件结合。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种流失用户识别方法,其特征在于,包括:
获取用户的操作数据;
根据预置的流失用户识别模型对所述用户的操作数据进行识别以得到流失概率;
在所述流失概率大于预设阈值的情况下,确定所述用户为流失用户,并根据预置的流失类别判定模型对所述用户的操作数据进行处理以确定所述流失用户的流失类型。
2.根据权利要求1所述的流失用户识别方法,其特征在于,还包括:
查找与所述流失类型匹配的目标挽留策略,并执行所述目标挽留策略以挽留所述流失用户。
3.根据权利要求1所述的流失用户识别方法,其特征在于,所述用户的操作数据包含视线数据,手势操作数据和界面内容数据;
在所述获取用户的操作数据的步骤之后,还包括:
根据所述界面内容数据将所述视线数据转化为视线埋点数据,以及将所述手势操作数据转化为操作埋点数据;
将所述界面内容数据转化为数据标签集合。
4.根据权利要求1或3所述的流失用户识别方法,其特征在于,在所述获取用户的操作数据的步骤之后,还包括:
对所述用户的操作数据进行向量化处理以得到特征向量。
5.一种流失用户识别模型的生成方法,其特征在于,包括:
获取第一预设时长内用户的操作数据;
将所述用户标记为流失用户或留存用户,并根据添加标记后的所述用户的操作数据训练初始识别模型以得到预置的流失用户识别模型;
对所述流失用户的操作数据进行分析以确定流失原因,并根据所述流失原因标注所述流失用户的操作数据得到样本数据,根据所述样本数据训练初始分类模型以得到预置的流失类别判定模型。
6.根据权利要求5所述的流失用户识别模型的生成方法,其特征在于,所述用户的操作数据包含最近打开APP的时间;所述将所述用户标记为流失用户或留存用户包括:
根据所述最近打开APP的时间判断所述用户在第二预设时长内是否打开APP;
若所述用户在第二预设时长内未打开APP,则将所述用户标记为流失用户;或,若所述用户在第二预设时长内打开过APP,则将所述用户标记为留存用户。
7.根据权利要求5所述的流失用户识别模型的生成方法,其特征在于,所述对所述流失用户的操作数据进行分析以确定流失原因,包括:
对所述流失用户的操作数据进行聚类分析得到聚类结果数据;
根据所述聚类结果数据进行分析以确定流失原因。
8.一种流失用户识别系统,其特征在于,包括:
流失用户识别模型的生成装置,用于获取预设时长内用户的操作数据;将所述用户标记为流失用户或留存用户,并根据添加标记后的所述用户的操作数据训练初始识别模型以得到预置的流失用户识别模型;对所述流失用户的操作数据进行分析以确定流失原因,并根据所述流失原因标注所述流失用户的操作数据得到样本数据,根据所述样本数据训练初始分类模型以得到预置的流失类别判定模型;
流失用户识别装置,用于获取用户的操作数据;对所述用户的操作数据进行向量化处理以得到特征向量;根据预置的流失用户识别模型对所述用户的操作数据进行识别以得到流失概率;在所述流失概率大于预设阈值的情况下,确定所述用户为流失用户,并根据预置的流失类别判定模型对所述用户的操作数据进行处理以确定所述流失用户的流失类型。
9.一种计算机设备,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时用于实现权利要求1至4中任意一项所述的流失用户识别方法的步骤,或5至7中任意一项所述的流失用户识别模型的生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行权利要求1至4中任意一项所述的流失用户识别方法的步骤,或5至7中任意一项所述的流失用户识别模型的生成方法的步骤。
CN202211290166.2A 2022-10-20 2022-10-20 流失用户识别方法和系统 Pending CN115576789A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211290166.2A CN115576789A (zh) 2022-10-20 2022-10-20 流失用户识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211290166.2A CN115576789A (zh) 2022-10-20 2022-10-20 流失用户识别方法和系统

Publications (1)

Publication Number Publication Date
CN115576789A true CN115576789A (zh) 2023-01-06

Family

ID=84587563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211290166.2A Pending CN115576789A (zh) 2022-10-20 2022-10-20 流失用户识别方法和系统

Country Status (1)

Country Link
CN (1) CN115576789A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116579595A (zh) * 2023-07-14 2023-08-11 天津金城银行股份有限公司 基于用户行为的触达方法、装置、计算机设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116579595A (zh) * 2023-07-14 2023-08-11 天津金城银行股份有限公司 基于用户行为的触达方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN112685565B (zh) 基于多模态信息融合的文本分类方法、及其相关设备
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
CN109104620B (zh) 一种短视频推荐方法、装置和可读介质
CN107679039B (zh) 用于确定语句意图的方法和装置
US20200184307A1 (en) Utilizing recurrent neural networks to recognize and extract open intent from text inputs
US10838968B2 (en) Recommending exemplars of an unlabeled data-set
US10489127B2 (en) Mapping of software code via user interface summarization
CN108121814B (zh) 搜索结果排序模型生成方法和装置
CN113657087B (zh) 信息的匹配方法及装置
CN112347760A (zh) 意图识别模型的训练方法及装置、意图识别方法及装置
US20220121668A1 (en) Method for recommending document, electronic device and storage medium
US11036996B2 (en) Method and apparatus for determining (raw) video materials for news
CN113033682B (zh) 视频分类方法、装置、可读介质、电子设备
CN110633475A (zh) 基于计算机场景的自然语言理解方法、装置、系统和存储介质
CN112070093B (zh) 生成图像分类模型的方法、图像分类方法、装置和设备
CN114385918A (zh) 消息推送方法、装置、计算机设备及存储介质
CN112541121A (zh) 页面数据推送方法、装置、计算机设备及存储介质
CN113704420A (zh) 文本中的角色识别方法、装置、电子设备及存储介质
CN114817478A (zh) 基于文本的问答方法、装置、计算机设备及存储介质
CN115576789A (zh) 流失用户识别方法和系统
WO2022001233A1 (zh) 基于层次化迁移学习的预标注方法及其相关设备
CN116738057A (zh) 信息推荐方法、装置、计算机设备及存储介质
CN112087473A (zh) 文档下载方法、装置、计算机可读存储介质和计算机设备
CN112364649B (zh) 命名实体的识别方法、装置、计算机设备及存储介质
CN116030375A (zh) 视频特征提取、模型训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination