CN116956028A - 用户画像更新方法、装置、设备及存储介质 - Google Patents

用户画像更新方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116956028A
CN116956028A CN202310891146.9A CN202310891146A CN116956028A CN 116956028 A CN116956028 A CN 116956028A CN 202310891146 A CN202310891146 A CN 202310891146A CN 116956028 A CN116956028 A CN 116956028A
Authority
CN
China
Prior art keywords
vector
user
behavior
sequence
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310891146.9A
Other languages
English (en)
Inventor
刘亮
徐鑫
丁雪莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202310891146.9A priority Critical patent/CN116956028A/zh
Publication of CN116956028A publication Critical patent/CN116956028A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用户画像更新方法、装置、设备及存储介质,包括:根据网上行为日志确定用户的行为序列向量;根据行为序列向量和对应的行为特征序列空间向量确定向量差异性,行为特征序列空间向量用于表征用户在预设历史时长内的行为特征;根据向量差异性对用户的画像标签特征进行更新。本发明能够根据用户的行为序列向量与表征用户在预设历史时长内行为特征的行为特征序列空间向量之间的向量差异性来更新用户的画像标签特征,降低了对画像标签特征的更新频率,节省了用户的画像标签计算和挖掘过程中的冗余计算,从而提高了计算资源的利用率,在不降低画像标签精确度的同时,降低了计算成本。

Description

用户画像更新方法、装置、设备及存储介质
技术领域
本发明涉及大数据技术领域,尤其涉及一种用户画像更新方法、装置、设备及存储介质。
背景技术
目前,一般基于DPI(Deep Packet Inspection)设备通过对网络的关键点处的流量和报文内容进行检测分析来形成用户画像的标签体系,虽然DPI解析和计算能够尽可能全面地捕获用户行为信息或减小用户行为信息的丢失,但是需要投入大量的计算资源,导致计算资源的利用率低。
发明内容
本发明的主要目的在于提供了一种用户画像更新方法、装置、设备及存储介质,旨在解决现有技术中计算资源的利用率低的技术问题。
为实现上述目的,本发明提供了一种用户画像更新方法,所述方法包括以下步骤:
根据网上行为日志确定用户的行为序列向量;
根据所述行为序列向量和对应的行为特征序列空间向量确定向量差异性,所述行为特征序列空间向量用于表征所述用户在预设历史时长内的行为特征;
根据所述向量差异性对所述用户的画像标签特征进行更新。
可选地,所述根据所述向量差异性对所述用户的画像标签特征进行更新,包括:
在所述向量差异性大于预设差异阈值的情况下,将所述行为序列向量和所述向量差异性发送至画像系统;
通过所述画像系统根据所述行为序列向量和所述向量差异性对所述用户的画像标签特征进行更新。
可选地,所述根据所述向量差异性对所述用户的画像标签特征进行更新,还包括:
在所述向量差异性小于或等于预设差异阈值的情况下,舍弃所述行为序列向量。
可选地,所述根据网上行为日志确定用户的行为序列向量,包括:
从网上行为日志中解析用户标识、活跃应用和网上行为记录;
根据所述用户标识、所述活跃应用和所述网上行为记录生成用户的行为序列向量。
可选地,所述根据网上行为日志确定用户的行为序列向量之前,还包括:
根据历史网上行为日志生成第一历史行为序列向量并接收多个第二历史行为序列向量,所述第二历史行为序列用于表征用户在其他漫游区域的网上行为特征;
根据所述第一历史行为序列向量、所述多个第二历史行为序列向量和滑动时间窗口生成向量矩阵集合;
根据所述向量矩阵集合生成用户的行为特征序列空间向量。
可选地,所述根据所述第一历史行为序列向量、所述多个第二历史行为序列向量和滑动时间窗口生成向量矩阵集合,包括:
根据所述多个第二历史行为序列向量中的用户标识将所述多个第二历史行为序列向量中的数据更新至所述第一历史行为序列向量,获得聚合行为序列向量;
根据滑动时间窗口和所述聚合行为序列向量生成向量矩阵集合。
可选地,所述根据所述向量矩阵集合生成用户的行为特征序列空间向量,包括:
通过所述向量矩阵集合训练深度学习模型,并在训练后的深度学习模型符合训练结束条件的情况下,获得预设深度学习模型;
通过所述预设深度学习模型预测输出用户的行为特征序列空间向量。
此外,为实现上述目的,本发明还提出一种用户画像更新装置,所述装置包括:
向量确定模块,用于根据网上行为日志确定用户的行为序列向量;
差异确定模块,用于根据所述行为序列向量和对应的行为特征序列空间向量确定向量差异性,所述行为特征序列空间向量用于表征所述用户在预设历史时长内的行为特征;
更新模块,用于根据所述向量差异性对所述用户的画像标签特征进行更新。
此外,为实现上述目的,本发明还提出一种用户画像更新设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的用户画像更新程序,所述用户画像更新程序配置为实现如上文所述的用户画像更新方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有用户画像更新程序,所述用户画像更新程序被处理器执行时实现如上文所述的用户画像更新方法的步骤。
本发明根据网上行为日志确定用户的行为序列向量;根据所述行为序列向量和对应的行为特征序列空间向量确定向量差异性,所述行为特征序列空间向量用于表征所述用户在预设历史时长内的行为特征;根据所述向量差异性对所述用户的画像标签特征进行更新。本发明能够根据用户的行为序列向量与表征用户在预设历史时长内行为特征的行为特征序列空间向量之间的向量差异性来更新用户的画像标签特征,降低了对画像标签特征的更新频率,节省了用户的画像标签计算和挖掘过程中的冗余计算,从而提高了计算资源的利用率,在不降低画像标签精确度的同时,降低了计算成本。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的用户画像更新设备的结构示意图;
图2为本发明用户画像更新方法第一实施例的流程示意图;
图3为本发明用户画像更新方法第二实施例的流程示意图;
图4为本发明用户画像更新方法第三实施例的流程示意图;
图5为本发明用户画像更新装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的用户画像更新设备结构示意图。
如图1所示,该用户画像更新设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对用户画像更新设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及用户画像更新程序。
在图1所示的用户画像更新设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;处理器1001、存储器1005可以设置在用户画像更新设备中,所述用户画像更新设备通过处理器1001调用存储器1005中存储的用户画像更新程序,并执行本发明实施例提供的用户画像更新方法。
本发明实施例提供了一种用户画像更新方法,参照图2,图2为本发明用户画像更新方法第一实施例的流程示意图。
本实施例中,所述用户画像更新方法包括以下步骤:
步骤S10:根据网上行为日志确定用户的行为序列向量。
需要说明的是,本实施例的执行主体可以是一种具有数据处理、网络通信以及程序运行功能的计算服务设备,例如平板电脑、个人电脑、手机等,或者是一种能够实现上述功能的电子设备、用户画像更新设备、用户网上行为量化服务器等。以下以用户网上行为量化服务器为例,对本实施例及下述各实施例进行举例说明。
可以理解的是,网上行为日志可以是通过深度报文检测设备(Deep PacketInspection,DPI)对用户的网上行为进行检测分析后生成的日志,DPI服务器可通过对网络的关键点处的流量和报文内容进行检测分析,可以根据事先定义的策略对检测流量进行过滤控制,能完成所在链路的业务精细化识别、业务流量流向分析、业务流量占比统计、业务占比整形、以及应用层拒绝服务攻击、对病毒、木马进行过滤和滥用P2P的控制等功能。行为序列向量可以是能够表征用户行为特征的向量,可根据网上行为日志中用户的应用分类与应用活跃情况确定行为序列向量。
应该理解的是,序列向量可以是根据用户预设历史单位时长内的网上行为日志生成的序列向量,预设历史单位时长可根据具体场景设定,例如可将预设历史单位时长设置为1小时、1天、2天或其他时长,本实施例在此不作限制。
步骤S20:根据所述行为序列向量和对应的行为特征序列空间向量确定向量差异性,所述行为特征序列空间向量用于表征所述用户在预设历史时长内的行为特征。
可以理解的是,行为特征序列空间向量可以是根据用户在预设历史时长内的行为日志生成的能够表征用户在预设历史时长内的行为特征的向量;向量差异性可以是行为序列向量与行为特征序列空间向量之间的差异性,向量差异性可通过向量距离表征,向量距离包括但不限于:欧式距离、切比雪夫距离和曼哈顿距离等。
步骤S30:根据所述向量差异性对所述用户的画像标签特征进行更新。
作为一种实现方式,根据向量差异性与预设差异阈值对用户的画像标签特征进行更新。
在具体实施中,根据DPI服务器解析到的用户行为日志确定用户逐日的行为序列向量,将逐日的行为序列向量与表征用户在预设历史时长内行为特征的行为特征序列空间向量进行对比,根据对比结果确定向量差异性,根据向量差异性与预设差异阈值对用户的画像标签特征进行更新。
进一步地,为了在提高计算资源利用率的同时,不降低用户的画像标签特征的准确度,所述步骤S30,包括:在所述向量差异性大于预设差异阈值的情况下,将所述行为序列向量和所述向量差异性发送至画像系统;通过所述画像系统根据所述行为序列向量和所述向量差异性对所述用户的画像标签特征进行更新。
可以理解的是,预设差异阈值可以是预先设定的用于确定是否对画像标签特征进行更新的阈值;在向量差异性大于预设差异阈值的情况下,可以确定行为序列向量与行为特征序列空间向量之间存在较大的差异,需要对用户的画像标签特征进行更新;画像系统可以是用于构建用户画像标签特征的系统。
在一个例子中,比如:向量差异性向量距离表征,相应的预设差异阈值为预设距离阈值,根据网上行为日志确定用户A的行为序列向量,根据该行为序列向量和与用户A对应的行为特征序列空间向量计算向量距离,在向量距离大于预设距离阈值的情况下,确定用户行为发生的变化较大,需要对用户的画像标签特征进行更新,此时将用户的行为序列向量和向量距离发送至画像系统,假设根据行为序列向量中的数据确定时某个或者某类应用上网时长变化,新增应用或者减少应用导致用户网上行为发生较大变化,可从应用集市可以得到该应用的标签,例如该应用标签为小视频、母婴,则用户画像系统根据该标签更新对应的用户画像标签特征,在用户画像标签特征中加入“父母”这一标签,还可根据向量距离的大小为该标签添加对应的权重,向量距离与权重之间呈正相关关系。
进一步地,为了提高计算资源的利用率,所述步骤S30,还包括:在所述向量差异性小于或等于预设差异阈值的情况下,舍弃所述行为序列向量。
可以理解的是,在向量差异性小于或等于预设差异阈值的情况下,表明用户网上行为未发生较大变化,无需对用户的画像标签特征进行更新,将行为序列向量舍弃。
需要说明的是,基于DPI服务器精细化解析或者识别结果的长期实时累计分析,能够进一步分析和刻画网上用户的行为特征规律,形成对用户众多维度的特征理解和认知,包括不局限APP列表、兴趣爱好、内容偏向等等,进而可以计算和生成用户不同维度的标签体系,来丰富和完善用户画像标签体系,但是基于DPI服务器解析来形成用户画像的标签体系系统有个比较大的挑战是7*24小时的DPI解析和计算虽然可能尽可能全面用户行为信息或者保证尽可能不丢失用户信息捕获,但通常导致大量计算资源的无效投入或者低效投入,造成了投入与产出的严重失衡,因为这种粗粒度的分析和计算模式没有考虑通常用户行为在绝大多数情况下的稳态性,即一个用户一般而言昨天、今天、明天的网上行为特征或者规律基本是一致,很难存在颠覆性变化,换言之一旦用户画像标签体系形成后,其更新的频率很低,并不需要7*24小时DPI解析结果,进行大规模的针对标签更新的复性计算,本实施例根据用户的行为序列向量与表征用户在预设历史时长内行为特征的行为特征序列空间向量确定向量差异性,在向量差异性大于预设差异阈值的情况下,对用户的画像标签特征进行更新;在向量差异性小于或等于预设差异阈值的情况下,将行为序列向量舍弃,不对画像标签特征进行更新,基于大部分用户的上网行为习惯在较长时间段内保持稳定这一基础,将用户的画像标签特征的更新转化为空间向量的对比,从而可以根据向量距离推算用户行为习惯的差异,来舍弃稳定或者变化可以忽略的用户行为数据,从而节省用户画像标签计算和挖掘过程中的冗余计算,以节省计算资源,在实现更佳的性价比同时,不降低用户画像系统构建的画像标签特征的精准度和完整性。
本发明根据网上行为日志确定用户的行为序列向量;根据所述行为序列向量和对应的行为特征序列空间向量确定向量差异性,所述行为特征序列空间向量用于表征所述用户在预设历史时长内的行为特征;根据所述向量差异性对所述用户的画像标签特征进行更新。本实施例能够根据用户的行为序列向量与表征用户在预设历史时长内行为特征的行为特征序列空间向量之间的向量差异性来更新用户的画像标签特征,降低了对画像标签特征的更新频率,节省了用户的画像标签计算和挖掘过程中的冗余计算,从而提高了计算资源的利用率,在不降低画像标签精确度的同时,降低了计算成本。
参考图3,图3为本发明用户画像更新方法第二实施例的流程示意图。
基于上述第一实施例,在本实施例中,所述步骤S10包括:
步骤S101:从网上行为日志中解析用户标识、活跃应用和网上行为记录。
可以理解的是,用户标识可以是能够唯一表征用户身份的标识;活跃应用可以是网上行为日志中记录的用户使用的应用;网上行为记录可以是网上行为日志中记录的用户对活跃应用使用情况的记录,网上行为记录包括但不限于:使用时长、使用频次等。
步骤S102:根据所述用户标识、所述活跃应用和所述网上行为记录生成用户的行为序列向量。
可以理解的是,将用户标识、用户标识对应的活跃应用和活跃应用对应的网上行为记录归并到向量维度,生成用户的行为序列向量。
在一个例子中,比如:用户网上行为向量化服务器获取基于与其协同的DPI服务器实时解析到的网上行为日志,根据网上行为日志确定活跃应用,活跃应用在应用市场的分类,或者预设定的分类,以天0-24小时为滑动时间窗口轴,将同类应用的网上行为归并到一个向量维度,从而形成行为序列向量M*N,M为检测到用户的活跃应用的分类数,N为检测到的活跃应用在天0-24小时的网上行为序列客观记录,网上行为序列客观记录包括但不限于使用时长和使用频次。
本实施例从网上行为日志中解析用户标识、活跃应用和网上行为记录;根据所述用户标识、所述活跃应用和所述网上行为记录生成用户的行为序列向量。本实施例根据用户标识、活跃应用和网上行为记录生成用户的序列向量,以根据序列向量和对应的行为特征序列空间向量确定向量差异性,从而动态更新和完善用户的画像标签特征,节省了用户画像标签计算和挖掘过程中的冗余计算,提高了计算资源的利用率。
参考图4,图4为本发明用户画像更新方法第三实施例的流程示意图。
基于上述各实施例,在本实施例中,所述步骤S10之前,所述方法还包括:
步骤S01:根据历史网上行为日志生成第一历史行为序列向量并接收多个第二历史行为序列向量,所述第二历史行为序列用于表征用户在其他漫游区域的网上行为特征。
可以理解的是,历史网上行为日志可以是与用户网上行为量化服务器协同的DPI服务器解析的用户的过去一段时间内网上行为日志,第一历史行为序列向量可以是根据历史网上行为日志确定的行为序列向量;第二历史行为序列向量可以是其余用户网上行为量化服务器发送的用户的行为序列向量。
应该理解的是,DPI服务器解析的区域有限制,例如只是一个省,或者几个省的情况下,用户从该DPI解析服务器解析范围漫游到了另一个DPI服务器的解析范围,那么漫游出去的DPI服务器就无法解析到用户的网上行为日志,而漫游进来的DPI服务器上会有用户进来后的网上行为日志,为了获得完整的用户上网的DPI解析信息,可通过白板服务器来记录用户的网上行为日志是在哪些DPI服务器上被解析的,从而根据以少服从多的原则,将根据网上行为日志确定的行为序列向量汇聚到解析天数最多的用户网上行为向量化服务器上,以保证数据的完整性。
步骤S02:根据所述第一历史行为序列向量、所述多个第二历史行为序列向量和滑动时间窗口生成向量矩阵集合。
可以理解的是,滑动时间窗口可以是能够调节时长的时间窗口,可以通过调整滑动时间窗口来调整向量矩阵集合中行为序列向量的数量。
应该理解的是,将第一历史行为序列向量和多个第二历史行为序列向量加载至滑动时间窗口,生成向量矩阵集合。
步骤S03:根据所述向量矩阵集合生成用户的行为特征序列空间向量。
进一步地,为了将用户的行为序列向量汇聚起来进行集中计算,以提高计算效率,所述步骤S02,包括:根据所述多个第二历史行为序列向量中的用户标识将所述多个第二历史行为序列向量中的数据更新至所述第一历史行为序列向量,获得聚合行为序列向量;根据滑动时间窗口和所述聚合行为序列向量生成向量矩阵集合。
可以理解的是,将与第一历史行为序列向量的用户标识相同的多个第二历史行为序列向量的数据更新至第一历史行为序列向量,获得聚合行为序列向量;从聚合行为序列向量中选取与滑动时间窗口对应的行为序列向量构成向量矩阵集合。
进一步地,为了提高计算资源的利用效率,所述步骤S03包括:通过所述向量矩阵集合训练深度学习模型,并在训练后的深度学习模型符合训练结束条件的情况下,获得预设深度学习模型;通过所述预设深度学习模型预测输出用户的行为特征序列空间向量。
可以理解的是,训练结束条件可以是预先设定的终止模型训练的条件,训练结束条件包括但不限于:训练次数达到预设次数、模型准确度达到预设准确度等;将预设深度学习模型输出预测输出的向量作为用户对应的行为特征序列空间向量。
在一个例子中,假设预设深度学习模型为LSTM自动编码器,滑动时间窗口为a,通过向量矩阵集合中各用户标识对应的a天行为序列向量对LSTM自动编码器进行训练,并在训练后的LSTM自动编码器的准确度达到预设准确度后,将LSTM自动编码器预测输出的向量作为各用户标识对应的行为特征序列空间向量。
在另一个例子中,比如:(1)用户网上行为量化服务器根据网上行为日志确定的各个用户的行为序列向量构成的行为向量矩阵为A:X*(M*N),M为检测到的所有用户对应的用户标识的数量,将各个用户网上行为量化服务器解析到的用户标识注册到白板服务器,通过白板服务器来记录用户的网上行为在哪个DPI服务器被解析;(2)各个用户网上行为向量化服务器在本地维护一个可预设天时间长度L的滑动时间窗口W,当W中存在空余档位的时候,将A挂入进去,形成集合B,继续执行(1)的操作,具体的,W可以是一个包含L天的行为向量矩阵的滑动窗口,W中的空余档位其实就是L天中,还没有被填充的槽位或者向量位,B可以是L*A的向量矩阵,即用户网上行为向量化服务器将与之协同的DPI服务器解析的用户的网上行为日志,按照应用(APP)使用行为序列化(例如,用户ID、App ID、类别ID、时长、时段等),生成行为向量矩阵X*(M*N)填入到W中的某个槽位形成集合B;否则执行(3);(3)白板服务器检测到在多个用户网上行为向量化服务器有解析记录的用户标识集合后,确定解析的行为向量矩阵最多的用户网上行为向量化服务器为目标用户网上行为向量化服务器,并通知其余的用户网上行为向量化服务器将该用户标识对应的行为向量矩阵发送给目标用户网上行为向量化服务器,目标用户网上行为向量化服务器根据接收到的多个行为向量矩阵更新对应标识的行为向量矩阵,获得向量矩阵集合B;(4)目标用户网上行为向量化服务器根据满位W中L时间跨度的向量矩阵集合B,针对每个用户标识对应的L个M*N矩阵,通过L个M*N行为序列向量训练深度学习模型,并在训练的深度学习模型满足预设结束条件时,将满足预设条件的深度学习模型预测后输出的向量作为对应用户的行为特征序列空间向量,从而消除每天同类APP用户行为的合理波动或者噪音,最终形成一个基于L时间跨度,针对每一个用户标识的行为特征序列空间向量:M’*N’向量;同时将用户标识在B中时间最久的记录用最新的行为序列向量替换掉;(5)目标用户网上行为向量化服务器计算行为向量矩阵A中每个用户标识对应的行为序列向量与其对应的行为特征序列空间向量M’*N’向量的向量差异性,若差异性超过预设差异阈值的,则将对应的行为序列向量和向量差异性发送给画像系统,以使画像系统进行基行为序列向量和向量差异性对相应用户的画像标签特征进行更新;若向量差异性小于预设差异阈值,则将对应用户的行为序列向量舍弃。
本实施例根据历史网上行为日志生成第一历史行为序列向量并接收多个第二历史行为序列向量,所述第二历史行为序列用于表征用户在其他漫游区域的网上行为特征;根据所述第一历史行为序列向量、所述多个第二历史行为序列向量和滑动时间窗口生成向量矩阵集合;根据所述向量矩阵集合生成用户的行为特征序列空间向量。本实施例根据滑动时间窗口将第一历史行为序列向量和多个第二历史行为序列向量汇聚生成向量矩阵集合,能够将用户在不同漫游区域的行为序列向量汇聚后进行集中化计算,在保证数据完整度的同时提高了数据计算效率。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有用户画像更新程序,所述用户画像更新程序被处理器执行时实现如上文所述的用户画像更新方法的步骤。
参照图5,图5为本发明用户画像更新装置第一实施例的结构框图。
如图5所示,本发明实施例提出的用户画像更新装置包括:
向量确定模块10,用于根据网上行为日志确定用户的行为序列向量;
差异确定模块20,用于根据所述行为序列向量和对应的行为特征序列空间向量确定向量差异性,所述行为特征序列空间向量用于表征所述用户在预设历史时长内的行为特征;
更新模块30,用于根据所述向量差异性对所述用户的画像标签特征进行更新。
本实施例根据网上行为日志确定用户的行为序列向量;根据所述行为序列向量和对应的行为特征序列空间向量确定向量差异性,所述行为特征序列空间向量用于表征所述用户在预设历史时长内的行为特征;根据所述向量差异性对所述用户的画像标签特征进行更新。本实施例能够根据用户的行为序列向量与表征用户在预设历史时长内行为特征的行为特征序列空间向量之间的向量差异性来更新用户的画像标签特征,降低了对画像标签特征的更新频率,节省了用户的画像标签计算和挖掘过程中的冗余计算,从而提高了计算资源的利用率,在不降低画像标签精确度的同时,降低了计算成本。
基于本发明上述用户画像更新装置第一实施例,提出本发明用户画像更新装置的第二实施例。
在本实施例中,所述更新模块30,还用于在所述向量差异性大于预设差异阈值的情况下,将所述行为序列向量和所述向量差异性发送至画像系统;通过所述画像系统根据所述行为序列向量和所述向量差异性对所述用户的画像标签特征进行更新。
所述更新模块30,还用于在所述向量差异性小于或等于预设差异阈值的情况下,舍弃所述行为序列向量。
所述向量确定模块10,还用于从网上行为日志中解析用户标识、活跃应用和网上行为记录;根据所述用户标识、所述活跃应用和所述网上行为记录生成用户的行为序列向量。
所述向量确定模块10,还用于根据历史网上行为日志生成第一历史行为序列向量并接收多个第二历史行为序列向量,所述第二历史行为序列用于表征用户在其他漫游区域的网上行为特征;根据所述第一历史行为序列向量、所述多个第二历史行为序列向量和滑动时间窗口生成向量矩阵集合;根据所述向量矩阵集合生成用户的行为特征序列空间向量。
所述向量确定模块10,还用于根据所述多个第二历史行为序列向量中的用户标识将所述多个第二历史行为序列向量中的数据更新至所述第一历史行为序列向量,获得聚合行为序列向量;根据滑动时间窗口和所述聚合行为序列向量生成向量矩阵集合。
所述向量确定模块10,还用于通过所述向量矩阵集合训练深度学习模型,并在训练后的深度学习模型符合训练结束条件的情况下,获得预设深度学习模型;通过所述预设深度学习模型预测输出用户的行为特征序列空间向量。
本发明用户画像更新装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种用户画像更新方法,其特征在于,所述方法包括:
根据网上行为日志确定用户的行为序列向量;
根据所述行为序列向量和对应的行为特征序列空间向量确定向量差异性,所述行为特征序列空间向量用于表征所述用户在预设历史时长内的行为特征;
根据所述向量差异性对所述用户的画像标签特征进行更新。
2.如权利要求1所述的方法,其特征在于,所述根据所述向量差异性对所述用户的画像标签特征进行更新,包括:
在所述向量差异性大于预设差异阈值的情况下,将所述行为序列向量和所述向量差异性发送至画像系统;
通过所述画像系统根据所述行为序列向量和所述向量差异性对所述用户的画像标签特征进行更新。
3.如权利要求1所述的方法,其特征在于,所述根据所述向量差异性对所述用户的画像标签特征进行更新,还包括:
在所述向量差异性小于或等于预设差异阈值的情况下,舍弃所述行为序列向量。
4.如权利要求1-3任一项所述的方法,其特征在于,所述根据网上行为日志确定用户的行为序列向量,包括:
从网上行为日志中解析用户标识、活跃应用和网上行为记录;
根据所述用户标识、所述活跃应用和所述网上行为记录生成用户的行为序列向量。
5.如权利要求1-3任一项所述的方法,其特征在于,所述根据网上行为日志确定用户的行为序列向量之前,还包括:
根据历史网上行为日志生成第一历史行为序列向量并接收多个第二历史行为序列向量,所述第二历史行为序列用于表征用户在其他漫游区域的网上行为特征;
根据所述第一历史行为序列向量、所述多个第二历史行为序列向量和滑动时间窗口生成向量矩阵集合;
根据所述向量矩阵集合生成用户的行为特征序列空间向量。
6.如权利要求5所述的方法,其特征在于,所述根据所述第一历史行为序列向量、所述多个第二历史行为序列向量和滑动时间窗口生成向量矩阵集合,包括:
根据所述多个第二历史行为序列向量中的用户标识将所述多个第二历史行为序列向量中的数据更新至所述第一历史行为序列向量,获得聚合行为序列向量;
根据滑动时间窗口和所述聚合行为序列向量生成向量矩阵集合。
7.如权利要求6所述的方法,其特征在于,所述根据所述向量矩阵集合生成用户的行为特征序列空间向量,包括:
通过所述向量矩阵集合训练深度学习模型,并在训练后的深度学习模型符合训练结束条件的情况下,获得预设深度学习模型;
通过所述预设深度学习模型预测输出用户的行为特征序列空间向量。
8.一种用户画像更新装置,其特征在于,所述装置包括:
向量确定模块,用于根据网上行为日志确定用户的行为序列向量;
差异确定模块,用于根据所述行为序列向量和对应的行为特征序列空间向量确定向量差异性,所述行为特征序列空间向量用于表征所述用户在预设历史时长内的行为特征;
更新模块,用于根据所述向量差异性对所述用户的画像标签特征进行更新。
9.一种用户画像更新设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的用户画像更新程序,所述用户画像更新程序配置为实现如权利要求1至7中任一项所述的用户画像更新方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有用户画像更新程序,所述用户画像更新程序被处理器执行时实现如权利要求1至7任一项所述的用户画像更新方法的步骤。
CN202310891146.9A 2023-07-19 2023-07-19 用户画像更新方法、装置、设备及存储介质 Pending CN116956028A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310891146.9A CN116956028A (zh) 2023-07-19 2023-07-19 用户画像更新方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310891146.9A CN116956028A (zh) 2023-07-19 2023-07-19 用户画像更新方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116956028A true CN116956028A (zh) 2023-10-27

Family

ID=88442076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310891146.9A Pending CN116956028A (zh) 2023-07-19 2023-07-19 用户画像更新方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116956028A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117440192A (zh) * 2023-12-21 2024-01-23 辽宁云科智造产业技术研究院有限公司 基于智慧云服务平台的用户需求分析方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117440192A (zh) * 2023-12-21 2024-01-23 辽宁云科智造产业技术研究院有限公司 基于智慧云服务平台的用户需求分析方法及系统
CN117440192B (zh) * 2023-12-21 2024-02-23 辽宁云科智造产业技术研究院有限公司 基于智慧云服务平台的用户需求分析方法及系统

Similar Documents

Publication Publication Date Title
Xiao et al. Cloud-based malware detection game for mobile devices with offloading
Wan et al. Reinforcement learning based mobile offloading for cloud-based malware detection
CN112199652B (zh) 应用程序的登录方法、终端、服务器、系统、介质和设备
CN116956028A (zh) 用户画像更新方法、装置、设备及存储介质
CN111629052B (zh) 基于mec的内容缓存方法、节点、设备及存储介质
CN111694644A (zh) 基于机器人操作系统的消息处理方法、装置及计算机设备
CN103678372B (zh) 一种用于获取页面的应用性能的方法和设备
CN111160624B (zh) 一种用户意向预测方法、用户意向预测装置及终端设备
CN112087520B (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN113596001B (zh) DDoS攻击检测方法、装置、设备及计算机可读存储介质
US20170155712A1 (en) Method and device for updating cache data
CN112866281B (zh) 一种分布式实时DDoS攻击防护系统及方法
Ma et al. An intelligent scheme for congestion control: When active queue management meets deep reinforcement learning
US20090077665A1 (en) Method and applications for detecting computer viruses
US20230060623A1 (en) Network improvement with reinforcement learning
CN112929369B (zh) 一种分布式实时DDoS攻击检测方法
CN110196805B (zh) 数据处理方法、装置、存储介质和电子装置
CN113704765A (zh) 基于人工智能的操作系统识别方法、装置及电子设备
CN111385360B (zh) 终端设备的识别方法、装置及计算机可读存储介质
CN108521435B (zh) 一种用户网络行为画像的方法及系统
CN113824797B (zh) 一种授课资源自适应同步方法及装置
WO2022253454A2 (en) Dimensioning of telecommunication infrastructure
CN114124382A (zh) 凭证更新方法、系统、设备及存储介质
CN110336826B (zh) 一种接口参数类型的获取方法、装置、设备及存储介质
CN108768987B (zh) 数据交互方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination