CN116383029A - 一种基于小程序的用户行为标签生成方法和装置 - Google Patents

一种基于小程序的用户行为标签生成方法和装置 Download PDF

Info

Publication number
CN116383029A
CN116383029A CN202310659063.7A CN202310659063A CN116383029A CN 116383029 A CN116383029 A CN 116383029A CN 202310659063 A CN202310659063 A CN 202310659063A CN 116383029 A CN116383029 A CN 116383029A
Authority
CN
China
Prior art keywords
applet
data
behavior
user
user behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310659063.7A
Other languages
English (en)
Other versions
CN116383029B (zh
Inventor
王国章
黄振琳
朱建建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
And Yuan Da Mdt Infotech Ltd
Original Assignee
And Yuan Da Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by And Yuan Da Mdt Infotech Ltd filed Critical And Yuan Da Mdt Infotech Ltd
Priority to CN202310659063.7A priority Critical patent/CN116383029B/zh
Publication of CN116383029A publication Critical patent/CN116383029A/zh
Application granted granted Critical
Publication of CN116383029B publication Critical patent/CN116383029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供了一种基于小程序的用户行为标签生成方法和装置,所述方法包括:获取小程序数据包,所述小程序数据包括用户属性和用户的小程序行为数据,将所述用户的小程序行为数据输入用户行为识别模型,获取所述用户行为识别模型输出的行为标签,将所述行为标签与所述用户属性关联,生成所述用户的用户行为标签。通过本发明的用户行为识别模型,可以实现对庞大且复杂的小程序行为数据进行准确识别,明确用户有哪些小程序使用行为,建立用户行为标签,从而客户可以更加清晰的了解用户,提升自身服务水平,开拓新的业务领域。

Description

一种基于小程序的用户行为标签生成方法和装置
技术领域
本发明涉及数据处理技术领域,特别是涉及一种基于小程序的用户行为标签生成方法、一种基于小程序的用户行为标签生成装置、一种电子设备以及一种计算机可读介质。
背景技术
基于微信平台的小程序服务模式自推出以来得到广大用户和服务提供商的青睐,小程序凭借“用完即走”的便捷特性,使其在不同领域中迅速推广和普及,目前,全网小程序数量达到550万,日活跃用户数量超过4亿,应用领域包括政务、医疗、教育、餐饮、生活服务等。
在小程序被使用的过程中,被网络不断创造且持续存在于网络中的数据包含的信息价值是不可估量的,通过对这些数据的提取、分析处理,可以使得客户能够了解用户的小程序使用行为,让客户更加清晰的了解用户,提升自身服务水平,开拓新的业务领域。但由于小程序数据涉及千差万别的业务场景,采用常规软件工具对这些数据提取使用极端困难,使得处在网络中的各方既希望从行为数据中获益,又无法轻松自如的从这些数据中得到有价值的信息。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于小程序的用户行为标签生成方法和相应的一种基于小程序的用户行为标签生成装置、一种电子设备以及一种计算机可读介质。
本发明实施例公开了一种基于小程序的用户行为标签生成方法,所述方法包括:
获取小程序数据包;所述小程序数据包括用户属性和用户的小程序行为数据;
将所述用户的小程序行为数据输入用户行为识别模型;
获取所述用户行为识别模型输出的行为标签;
将所述行为标签与所述用户属性关联 ,生成所述用户的用户行为标签。
可选地,所述获取小程序数据包的步骤,包括:
对网络传输数据进行监控,采集网络数据包;
解析所述网络数据包,得到所述小程序数据包。
可选地,所述将所述用户的小程序行为数据输入用户行为识别模型的步骤,包括:
对所述小程序行为数据进行预处理;
从预处理后的小程序行为数据中提取行为特征;
将所述行为特征输入所述用户行为识别模型。
可选地,所述对所述小程序行为数据进行预处理的步骤,包括:
对所述小程序行为数据进行数据清洗和数据转换;其中,所述数据清洗包括删除重复值、补充缺失值、剔除或修正异常值;所述数据转换包括编码转换。
可选地,所述用户行为识别模型生成方式,包括:
获取训练样本数据集;其中,所述训练样本数据集包括历史小程序行为数据和所述历史小程序行为数据对应的历史用户行为标签;
采用所述训练样本数据集训练得到所述用户行为识别模型。
可选地,所述训练样本数据集获取方式,包括:
从移动大数据平台获取历史小程序行为数据;
对所述历史小程序行为数据进行特征分析,生成特征规则;
根据所述特征规则,确定所述历史小程序行为数据对应的历史用户行为标签。
可选地,所述采用所述训练样本数据集训练得到所述用户行为识别模型的步骤,包括:
采用所述训练样本数据集初始化弱学习器;
计算每个训练样本数据的残差;
将所述残差作为新的回归树的训练样本数据;
计算回归树的最佳拟合值;
采用所述最佳拟合值更新学习器;
通过上述步骤进行迭代训练,得到所述用户行为识别模型。
本发明实施例还公开了一种基于小程序的用户行为标签生成装置,所述装置包括:
第一获取模块,用于获取小程序数据包;所述小程序数据包括用户属性和用户的小程序行为数据;
输入模块,用于将所述用户的小程序行为数据输入用户行为识别模型;
第二获取模块,用于所述用户行为识别模型输出的行为标签;
生成模块,用于将所述行为标签与所述用户属性关联 ,生成所述用户的用户行为标签。
可选地,所述第一获取模块,包括:
采集子模块,用于对网络传输数据进行监控,采集网络数据包;
解析子模块,用于解析所述网络数据包,得到所述小程序数据包。
可选地,所述输入模块,包括:
预处理子模块,用于对所述小程序行为数据进行预处理;
提取子模块,用于从预处理后的小程序行为数据中提取行为特征;
输入子模块,用于将所述行为特征输入所述用户行为识别模型。
可选地,所述预处理子模块,包括:
预处理单元,用于对所述小程序行为数据进行数据清洗和数据转换;其中,所述数据清洗包括删除重复值、补充缺失值、剔除或修正异常值;所述数据转换包括编码转换。
可选地,所述用户行为识别模型通过如下模块生成:
第三获取模块,用于获取训练样本数据集;其中,所述训练样本数据集包括历史小程序行为数据和所述历史小程序行为数据对应的历史用户行为标签;
训练模块,用于采用所述训练样本数据集训练得到所述用户行为识别模型。
可选地,所述训练样本数据集通过以下模块得到:
第四获取模块,用于从移动大数据平台获取历史小程序行为数据;
特征分析模块,用于对所述历史小程序行为数据进行特征分析,生成特征规则;
确定模块,用于根据所述特征规则,确定所述历史小程序行为数据对应的历史用户行为标签。
可选地,所述训练模块,包括:
初始化子模块,用于采用所述训练样本数据集初始化弱学习器;
第一计算子模块,用于计算每个训练样本数据的残差;
新训练样本数据确定子模块,用于将所述残差作为新的回归树的训练样本数据;
第二计算子模块,用于计算回归树的最佳拟合值;
学习器更新子模块,用于采用所述最佳拟合值更新学习器;
用户行为识别模型确定子模块,用于通过上述步骤进行迭代训练,得到所述用户行为识别模型。
本发明实施例还公开了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行存储器上所存放的程序时,实现如本发明实施例所述的基于小程序的用户行为标签生成方法。
本发明实施例还公开了一个或多个计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如本发明实施例所述的基于小程序的用户行为标签生成方法。
本发明实施例包括以下优点:
本发明实施例的基于小程序的用户行为标签生成方法,通过获取小程序数据包,所述小程序数据包括用户属性和用户的小程序行为数据,将所述用户的小程序行为数据输入用户行为识别模型,获取所述用户行为识别模型输出的行为标签,将所述行为标签与所述用户属性关联 ,生成所述用户的用户行为标签。通过本发明的用户行为识别模型,可以实现对庞大且复杂的小程序行为数据进行准确识别,明确用户有哪些小程序使用行为,建立用户行为标签,从而客户可以更加清晰的了解用户,提升自身服务水平,开拓新的业务领域。
附图说明
图1是本发明实施例中提供的一种基于小程序的用户行为标签生成方法的步骤流程图;
图2是本发明实施例中提供另一种基于小程序的用户行为标签生成方法的步骤流程图;
图3是本发明实施例中提供的一种基于小程序的用户行为标签生成装置的结构框图;
图4是本发明实施例中提供的一种电子设备的框图;
图5是本发明实施例中提供的一种计算机可读介质的示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明实施例中提供的一种基于小程序的用户行为标签生成方法的步骤流程图,具体可以包括如下步骤:
步骤101,获取小程序数据包;所述小程序数据包括用户属性和用户的小程序行为数据;
在小程序被使用的过程中产生了各种业务场景的数据,为了充分利用这些数据的信息价值,本发明提供了一种基于小程序的用户行为识别模型,采用本发明的基于小程序的用户行为识别模型可以实现对复杂的小程序行为数据的准确识别。
在本发明实施例中,为了对用户的小程序使用行为进行识别和建立用户行为标签,首先可以获取小程序数据包,本发明中的小程序数据包可以为至少一种软件上的小程序被使用所产生的数据包,小程序数据包可以包括用户属性和小程序行为数据。其中,用户属性可以包括用户账号、用户姓名/昵称、年龄、性别、收入信息;用户的小程序行为数据可以为具体的上网点击行为,每一次访问小程序生成一组小程序行为数据,该组小程序行为数据包括了本次访问小程序的上网特征信息及上网特征信息对应的访问类型。访问类型可以为小程序的类型,例如购物小程序、游戏小程序、民生服务小程序等等。上网特征信息可以包括访问的小程序名称、小程序域名、相关联网设备的机型、访问URL、访问时间、小程序页面内的具体访问行为、流量等等。
对小程序数据包进行获取,可以通过移动大数据平台获取小程序数据包。具体地,可以对网络传输数据进行监控,采集网络数据包,再对网络数据包进行解析,得到小程序数据包。
步骤102,将所述用户的小程序行为数据输入用户行为识别模型;
在获得用户的小程序行为数据后,可以把小程序行为数据输入用户行为识别模型,以便对小程序行为数据进行识别,确定用户存在哪些小程序行为。用户行为识别模型可以为采用历史的小程序行为数据和历史的用户行为标签训练得到的,可以对小程序行为进行准确识别的模型。
步骤103,获取所述用户行为识别模型输出的行为标签;
在将小程序行为数据输入用户行为识别模型后,用户行为识别模型可以对小程序行为数据进行识别,确定用户具体的小程序行为并输出行为标签,从而可以获得小程序行为数据对应的行为标签。
步骤104,将所述行为标签与所述用户属性关联 ,生成所述用户的用户行为标签。
在获得小程序行为数据对应的行为标签后,可以将用户属性与行为标签进行关联,得到用户的用户行为标签。对于同一个用户,可以存在不同的小程序行为,每个小程序行为可以对应不同的行为标签,也就是说,每个用户可以具有多个行为标签,所以可以把属于同一个用户的行为标签与该用户的属性进行关联,生成该用户的用户行为标签。
在本发明实施例中,通过获取小程序数据包,所述小程序数据包括用户属性和用户的小程序行为数据,将所述用户的小程序行为数据输入用户行为识别模型,获取所述用户行为识别模型输出的行为标签,将所述行为标签与所述用户属性关联 ,生成所述用户的用户行为标签。通过本发明的用户行为识别模型,可以实现对庞大且复杂的小程序行为数据进行准确识别,明确用户有哪些小程序使用行为,建立用户行为标签,从而客户可以更加清晰的了解用户,提升自身服务水平,开拓新的业务领域。
参照图2,示出了本发明实施例中提供的另一种基于小程序的用户行为标签生成方法的步骤流程图,具体可以包括如下步骤:
步骤201,获取小程序数据包;所述小程序数据包括用户属性和用户的小程序行为数据;
在本发明的一种实施例中,所述获取小程序数据包的步骤,包括:
S11,对网络传输数据进行监控,采集网络数据包;
S12,解析所述网络数据包,得到所述小程序数据包。
在本发明中,为了对小程序数据包进行获取,可以对网络传输数据进行监控,采集网络数据包,再对网络数据包进行解析,得到小程序数据包。
对于网络数据包的获取,可以对网络传输数据进行监控,采用自动化抓包工具进行网络数据包采集。例如,可以采用抓包工具Fiddler对网络传输数据进行采集,Fiddler是位于客户端和服务器端的HTTP代理,能够记录客户端和服务器之间的所有 HTTP请求,可以针对特定的HTTP请求,分析请求数据、设置断点、调试web应用、修改请求的数据,甚至可以修改服务器返回的数据,功能非常强大,是web调试的利器。具体地,可以设置需要监控的协议类型和端口,抓包工具对网络传输数据包进行协议头分析,捕捉所设置的协议类型和端口对应的网络数据包。
在获得网络数据包后,可以通过深度检测对网络数据包进行分类、分析,确定网络数据包中哪些数据属于小程序数据,将小程序数据提取处理,得到小程序数据包。
步骤202,对所述小程序行为数据进行预处理;
获取到的原始小程序行为数据中通常会存在一些瑕疵,需要对这些数据进行一些预处理,以便使得小程序行为数据能够适用于进一步的应用。
在本发明的一种实施例中,所述对所述小程序行为数据进行预处理的步骤,包括:
S21,对所述小程序行为数据进行数据清洗和数据转换;其中,所述数据清洗包括删除重复值、补充缺失值、剔除或修正异常值;所述数据转换包括编码转换。
原始的小程序行为数据中可能存在一些重复的数据、异常的数据、缺失的数据,所以对小程序行为数据的预处理首先可以为对小程序行为数据进行清洗,具体可以为删除重复的数据、对过度异常数据进行剔除、对可修正的异常数据进行修正、按照数据特征对缺失的数据进行补充。
不同维度的编码对应的数据长度不同,数量级也不同,所以经过清洗的数据还不能直接作为模型的输入,还需要对其进行编码转换,将所有维度的编码通过对齐转换为同一长度。
步骤203,从预处理后的小程序行为数据中提取行为特征;
本发明是为了对用户的小程序使用行为进行识别,而小程序行为数据中除了与行为直接相关的数据外,还包括其他冗杂的数据,所以不是将小程序行为数据全部直接作为输入,在获得预处理后的小程序行为数据后,还可以从预处理后的小程序行为数据中进一步提取行为特征,将行为特征作为用户行为识别模型的输入。
步骤204,将所述行为特征输入所述用户行为识别模型;
步骤205,获取所述用户行为识别模型输出的行为标签;
步骤206,将所述行为标签与所述用户属性关联 ,生成所述用户的用户行为标签。
在本发明的一种实施例中,所述用户行为识别模型生成方式,包括:
S31,获取训练样本数据集;其中,所述训练样本数据集包括历史小程序行为数据和所述历史小程序行为数据对应的历史用户行为标签;
S32,采用所述训练样本数据集训练得到所述用户行为识别模型。
在本发明中,要获得能够对小程序行为数据进行准确识别的用户行为识别模型,可以采用训练样本数据集进行模型训练,得到用户行为识别模型。本发明用于训练用户写识别模型的训练样本数据集可以为历史小程序行为数据和所述历史小程序行为数据对应的历史用户行为标签。
在本发明的一种实施例中,所述训练样本数据集获取方式,包括:
S41,从移动大数据平台获取历史小程序行为数据;
S42,对所述历史小程序行为数据进行特征分析,生成特征规则;
S43,根据所述特征规则,确定所述历史小程序行为数据对应的历史用户行为标签。
在本发明实施例中,可以从移动大数据平台获取历史小程序行为数据,历史小程序行为数据可以为历史用户使用小程序所产生的小程序行为数据,也可以为模拟用户访问小程序行为所产生的小程序行为数据。
作为一种示例,执行本发明实施例的设备可以预先设置有模拟用户行为脚本以及自动化抓包工具,模拟用户行为脚本预先定义了访问命令和访问类型之间的对应关系,当运行该模拟脚本时,可以通过预先定义的访问命令执行该访问命令对应的访问类型。在实际实施过程中,模拟用户行为脚本可以通过Python中的模拟访问小程序实现,例如,Python中的网络检测第三方包实现模拟访问。以执行本发明实施示例的设备为计算机,相关联网装备为手机,将计算机与手机连接,手机通过计算机热点代理上网,通过预先定义好的模拟用户行为脚本,由计算机控制手机访问微信小程序,同时,计算机端形成的访问日志。
在获得历史小程序行为数据后,可以对小程序行为数据进行特征分析,识别相同类型小程序行为数据具有的共同特征,基于共同特征生成特征规则,进而根据特征规则,确定历史小程序行为数据对应的历史用户行为标签。
作为一种示例,小程序打开时会加载小程序头像,有两种形式的头像URL,且皆为HTTP。因此当用户网络请求出现任意一种形式的头像URL时,则认为用户存在使用该小程序行为,例如美团外卖小程序。
头像1:
http://mmbiz.qpic.cn/sz_mmbiz_png/IXJic6HOb8QQia18XFKQC6YwFLUclBz794p2beQpE1XiaqiaKzvhxfrGIJrhcHPibhR22zRMaG1dcSxic16NkmR2kWMg/640?wx_fmt=png&wxfrom=20
头像2:
http://wx.qlogo.cn/mmhead/Q3auHgzwzM5hquVCXs3GGoLibFceAyGqMjKcBGw85hXwBQh0woJAcqg/0
但在使用同一小程序过程也可能加载其它不同规格的头像,对比分析发现头像URL都有共同特征。因此,提取两种形式头像URL共同特征后,美团外卖小程序最终的识别特征规则如下。
头像1网址链接的字符串特征:
http://mmbiz.qpic.cn/sz_mmbiz_png/IXJic6HOb8QQia18XFKQC6YwFLUclBz7
头像2网址链接的字符串特征:
http://wx.qlogo.cn/mmhead/Q3auHgzwzM5hquVCXs3GGoLibFceAyGqMjKcBGw85hXwBQh0woJAcqg
当用户网络请求URL包含上述任意一种字符串特征规则时,则认为用户存在使用美团外卖小程序行为。利用小程序以下两种不同形式的HTTP头像URL截断后的字符串特征规则进行识别,当用户网络请求URL包含任意一种字符串特征规则时,则认为用户存在使用该小程序行为。最终形成规则库,保存这些规则。
mmbiz.qpic.cn域名的头像URL截断:
http://mmbiz.qpic.cn/字符串1/字符串2的前32位字符
wx.qlogo.cn域名的头像URL截断:
http://wx.qlogo.cn/字符串1/字符串2
在本发明的一种实施例中,所述采用所述训练样本数据集训练得到所述用户行为识别模型的步骤,包括:
S51,采用所述训练样本数据集初始化弱学习器;
S52,计算每个训练样本数据的残差;
S53,将所述残差作为新的回归树的训练样本数据;
S54,计算回归树的最佳拟合值;
S55,采用所述最佳拟合值更新学习器;
S56,通过上述步骤S51~步骤S55进行迭代训练,得到所述用户行为识别模型。
本发明的用户行为识别模型的训练基于GBDT模型(梯度提升决策树模型),GBDT模型无论用于分类还是回归一直都是使用的CART 回归树。不会因为选择的任务是分类任务就选用分类树,核心在于每轮的训练是在上一轮的训练的残差基础之上进行训练的。这里的残差就是当前模型的负梯度值。要求每轮迭代的时候,弱分类器的输出的结果相减是有意义的,残差相减是有意义的。
具体地,
(1)初始化弱学习器,弱分类器计算公式如下:
Figure SMS_2
(2)对m=1,2,…,M有:
(2.1)对每个训练样本数据i=1,2,…,N,计算负梯度,即残差;
Figure SMS_3
(2.2)将上步得到的残差作为样本新的真实值,并将数据
Figure SMS_4
作为下棵树的训练数据,得到一颗新的回归树/>
Figure SMS_5
,其对应的叶子节点区域为
Figure SMS_6
。其中J为回归树t的叶子节点的个数。
(2.3)对叶子区域j =1,2,..J计算最佳拟合值;
Figure SMS_7
(2.4)更新学习器,采用所述最佳拟合值更新学习器;
Figure SMS_8
(2.5)得到最终学习器,即用户行为识别模型。
Figure SMS_9
在本发明实施例中,通过获取小程序数据包,所述小程序数据包括用户属性和用户的小程序行为数据,将所述用户的小程序行为数据输入用户行为识别模型,获取所述用户行为识别模型输出的行为标签,将所述行为标签与所述用户属性关联 ,生成所述用户的用户行为标签。通过本发明的用户行为识别模型,可以实现对庞大且复杂的小程序行为数据进行准确识别,明确用户有哪些小程序使用行为,建立用户行为标签,从而客户可以更加清晰的了解用户,提升自身服务水平,开拓新的业务领域。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了本发明实施例中提供的一种基于小程序的用户行为标签生成装置的结构框图,具体可以包括如下模块:
第一获取模块301,用于获取小程序数据包;所述小程序数据包括用户属性和用户的小程序行为数据;
输入模块302,用于将所述用户的小程序行为数据输入用户行为识别模型;
第二获取模块303,用于所述用户行为识别模型输出的行为标签;
生成模块304,用于将所述行为标签与所述用户属性关联 ,生成所述用户的用户行为标签。
可选地,所述第一获取模块,包括:
采集子模块,用于对网络传输数据进行监控,采集网络数据包;
解析子模块,用于解析所述网络数据包,得到所述小程序数据包。
可选地,所述输入模块,包括:
预处理子模块,用于对所述小程序行为数据进行预处理;
提取子模块,用于从预处理后的小程序行为数据中提取行为特征;
输入子模块,用于将所述行为特征输入所述用户行为识别模型。
可选地,所述预处理子模块,包括:
预处理单元,用于对所述小程序行为数据进行数据清洗和数据转换;其中,所述数据清洗包括删除重复值、补充缺失值、剔除或修正异常值;所述数据转换包括编码转换。
可选地,所述用户行为识别模型通过如下模块生成:
第三获取模块,用于获取训练样本数据集;其中,所述训练样本数据集包括历史小程序行为数据和所述历史小程序行为数据对应的历史用户行为标签;
训练模块,用于采用所述训练样本数据集训练得到所述用户行为识别模型。
可选地,所述训练样本数据集通过以下模块得到:
第四获取模块,用于从移动大数据平台获取历史小程序行为数据;
特征分析模块,用于对所述历史小程序行为数据进行特征分析,生成特征规则;
确定模块,用于根据所述特征规则,确定所述历史小程序行为数据对应的历史用户行为标签。
可选地,所述训练模块,包括:
初始化子模块,用于采用所述训练样本数据集初始化弱学习器;
第一计算子模块,用于计算每个训练样本数据的残差;
新训练样本数据确定子模块,用于将所述残差作为新的回归树的训练样本数据;
第二计算子模块,用于计算回归树的最佳拟合值;
学习器更新子模块,用于采用所述最佳拟合值更新学习器;
用户行为识别模型确定子模块,用于通过上述步骤进行迭代训练,得到所述用户行为识别模型。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
另外,本发明实施例还提供一种电子设备,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,
存储器403,用于存放计算机程序;
处理器401,用于执行存储器403上所存放的程序时,实现如下步骤:
获取小程序数据包;所述小程序数据包括用户属性和用户的小程序行为数据;
将所述用户的小程序行为数据输入用户行为识别模型;
获取所述用户行为识别模型输出的行为标签;
将所述行为标签与所述用户属性关联 ,生成所述用户的用户行为标签。
可选地,所述获取小程序数据包的步骤,包括:
对网络传输数据进行监控,采集网络数据包;
解析所述网络数据包,得到所述小程序数据包。
可选地,所述将所述用户的小程序行为数据输入用户行为识别模型的步骤,包括:
对所述小程序行为数据进行预处理;
从预处理后的小程序行为数据中提取行为特征;
将所述行为特征输入所述用户行为识别模型。
可选地,所述对所述小程序行为数据进行预处理的步骤,包括:
对所述小程序行为数据进行数据清洗和数据转换;其中,所述数据清洗包括删除重复值、补充缺失值、剔除或修正异常值;所述数据转换包括编码转换。
可选地,所述用户行为识别模型生成方式,包括:
获取训练样本数据集;其中,所述训练样本数据集包括历史小程序行为数据和所述历史小程序行为数据对应的历史用户行为标签;
采用所述训练样本数据集训练得到所述用户行为识别模型。
可选地,所述训练样本数据集获取方式,包括:
从移动大数据平台获取历史小程序行为数据;
对所述历史小程序行为数据进行特征分析,生成特征规则;
根据所述特征规则,确定所述历史小程序行为数据对应的历史用户行为标签。
可选地,所述采用所述训练样本数据集训练得到所述用户行为识别模型的步骤,包括:
采用所述训练样本数据集初始化弱学习器;
计算每个训练样本数据的残差;
将所述残差作为新的回归树的训练样本数据;
计算回归树的最佳拟合值;
采用所述最佳拟合值更新学习器;
通过上述步骤进行迭代训练,得到所述用户行为识别模型。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
如图5所示,在本发明提供的又一实施例中,还提供了一种计算机可读存储介质501,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中所述的基于小程序的用户行为标签生成方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中所述的基于小程序的用户行为标签生成方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk (SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种基于小程序的用户行为标签生成方法,其特征在于,所述方法包括:
获取小程序数据包;所述小程序数据包括用户属性和用户的小程序行为数据;
将所述用户的小程序行为数据输入用户行为识别模型;
获取所述用户行为识别模型输出的行为标签;
将所述行为标签与所述用户属性关联 ,生成所述用户的用户行为标签。
2.根据权利要求1所述的方法,其特征在于,所述获取小程序数据包的步骤,包括:
对网络传输数据进行监控,采集网络数据包;
解析所述网络数据包,得到所述小程序数据包。
3.根据权利要求1所述的方法,其特征在于,所述将所述用户的小程序行为数据输入用户行为识别模型的步骤,包括:
对所述小程序行为数据进行预处理;
从预处理后的小程序行为数据中提取行为特征;
将所述行为特征输入所述用户行为识别模型。
4.根据权利要求3所述的方法,其特征在于,所述对所述小程序行为数据进行预处理的步骤,包括:
对所述小程序行为数据进行数据清洗和数据转换;其中,所述数据清洗包括删除重复值、补充缺失值、剔除或修正异常值;所述数据转换包括编码转换。
5.根据权利要求1所述的方法,其特征在于,所述用户行为识别模型生成方式,包括:
获取训练样本数据集;其中,所述训练样本数据集包括历史小程序行为数据和所述历史小程序行为数据对应的历史用户行为标签;
采用所述训练样本数据集训练得到所述用户行为识别模型。
6.根据权利要求5所述的方法,其特征在于,所述训练样本数据集获取方式,包括:
从移动大数据平台获取历史小程序行为数据;
对所述历史小程序行为数据进行特征分析,生成特征规则;
根据所述特征规则,确定所述历史小程序行为数据对应的历史用户行为标签。
7.根据权利要求5所述的方法,其特征在于,所述采用所述训练样本数据集训练得到所述用户行为识别模型的步骤,包括:
采用如下步骤进行迭代训练,得到所述用户行为识别模型:
采用所述训练样本数据集初始化弱学习器;
计算每个训练样本数据的残差;
将所述残差作为新的回归树的训练样本数据;
计算回归树的最佳拟合值;
采用所述最佳拟合值更新学习器。
8.一种基于小程序的用户行为标签生成装置,其特征在于,所述装置包括:
第一获取模块,用于获取小程序数据包;所述小程序数据包括用户属性和用户的小程序行为数据;
输入模块,用于将所述用户的小程序行为数据输入用户行为识别模型;
第二获取所述用户行为识别模型输出的行为标签;
生成模块,用于将所述行为标签与所述用户属性关联 ,生成所述用户的用户行为标签。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行存储器上所存放的程序时,实现如权利要求1-7任一项所述的基于小程序的用户行为标签生成方法。
10.一个或多个计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如权利要求1-7任一项所述的基于小程序的用户行为标签生成方法。
CN202310659063.7A 2023-06-06 2023-06-06 一种基于小程序的用户行为标签生成方法和装置 Active CN116383029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310659063.7A CN116383029B (zh) 2023-06-06 2023-06-06 一种基于小程序的用户行为标签生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310659063.7A CN116383029B (zh) 2023-06-06 2023-06-06 一种基于小程序的用户行为标签生成方法和装置

Publications (2)

Publication Number Publication Date
CN116383029A true CN116383029A (zh) 2023-07-04
CN116383029B CN116383029B (zh) 2024-04-26

Family

ID=86966037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310659063.7A Active CN116383029B (zh) 2023-06-06 2023-06-06 一种基于小程序的用户行为标签生成方法和装置

Country Status (1)

Country Link
CN (1) CN116383029B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090287989A1 (en) * 2008-05-16 2009-11-19 International Business Machines Corporation Presenting tag clouds based on user information
CN105956004A (zh) * 2016-04-20 2016-09-21 广州精点计算机科技有限公司 一种基于url分析模型的移动用户上网行为分析方法及装置
CN110069619A (zh) * 2019-03-16 2019-07-30 平安城市建设科技(深圳)有限公司 房源展示方法、装置、设备及计算机可读存储介质
US20200127902A1 (en) * 2018-10-22 2020-04-23 International Business Machines Corporation Facilitating reconciliation for early-access programs
CN111325280A (zh) * 2020-02-27 2020-06-23 苏宁云计算有限公司 一种标签的生成方法及系统
CN111915366A (zh) * 2020-07-20 2020-11-10 上海燕汐软件信息科技有限公司 一种用户画像构建方法、装置、计算机设备及存储介质
CN112035742A (zh) * 2020-08-28 2020-12-04 康键信息技术(深圳)有限公司 用户画像生成方法、装置、设备及存储介质
CN114548242A (zh) * 2022-02-07 2022-05-27 Oppo广东移动通信有限公司 用户标签识别方法、装置、电子设备和计算机可读存储介质
CN116010688A (zh) * 2022-12-12 2023-04-25 和元达信息科技有限公司 一种用户行为标签识别方法、系统、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090287989A1 (en) * 2008-05-16 2009-11-19 International Business Machines Corporation Presenting tag clouds based on user information
CN105956004A (zh) * 2016-04-20 2016-09-21 广州精点计算机科技有限公司 一种基于url分析模型的移动用户上网行为分析方法及装置
US20200127902A1 (en) * 2018-10-22 2020-04-23 International Business Machines Corporation Facilitating reconciliation for early-access programs
CN110069619A (zh) * 2019-03-16 2019-07-30 平安城市建设科技(深圳)有限公司 房源展示方法、装置、设备及计算机可读存储介质
CN111325280A (zh) * 2020-02-27 2020-06-23 苏宁云计算有限公司 一种标签的生成方法及系统
CN111915366A (zh) * 2020-07-20 2020-11-10 上海燕汐软件信息科技有限公司 一种用户画像构建方法、装置、计算机设备及存储介质
CN112035742A (zh) * 2020-08-28 2020-12-04 康键信息技术(深圳)有限公司 用户画像生成方法、装置、设备及存储介质
CN114548242A (zh) * 2022-02-07 2022-05-27 Oppo广东移动通信有限公司 用户标签识别方法、装置、电子设备和计算机可读存储介质
CN116010688A (zh) * 2022-12-12 2023-04-25 和元达信息科技有限公司 一种用户行为标签识别方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN116383029B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
CN108763274B (zh) 访问请求的识别方法、装置、电子设备及存储介质
CN112347367B (zh) 信息服务提供方法、装置、电子设备和存储介质
CN109388548B (zh) 用于生成信息的方法和装置
CN106874253A (zh) 识别敏感信息的方法及装置
US20120150825A1 (en) Cleansing a Database System to Improve Data Quality
CN114840486A (zh) 用户行为数据采集方法、系统及云平台
US20150161278A1 (en) Method and apparatus for identifying webpage type
CN112839014B (zh) 建立识别异常访问者模型的方法、系统、设备及介质
CN109698798B (zh) 一种应用的识别方法、装置、服务器和存储介质
CN112486708A (zh) 页面操作数据的处理方法和处理系统
WO2021114634A1 (zh) 文本标注方法、设备及存储介质
CN116015842A (zh) 一种基于用户访问行为的网络攻击检测方法
CN109582854B (zh) 用于生成信息的方法和装置
CN109309665B (zh) 一种访问请求处理方法及装置、一种计算设备及存储介质
CN112347457A (zh) 异常账户检测方法、装置、计算机设备和存储介质
AU2019298610B2 (en) Search device and program
CN116383029B (zh) 一种基于小程序的用户行为标签生成方法和装置
CN105447148B (zh) 一种Cookie标识关联方法及装置
CN111209325A (zh) 业务系统接口识别方法、装置及存储介质
US9824140B2 (en) Method of creating classification pattern, apparatus, and recording medium
US11610047B1 (en) Dynamic labeling of functionally equivalent neighboring nodes in an object model tree
CN113076487B (zh) 一种用户兴趣表征及内容推荐方法、装置和设备
CN109981818B (zh) 域名语义异常分析方法、装置、计算机设备及其存储介质
CN114492576A (zh) 一种异常用户检测方法、系统、存储介质及电子设备
US10803115B2 (en) Image-based domain name system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant