CN116228278A - 基于大数据的用户画像建立方法和用户画像管理系统 - Google Patents

基于大数据的用户画像建立方法和用户画像管理系统 Download PDF

Info

Publication number
CN116228278A
CN116228278A CN202310232965.2A CN202310232965A CN116228278A CN 116228278 A CN116228278 A CN 116228278A CN 202310232965 A CN202310232965 A CN 202310232965A CN 116228278 A CN116228278 A CN 116228278A
Authority
CN
China
Prior art keywords
behavior
course
users
data
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310232965.2A
Other languages
English (en)
Other versions
CN116228278B (zh
Inventor
关颖贤
傅元弟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Readboy Education Technology Co Ltd
Original Assignee
Readboy Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Readboy Education Technology Co Ltd filed Critical Readboy Education Technology Co Ltd
Priority to CN202310232965.2A priority Critical patent/CN116228278B/zh
Publication of CN116228278A publication Critical patent/CN116228278A/zh
Application granted granted Critical
Publication of CN116228278B publication Critical patent/CN116228278B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及信息分类处理技术领域,尤其涉及一种基于大数据的用户画像建立方法和用户画像管理系统,包括分析存在购买行为的用户的行为数据生成对应的行为标签以对用户进行画像,根据共有行为标签以计算标准参考值R并对未存在购买行为的用户进行分类,中控模块根据课程数据形成模型用户,并计算任一购买相同类型课程的用户与模型用户的相似度及相似度的平均值,中控模块根据一级用户的行为数据中的课程数据判定购买意向课程,并根据存在购买意向课程的用户与其对应的模型用户的相似度锁定目标用户。本发明能够提高用户画像的精准度,快速锁定目标用户。

Description

基于大数据的用户画像建立方法和用户画像管理系统
技术领域
本发明涉及信息分类处理技术领域,尤其涉及一种基于大数据的用户画像建立方法和用户画像管理系统。
背景技术
用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。我们在实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待的数据转化联结起来。作为实际用户的虚拟代表,用户画像所形成的用户角色并不是脱离产品和市场之外所构建出来的,形成的用户角色需要有代表性,能代表产品的主要受众和目标群体。
中国专利公开号:CN108647729B公开了一种用户画像获取方法,其公开的技术方案中能够通过对用户的基础数据及与基础数据对应的用户行为日志分别进行分类和分析,能做较好地建立用户分类模型和用户行为模型,并通过这两个模型获取不同用户的用户画像。
然而,现有技术中,未针对具有购买行为的用户的行为数据进行分析,从而无法精准的锁定目标用户,导致对用户管理的针对性不强。
发明内容
为此,本发明提供一种基于大数据的用户画像建立方法和用户画像管理系统,用以克服现有技术中未针对具有购买行为的用户的行为数据进行分析,从而无法精准的锁定目标用户,导致对用户管理的针对性不强的问题。
为实现上述目的,一方面,本发明提供一种基于大数据的用户画像建立方法,包括:
步骤S1,数据获取模块获取存在购买行为的用户的行为数据,中控模块提取任一所述行为数据的特征词,根据所述特征词对所述行为数据进行归类并生成对应的行为标签以对用户进行画像;
步骤S2,所述中控模块根据所述行为标签对应的所述行为数据的数量对行为标签进行等级划分,并提取存在购买行为的用户的共有行为标签以计算标准参考值R,中控模块根据任一未存在购买行为的用户的行为数据计算对应的参考值R',并根据R'与R的比值对未存在购买行为的用户进行分类;
步骤S3,所述数据获取模块提取购买相同类型课程的用户的行为数据中的课程数据,所述中控模块根据课程数据形成模型用户,并计算任一购买相同类型课程的用户与模型用户的相似度及相似度的平均值;
步骤S4,所述中控模块根据一级用户的行为数据中的课程数据判定购买意向课程,并根据存在购买意向课程的用户与其对应的模型用户的相似度锁定目标用户。
进一步地,在所述步骤S1中,当所述中控模块根据所述特征词对所述行为数据进行归类时,所述词语库模块建立所述特征词的语料库,将特征词转化为特征词向量,计算所述特征词向量的余弦值A,在所述词语库模块中设有若干标准特征词并将标准特征词转化为标准特征词向量,计算标准特征词向量的余弦值A0;
所述中控模块计算任一所述特征词向量的余弦值A和任一所述标准特征词向量的余弦值A0的比值B,设定B=A/A0,所述中控模块将B分别与第一预设余弦值比值参量B1和第二预设余弦值比值参量B2进行比对,其中B1<1<B2,
当B1≤B≤B2时,所述中控模块将A对应的特征词归类到A0对应的标准特征词,并将A0对应的标准特征词生成行为标签;
当B<B1或B>B2时,所述中控模块继续计算A与任一所述标准特征词向量的余弦值A0的比值直至遍历各标准特征词向量。
进一步地,在所述步骤S2中,所述中控模块在完成对所述行为数据的归类后,统计所述行为标签对应的所述行为数据的数量S,中控模块根据S对行为标签进行等级划分,其中,
当S≥S4时,所述中控模块将S对应的所述行为标签划分为第一等级标签并将第一等级标签的权重设置为e1;
当S3≤S<S4时,所述中控模块将S对应的所述行为标签划分为第二等级标签并将第二等级标签的权重设置为e2;
当S2≤S<S3时,所述中控模块将S对应的所述行为标签划分为第三等级标签并将第三等级标签的权重设置为e3;
当S1≤S<S2时,所述中控模块将S对应的所述行为标签划分为第四等级标签并将第四等级标签的权重设置为e4;
当S<S1时,所述中控模块将S对应的所述行为标签划分为第五等级标签并将第五等级标签的权重设置为e5;
其中,S1为第一预设数据量,S2为第二预设数据量,S3为第三预设数据量,S4为第四预设数据量,e1为第一预设权重,e2为第二预设权重,e3为第三预设权重,e4为第四预设权重,e5为第五预设权重,S1<S2<S3<S4,e5<e4<e3<e2<e1。
进一步地,在所述步骤S2中,所述中控模块提取存在购买行为的用户的行为标签中的共有行为标签并记为标准共有行为标签,将所述标准共有行为标签中的所述第一等级标签的贡献值设置为C1,将标准共有行为标签中的所述第二等级标签的贡献值设置为C2,将标准共有行为标签中的所述第三等级标签的贡献值设置为C3,将标准共有行为标签中的所述第四等级标签的贡献值设置为C4,将标准共有行为标签中的所述第五等级标签的贡献值设置为C5,其中C5<C4<C3<C2<C1,所述中控模块根据以下公式计算标准参考值R,设定
R=∑C1×e1×x+∑C2×e2×y+∑C3×e3×k+∑C4×e4×j+∑C5×e5×z
其中,x为共有行为标签中的所述第一等级标签的数量,y为共有行为标签中的所述第二等级标签的数量,k为共有行为标签中的所述第三等级标签的数量,j为共有行为标签中的所述第四等级标签的数量,z为共有行为标签中的所述第五等级标签的数量。
进一步地,在所述步骤S2中,当所述中控模块对未存在购买行为的用户进行分类时,所述数据获取模块获取未存在购买行为的用户的行为数据并对用户进行画像,对于任一未存在购买行为的用户,所述中控模块提取该用户的行为标签并提取该用户的行为标签中存在的标准共有行为标签,并计算其对应的参考值R′,计算R′与标准参考值R的比值D,设定D=R′/R,中控模块根据比值D对未存在购买行为的用户进行分类,其中,
当D≥D2时,所述中控模块将对应的用户分为一级用户;
当D1≤D<D2时,所述中控模块将对应的用户分为二级用户;
当D<D1时,所述中控模块将对应的用户分为三级用户;
其中,D1为第一预设参考值比值参量,D2为第二预设参考值比值参量,D1<D2。
进一步地,在所述步骤S3中,所述数据获取模块在购买相同类型课程的用户的行为数据中提取包含课程信息的行为数据并将包含课程信息的行为数据记为课程数据,并在购买相同类型课程的用户对应的所述课程数据中提取共有课程,对于任一所述共有课程,所述数据获取模块统计任一购买相同类型课程的用户对应的该共有课程的课程数据量,所述中控模块计算该共有课程的数据基础值N0,设定
Figure BDA0004121109740000041
其中,N1为购买相同类型课程的用户中第一个用户对应的该共有课程的课程数据量,N2为购买相同类型课程的用户中第二个用户对应的该共有课程的课程数据量,Nm为购买相同类型课程的用户中第m个用户对应的该共有课程的课程数据量,m为购买相同类型课程的用户数量。
进一步地,在所述步骤S3中,所述中控模块将所述共有课程、共有课程的课程数据量及共有课程对应的数据基础值形成购买相同类型课程的模型用户,所述中控模块根据以下公式计算任一购买相同类型课程的用户与模型用户的相似度X,
Figure BDA0004121109740000042
其中,N为第i个共有课程的课程数据量,N0为第i个共有课程的数据基础值,n为模型用户中存在的共有课程的数量;
所述中控模块根据以下公式计算任一购买相同类型课程的用户与模型用户的相似度的平均值
Figure BDA0004121109740000043
Figure BDA0004121109740000044
其中,X1为购买相同类型课程的用户中第一个用户与模型用户的相似度,X2为购买相同类型课程的用户中第二个用户与模型用户的相似度,Xm为购买相同类型课程的用户中第m个用户与模型用户的相似度,m为购买相同类型课程的用户数量。
进一步地,在所述步骤S4中,所述数据获取模块获取任一所述一级用户的行为数据中的课程数据,统计任一课程的课程数据量所占的比重Hb,设定Hb=H/H0,H为任一课程对应的课程数据量,H0为任一所述一级用户的行为数据中的课程数据总量,所述中控模块将Hb与预设比重对比参量Hb0进行比对,
当Hb≥Hb0时,所述中控模块将Hb对应的课程记为购买意向课程;
当Hb<Hb0时,所述中控模块将Hb对应的课程记为非购买意向课程。
进一步地,在所述步骤S4中,所述中控模块在锁定目标用户时,计算存在购买意向课程的用户与其对应的模型用户的相似度X',所述中控模块将X'与该购买意向课程对应的相似度平均值
Figure BDA0004121109740000051
进行比对,当/>
Figure BDA0004121109740000052
时,所述中控模块将该用户锁定为目标用户。
另一方面,本发明提供一种用户画像管理系统,包括:
数据获取模块,用以获取用户在平台操作时的行为数据;
词语库模块,用以将特征词和标准特征词转化为词向量并计算对应的余弦值;
中控模块,用以提取所述行为数据的特征词并生成对应的行为标签以对用户进行画像,根据共有行为标签计算的标准参考值对未存在购买行为的用户进行分类,中控模块根据购买相同类型课程的用户的行为数据中的课程数据形成模型用户,并根据与模型用户的相似度在一级用户中锁定目标用户。
与现有技术相比,本发明的有益效果在于,存在购买行为的用户的行为数据不仅对用户的画像具有指导意义,而且能够为锁定目标用户提供依据,区别于现有技术中根据所有用户的行为数据进行画像的方法,本发明从存在购买行为的用户的行为数据出发进行分析,生成对应的行为标签以对用户进行画像,以存在购买行为的用户为模型,对未存在购买行为的用户进行分析,从而能够对用户的购买意向以及成交意向进行分析,进而能够精准锁定目标用户。
进一步地,本发明设置若干标准特征词,并在对行为数据的特征词提取后,以词向量余弦值的计算方法对行为数据的特征词进行分类,分类后将设置的标准特征词生成行为标签,从而使标签用语规范化,方便系统对数据的识别和管理,由于标准特征词为预设在系统内,避免了词义模糊或是词义相近的特征词的出现,在以标准特征词为基准对特征词进行分类时,避免了一个特征词出现在多个标准特征词分类下的情况,减少了系统的运算量,避免一个特征词出现多次分类的设计,又同时避免了分类错误的可能,提高了运算速度和运算精度,从而提高了行为标签的精度,进而提高了用户画像的精准性。
进一步地,本发明统计各行为标签对应的行为数据的数量S,中控模块根据S对行为标签进行等级划分,并根据标签的等级设置对应的权重,行为标签对应的行为数据的数量越多,说明该行为标签对用户产生购买行为的影响越大,通过对行为标签进行等级划分,能够使针对用户的画像更加准确,从而对用户的管理更具有针对性。
进一步地,本发明根据行为标签的等级对行为标签设置不同权重,通过提取共有标签以及对共有标签设置贡献值,进而计算标准参考值R,标准参考值R反映了用户产生购买行为的概率,标准参考值R越大,说明用户存在的对用户购买行为产生影响较大的行为数据越多,则该用户产生购买行为的概率越大,标准参考值R越小,说明用户存在的对用户购买行为产生影响较大的行为数据越少,则该用户产生购买行为的概率越小,通过标准参考值R对未存在购买行为的用户进行分类,提高了本发明所述方法对用户分类的精准性。
进一步地,本发明所述数据获取模块在各购买相同类型课程的用户的行为数据中提取课程数据,进一步提取共有课程及共有课程的课程数据量,计算共有课程的数据基础值,所述中控模块将所述共有课程、共有课程的课程数据量及共有课程对应的数据基础值形成购买相同类型课程的模型用户,模型用户以存在购买行为的用户的行为数据为基础,分析其课程数据之间的关系,从而建立的以购买课程为基础的课程数据之间关联性的模型,通过构建模型用户,并计算存在购买意向课程的用户与模型用户的相似度,进而锁定目标用户,通过上述技术方案,能够精准分析用户,从而对用户的管理更具有针对性。
附图说明
图1为本发明实施例基于大数据的用户画像建立方法的流程图;
图2为本发明实施例用户画像管理系统的结构框图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,其为本发明实施例基于大数据的用户画像建立方法的流程图,本发明所述基于大数据的用户画像建立方法,包括:
步骤S1,数据获取模块获取存在购买行为的用户的行为数据,中控模块提取任一所述行为数据的特征词,根据所述特征词对所述行为数据进行归类并生成对应的行为标签以对用户进行画像;
步骤S2,所述中控模块根据所述行为标签对应的所述行为数据的数量对行为标签进行等级划分,并提取存在购买行为的用户的共有行为标签以计算标准参考值R,中控模块根据任一未存在购买行为的用户的行为数据计算对应的参考值R',并根据R'与R的比值对未存在购买行为的用户进行分类;
本发明实施例中,以每个存在购买行为的用户都拥有的行为标签作为共有行为标签。
步骤S3,所述数据获取模块提取购买相同类型课程的用户的行为数据中的课程数据,所述中控模块根据课程数据形成模型用户,并计算任一购买相同类型课程的用户与模型用户的相似度及相似度的平均值;
步骤S4,所述中控模块根据一级用户的行为数据中的课程数据判定购买意向课程,并根据存在购买意向课程的用户与其对应的模型用户的相似度锁定目标用户。
存在购买行为的用户的行为数据不仅对用户的画像具有指导意义,而且能够为锁定目标用户提供依据,区别于现有技术中根据所有用户的行为数据进行画像的方法,本发明从存在购买行为的用户的行为数据出发进行分析,生成对应的行为标签以对用户进行画像,以存在购买行为的用户为模型,对未存在购买行为的用户进行分析,从而能够对用户的购买意向以及成交意向进行分析,进而能够精准锁定目标用户。
具体而言,在所述步骤S1中,当所述中控模块根据所述特征词对所述行为数据进行归类时,所述词语库模块建立所述特征词的语料库,将特征词转化为特征词向量,计算所述特征词向量的余弦值A,在所述词语库模块中设有若干标准特征词并将标准特征词转化为标准特征词向量,计算标准特征词向量的余弦值A0;
所述中控模块计算任一所述特征词向量的余弦值A和任一所述标准特征词向量的余弦值A0的比值B,设定B=A/A0,所述中控模块将B分别与第一预设余弦值比值参量B1和第二预设余弦值比值参量B2进行比对,其中B1<1<B2,
当B1≤B≤B2时,所述中控模块将A对应的特征词归类到A0对应的标准特征词,并将A0对应的标准特征词生成行为标签;
当B<B1或B>B2时,所述中控模块继续计算A与任一所述标准特征词向量的余弦值A0的比值直至遍历各标准特征词向量。
本发明设置若干标准特征词,并在对行为数据的特征词提取后,以词向量余弦值的计算方法对行为数据的特征词进行分类,分类后将设置的标准特征词生成行为标签,从而使标签用语规范化,方便系统对数据的识别和管理,由于标准特征词为预设在系统内,避免了词义模糊或是词义相近的特征词的出现,在以标准特征词为基准对特征词进行分类时,避免了一个特征词出现在多个标准特征词分类下的情况,减少了系统的运算量,避免一个特征词出现多次分类的设计,又同时避免了分类错误的可能,提高了运算速度和运算精度,从而提高了行为标签的精度,进而提高了用户画像的精准性。
具体而言,在所述步骤S2中,所述中控模块在完成对所述行为数据的归类后,统计所述行为标签对应的所述行为数据的数量S,中控模块根据S对行为标签进行等级划分,其中,
当S≥S4时,所述中控模块将S对应的所述行为标签划分为第一等级标签并将第一等级标签的权重设置为e1;
当S3≤S<S4时,所述中控模块将S对应的所述行为标签划分为第二等级标签并将第二等级标签的权重设置为e2;
当S2≤S<S3时,所述中控模块将S对应的所述行为标签划分为第三等级标签并将第三等级标签的权重设置为e3;
当S1≤S<S2时,所述中控模块将S对应的所述行为标签划分为第四等级标签并将第四等级标签的权重设置为e4;
当S<S1时,所述中控模块将S对应的所述行为标签划分为第五等级标签并将第五等级标签的权重设置为e5;
其中,S1为第一预设数据量,S2为第二预设数据量,S3为第三预设数据量,S4为第四预设数据量,e1为第一预设权重,e2为第二预设权重,e3为第三预设权重,e4为第四预设权重,e5为第五预设权重,S1<S2<S3<S4,e5<e4<e3<e2<e1。
本发明统计各行为标签对应的行为数据的数量S,中控模块根据S对行为标签进行等级划分,并根据标签的等级设置对应的权重,行为标签对应的行为数据的数量越多,说明该行为标签对用户产生购买行为的影响越大,通过对行为标签进行等级划分,能够使针对用户的画像更加准确,从而对用户的管理更具有针对性。
具体而言,在所述步骤S2中,所述中控模块提取存在购买行为的用户的行为标签中的共有行为标签并记为标准共有行为标签,将所述标准共有行为标签中的所述第一等级标签的贡献值设置为C1,将标准共有行为标签中的所述第二等级标签的贡献值设置为C2,将标准共有行为标签中的所述第三等级标签的贡献值设置为C3,将标准共有行为标签中的所述第四等级标签的贡献值设置为C4,将标准共有行为标签中的所述第五等级标签的贡献值设置为C5,其中C5<C4<C3<C2<C1,所述中控模块根据以下公式计算标准参考值R,设定
R=∑C1×e1×x+∑C2×e2×y+∑C3×e3×k+∑C4×e4×j+∑C5×e5×z
其中,x为共有行为标签中的所述第一等级标签的数量,y为共有行为标签中的所述第二等级标签的数量,k为共有行为标签中的所述第三等级标签的数量,j为共有行为标签中的所述第四等级标签的数量,z为共有行为标签中的所述第五等级标签的数量。
具体而言,在所述步骤S2中,当所述中控模块对未存在购买行为的用户进行分类时,所述数据获取模块获取未存在购买行为的用户的行为数据并对用户进行画像,对于任一未存在购买行为的用户,所述中控模块提取该用户的行为标签并提取该用户的行为标签中存在的标准共有行为标签,并计算其对应的参考值R′,计算R′与标准参考值R的比值D,设定D=R′/R,中控模块根据比值D对未存在购买行为的用户进行分类,其中,
当D≥D2时,所述中控模块将对应的用户分为一级用户;
当D1≤D<D2时,所述中控模块将对应的用户分为二级用户;
当D<D1时,所述中控模块将对应的用户分为三级用户;
其中,D1为第一预设参考值比值参量,D2为第二预设参考值比值参量,D1<D2。
本发明根据行为标签的等级对行为标签设置不同权重,通过提取共有标签以及对共有标签设置贡献值,进而计算标准参考值R,标准参考值R反映了用户产生购买行为的概率,标准参考值R越大,说明用户存在的对用户购买行为产生影响较大的行为数据越多,则该用户产生购买行为的概率越大,标准参考值R越小,说明用户存在的对用户购买行为产生影响较大的行为数据越少,则该用户产生购买行为的概率越小,通过标准参考值R对未存在购买行为的用户进行分类,提高了本发明所述方法对用户分类的精准性。
具体而言,在所述步骤S3中,所述数据获取模块在购买相同类型课程的用户的行为数据中提取包含课程信息的行为数据并将包含课程信息的行为数据记为课程数据,并在购买相同类型课程的用户对应的所述课程数据中提取共有课程,本发明实施例以每一个购买相同类型课程的用户都出现的课程数据为共有课程数据,对于任一所述共有课程,所述数据获取模块统计任一购买相同类型课程的用户对应的该共有课程的课程数据量,所述中控模块计算该共有课程的数据基础值N0,设定
Figure BDA0004121109740000111
其中,N1为购买相同类型课程的用户中第一个用户对应的该共有课程的课程数据量,N2为购买相同类型课程的用户中第二个用户对应的该共有课程的课程数据量,Nm为购买相同类型课程的用户中第m个用户对应的该共有课程的课程数据量,m为购买相同类型课程的用户数量。
具体而言,在所述步骤S3中,所述中控模块将所述共有课程、共有课程的课程数据量及共有课程对应的数据基础值形成购买相同类型课程的模型用户,所述中控模块根据以下公式计算任一购买相同类型课程的用户与模型用户的相似度X,
Figure BDA0004121109740000112
其中,N为第i个共有课程的课程数据量,N0为第i个共有课程的数据基础值,n为模型用户中存在的共有课程的数量;
所述中控模块根据以下公式计算任一购买相同类型课程的用户与模型用户的相似度的平均值
Figure BDA0004121109740000113
Figure BDA0004121109740000114
其中,X1为购买相同类型课程的用户中第一个用户与模型用户的相似度,X2为购买相同类型课程的用户中第二个用户与模型用户的相似度,Xm为购买相同类型课程的用户中第m个用户与模型用户的相似度,m为购买相同类型课程的用户数量。
比如将所有购买数学课程的用户可以归类于购买相同类型课程的用户,也可以进一步进行分类,比如按照课程对应的年级分类,本发明不对课程分类的方式进行限定,可以按照实际需求设定。
具体而言,在所述步骤S4中,所述数据获取模块获取任一所述一级用户的行为数据中的课程数据,统计任一课程的课程数据量所占的比重Hb,设定Hb=H/H0,H为任一课程对应的课程数据量,H0为任一所述一级用户的行为数据中的课程数据总量,所述中控模块将Hb与预设比重对比参量Hb0进行比对,
当Hb≥Hb0时,所述中控模块将Hb对应的课程记为购买意向课程;
当Hb<Hb0时,所述中控模块将Hb对应的课程记为非购买意向课程。
具体而言,在所述步骤S4中,所述中控模块在锁定目标用户时,计算存在购买意向课程的用户与其对应的模型用户的相似度X',所述中控模块将X'与该购买意向课程对应的相似度平均值
Figure BDA0004121109740000121
进行比对,当/>
Figure BDA0004121109740000122
时,所述中控模块将该用户锁定为目标用户。
本发明所述数据获取模块在各购买相同类型课程的用户的行为数据中提取课程数据,进一步提取共有课程及共有课程的课程数据量,计算共有课程的数据基础值,所述中控模块将所述共有课程、共有课程的课程数据量及共有课程对应的数据基础值形成购买相同类型课程的模型用户,模型用户以存在购买行为的用户的行为数据为基础,分析其课程数据之间的关系,从而建立的以购买课程为基础的课程数据之间关联性的模型,通过构建模型用户,并计算存在购买意向课程的用户与模型用户的相似度,进而锁定目标用户,通过上述技术方案,能够精准分析用户,从而对用户的管理更具有针对性。
请参阅图2所示,其为本发明实施例用户画像管理系统的结构框图,本发明所述用户画像管理系统,包括:
数据获取模块,用以获取用户在平台操作时的行为数据;
词语库模块,用以将特征词和标准特征词转化为词向量并计算对应的余弦值;
中控模块,用以提取所述行为数据的特征词并生成对应的行为标签以对用户进行画像,根据共有行为标签计算的标准参考值对未存在购买行为的用户进行分类,中控模块根据购买相同类型课程的用户的行为数据中的课程数据形成模型用户,并根据与模型用户的相似度在一级用户中锁定目标用户。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于大数据的用户画像建立方法,其特征在于,包括:
步骤S1,数据获取模块获取存在购买行为的用户的行为数据,中控模块提取任一所述行为数据的特征词,根据所述特征词对所述行为数据进行归类并生成对应的行为标签以对用户进行画像;
步骤S2,所述中控模块根据所述行为标签对应的所述行为数据的数量对行为标签进行等级划分,并提取存在购买行为的用户的共有行为标签以计算标准参考值R,中控模块根据任一未存在购买行为的用户的行为数据计算对应的参考值R',并根据R'与R的比值对未存在购买行为的用户进行分类;
步骤S3,所述数据获取模块提取购买相同类型课程的用户的行为数据中的课程数据,所述中控模块根据课程数据形成模型用户,并计算任一购买相同类型课程的用户与模型用户的相似度及相似度的平均值;
步骤S4,所述中控模块根据一级用户的行为数据中的课程数据判定购买意向课程,并根据存在购买意向课程的用户与其对应的模型用户的相似度锁定目标用户。
2.根据权利要求1所述的基于大数据的用户画像建立方法,其特征在于,在所述步骤S1中,当所述中控模块根据所述特征词对所述行为数据进行归类时,所述词语库模块建立所述特征词的语料库,将特征词转化为特征词向量,计算所述特征词向量的余弦值A,在所述词语库模块中设有若干标准特征词并将标准特征词转化为标准特征词向量,计算标准特征词向量的余弦值A0;
所述中控模块计算任一所述特征词向量的余弦值A和任一所述标准特征词向量的余弦值A0的比值B,设定B=A/A0,所述中控模块将B分别与第一预设余弦值比值参量B1和第二预设余弦值比值参量B2进行比对,其中B1<1<B2,
当B1≤B≤B2时,所述中控模块将A对应的特征词归类到A0对应的标准特征词,并将A0对应的标准特征词生成行为标签;
当B<B1或B>B2时,所述中控模块继续计算A与任一所述标准特征词向量的余弦值A0的比值直至遍历各标准特征词向量。
3.根据权利要求2所述的基于大数据的用户画像建立方法,其特征在于,在所述步骤S2中,所述中控模块在完成对所述行为数据的归类后,统计所述行为标签对应的所述行为数据的数量S,中控模块根据S对行为标签进行等级划分,其中,
当S≥S4时,所述中控模块将S对应的所述行为标签划分为第一等级标签并将第一等级标签的权重设置为e1;
当S3≤S<S4时,所述中控模块将S对应的所述行为标签划分为第二等级标签并将第二等级标签的权重设置为e2;
当S2≤S<S3时,所述中控模块将S对应的所述行为标签划分为第三等级标签并将第三等级标签的权重设置为e3;
当S1≤S<S2时,所述中控模块将S对应的所述行为标签划分为第四等级标签并将第四等级标签的权重设置为e4;
当S<S1时,所述中控模块将S对应的所述行为标签划分为第五等级标签并将第五等级标签的权重设置为e5;
其中,S1为第一预设数据量,S2为第二预设数据量,S3为第三预设数据量,S4为第四预设数据量,e1为第一预设权重,e2为第二预设权重,e3为第三预设权重,e4为第四预设权重,e5为第五预设权重,S1<S2<S3<S4,e5<e4<e3<e2<e1。
4.根据权利要求3所述的基于大数据的用户画像建立方法,其特征在于,在所述步骤S2中,所述中控模块提取存在购买行为的用户的行为标签中的共有行为标签并记为标准共有行为标签,将所述标准共有行为标签中的所述第一等级标签的贡献值设置为C1,将标准共有行为标签中的所述第二等级标签的贡献值设置为C2,将标准共有行为标签中的所述第三等级标签的贡献值设置为C3,将标准共有行为标签中的所述第四等级标签的贡献值设置为C4,将标准共有行为标签中的所述第五等级标签的贡献值设置为C5,其中C5<C4<C3<C2<C1,所述中控模块根据以下公式计算标准参考值R,设定
R=∑C1×e1×x+∑C2×e2×y+ΣC3×e3×k+ΣC4×e4×j+∑C5×e5×z
其中,x为共有行为标签中的所述第一等级标签的数量,y为共有行为标签中的所述第二等级标签的数量,k为共有行为标签中的所述第三等级标签的数量,j为共有行为标签中的所述第四等级标签的数量,z为共有行为标签中的所述第五等级标签的数量。
5.根据权利要求4所述的基于大数据的用户画像建立方法,其特征在于,在所述步骤S2中,当所述中控模块对未存在购买行为的用户进行分类时,所述数据获取模块获取未存在购买行为的用户的行为数据并对用户进行画像,对于任一未存在购买行为的用户,所述中控模块提取该用户的行为标签并提取该用户的行为标签中存在的标准共有行为标签,并计算其对应的参考值R',计算R'与标准参考值R的比值D,设定D=R'/R,中控模块根据比值D对未存在购买行为的用户进行分类,其中,
当D≥D2时,所述中控模块将对应的用户分为一级用户;
当D1≤D<D2时,所述中控模块将对应的用户分为二级用户;
当D<D1时,所述中控模块将对应的用户分为三级用户;
其中,D1为第一预设参考值比值参量,D2为第二预设参考值比值参量,D1<D2。
6.根据权利要求5所述的基于大数据的用户画像建立方法,其特征在于,在所述步骤S3中,所述数据获取模块在购买相同类型课程的用户的行为数据中提取包含课程信息的行为数据并将包含课程信息的行为数据记为课程数据,并在购买相同类型课程的用户对应的所述课程数据中提取共有课程,对于任一所述共有课程,所述数据获取模块统计任一购买相同类型课程的用户对应的该共有课程的课程数据量,所述中控模块计算该共有课程的数据基础值N0,设定
Figure FDA0004121109720000031
其中,N1为购买相同类型课程的用户中第一个用户对应的该共有课程的课程数据量,N2为购买相同类型课程的用户中第二个用户对应的该共有课程的课程数据量,Nm为购买相同类型课程的用户中第m个用户对应的该共有课程的课程数据量,m为购买相同类型课程的用户数量。
7.根据权利要求6所述的基于大数据的用户画像建立方法,其特征在于,在所述步骤S3中,所述中控模块将所述共有课程、共有课程的课程数据量及共有课程对应的数据基础值形成购买相同类型课程的模型用户,所述中控模块根据以下公式计算任一购买相同类型课程的用户与模型用户的相似度X,
Figure FDA0004121109720000032
其中,N为第i个共有课程的课程数据量,N0为第i个共有课程的数据基础值,n为模型用户中存在的共有课程的数量;
所述中控模块根据以下公式计算任一购买相同类型课程的用户与模型用户的相似度的平均值
Figure FDA0004121109720000041
Figure FDA0004121109720000042
其中,X1为购买相同类型课程的用户中第一个用户与模型用户的相似度,X2为购买相同类型课程的用户中第二个用户与模型用户的相似度,Xm为购买相同类型课程的用户中第m个用户与模型用户的相似度,m为购买相同类型课程的用户数量。
8.根据权利要求7所述的基于大数据的用户画像建立方法,其特征在于,在所述步骤S4中,所述数据获取模块获取任一所述一级用户的行为数据中的课程数据,统计任一课程的课程数据量所占的比重Hb,设定Hb=H/H0,H为任一课程对应的课程数据量,H0为任一所述一级用户的行为数据中的课程数据总量,所述中控模块将Hb与预设比重对比参量Hb0进行比对,
当Hb≥Hb0时,所述中控模块将Hb对应的课程记为购买意向课程;
当Hb<Hb0时,所述中控模块将Hb对应的课程记为非购买意向课程。
9.根据权利要求8所述的基于大数据的用户画像建立方法,其特征在于,在所述步骤S4中,所述中控模块在锁定目标用户时,计算存在购买意向课程的用户与其对应的模型用户的相似度X',所述中控模块将X'与该购买意向课程对应的相似度平均值
Figure FDA0004121109720000043
进行比对,当
Figure FDA0004121109720000044
时,所述中控模块将该用户锁定为目标用户。
10.一种应用权利要求1-9任一所述方法的用户画像管理系统,其特征在于,包括:
数据获取模块,用以获取用户在平台操作时的行为数据;
词语库模块,用以将特征词和标准特征词转化为词向量并计算对应的余弦值;
中控模块,用以提取所述行为数据的特征词并生成对应的行为标签以对用户进行画像,根据共有行为标签计算的标准参考值对未存在购买行为的用户进行分类,中控模块根据购买相同类型课程的用户的行为数据中的课程数据形成模型用户,并根据与模型用户的相似度在一级用户中锁定目标用户。
CN202310232965.2A 2023-03-10 2023-03-10 基于大数据的用户画像建立方法和用户画像管理系统 Active CN116228278B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310232965.2A CN116228278B (zh) 2023-03-10 2023-03-10 基于大数据的用户画像建立方法和用户画像管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310232965.2A CN116228278B (zh) 2023-03-10 2023-03-10 基于大数据的用户画像建立方法和用户画像管理系统

Publications (2)

Publication Number Publication Date
CN116228278A true CN116228278A (zh) 2023-06-06
CN116228278B CN116228278B (zh) 2023-11-14

Family

ID=86585585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310232965.2A Active CN116228278B (zh) 2023-03-10 2023-03-10 基于大数据的用户画像建立方法和用户画像管理系统

Country Status (1)

Country Link
CN (1) CN116228278B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116523545A (zh) * 2023-06-28 2023-08-01 大汉电子商务有限公司 基于大数据的异常订单画像构建方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101026802A (zh) * 2007-03-16 2007-08-29 华为技术有限公司 一种信息推送方法与装置
CN109345348A (zh) * 2018-09-30 2019-02-15 重庆誉存大数据科技有限公司 基于旅行社用户的多维信息画像的推荐方法
CN111523929A (zh) * 2020-04-15 2020-08-11 高邮市新世纪灯具城经营管理有限公司 一种商户信息管理方法及系统
CN112015998A (zh) * 2020-11-02 2020-12-01 北京值得买科技股份有限公司 一种基于用户画像的商品推荐方法
CN115631006A (zh) * 2022-11-03 2023-01-20 平安银行股份有限公司 智能推荐银行产品的方法、装置、存储介质及计算机设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101026802A (zh) * 2007-03-16 2007-08-29 华为技术有限公司 一种信息推送方法与装置
CN109345348A (zh) * 2018-09-30 2019-02-15 重庆誉存大数据科技有限公司 基于旅行社用户的多维信息画像的推荐方法
CN111523929A (zh) * 2020-04-15 2020-08-11 高邮市新世纪灯具城经营管理有限公司 一种商户信息管理方法及系统
CN112015998A (zh) * 2020-11-02 2020-12-01 北京值得买科技股份有限公司 一种基于用户画像的商品推荐方法
CN115631006A (zh) * 2022-11-03 2023-01-20 平安银行股份有限公司 智能推荐银行产品的方法、装置、存储介质及计算机设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116523545A (zh) * 2023-06-28 2023-08-01 大汉电子商务有限公司 基于大数据的异常订单画像构建方法

Also Published As

Publication number Publication date
CN116228278B (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
Song et al. Multi-view ensemble learning based on distance-to-model and adaptive clustering for imbalanced credit risk assessment in P2P lending
Demidova et al. Use of fuzzy clustering algorithms ensemble for SVM classifier development
CN101496035B (zh) 模式分类方法
Yu et al. A global optimization approach to robust multi-model fitting
JP2019511037A (ja) 機械学習モデルのモデリング方法及びデバイス
CN110570111A (zh) 企业风险预测方法、模型训练方法、装置及设备
US20110206276A1 (en) Hybrid graph model for unsupervised object segmentation
CN116228278B (zh) 基于大数据的用户画像建立方法和用户画像管理系统
CN108509492B (zh) 基于房地产行业的大数据处理及系统
CN103793447A (zh) 音乐与图像间语义相识度的估计方法和估计系统
CN107392217B (zh) 计算机实现的信息处理方法及装置
CN116630100B (zh) 旅游数据处理方法、装置、设备及存储介质
CN115983984A (zh) 一种多模型融合的客户风险评级方法
CN111221960A (zh) 文本检测方法、相似度计算方法、模型训练方法及装置
US20080306891A1 (en) Method for machine learning with state information
CN109493916A (zh) 一种基于稀疏性因子分析的基因-基因交互作用识别方法
Chadebec et al. A geometric perspective on variational autoencoders
CN109409231B (zh) 基于自适应隐马尔可夫的多特征融合手语识别方法
CN116433333B (zh) 基于机器学习的数字商品交易风险防控方法及装置
US7797180B2 (en) Method and system for comparing populations of entities to make predictions about business locations
CN110727762B (zh) 确定相似文本的方法、装置、存储介质及电子设备
JP2004178569A (ja) データ分類装置、物体認識装置、データ分類方法及び物体認識方法
CN114565791A (zh) 一种人物档案识别方法、装置、设备及介质
CN113657440A (zh) 一种基于用户特征聚类的拒绝样本推断方法和装置
CN110599228B (zh) 一种店铺识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant