CN114781624B - 基于大数据分析的用户行为意图挖掘方法及大数据系统 - Google Patents

基于大数据分析的用户行为意图挖掘方法及大数据系统 Download PDF

Info

Publication number
CN114781624B
CN114781624B CN202210564365.1A CN202210564365A CN114781624B CN 114781624 B CN114781624 B CN 114781624B CN 202210564365 A CN202210564365 A CN 202210564365A CN 114781624 B CN114781624 B CN 114781624B
Authority
CN
China
Prior art keywords
behavior
intention
user behavior
tendency
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210564365.1A
Other languages
English (en)
Other versions
CN114781624A (zh
Inventor
谢发泽
徐信福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xingyun Information Technology Co ltd
Original Assignee
Shanghai Xingyun Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xingyun Information Technology Co ltd filed Critical Shanghai Xingyun Information Technology Co ltd
Priority to CN202210564365.1A priority Critical patent/CN114781624B/zh
Priority to CN202211267942.7A priority patent/CN115563186A/zh
Publication of CN114781624A publication Critical patent/CN114781624A/zh
Application granted granted Critical
Publication of CN114781624B publication Critical patent/CN114781624B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Molecular Biology (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种基于大数据分析的用户行为意图挖掘方法及大数据系统,基于用户行为大数据获取每个用户行为事件相关联的第一行为关注变量簇,对每个用户行为事件相关联的第一行为关注变量簇进行分析,确定每个用户行为事件相关联的第一行为倾向变量,据于此对第一预设数量个用户行为事件进行分簇,并在达到分簇结束要求时,确定对应于第一关注性节点的每个分簇特征分布,由此进行意图输出,确定每个用户行为事件相关联的用户行为意图。如此,在用户行为意图挖掘之前通过基于行为倾向提取维度确定第一关注性节点的每个分簇特征分布,可以提高意图挖掘输出过程中针对关联性特征和非关联性特征的分析性能,进而提高意图分析可靠性。

Description

基于大数据分析的用户行为意图挖掘方法及大数据系统
技术领域
本发明涉及大数据分析技术领域,具体而言,涉及一种基于大数据分析的用户行为意图挖掘方法及大数据系统。
背景技术
随着互联网信息技术中的发展,越来越多的互联网产品上线,可以为用户提供各种需求的互联网产品服务,用户在互联网信息平台中的行为意图可以表征用户针对某个互联网产品页面中的关注点特征,以用户行为意图作为基本特征对用户以及文本内容进行建模,从而支持内容精准、个性化分发。然而,在相关技术中的意图挖掘输出过程中,没有针对关联性特征和非关联性特征进行可靠分析,导致意图分析可靠性不佳。
发明内容
为了至少克服现有技术中的上述不足,本发明的目的在于提供一种基于大数据分析的用户行为意图挖掘方法及大数据系统。
第一方面,本发明实施例提供一种基于大数据分析的用户行为意图挖掘方法,应用于大数据系统,所述方法包括:
基于用户行为大数据获取待挖掘的第一预设数量个用户行为事件中各个用户行为事件相关联的第一行为关注变量簇,所述第一行为关注变量簇为依据第一关注性节点内的初始行为事件进行特征抽取获得;
依据第二预设数量个行为倾向提取维度对各个所述用户行为事件相关联的第一行为关注变量簇进行分析,确定各个所述用户行为事件相关联的第一行为倾向变量,所述第一行为倾向变量包括第二预设数量个第一意图度量信息,各第一意图度量信息对应于一个行为倾向提取维度;
基于各个所述用户行为事件相关联的第一行为倾向变量,对所述第一预设数量个用户行为事件进行分簇,并在达到分簇结束要求时,确定对应于所述第一关注性节点的每个分簇特征分布,其中,所述每个分簇特征分布用于表征各个所述用户行为事件对应于所述第一关注性节点的关联性特征和非关联性特征;
对对应于所述第一关注性节点的每个分簇特征分布进行意图输出,确定各个用户行为事件相关联的用户行为意图。
针对第一方面的一些可能的实施方式,所述对对应于所述第一关注性节点的每个分簇特征分布进行意图输出,确定各个用户行为事件相关联的用户行为意图,包括:
将对应于所述第一关注性节点的每个分簇特征分布输入到用户行为意图挖掘模型中,确定各个用户行为事件相关联的用户行为意图;
其中,所述用户行为意图挖掘模型的训练步骤包括:
获取范例分簇特征分布序列,所述范例分簇特征分布序列包括多个标定了范例学习行为意图的范例分簇特征分布;
获取范例用户行为意图挖掘模型,所述范例用户行为意图挖掘模型包括深度卷积编码分支、行为意图输出分支、以及意图连通分支;
对于每个所述范例分簇特征分布,结合所述深度卷积编码分支获取所述范例分簇特征分布在多个产品应用节点下的深度卷积编码特征分布;
结合所述行为意图输出分支将每个所述产品应用节点下的深度卷积编码特征分布进行行为意图输出,输出每个所述产品应用节点下的深度卷积编码特征分布对应的成员行为意图;
结合所述意图连通分支基于所述产品应用节点下的深度卷积编码特征分布对应的成员行为意图得到一输出行为意图;
结合所述输出行为意图与所述范例学习行为意图确定第一意图挖掘代价值;
结合所述第一意图挖掘代价值对所述范例用户行为意图挖掘模型进行模型参数层的遍历调优和选取,直至所述第一意图挖掘代价值满足第一决策条件,输出调优完成的范例用户行为意图挖掘模型作为所述用户行为意图挖掘模型;
其中,所述第一意图挖掘代价值由各所述输出行为意图中的各学习行为意图与所述范例学习行为意图中对应的各学习行为意图的第一损失函数评估值进行确定,所述第一决策条件包括所述第一意图挖掘代价值表征的第一损失函数评估值小于第一预设损失函数值。
所述用户行为意图挖掘模型的训练步骤还包括:
获取范例分簇特征分布序列,所述范例分簇特征分布序列包括多个标定了范例学习行为意图的范例分簇特征分布;
获取范例用户行为意图挖掘模型,并对所述范例用户行为意图挖掘模型进行线上共享模型参数层信息的加载与配置,输出初步配置的范例用户行为意图挖掘模型;
对于每个所述范例分簇特征分布,结合所述范例用户行为意图挖掘模型获取所述范例分簇特征分布在多个产品应用节点下的深度卷积编码特征分布,并结合所述产品应用节点下的深度卷积编码特征分布以及所述范例学习行为意图包括的成员行为意图确定第二意图挖掘代价值;
结合所述第二意图挖掘代价值对所述初步配置的范例用户行为意图挖掘模型进行模型参数层的遍历调优和选取,直至所述第二意图挖掘代价值满足第二决策条件,输出调优完成的范例用户行为意图挖掘模型作为所述用户行为意图挖掘模型;
譬如,针对第一方面的一些可能的实施方式,所述第二意图挖掘代价值由各所述产品应用节点下的深度卷积编码特征分布与所述范例学习行为意图中对应的各学习行为意图的第二损失函数评估值进行确定,所述第二决策条件包括所述第二意图挖掘代价值表征的第二损失函数评估值小于第二预设损失函数值,所述第二预设损失函数值小于所述第一预设损失函数值。
其中,所述获取范例分簇特征分布序列,包括:
结合多个产品开发项目获取目标互联网产品场景下的关注性节点的分簇特征分布,输出多个分簇特征分布;
将各所述分簇特征分布作为范例分簇特征分布加载到预设的范例特征库中;
提取所述范例特征库中的各所述范例分簇特征分布在多个产品应用节点下的深度卷积编码特征分布,输出每个范例分簇特征分布对应的深度卷积编码特征分布;
结合每个所述范例分簇特征分布对应的深度卷积编码特征分布,对所述范例特征库中的范例分簇特征分布进行特征冗余优化,输出特征冗余优化后的范例特征库;
结合特征冗余优化后的范例特征库中各范例分簇特征分布对应的深度卷积编码特征分布得到所述范例分簇特征分布对应的范例学习行为意图,并将所述学习行为意图与所述范例分簇特征分布在所述范例特征库中进行关联性设置,输出所述范例分簇特征分布序列;
其中,结合每个所述范例分簇特征分布对应的深度卷积编码特征分布,对所述范例特征库中的范例分簇特征分布进行特征冗余优化,得的特征冗余优化后的范例特征库,包括:
针对每个所述范例分簇特征分布,确定所述范例分簇特征分布对应的所述深度卷积编码特征分布中是否存在指定噪声特征;
若存在指定噪声特征,则将所述范例分簇特征分布从所述范例分簇特征分布序列中删除;
其中,所述指定噪声特征包括所述范例分簇特征分布对应的深度卷积编码特征分布中未关联于预先配置的产品应用节点下的深度卷积编码特征分布或者未关联于预设数量个产品应用节点下的深度卷积编码特征分布。
其中,所述获取范例分簇特征分布序列,还包括:
复制所述范例分簇特征分布序列中一部分范例分簇特征分布作为模糊分簇特征分布;
将所述模糊分簇特征分布对应的成员行为意图中的一个或者多个产品应用节点对应的成员行为意图进行关联性意图配置;
将关联性意图配置后的模糊分簇特征分布作为关联性分簇特征分布加载到所述范例分簇特征分布序列,并对加载到所述关联性分簇特征分布后的范例分簇特征分布序列进行整理,输出整理量后的范例分簇特征分布序列。
第二方面,本发明实施例还提供一种大数据系统,所述大数据系统包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行以实现以上第一方面的基于大数据分析的用户行为意图挖掘方法。
采用以上任意方面的技术方案,分别基于用户行为大数据获取每个用户行为事件相关联的第一行为关注变量簇,依据第二预设数量个行为倾向提取维度对每个用户行为事件相关联的第一行为关注变量簇进行分析,确定每个用户行为事件相关联的第一行为倾向变量,基于每个用户行为事件相关联的第一行为倾向变量,对第一预设数量个用户行为事件进行分簇,并在达到分簇结束要求时,确定对应于第一关注性节点的每个分簇特征分布,对对应于第一关注性节点的每个分簇特征分布进行意图输出,确定每个用户行为事件相关联的用户行为意图。由此,在用户行为意图挖掘之前通过基于行为倾向提取维度确定第一关注性节点的每个分簇特征分布,可以提高意图挖掘输出过程中针对关联性特征和非关联性特征的分析性能,进而提高意图分析可靠性。
附图说明
图1为本发明实施例提供的基于大数据分析的用户行为意图挖掘方法的流程示意图;
图2为本发明实施例提供的用于实现上述的基于大数据分析的用户行为意图挖掘方法的大数据系统的结构示意框图。
具体实施方式
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及它们的任何变形,意图在于覆盖不排它的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面介绍本发明一种实施例提供的基于大数据分析的用户行为意图挖掘系统10的架构,该基于大数据分析的用户行为意图挖掘系统10可以包括大数据系统100以及与大数据系统100通信连接的用户应用服务器200。其中,基于大数据分析的用户行为意图挖掘系统10中的大数据系统100和用户应用服务器200可以通过配合执行以下方法实施例所描述的基于大数据分析的用户行为意图挖掘方法,具体大数据系统100和用户应用服务器200的执行步骤部分可以参照以下方法实施例的详细描述。
本实施例提供的基于大数据分析的用户行为意图挖掘方法可以由大数据系统100执行,下面结合图1对该基于大数据分析的用户行为意图挖掘方法进行详细介绍。
Process110、基于用户行为大数据获取待挖掘的第一预设数量个用户行为事件中各个用户行为事件相关联的第一行为关注变量簇,所述第一行为关注变量簇为依据第一关注性节点内的初始行为事件进行特征抽取获得,N为大于1的整数;
针对一些可能的设计思路而言,大数据系统100可确定待挖掘的第一预设数量个用户行为事件。例如,将某个用户应用中的所有用户行为事件或者部分用户行为事件作为待挖掘的用户行为事件。大数据系统100基于用户行为大数据提取第一关注性节点内每个用户行为事件的第一行为关注变量,第一行为关注变量是基于初始行为事件获取到的。第一预设数量个第一行为关注变量即构成第一行为关注变量簇。
值得说明的是,本发明中涉及的用户行为事件是指任意与用户在线上应用中的操作行为相关的事件,例如用户发起的在线咨询事件,用户发起的订阅事件,用户发起的直播互动事件等,但不限制于此。
值得说明的是,第一关注性节点的特征范围可以基于实际需求进行设定,例如可以设定业务字段A到业务字段F之间的业务节点为第一关注性节点。
大数据系统100可部署于云计算服务器,或者,部署于计算机终端,又或者,部署于由云计算服务器和计算机终端组成的系统。
Process120、依据第二预设数量个行为倾向提取维度对每个用户行为事件相关联的第一行为关注变量簇进行分析,确定每个用户行为事件相关联的第一行为倾向变量,第一行为倾向变量包括第二预设数量个第一意图度量信息,各第一意图度量信息对应于一个行为倾向提取维度;
针对一些可能的设计思路而言,大数据系统100在获得第一行为关注变量簇之后,可以对这些第一行为关注变量进行分析,即依据不同的行为倾向提取维度分别统计每个用户行为事件的行为倾向变量。假设有第二预设数量个行为倾向提取维度,那么挖掘的行为倾向变量包括第二预设数量个第一意图度量信息。
Process130、基于每个用户行为事件相关联的第一行为倾向变量,对第一预设数量个用户行为事件进行分簇,并在达到分簇结束要求时,确定对应于第一关注性节点的每个分簇特征分布。
针对一些可能的设计思路而言,大数据系统100在得到第一预设数量个第一行为倾向变量之后,可采用分簇方法对这第一预设数量个第一行为倾向变量进行分簇,在达到分簇结束要求时,即停止分簇,并得到对应于第一关注性节点的每个分簇特征分布。其中,分簇会依据某个依据数值(例如关联代价值),将一个第一预设数量个用户行为事件拆分成不同的簇,使得同一个簇内的用户行为事件之间的关联性尽可能大,同时不在同一个簇中的用户行为事件的区别性也尽可能大。其中,所述每个分簇特征分布用于表征各个所述用户行为事件对应于所述第一关注性节点的关联性特征和非关联性特征;。
例如,当分簇次数达到预设次数时,可以确定达到分簇结束要求。或者,当分簇关联代价值小于或等于关联代价值阈值时,可以确定达到分簇结束要求。
值得说明的是,分簇算法可以采用K均值算法。
Process140、对对应于第一关注性节点的每个分簇特征分布进行意图输出,确定每个用户行为事件相关联的用户行为意图。
采用以上技术方案,基于用户行为大数据获取每个用户行为事件相关联的第一行为关注变量簇,依据第二预设数量个行为倾向提取维度对每个用户行为事件相关联的第一行为关注变量簇进行分析,确定每个用户行为事件相关联的第一行为倾向变量,基于每个用户行为事件相关联的第一行为倾向变量,对第一预设数量个用户行为事件进行分簇,并在达到分簇结束要求时,确定对应于第一关注性节点的每个分簇特征分布,对对应于第一关注性节点的每个分簇特征分布进行意图输出,确定每个用户行为事件相关联的用户行为意图。由此,在用户行为意图挖掘之前通过基于行为倾向提取维度确定第一关注性节点的每个分簇特征分布,可以提高意图挖掘输出过程中针对关联性特征和非关联性特征的分析性能,进而提高意图分析可靠性。
针对一些可能的设计思路而言,以上实施例还可以包括:
从用户行为触发进程中提取初始行为事件;
从初始行为事件中获取每个行为日志数据;
对每个行为日志数据进行行为关注变量挖掘,确定行为关注变量;
将行为关注变量加载到用户行为大数据中。
例如,首先从用户行为触发进程中提取初始行为事件,从初始行为事件中提取出满足条件的每个行为日志数据。然后对每个满足条件的行为日志数据进行行为关注变量挖掘。例如,一个行为日志数据可提取一个行为关注变量。
针对一些可能的设计思路而言,从初始行为事件中获取每个行为日志数据,例如可以包括下述步骤:
从初始行为事件中获取候选行为日志数据簇;
对候选行为日志数据簇中的每个行为日志数据进行汇聚,确定对应于同一个行为触发属性的每个行为日志数据;
对每个行为日志数据进行行为关注变量挖掘,确定行为关注变量,例如可以包括下述步骤:
对对应于同一个行为触发属性的每个行为日志数据进行行为日志数据的特征连通处理,确定特征连通行为日志数据;
对特征连通行为日志数据进行行为关注变量挖掘,确定行为关注变量。
针对一些可能的设计思路而言,基于用户行为大数据获取每个用户行为事件相关联的第一行为关注变量簇,例如可以包括下述步骤:
基于用户行为大数据获取行为节点在第一关注性节点内的目标行为关注变量簇;
对应于每个用户行为事件,将目标行为关注变量簇中源服务页面标签对应于新上线服务页面标签的行为关注变量,确定为第一行为关注变量簇中的第一行为关注变量,新上线服务页面标签为用户行为事件的服务页面标签;
对应于每个用户行为事件,将目标行为关注变量簇中目的服务页面标签对应于新上线服务页面标签的行为关注变量,确定为第一行为关注变量簇中的第一行为关注变量。
针对一些可能的设计思路而言,基于上述实施方式可知,用户行为大数据中存储有行为日志数据(或,特征连通行为日志数据)对应的行为关注变量,行为关注变量中包括行为节点,因此,可基于行为节点筛选出相应关注性节点的行为关注变量。
例如,假设第一关注性节点为设定业务字段A到业务字段F之间的业务节点,由此可基于用户行为大数据获取行为节点在该第一关注性节点内的所有行为关注变量,并将这些行为关注变量作为目标行为关注变量簇。例如,以待挖掘的任意一个用户行为事件为例,可获知该用户行为事件的新上线服务页面标签,于是,从目标行为关注变量簇中筛选出源服务页面标签或目的服务页面标签对应于该新上线服务页面标签的第一行为关注变量,并将这些第一行为关注变量作为该用户行为事件的第一行为关注变量簇。
值得说明的是,对于其它待挖掘的用户行为事件而言,也采用类似方式提取相应的第一行为关注变量,由此,确定每个用户行为事件相关联的第一行为关注变量簇。
针对一些可能的设计思路而言,第二预设数量个行为倾向提取维度包括前向动态行为倾向、后向动态行为倾向、前后向动态行为倾向、前向动态行为倾向影响力以及后向动态行为倾向影响力中的至少一项;
依据第二预设数量个行为倾向提取维度对每个用户行为事件相关联的第一行为关注变量簇进行分析,确定每个用户行为事件相关联的第一行为倾向变量,例如可以包括下述步骤:
对应于每个用户行为事件,如果解析到第二预设数量个行为倾向提取维度包括前向动态行为倾向,则对第一行为关注变量簇中源服务页面标签对应于新上线服务页面标签的第一行为关注变量所包括的行为日志数据量进行结合分析,确定第一行为倾向变量中前向动态行为倾向相关联的第一意图度量信息,新上线服务页面标签为用户行为事件的服务页面标签;
对应于每个用户行为事件,如果解析到第二预设数量个行为倾向提取维度包括后向动态行为倾向,则对第一行为关注变量簇中目的服务页面标签对应于新上线服务页面标签的第一行为关注变量所包括的行为日志数据量进行结合分析,确定第一行为倾向变量中后向动态行为倾向相关联的第一意图度量信息;
对应于每个用户行为事件,如果解析到第二预设数量个行为倾向提取维度包括前后向动态行为倾向,则对后向动态行为倾向相关联的第一意图度量信息以及前向动态行为倾向相关联的第一意图度量信息进行结合分析,确定第一行为倾向变量中前后向动态行为倾向相关联的第一意图度量信息;
对应于每个用户行为事件,如果解析到第二预设数量个行为倾向提取维度包括前向动态行为倾向影响力,则计算前向动态行为倾向相关联的第一意图度量信息与前后向动态行为倾向相关联的第一意图度量信息之间的比较系数,确定第一行为倾向变量中前向动态行为倾向影响力相关联的第一意图度量信息;
对应于每个用户行为事件,如果解析到第二预设数量个行为倾向提取维度包括后向动态行为倾向影响力,则计算后向动态行为倾向相关联的第一意图度量信息与前后向动态行为倾向相关联的第一意图度量信息之间的比较系数,确定第一行为倾向变量中后向动态行为倾向影响力相关联的第一意图度量信息。
针对一些可能的设计思路而言,介绍了一种依据前后向行为关注变量进行分析的方式。基于上述实施方式可知,在获取到每个用户行为事件的第一行为关注变量簇之后,依据不同的行为倾向提取维度分别对第一行为关注变量簇进行分析。下面将以待挖掘的任意一个用户行为事件为例,分别从前向动态行为倾向、后向动态行为倾向、前后向动态行为倾向、前向动态行为倾向影响力以及后向动态行为倾向影响力的维度,对统计第一意图度量信息的方式进行说明。
一、前向动态行为倾向;
例如,前向相关数据量表示从主动发起的行为的相关数据量。假设用户行为事件的第一行为关注变量簇中,从该用户行为事件的服务页面标签(即,源服务页面标签对应于用户行为事件的服务页面标签)发出的行为日志数据量之和为50兆,由此,可得到前向动态行为倾向相关联的第一意图度量信息为50。
二、后向动态行为倾向;
例如,后向相关数据量表示被动发起的行为的相关数据量。假设用户行为事件的第一行为关注变量簇中,通过该用户行为事件的服务页面标签(即,目的服务页面标签对应于用户行为事件的服务页面标签)下载的行为日志数据量之和为800兆,由此,可得到后向动态行为倾向相关联的第一意图度量信息为800。
三、前后向动态行为倾向;
例如,假设用户行为事件的第一行为关注变量簇中,从该用户行为事件的服务页面标签(即,源服务页面标签对应于用户行为事件的服务页面标签)发出的行为日志数据量之和为50兆,而通过该用户行为事件的服务页面标签(即,目的服务页面标签对应于用户行为事件的服务页面标签)下载的行为日志数据量之和为800兆,由此,可得到前后向动态行为倾向相关联的第一意图度量信息为850。
四、前向动态行为倾向影响力;
例如,假设用户行为事件的第一行为关注变量簇中,该用户行为事件的前向动态行为倾向相关联的第一意图度量信息为50(即,表示50兆),用户行为事件的前后向动态行为倾向相关联的第一意图度量信息为850(即,表示850兆),基于此,计算两者之间的比较系数,由此,可得到前向动态行为倾向影响力相关联的第一意图度量信息为0.06。
五、后向动态行为倾向影响力;
例如,假设用户行为事件的第一行为关注变量簇中,该用户行为事件的后向动态行为倾向影响力相关联的第一意图度量信息为800(即,表示800兆),用户行为事件的前后向动态行为倾向相关联的第一意图度量信息为850(即,表示850兆),基于此,计算两者之间的比较系数,由此,可得到后向动态行为倾向影响力相关联的第一意图度量信息为0.94。
值得说明的是,对于其它待挖掘的用户行为事件而言,也采用类似方式统计相关数据量维度相关的特征,由此,确定每个用户行为事件相关联的第一行为倾向变量。
针对一些可能的设计思路而言,第二预设数量个行为倾向提取维度包括引导性动态行为倾向、非引导性动态行为倾向、协同动态行为倾向、引导性动态行为倾向影响力以及非引导性动态行为倾向影响力中的至少一项;
依据第二预设数量个行为倾向提取维度对每个用户行为事件相关联的第一行为关注变量簇进行分析,确定每个用户行为事件相关联的第一行为倾向变量,例如可以包括下述步骤:
对应于每个用户行为事件,如果解析到第二预设数量个行为倾向提取维度包括引导性动态行为倾向,则对第一行为关注变量簇中源服务页面标签和目的服务页面标签对应于引导性标签的第一行为关注变量所包括的行为日志数据量进行结合分析,确定第一行为倾向变量中引导性动态行为倾向相关联的第一意图度量信息;
对应于每个用户行为事件,如果解析到第二预设数量个行为倾向提取维度包括非引导性动态行为倾向,则对第一行为关注变量簇中源服务页面标签或目的服务页面标签对应于非引导性标签的第一行为关注变量所包括的行为日志数据量进行结合分析,确定第一行为倾向变量中非引导性动态行为倾向相关联的第一意图度量信息;
对应于每个用户行为事件,如果解析到第二预设数量个行为倾向提取维度包括协同动态行为倾向,则对引导性动态行为倾向相关联的第一意图度量信息以及非引导性动态行为倾向影响力相关联的第一意图度量信息进行结合分析,确定第一行为倾向变量中协同动态行为倾向相关联的第一意图度量信息;
对应于每个用户行为事件,如果解析到第二预设数量个行为倾向提取维度包括引导性动态行为倾向影响力,则计算引导性动态行为倾向相关联的第一意图度量信息与协同动态行为倾向相关联的第一意图度量信息之间的比较系数,确定第一行为倾向变量中引导性动态行为倾向影响力相关联的第一意图度量信息;
对应于每个用户行为事件,如果解析到第二预设数量个行为倾向提取维度包括非引导性动态行为倾向影响力,则计算非引导性动态行为倾向影响力相关联的第一意图度量信息与协同动态行为倾向相关联的第一意图度量信息之间的比较系数,确定第一行为倾向变量中非引导性动态行为倾向影响力相关联的第一意图度量信息。
针对一些可能的设计思路而言,介绍了一种依据协同行为关注变量进行分析的方式。基于上述实施方式可知,在获取到每个用户行为事件的第一行为关注变量簇之后,依据不同的行为倾向提取维度分别对第一行为关注变量簇进行分析。下面将以待挖掘的任意一个用户行为事件为例,分别从引导性动态行为倾向、非引导性动态行为倾向、协同动态行为倾向、引导性动态行为倾向影响力以及非引导性动态行为倾向影响力的维度,对统计第一意图度量信息的方式进行说明。
下面介绍进一步的实施例。
一、引导性动态行为倾向;
例如,引导性相关数据量表示源服务页面标签和目的服务页面标签均为属于引导性标签的相关数据量。假设该用户行为事件的第一行为关注变量簇中,行为日志数据的源服务页面标签和目的服务页面标签均属于引导性标签的行为日志数据量之和为500兆,由此,可得到引导性动态行为倾向相关联的第一意图度量信息为500。
二、非引导性动态行为倾向;
例如,非引导性相关数据量表示源服务页面标签或目的服务页面标签对应于非引导性标签的相关数据量。假设该用户行为事件的第一行为关注变量簇中,行为日志数据的源服务页面标签或目的服务页面标签对应于非引导性标签的行为日志数据量之和为100兆,由此,可得到非引导性动态行为倾向相关联的第一意图度量信息为100。
三、协同动态行为倾向;
例如,假设用户行为事件的第一行为关注变量簇中,行为日志数据的源服务页面标签和目的服务页面标签均属于引导性标签的行为日志数据量之和为500兆,而行为日志数据的源服务页面标签或目的服务页面标签对应于非引导性标签的行为日志数据量之和为100兆,由此,可得到协同动态行为倾向相关联的第一意图度量信息为600。
四、引导性动态行为倾向影响力;
例如,假设用户行为事件的第一行为关注变量簇中,该用户行为事件的引导性动态行为倾向相关联的第一意图度量信息为500(即,表示500兆),用户行为事件的协同动态行为倾向相关联的第一意图度量信息为600(即,表示600兆),基于此,计算两者之间的比较系数,由此,可得到引导性动态行为倾向影响力相关联的第一意图度量信息为0.83。
五、非引导性动态行为倾向影响力;
例如,假设用户行为事件的第一行为关注变量簇中,该用户行为事件的非引导性动态行为倾向影响力相关联的第一意图度量信息为100(即,表示100兆),用户行为事件的协同动态行为倾向相关联的第一意图度量信息为600(即,表示600兆),基于此,计算两者之间的比较系数,由此,可得到非引导性动态行为倾向影响力相关联的第一意图度量信息为0.17。
针对一些可能的设计思路而言,第二预设数量个行为倾向提取维度包括持续性静态行为倾向、持续性被动行为倾向、持续性静态行为倾向影响力以及持续性被动行为倾向影响力中的至少一项;
依据第二预设数量个行为倾向提取维度对每个用户行为事件相关联的第一行为关注变量簇进行分析,确定每个用户行为事件相关联的第一行为倾向变量,例如可以包括下述步骤:
对应于每个用户行为事件,如果解析到第二预设数量个行为倾向提取维度包括持续性静态行为倾向,则基于第一行为关注变量簇确定静态行为倾向的总相关数据量以及每个静态行为倾向的相关数据量,并将相关数据量占比最大的静态行为倾向作为第一行为倾向变量中持续性静态行为倾向相关联的第一意图度量信息;
对应于每个用户行为事件,如果解析到第二预设数量个行为倾向提取维度包括持续性被动行为倾向,则基于第一行为关注变量簇确定被动行为倾向总相关数据量以及每个被动行为倾向的相关数据量,并将相关数据量占比最大的被动行为倾向作为第一行为倾向变量中持续性被动行为倾向相关联的第一意图度量信息;
对应于每个用户行为事件,如果解析到第二预设数量个行为倾向提取维度包括持续性静态行为倾向影响力,则计算持续性静态行为倾向相关联的相关数据量与静态行为倾向的总相关数据量之间的比较系数,确定第一行为倾向变量中持续性静态行为倾向影响力相关联的第一意图度量信息;
对应于每个用户行为事件,如果解析到第二预设数量个行为倾向提取维度包括持续性被动行为倾向影响力,则计算持续性被动行为倾向相关联的相关数据量与被动行为倾向总相关数据量之间的比较系数,确定第一行为倾向变量中持续性被动行为倾向影响力相关联的第一意图度量信息。
针对一些可能的设计思路而言,在获取到每个用户行为事件的第一行为关注变量簇之后,依据不同的行为倾向提取维度分别对第一行为关注变量簇进行分析。下面将以待挖掘的任意一个用户行为事件为例,分别从持续性静态行为倾向、持续性被动行为倾向、持续性静态行为倾向影响力以及持续性被动行为倾向影响力的维度,对统计第一意图度量信息的方式进行说明。
一、持续性静态行为倾向;
例如,统计该用户行为事件的第一行为关注变量簇中所有静态行为倾向的总相关数据量,假设静态行为倾向的总相关数据量为1000兆,静态行为倾向“A1”的相关数据量为800兆,其相关数据量占比为0.8。静态行为倾向“A2”的相关数据量为200兆,其相关数据量占比为0.2。基于此,相关数据量占比最大的静态行为倾向为“A1”,由此,可得到持续性静态行为倾向相关联的第一意图度量信息为A1。
二、持续性被动行为倾向;
例如,统计该用户行为事件的第一行为关注变量簇中所有被动行为倾向的总相关数据量,假设被动行为倾向的总相关数据量为800兆,被动行为倾向“A3”的相关数据量为500兆,其相关数据量占比为0.625。被动行为倾向“A4”的相关数据量为300兆,其相关数据量占比为0.375。基于此,相关数据量占比最大的被动行为倾向为“A3”,由此,可得到持续性被动行为倾向相关联的第一意图度量信息为A3。
三、持续性静态行为倾向影响力;
例如,统计该用户行为事件的第一行为关注变量簇中所有静态行为倾向的总相关数据量,假设静态行为倾向的总相关数据量为1000兆,静态行为倾向“A1”的相关数据量为800兆,其相关数据量占比为0.8。静态行为倾向“A2”的相关数据量为200兆,其相关数据量占比为0.2。基于此,相关数据量占比最大的静态行为倾向(即,持续性静态行为倾向)为“A1”,由此,可得到持续性静态行为倾向影响力相关联的第一意图度量信息为0.8。
四、持续性被动行为倾向影响力;
例如,统计该用户行为事件的第一行为关注变量簇中所有被动行为倾向的总相关数据量,假设被动行为倾向的总相关数据量为800兆,被动行为倾向“A3”的相关数据量为800兆,其相关数据量占比为0.625。被动行为倾向“A4”的相关数据量为300兆,其相关数据量占比为0.375。基于此,相关数据量占比最大的被动行为倾向(即,持续性被动行为倾向)为“A3”,由此,可得到持续性被动行为倾向影响力相关联的第一意图度量信息为0.625。
针对一些可能的设计思路而言,基于每个用户行为事件相关联的第一行为倾向变量,对第一预设数量个用户行为事件进行分簇,并在达到分簇结束要求时,确定对应于第一关注性节点的每个分簇特征分布,例如可以包括下述步骤:
获取在先预设的第二预设数量个影响因子序列,每个影响因子序列对应于一个行为倾向提取维度;
对应于每个用户行为事件,基于第二预设数量个影响因子序列以及第一行为倾向变量确定与第三预设数量个分簇重心之间的关联代价值,并将用户行为事件分配到关联代价值最小的分簇;
如果达到分簇结束要求,则输出对应于第一关注性节点的每个分簇特征分布;
如果没有达到分簇结束要求,则更新第三预设数量个分簇重心。
针对一些可能的设计思路而言,阐述了基于预设影响因子序列进行分簇的方式。基于上述实施方式可知,在分簇的过程中,还可以为每个行为倾向提取维度设置一个影响因子序列,结合影响因子序列计算第一行为倾向变量与每个分簇重心的关联代价值。
例如,以第二预设数量个行为倾向提取维度包括引导性动态行为倾向、非引导性动态行为倾向和协同动态行为倾向为例。假设引导性动态行为倾向对应的影响因子序列为0.5,非引导性动态行为倾向为0.8,协同动态行为倾向为0.1。假设第一行为倾向变量为(500,100,600)。假设分簇重心A为(200,300,500),分簇重心B为(100,200,300)。基于此,采用如下方式分别计算该第一行为倾向变量与两个分簇重心的关联代价值。
LA=0.5×(500-200)2+0.8×(100-300)2+0.1×(600-500)2=78000
LB=0.5×(500-100)2+0.8×(100-200)2+0.1×(600-300)2=97000
不难获知,第一行为倾向变量与分簇重心A之间的关联代价值LA更小,因此,可将第一行为倾向变量对应的用户行为事件分配到分簇A。值得说明的是,对其它用户行为事件相关联的第一行为倾向变量进行类似处理,达到分簇结束要求时,即可得到分簇特征分布。如果不达到分簇结束要求,则可以更新第三预设数量个分簇重心。
针对一些可能的设计思路而言,以上实施例还可以包括:
基于用户行为大数据获取每个用户行为事件相关联的第二行为关注变量簇,第二行为关注变量簇为依据第二关注性节点内的初始行为事件进行特征抽取获得;
依据第二预设数量个行为倾向提取维度对每个用户行为事件相关联的第二行为关注变量簇进行分析,确定每个用户行为事件相关联的第二行为倾向变量,第二行为倾向变量包括第二预设数量个第二意图度量信息,每个第二意图度量信息对应于一个行为倾向提取维度;
如果解析到用户行为事件相关联的第一行为倾向变量与第一分簇重心的关联代价值大于用户行为事件相关联的第二行为倾向变量与第二分簇重心的关联代价值,则从第一分簇重心相关联的分簇特征分布中剔除用户行为事件。
针对一些可能的设计思路而言,用户行为事件可以是动态变化的,同一用户行为事件在不同的关注性节点内的行为关注变量也可能发生变化,因此,可对不同关注性节点内的相同用户行为事件进行分簇。
例如,基于设置好的关注性节点大小,基于用户行为大数据获取每个用户行为事件相关联的第二行为关注变量簇。假设第二关注性节点为设定业务字段G到业务字段R之间的业务节点,基于此,可基于用户行为大数据获取行为节点在该第二关注性节点内的所有行为关注变量并将这些行为关注变量作为目标行为关注变量簇。例如,以待挖掘的任意一个用户行为事件为例,可获知该用户行为事件的新上线服务页面标签,于是,从目标行为关注变量簇中筛选出源服务页面标签或目的服务页面标签对应于该新上线服务页面标签的第二行为关注变量,并将这些第二行为关注变量作为该用户行为事件的第二行为关注变量簇。
然后,依据第二预设数量个行为倾向提取维度对每个用户行为事件相关联的第二行为关注变量簇进行分析,由此得到每个用户行为事件相关联的第二行为倾向变量。值得说明的是,获取第二行为倾向变量的方式与获取第一行为倾向变量的方式类似,故此处不做赘述。
在此基础上,导入上一次的分簇特征分布,即导入对应于第一关注性节点的每个分簇特征分布。如果存在某个原本属于第一分簇特征分布的用户行为事件,其对应的第一行为倾向变量与第一分簇重心的关联代价值大于第二行为倾向变量与第二分簇重心的关联代价值,表示该用户行为事件的属性已发生改变、因此,将该用户行为事件从第一分簇重心相关联的分簇特征分布中,并可以将该用户行为事件加入至第二分簇重心相关联的分簇中。
值得说明的是,对于第一分簇重心对应的分簇和第二分簇重心对应的分簇而言,可保留原本的用户行为意图。
针对一些可能的设计思路而言,以上实施例还可以包括:
如果解析到用户行为事件为在第二关注性节点内新添加的用户行为事件,则基于用户行为事件相关联的第二行为倾向变量,对各个用户行为事件进行分簇,并在达到分簇结束要求时,确定对应于第二关注性节点的每个分簇特征分布。
针对一些可能的设计思路而言,用户行为事件是动态变化的,在不同的关注性节点可能会加入新的用户行为事件,因此,因此,可基于新添加的用户行为事件进行重新分簇。
值得说明的是,前述实施例已介绍如何获取用户行为事件的第二行为倾向变量。一些示例中,保留原有用户行为事件(即,第一关注性节点内的用户行为事件)对应的分簇特征分布,仅对新添加的用户行为事件进行分簇,达到分簇结束要求时,确定对应于第二关注性节点的每个分簇特征分布。此外,将重新获取原有用户行为事件(即,第一关注性节点内的用户行为事件)的第二行为倾向变量,结合新用户行为事件的第二行为倾向变量,重新进行分簇,达到分簇结束要求时,确定对应于第二关注性节点的每个分簇特征分布。
进一步地,针对Process140,可以将对应于所述第一关注性节点的每个分簇特征分布输入到用户行为意图挖掘模型中,确定各个用户行为事件相关联的用户行为意图。
其中,所述用户行为意图挖掘模型的训练步骤包括:
A1、获取范例分簇特征分布序列,所述范例分簇特征分布序列包括多个标定了范例学习行为意图的范例分簇特征分布;
A2、获取范例用户行为意图挖掘模型,所述范例用户行为意图挖掘模型包括深度卷积编码分支、行为意图输出分支、以及意图连通分支;
A3、对于每个所述范例分簇特征分布,结合所述深度卷积编码分支获取所述范例分簇特征分布在多个产品应用节点下的深度卷积编码特征分布;
A4、结合所述行为意图输出分支将每个所述产品应用节点下的深度卷积编码特征分布进行行为意图输出,输出每个所述产品应用节点下的深度卷积编码特征分布对应的成员行为意图;
A5、结合所述意图连通分支基于所述产品应用节点下的深度卷积编码特征分布对应的成员行为意图得到一输出行为意图;
A6、结合所述输出行为意图与所述范例学习行为意图确定第一意图挖掘代价值;
A7、结合所述第一意图挖掘代价值对所述范例用户行为意图挖掘模型进行模型参数层的遍历调优和选取,直至所述第一意图挖掘代价值满足第一决策条件,输出调优完成的范例用户行为意图挖掘模型作为所述用户行为意图挖掘模型;
其中,所述第一意图挖掘代价值由各所述输出行为意图中的各学习行为意图与所述范例学习行为意图中对应的各学习行为意图的第一损失函数评估值进行确定,所述第一决策条件包括所述第一意图挖掘代价值表征的第一损失函数评估值小于第一预设损失函数值。
所述用户行为意图挖掘模型的训练步骤还包括:
B1、获取范例分簇特征分布序列,所述范例分簇特征分布序列包括多个标定了范例学习行为意图的范例分簇特征分布;
B2、获取范例用户行为意图挖掘模型,并对所述范例用户行为意图挖掘模型进行线上共享模型参数层信息的加载与配置,输出初步配置的范例用户行为意图挖掘模型;
B3、对于每个所述范例分簇特征分布,结合所述范例用户行为意图挖掘模型获取所述范例分簇特征分布在多个产品应用节点下的深度卷积编码特征分布,并结合所述产品应用节点下的深度卷积编码特征分布以及所述范例学习行为意图包括的成员行为意图确定第二意图挖掘代价值;
B4、结合所述第二意图挖掘代价值对所述初步配置的范例用户行为意图挖掘模型进行模型参数层的遍历调优和选取,直至所述第二意图挖掘代价值满足第二决策条件,输出调优完成的范例用户行为意图挖掘模型作为所述用户行为意图挖掘模型。
譬如,所述第二意图挖掘代价值由各所述产品应用节点下的深度卷积编码特征分布与所述范例学习行为意图中对应的各学习行为意图的第二损失函数评估值进行确定,所述第二决策条件包括所述第二意图挖掘代价值表征的第二损失函数评估值小于第二预设损失函数值,所述第二预设损失函数值小于所述第一预设损失函数值。
其中,所述获取范例分簇特征分布序列,包括:结合多个产品开发项目获取目标互联网产品场景下的关注性节点的分簇特征分布,输出多个分簇特征分布;将各所述分簇特征分布作为范例分簇特征分布加载到预设的范例特征库中;提取所述范例特征库中的各所述范例分簇特征分布在多个产品应用节点下的深度卷积编码特征分布,输出每个范例分簇特征分布对应的深度卷积编码特征分布;结合每个所述范例分簇特征分布对应的深度卷积编码特征分布,对所述范例特征库中的范例分簇特征分布进行特征冗余优化,输出特征冗余优化后的范例特征库;结合特征冗余优化后的范例特征库中各范例分簇特征分布对应的深度卷积编码特征分布得到所述范例分簇特征分布对应的范例学习行为意图,并将所述学习行为意图与所述范例分簇特征分布在所述范例特征库中进行关联性设置,输出所述范例分簇特征分布序列。
其中,结合每个所述范例分簇特征分布对应的深度卷积编码特征分布,对所述范例特征库中的范例分簇特征分布进行特征冗余优化,得的特征冗余优化后的范例特征库,包括:针对每个所述范例分簇特征分布,确定所述范例分簇特征分布对应的所述深度卷积编码特征分布中是否存在指定噪声特征;若存在指定噪声特征,则将所述范例分簇特征分布从所述范例分簇特征分布序列中删除。
其中,所述指定噪声特征包括所述范例分簇特征分布对应的深度卷积编码特征分布中未关联于预先配置的产品应用节点下的深度卷积编码特征分布或者未关联于预设数量个产品应用节点下的深度卷积编码特征分布。
其中,所述获取范例分簇特征分布序列,还包括:复制所述范例分簇特征分布序列中一部分范例分簇特征分布作为模糊分簇特征分布;将所述模糊分簇特征分布对应的成员行为意图中的一个或者多个产品应用节点对应的成员行为意图进行关联性意图配置;将关联性意图配置后的模糊分簇特征分布作为关联性分簇特征分布加载到所述范例分簇特征分布序列,并对加载到所述关联性分簇特征分布后的范例分簇特征分布序列进行整理,输出整理量后的范例分簇特征分布序列。
图2示出了本发明实施例提供的用于实现上述的基于大数据分析的用户行为意图挖掘系统的大数据系统100的硬件结构意图,如图2所示,大数据系统100可包括处理器110、机器可读存储介质120、总线130以及通信单元140。
处理器110可以基于存储在机器可读存储介质120中的程序而执行各种适当的动作和处理,例如前述实施例所描述的基于大数据分析的用户行为意图挖掘方法所相关的程序指令。处理器110、机器可读存储介质120以及通信单元140通过总线130进行信号传输。
特别地,基于本发明的实施例,上文范例流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信单元140从网络上被下载和安装,在该计算机程序被处理器110执行时,执行本发明实施例的方法中限定的上述功能。
本发明又一实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述任一实施例所述的基于大数据分析的用户行为意图挖掘方法。
需要说明的是,本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(LAM)、只读存储器(LOM)、可擦式可编程只读存储器(EPLOM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-LOM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、LM(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
本发明又一实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上述任一实施例所述的基于大数据分析的用户行为意图挖掘方法。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (7)

1.一种基于大数据分析的用户行为意图挖掘方法,其特征在于,应用于大数据系统,所述方法包括:
基于用户行为大数据获取待挖掘的第一预设数量个用户行为事件中各个用户行为事件相关联的第一行为关注变量簇,所述第一行为关注变量簇为依据第一关注性节点内的初始行为事件进行特征抽取获得;
依据第二预设数量个行为倾向提取维度对各个所述用户行为事件相关联的第一行为关注变量簇进行分析,确定各个所述用户行为事件相关联的第一行为倾向变量,所述第一行为倾向变量包括第二预设数量个第一意图度量信息,各第一意图度量信息对应于一个行为倾向提取维度;
基于各个所述用户行为事件相关联的第一行为倾向变量,对所述第一预设数量个用户行为事件进行分簇,并在达到分簇结束要求时,确定对应于所述第一关注性节点的每个分簇特征分布,其中,所述每个分簇特征分布用于表征各个所述用户行为事件对应于所述第一关注性节点的关联性特征和非关联性特征;
对对应于所述第一关注性节点的每个分簇特征分布进行意图输出,确定各个用户行为事件相关联的用户行为意图;
所述第二预设数量个行为倾向提取维度包括前向动态行为倾向、后向动态行为倾向、前后向动态行为倾向、前向动态行为倾向影响力以及后向动态行为倾向影响力中的至少一项;
所述依据第二预设数量个行为倾向提取维度对各个所述用户行为事件相关联的第一行为关注变量簇进行分析,确定各个所述用户行为事件相关联的第一行为倾向变量,包括:
对应于各个所述用户行为事件,如果解析到所述第二预设数量个行为倾向提取维度包括所述前向动态行为倾向,则对所述第一行为关注变量簇中源服务页面标签对应于新上线服务页面标签的第一行为关注变量所包括的行为日志数据量进行结合分析,确定所述第一行为倾向变量中所述前向动态行为倾向相关联的第一意图度量信息,所述新上线服务页面标签为用户行为事件的服务页面标签;
对应于各个所述用户行为事件,如果解析到所述第二预设数量个行为倾向提取维度包括所述后向动态行为倾向,则对所述第一行为关注变量簇中目的服务页面标签对应于新上线服务页面标签的第一行为关注变量所包括的行为日志数据量进行结合分析,确定所述第一行为倾向变量中所述后向动态行为倾向相关联的第一意图度量信息;
对应于各个所述用户行为事件,如果解析到所述第二预设数量个行为倾向提取维度包括所述前后向动态行为倾向,则对所述后向动态行为倾向相关联的第一意图度量信息以及所述前向动态行为倾向相关联的第一意图度量信息进行结合分析,确定所述第一行为倾向变量中所述前后向动态行为倾向相关联的第一意图度量信息;
对应于各个所述用户行为事件,如果解析到所述第二预设数量个行为倾向提取维度包括所述前向动态行为倾向影响力,则计算所述前向动态行为倾向相关联的第一意图度量信息与所述前后向动态行为倾向相关联的第一意图度量信息之间的比较系数,确定所述第一行为倾向变量中所述前向动态行为倾向影响力相关联的第一意图度量信息;
对应于各个所述用户行为事件,如果解析到所述第二预设数量个行为倾向提取维度包括所述后向动态行为倾向影响力,则计算所述后向动态行为倾向相关联的第一意图度量信息与所述前后向动态行为倾向相关联的第一意图度量信息之间的比较系数,确定所述第一行为倾向变量中所述后向动态行为倾向影响力相关联的第一意图度量信息。
2.根据权利要求1所述的基于大数据分析的用户行为意图挖掘方法,其特征在于,所述方法还包括:
从用户行为触发进程中提取初始行为事件;
从所述初始行为事件中获取候选行为日志数据簇;
对所述候选行为日志数据簇中的每个行为日志数据进行汇聚,确定对应于同一个行为触发属性的所述每个行为日志数据;
对对应于同一个行为触发属性的所述每个行为日志数据进行行为日志数据的特征连通处理,确定特征连通行为日志数据;
对所述特征连通行为日志数据进行行为关注变量挖掘,确定所述行为关注变量;
对所述每个行为日志数据进行行为关注变量挖掘,确定行为关注变量;
将所述行为关注变量加载到所述用户行为大数据中。
3.根据权利要求1所述的基于大数据分析的用户行为意图挖掘方法,其特征在于,所述基于用户行为大数据获取待挖掘的第一预设数量个用户行为事件中各个用户行为事件相关联的第一行为关注变量簇,包括:
从所述用户行为大数据中获取行为节点在所述第一关注性节点内的目标行为关注变量簇;
对应于各个所述用户行为事件,将所述目标行为关注变量簇中源服务页面标签对应于新上线服务页面标签的行为关注变量,确定为所述第一行为关注变量簇中的第一行为关注变量,所述新上线服务页面标签为用户行为事件的服务页面标签;
对应于各个所述用户行为事件,将所述目标行为关注变量簇中目的服务页面标签对应于所述新上线服务页面标签的行为关注变量,确定为所述第一行为关注变量簇中的第一行为关注变量。
4.根据权利要求1所述的基于大数据分析的用户行为意图挖掘方法,其特征在于,所述基于各个所述用户行为事件相关联的第一行为倾向变量,对所述第一预设数量个用户行为事件进行分簇,并在达到分簇结束要求时,确定对应于所述第一关注性节点的每个分簇特征分布,包括:
获取在先预设的第二预设数量个影响因子序列,每个影响因子序列对应于一个行为倾向提取维度;
对应于各个所述用户行为事件,基于所述第二预设数量个影响因子序列以及所述第一行为倾向变量确定与第三预设数量个分簇重心之间的关联代价值,并将用户行为事件分配到关联代价值最小的分簇;
如果达到所述分簇结束要求,则输出对应于所述第一关注性节点的每个分簇特征分布;
如果没有达到所述分簇结束要求,则更新所述第三预设数量个分簇重心。
5.根据权利要求1所述的基于大数据分析的用户行为意图挖掘方法,其特征在于,所述对对应于所述第一关注性节点的每个分簇特征分布进行意图输出,确定各个用户行为事件相关联的用户行为意图,包括:
将对应于所述第一关注性节点的每个分簇特征分布输入到用户行为意图挖掘模型中,确定各个用户行为事件相关联的用户行为意图;
其中,所述用户行为意图挖掘模型的训练步骤包括:
获取范例分簇特征分布序列,所述范例分簇特征分布序列包括多个标定了范例学习行为意图的范例分簇特征分布;
获取范例用户行为意图挖掘模型,所述范例用户行为意图挖掘模型包括深度卷积编码分支、行为意图输出分支、以及意图连通分支;
对于每个所述范例分簇特征分布,结合所述深度卷积编码分支获取所述范例分簇特征分布在多个产品应用节点下的深度卷积编码特征分布;
结合所述行为意图输出分支将每个所述产品应用节点下的深度卷积编码特征分布进行行为意图输出,输出每个所述产品应用节点下的深度卷积编码特征分布对应的成员行为意图;
结合所述意图连通分支基于所述产品应用节点下的深度卷积编码特征分布对应的成员行为意图得到一输出行为意图;
结合所述输出行为意图与所述范例学习行为意图确定第一意图挖掘代价值;
结合所述第一意图挖掘代价值对所述范例用户行为意图挖掘模型进行模型参数层的遍历调优和选取,直至所述第一意图挖掘代价值满足第一决策条件,输出调优完成的范例用户行为意图挖掘模型作为所述用户行为意图挖掘模型;
其中,所述第一意图挖掘代价值由各所述输出行为意图中的各学习行为意图与所述范例学习行为意图中对应的各学习行为意图的第一损失函数评估值进行确定,所述第一决策条件包括所述第一意图挖掘代价值表征的第一损失函数评估值小于第一预设损失函数值;
所述用户行为意图挖掘模型的训练步骤还包括:
获取范例分簇特征分布序列,所述范例分簇特征分布序列包括多个标定了范例学习行为意图的范例分簇特征分布;
获取范例用户行为意图挖掘模型,并对所述范例用户行为意图挖掘模型进行线上共享模型参数层信息的加载与配置,输出初步配置的范例用户行为意图挖掘模型;
对于每个所述范例分簇特征分布,结合所述范例用户行为意图挖掘模型获取所述范例分簇特征分布在多个产品应用节点下的深度卷积编码特征分布,并结合所述产品应用节点下的深度卷积编码特征分布以及所述范例学习行为意图包括的成员行为意图确定第二意图挖掘代价值;
结合所述第二意图挖掘代价值对所述初步配置的范例用户行为意图挖掘模型进行模型参数层的遍历调优和选取,直至所述第二意图挖掘代价值满足第二决策条件,输出调优完成的范例用户行为意图挖掘模型作为所述用户行为意图挖掘模型;
其中,所述第二意图挖掘代价值由各所述产品应用节点下的深度卷积编码特征分布与所述范例学习行为意图中对应的各学习行为意图的第二损失函数评估值进行确定,所述第二决策条件包括所述第二意图挖掘代价值表征的第二损失函数评估值小于第二预设损失函数值,所述第二预设损失函数值小于所述第一预设损失函数值。
6.根据权利要求1-5中任意一项所述的基于大数据分析的用户行为意图挖掘方法,其特征在于,所述方法还包括:
从所述用户行为大数据中获取各个所述用户行为事件相关联的第二行为关注变量簇,所述第二行为关注变量簇为依据第二关注性节点内的初始行为事件进行特征抽取获得;
依据所述第二预设数量个行为倾向提取维度对各个所述用户行为事件相关联的第二行为关注变量簇进行分析,确定各个所述用户行为事件相关联的第二行为倾向变量,所述第二行为倾向变量包括第二预设数量个第二意图度量信息,每个第二意图度量信息对应于一个行为倾向提取维度;
如果解析到用户行为事件相关联的第一行为倾向变量与第一分簇重心的关联代价值大于所述用户行为事件相关联的第二行为倾向变量与第二分簇重心的关联代价值,则从所述第一分簇重心相关联的分簇特征分布中剔除所述用户行为事件;
如果解析到用户行为事件为在所述第二关注性节点内新添加的用户行为事件,则基于所述用户行为事件相关联的第二行为倾向变量,对各个用户行为事件进行分簇,并在达到分簇结束要求时,确定对应于所述第二关注性节点的每个分簇特征分布。
7.一种大数据系统,其特征在于,所述大数据系统包括至少一个处理器以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任意一项的基于大数据分析的用户行为意图挖掘方法。
CN202210564365.1A 2022-05-23 2022-05-23 基于大数据分析的用户行为意图挖掘方法及大数据系统 Active CN114781624B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210564365.1A CN114781624B (zh) 2022-05-23 2022-05-23 基于大数据分析的用户行为意图挖掘方法及大数据系统
CN202211267942.7A CN115563186A (zh) 2022-05-23 2022-05-23 基于大数据分析的用户行为意图输出方法及大数据系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210564365.1A CN114781624B (zh) 2022-05-23 2022-05-23 基于大数据分析的用户行为意图挖掘方法及大数据系统

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202211267942.7A Division CN115563186A (zh) 2022-05-23 2022-05-23 基于大数据分析的用户行为意图输出方法及大数据系统

Publications (2)

Publication Number Publication Date
CN114781624A CN114781624A (zh) 2022-07-22
CN114781624B true CN114781624B (zh) 2023-01-10

Family

ID=82408037

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210564365.1A Active CN114781624B (zh) 2022-05-23 2022-05-23 基于大数据分析的用户行为意图挖掘方法及大数据系统
CN202211267942.7A Pending CN115563186A (zh) 2022-05-23 2022-05-23 基于大数据分析的用户行为意图输出方法及大数据系统

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202211267942.7A Pending CN115563186A (zh) 2022-05-23 2022-05-23 基于大数据分析的用户行为意图输出方法及大数据系统

Country Status (1)

Country Link
CN (2) CN114781624B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116405551B (zh) * 2023-04-14 2024-03-29 深圳市优友网络科技有限公司 基于社交平台的数据推送方法、系统及云平台

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544206A (zh) * 2013-07-16 2014-01-29 Tcl集团股份有限公司 一种个性化推荐的实现方法及系统
CN110532429A (zh) * 2019-09-04 2019-12-03 重庆邮电大学 一种基于聚类和关联规则的线上用户群体分类方法及装置
WO2020023951A1 (en) * 2018-07-27 2020-01-30 The University Of Chicago Bidirectional evaluation for general-purpose programming
CN111885551A (zh) * 2020-06-28 2020-11-03 天津大学 基于边云协同模式的多移动社交网络中高影响力用户的选择和分配机制
CN113343092A (zh) * 2021-06-20 2021-09-03 曾新士 基于大数据挖掘的内容源推荐更新方法及云计算服务系统
CN113361794A (zh) * 2021-06-21 2021-09-07 深圳市鸿业电线有限公司 基于互联网电商大数据的信息推送方法及ai推送系统
CN113673222A (zh) * 2021-07-12 2021-11-19 华南理工大学 基于双向协同网络的社交媒体文本细粒度情感分析方法
CN113779409A (zh) * 2021-09-18 2021-12-10 苏州科知律信息科技有限公司 基于大数据的意图挖掘方法及系统
CN114090663A (zh) * 2021-12-08 2022-02-25 黑龙江国云科技发展有限公司 应用人工智能的用户需求预测方法及大数据优化系统
CN114155039A (zh) * 2021-12-10 2022-03-08 云南联达信息科技有限公司 基于电商意图大数据挖掘的信息处理方法及大数据系统
CN114155064A (zh) * 2021-12-09 2022-03-08 邯郸市钧逸大数据服务有限公司 采用ai和大数据分析的电商内容推荐方法及大数据系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814119B (zh) * 2010-02-13 2011-09-14 武汉理工大学 具有隐私保护的用户模型构建方法
US10521819B2 (en) * 2012-08-09 2019-12-31 American Express Travel Related Services Company, Inc. Systems and methods for analytics in a cooperative data exchange
CN103778555A (zh) * 2014-01-21 2014-05-07 北京集奥聚合科技有限公司 基于用户标签的用户属性挖掘方法和系统
CN105321089A (zh) * 2014-07-16 2016-02-10 苏宁云商集团股份有限公司 基于多算法融合的电子商务推荐方法和系统
US10831809B2 (en) * 2017-08-31 2020-11-10 Ca Technologies, Inc. Page journey determination from web event journals
US10803255B2 (en) * 2018-03-05 2020-10-13 International Business Machines Corporation Formulating a response to a natural language query based on user intent
US20200294071A1 (en) * 2019-03-12 2020-09-17 Cludo, Inc. Determining user intents related to websites based on site search user behavior
CN110188120B (zh) * 2019-04-01 2022-12-02 湖北工业大学 一种基于协同过滤的个性化屏幕推荐方法
CN111612650B (zh) * 2020-05-27 2022-06-17 福州大学 一种基于dtw距离的电力用户分群方法及系统
EP4158854A1 (en) * 2020-06-02 2023-04-05 Liveperson, Inc. Systems and methods for intent response solicitation and processing
CN113345570A (zh) * 2021-06-20 2021-09-03 刘钢 基于区块链和智慧医疗的大数据提取方法及大数据系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544206A (zh) * 2013-07-16 2014-01-29 Tcl集团股份有限公司 一种个性化推荐的实现方法及系统
WO2020023951A1 (en) * 2018-07-27 2020-01-30 The University Of Chicago Bidirectional evaluation for general-purpose programming
CN110532429A (zh) * 2019-09-04 2019-12-03 重庆邮电大学 一种基于聚类和关联规则的线上用户群体分类方法及装置
CN111885551A (zh) * 2020-06-28 2020-11-03 天津大学 基于边云协同模式的多移动社交网络中高影响力用户的选择和分配机制
CN113343092A (zh) * 2021-06-20 2021-09-03 曾新士 基于大数据挖掘的内容源推荐更新方法及云计算服务系统
CN113361794A (zh) * 2021-06-21 2021-09-07 深圳市鸿业电线有限公司 基于互联网电商大数据的信息推送方法及ai推送系统
CN113673222A (zh) * 2021-07-12 2021-11-19 华南理工大学 基于双向协同网络的社交媒体文本细粒度情感分析方法
CN113779409A (zh) * 2021-09-18 2021-12-10 苏州科知律信息科技有限公司 基于大数据的意图挖掘方法及系统
CN114090663A (zh) * 2021-12-08 2022-02-25 黑龙江国云科技发展有限公司 应用人工智能的用户需求预测方法及大数据优化系统
CN114155064A (zh) * 2021-12-09 2022-03-08 邯郸市钧逸大数据服务有限公司 采用ai和大数据分析的电商内容推荐方法及大数据系统
CN114155039A (zh) * 2021-12-10 2022-03-08 云南联达信息科技有限公司 基于电商意图大数据挖掘的信息处理方法及大数据系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
"DETECTION OF BEHAVIOR PATTERNS OF INTEREST USING BIG DATA WHICH HAVE SPATIAL AND TEMPORAL ATTRIBUTES";R. W. La Valley 等;《 ISPRS Annals of Photogrammetry, Remote Sensing and Spatial Information Sciences》;20171009;第IV-4/W2卷;31-35 *
"Handling missing data for construction waste management: machine learning based on aggregated waste generation behaviors";Yang Zhongze 等;《Resources, Conservation & Recycling》;20210911;第175卷;1-7 *
"Human Behavior Analysis Using Intelligent Big Data Analytics";Muhammad Usman Tariq等;《Front. Psychol》;20210706;1-8 *
"基于多模型融合的行为意图感知";李道远 等;《中国电子科学研究院学报》;20210220;第16卷(第02期);146-152+164 *
"基于特征选择和模型融合的网络购买行为预测研究";刘潇蔓;《中国优秀硕士学位论文全文数据库 (经济与管理科学辑)》;20170615(第(2017)06期);J157-24 *
"融合大小数据分析的用户画像构建";蔡皎洁;《情报工程》;20220215;第8卷(第01期);100-110 *

Also Published As

Publication number Publication date
CN115563186A (zh) 2023-01-03
CN114781624A (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
CN111178380B (zh) 数据分类方法、装置及电子设备
CN113011889B (zh) 账号异常识别方法、系统、装置、设备及介质
CN110689368B (zh) 一种移动应用内广告点击率预测系统设计方法
CN111681049B (zh) 用户行为的处理方法、存储介质及相关设备
CN112329816A (zh) 数据分类方法、装置、电子设备和可读存储介质
CN114781624B (zh) 基于大数据分析的用户行为意图挖掘方法及大数据系统
CN103631787A (zh) 网页类型识别方法以及网页类型识别装置
CN103440199A (zh) 测试引导方法和装置
CN114647790A (zh) 应用于行为意图分析的大数据挖掘方法及云端ai服务系统
CN114547153A (zh) 基于数据时效更新的定制产品隐性需求挖掘方法与系统
CN114691665A (zh) 基于大数据分析的采集噪声点挖掘方法及大数据采集系统
CN110019193B (zh) 相似帐号识别方法、装置、设备、系统及可读介质
CN111861328B (zh) 建立物流识别库的方法、物流轨迹查询更新方法及设备
CN113343020A (zh) 基于人工智能的图像处理方法、装置及电子设备
CN116383521B (zh) 主题词挖掘方法及装置、计算机设备及存储介质
CN111736774A (zh) 冗余数据的处理方法、装置、服务器及存储介质
CN115099344A (zh) 模型训练方法和装置、用户画像生成方法和装置、设备
CN110807466A (zh) 一种处理订单数据的方法和装置
CN114625961A (zh) 应用于大数据的智能化在线服务推送方法及大数据服务器
CN114978765A (zh) 服务于信息攻击防御的大数据处理方法及ai攻击防御系统
CN113220947A (zh) 对事件特征进行编码的方法和装置
CN113468604A (zh) 基于人工智能的大数据隐私信息解析方法及系统
CN111353860A (zh) 产品信息推送方法及系统
CN114757244A (zh) 模型训练方法、装置、存储介质及设备
CN117077018B (zh) 基于机器学习的数据处理方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20221017

Address after: No. 216, Yanxing Road, Nangang District, Harbin City, Heilongjiang Province, 150000

Applicant after: Xie Faze

Address before: 533000 No. B18 Xiangmihu resettlement square, Chengxi Road, Youjiang District, Baise City, Guangxi Zhuang Autonomous Region

Applicant before: Baise hengying computer network Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20221201

Address after: Room 202, 2f, No. 11, Lane 1500, Kongjiang Road, Yangpu District, Shanghai 200093

Applicant after: Shanghai Xingyun Information Technology Co.,Ltd.

Address before: No. 216, Yanxing Road, Nangang District, Harbin City, Heilongjiang Province, 150000

Applicant before: Xie Faze

GR01 Patent grant
GR01 Patent grant