CN117876015B - 一种用户行为数据分析方法、装置及相关设备 - Google Patents
一种用户行为数据分析方法、装置及相关设备 Download PDFInfo
- Publication number
- CN117876015B CN117876015B CN202410269729.2A CN202410269729A CN117876015B CN 117876015 B CN117876015 B CN 117876015B CN 202410269729 A CN202410269729 A CN 202410269729A CN 117876015 B CN117876015 B CN 117876015B
- Authority
- CN
- China
- Prior art keywords
- carrier
- description
- description carrier
- existing
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 112
- 238000007405 data analysis Methods 0.000 title claims abstract description 20
- 230000009467 reduction Effects 0.000 claims abstract description 129
- 238000012544 monitoring process Methods 0.000 claims abstract description 120
- 230000008569 process Effects 0.000 claims abstract description 34
- 238000011156 evaluation Methods 0.000 claims abstract description 22
- 238000005065 mining Methods 0.000 claims abstract description 18
- 230000006399 behavior Effects 0.000 claims description 503
- 230000002776 aggregation Effects 0.000 claims description 75
- 238000004220 aggregation Methods 0.000 claims description 75
- 239000000969 carrier Substances 0.000 claims description 75
- 239000013598 vector Substances 0.000 claims description 63
- 238000006116 polymerization reaction Methods 0.000 claims description 55
- 230000009466 transformation Effects 0.000 claims description 35
- 238000004422 calculation algorithm Methods 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 33
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 16
- 230000004931 aggregating effect Effects 0.000 claims description 15
- 230000000379 polymerizing effect Effects 0.000 claims description 12
- 238000003491 array Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 11
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000011946 reduction process Methods 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 138
- 238000003860 storage Methods 0.000 description 24
- 238000010801 machine learning Methods 0.000 description 14
- 230000003542 behavioural effect Effects 0.000 description 11
- 238000000513 principal component analysis Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000000052 comparative effect Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010923 batch production Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000010924 continuous production Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 239000002537 cosmetic Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种用户行为数据分析方法、装置及相关设备,通过对目标用户行为监测日志结合引导描述载体对日志的特征信息进行聚合,将满足预设降维相似评估指标的不少于一个对比降维描述载体关联的对比日志用户画像,作为所述目标用户行为监测日志的目标日志用户画像。可以准确得到目标用户行为监测日志的目标日志用户画像,实现过程中不用对目标行为数据的具体类型进行识别,进而解决对于未事先确定类型的行为数据不能准确挖掘行为描述载体挖掘,而导致的目标日志用户画像识别失效的问题。
Description
技术领域
本申请涉及但不限于数据分析技术领域,尤其涉及一种用户行为数据分析方法、装置及相关设备。
背景技术
随着信息技术的飞速发展,用户行为数据的收集与分析已成为众多领域的研究热点。尤其是在互联网、电子商务和社交媒体等领域,通过对用户的行为进行监测和记录,可以深入了解用户的偏好、习惯和需求,从而为用户提供更加个性化的服务和产品。然而,用户行为数据的维度多样、数量庞大且不断更新,如何从这些复杂的数据中准确地提取出有用的信息,成为了一个亟待解决的问题。
传统的用户画像构建方法往往基于手工设计的特征和规则,这种方法不仅耗时耗力,而且难以适应数据的动态变化。近年来,随着机器学习和深度学习技术的兴起,数据驱动的自动化用户画像构建方法受到了广泛关注。这些方法能够自动地从大量数据中学习到有用的特征表示,进而生成更加准确和全面的用户画像。然而,现有的自动化用户画像构建方法仍存在一些挑战。通常而言,是将用户行为数据和事先确定好的多个用户行为类型进行对应,来确定属于哪一个类型,但是对于事先没有确定过的类型,就无法进行画像的确定,这无疑会影响应用质量。
发明内容
有鉴于此,本申请实施例至少提供一种用户行为数据分析方法、装置及相关设备。
本申请实施例的技术方案是这样实现的:
一方面,本申请实施例提供一种用户行为数据分析方法,应用于计算机设备,所述方法包括:
在涵盖不少于一类用户行为类型的目标用户行为监测日志中,提取目标用户行为类型的目标行为描述载体;
依据所述目标用户行为类型的引导描述载体,对所述目标行为描述载体进行聚合,得到目标聚合描述载体;其中,所述引导描述载体表征多个已有用户行为监测日志各自对所述目标用户行为类型提取的已有行为描述载体,与相应的对比日志用户画像之间的牵涉信息;
对所述目标聚合描述载体进行描述载体降维处理,得到目标降维描述载体,针对所述目标降维描述载体,从所述多个已有用户行为监测日志各自的已有降维描述载体中,确定出达到预设降维相似评估指标的不少于一个对比降维描述载体;
将所述不少于一个对比降维描述载体关联的对比日志用户画像,作为所述目标用户行为监测日志的目标日志用户画像;
其中,所述引导描述载体的获取方式为:
获取所述多个已有用户行为监测日志各自对所述目标用户行为提取的已有行为描述载体和相应的对比日志用户画像;
获取预先确定的初始引导描述载体;
分别依据每个已有行为描述载体和相应的对比日志用户画像,对所述初始引导描述载体进行反复调节更新,得到迭代后的引导描述载体;
对于每一次调节,依据该次调节对应的初始引导描述载体对一个已有行为描述载体进行聚合,得到已有聚合描述载体;
根据所述已有聚合描述载体与相应对比日志用户画像的日志用户画像描述载体之间的载体相似评分,调节所述该次调节对应的初始引导描述载体,得到迭代后的引导描述载体,作为后续调节对应的初始引导描述载体。
在一些示例中,所述在涵盖不少于一类用户行为类型的目标用户行为监测日志中,提取目标用户行为类型的目标行为描述载体,包括:
在涵盖不少于一类用户行为类型的目标用户行为监测日志中,获取包含目标用户行为类型的目标行为数据;
将所述目标行为数据划分为多个行为数据分团,获取所述多个行为数据分团各自的特征描述数组;其中,每个特征描述数组中的一个描述元素表征相应行为数据分团中的一个行为数据;
根据所述多个行为数据分团的时序,对获取的多个特征描述数组进行统一处理,得到所述目标行为数据的初始特征描述矩阵;
依据各描述元素属于所述目标用户行为类型的支持度,对所述初始特征描述矩阵进行数组解析,得到所述目标用户行为监测日志中目标用户行为类型的目标行为描述载体。
在一些示例中,所述依据该次调节对应的初始引导描述载体,对一个已有行为描述载体进行聚合,得到已有聚合描述载体,包括:
将该次调节对应的初始引导描述载体与已有各次调节对应的初始引导描述载体进行自对齐载体聚合处理,以及,将所述该次调节对应的引导描述载体与一个已有行为描述载体进行双向聚焦载体聚合处理,得到临时引导描述载体;
依据所述临时引导描述载体,对所述一个已有行为描述载体进行聚合,得到所述一个已有行为描述载体的已有聚合描述载体;
所述根据所述已有聚合描述载体与相应对比日志用户画像的日志用户画像描述载体之间的载体相似评分,调节所述该次调节对应的初始引导描述载体,得到迭代后的引导描述载体,包括:
确定所述已有聚合描述载体与相应已有行为描述载体的对比日志用户画像的日志用户画像描述载体之间的第一载体相似评分;
从获取的多个已有行为描述载体中,获取所述相应已有行为描述载体之外的其他已有行为描述载体;
分别确定所述已有聚合描述载体与每一其他已有行为描述载体各自的对比日志用户画像的日志用户画像描述载体之间的第二载体相似评分;
依据第一载体相似评分对所述该次调节对应的初始引导描述载体的第一触发结果,以及依据各第二载体相似评分各自对所述该次调节对应的初始引导描述载体的第二触发结果,对所述该次调节对应的初始引导描述载体进行更新,得到迭代后的引导描述载体;
所述第一触发结果表示:当所述第一载体相似评分越大时,所述对应的初始引导描述载体的准确性越高,依据所述对应的初始引导描述载体得到的已有聚合描述载体与对应的日志用户画像描述载体相似度越高;所述第二触发结果表示:当所述第二载体相似评分越小时,所述对应的初始引导描述载体准确性越高,依据所述对应的初始引导描述载体得到的已有聚合描述载体与其他的日志用户画像描述载体相似度越低。
在一些示例中,所述依据所述目标用户行为类型的引导描述载体,对所述目标行为描述载体进行聚合,得到目标聚合描述载体,包括:
获取包括预设载体单元数量的引导描述载体;
依据所述引导描述载体,对所述目标行为描述载体的载体单元数量进行维数调节,得到包括所述预设载体单元数量的目标聚合描述载体。
在一些示例中,所述对所述目标聚合描述载体进行描述载体降维处理,得到目标降维描述载体,包括:
获取所述多个已有用户行为监测日志各自的已有聚合描述载体;其中,每个已有聚合描述载体是依据所述引导描述载体,对相应已有用户行为监测日志的已有行为描述载体进行聚合得到;
获取每个已有聚合描述载体各自对应的已有降维描述载体;其中,每个已有降维描述载体是对相应已有聚合描述载体进行描述载体降维后得到;
针对所述目标聚合描述载体,从获取的多个已有聚合描述载体中确定出达到预设聚合相似评估指标的已有聚合描述载体所对应的已有降维描述载体,作为目标降维描述载体。
在一些示例中,所述每个已有聚合描述载体各自对应的已有降维描述载体,基于如下过程获取得到:
对于一个已有聚合描述载体进行载体抽取,得到载体单元集合;其中,所述载体单元集合中的每个载体单元表征一种用户行为属性;
将所述载体单元集合中的每个载体单元各自映射至相应用户行为属性对应的载体空间,得到所述每个载体单元各自的映射载体单元;每个映射载体单元表征相应用户行为属性的类型支持度;
通过得到的各个映射载体单元,生成所述一个已有聚合描述载体的已有降维描述载体。
在一些示例中,所述方法还包括:获取每个已有降维描述载体各自关联的对比日志用户画像,其中,每获取一个已有降维描述载体关联的对比日志用户画像,完成如下步骤:
获取所述多个已有用户行为监测日志各自对应对比日志用户画像的日志用户画像描述载体;
对获取的多个日志用户画像描述载体进行划簇,得到不少于一个日志用户画像描述载体集合;
从所述不少于一个日志用户画像描述载体集合各自的代表描述载体中,确定出与所述一个已有降维描述载体之间达到预设载体相似评估指标的代表描述载体;
依据确定出的代表描述载体,将相应日志用户画像描述载体集合中,各日志用户画像描述载体表征的对比日志用户画像,都作为所述一个已有降维描述载体关联的对比日志用户画像。
在一些示例中,所述依据所述目标用户行为类型的引导描述载体,对所述目标行为描述载体进行聚合,得到目标聚合描述载体,通过调教后的画像挖掘算法执行,其中,所述画像挖掘算法采用如下步骤进行调优得到:
获取示例用户行为监测日志集和具有的各个示例用户行为类型,对于每个示例用户行为类型,完成以下操作:
获取调优示例集,所述调优示例集中的每个调优示例包括一个示例行为描述载体和对应的示例画像描述载体;其中,所述示例行为描述载体是对一个示例用户行为监测日志中的一个示例用户行为类型进行特征挖掘得到的,所述示例画像描述载体为所述一个示例用户行为监测日志的对比日志用户画像的特征载体;
基于所述调优示例集,分别对需要进行调优的画像挖掘算法的针对所述一个示例用户行为类型预设的示例引导描述载体进行多次调优;
其中,每一次调优包括:得到依据所述示例引导描述载体对挖掘的示例行为描述载体进行描述载体聚合而生成的示例聚合描述载体后,对所述示例聚合描述载体进行描述载体变换处理,得到变换用户行为监测日志;依据各变换用户行为监测日志与相应的示例用户行为监测日志之间的损失,结合所述示例画像描述载体,更新所述示例引导描述载体。
在一些示例中,所述对所述示例聚合描述载体进行描述载体变换处理,得到变换用户行为监测日志,包括:
对所述示例聚合描述载体进行降维操作,得到示例降维描述载体;
依据针对所述一个示例用户行为类型预设的示例变换引导描述载体,对所述示例降维描述载体进行聚合,得到示例生成描述载体;
对所述示例生成描述载体进行描述载体变换处理,得到变换用户行为监测日志。
在一些示例中,所述依据各变换用户行为监测日志与相应的示例用户行为监测日志之间的损失,结合所述示例画像描述载体,调整所述示例引导描述载体,包括:
获取各示例行为描述载体各自的变换用户行为监测日志,与相应的示例用户行为监测日志之间的日志损失;
依据各日志损失分别对所述示例引导描述载体和所述示例变换引导描述载体的第二触发结果,修正所述示例引导描述载体和所述示例变换引导描述载体;
获取所述各示例行为描述载体各自的示例聚合描述载体,与相应的示例画像描述载体之间的聚合损失;
依据各聚合损失分别对所述示例引导描述载体的第二触发结果,修正所述示例引导描述载体;
获取所述各示例行为描述载体各自的示例生成描述载体,与相应的示例画像描述载体之间的生成损失;
依据各生成损失对所述示例变换引导描述载体的第二触发结果,修正所述示例变换引导描述载体。
第二方面,本公开提供一种用户行为数据分析装置,包括:
载体挖掘模块,用于在涵盖不少于一类用户行为类型的目标用户行为监测日志中,提取目标用户行为类型的目标行为描述载体;
载体聚合模块,用于依据所述目标用户行为类型的引导描述载体,对所述目标行为描述载体进行聚合,得到目标聚合描述载体;其中,所述引导描述载体表征多个已有用户行为监测日志各自对所述目标用户行为类型提取的已有行为描述载体,与相应的对比日志用户画像之间的牵涉信息;
载体降维模块,用于对所述目标聚合描述载体进行描述载体降维处理,得到目标降维描述载体,针对所述目标降维描述载体,从所述多个已有用户行为监测日志各自的已有降维描述载体中,确定出达到预设降维相似评估指标的不少于一个对比降维描述载体;
画像确定模块,用于将所述不少于一个对比降维描述载体关联的对比日志用户画像,作为所述目标用户行为监测日志的目标日志用户画像;
其中,所述引导描述载体的获取方式为:
获取所述多个已有用户行为监测日志各自对所述目标用户行为提取的已有行为描述载体和相应的对比日志用户画像;
获取预先确定的初始引导描述载体;
分别依据每个已有行为描述载体和相应的对比日志用户画像,对所述初始引导描述载体进行反复调节更新,得到迭代后的引导描述载体;
对于每一次调节,依据该次调节对应的初始引导描述载体对一个已有行为描述载体进行聚合,得到已有聚合描述载体;
根据所述已有聚合描述载体与相应对比日志用户画像的日志用户画像描述载体之间的载体相似评分,调节所述该次调节对应的初始引导描述载体,得到迭代后的引导描述载体,作为后续调节对应的初始引导描述载体。
第三方面,本公开提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以上所述方法中的步骤。
本公开的有益效果包括:
本申请提供的用户行为数据分析方法,可以准确得到目标用户行为监测日志的目标日志用户画像,实现过程中不用对目标行为数据的具体类型进行识别,进而解决对于未事先确定类型的行为数据不能准确挖掘行为描述载体挖掘,而导致的目标日志用户画像识别失效的问题。
为了实现以上技术效果,本申请针对目标用户行为类型进行处理,在涵盖不少于一类用户行为类型的目标用户行为监测日志中,挖掘目标用户行为类型的目标行为描述载体。目标行为描述载体可保留目标用户行为监测日志的关键信息。之后依据描述目标用户行为类型的引导描述载体对目标行为描述载体进行聚合,得到目标聚合描述载体,其中引导描述载体表征多个已有用户行为监测日志各自的已有行为描述载体与相应的对比日志用户画像之间的牵涉信息。由于引导描述载体能表征各已有行为描述载体与相应的对比日志用户画像之间的牵涉信息,依据该牵涉信息对目标用户行为类型的描述更为适配,聚合该引导描述载体和目标行为描述载体,得到目标聚合描述载体,目标聚合描述载体不但包含目标用户行为监测日志中的关键信息,而且包含目标用户行为类型的针对性信息,帮助增加依据目标聚合描述载体生成相应目标日志用户画像的可靠性。接着,对目标聚合描述载体进行描述载体降维处理,得到目标降维描述载体,然后对目标降维描述载体从多个已有用户行为监测日志各自的已有降维描述载体中,确定出达到预设降维相似评估指标的不少于一个对比降维描述载体,将确定出的不少于一个对比降维描述载体关联的对比日志用户画像作为目标用户行为监测日志的目标日志用户画像。综上,对目标聚合描述载体进行降维,得到更小体量的目标降维描述载体,帮助节约计算消耗,已有用户行为监测日志与已有降维描述载体之间是对应的,那么,可增加比对多个已有用户行为监测日志各自的已有降维描述载体,与目标降维描述载体之间的比较速度,通过确定出达到预设降维相似评估指标的不少于一个对比降维描述载体,将对应的已有用户行为监测日志的对比日志用户画像作为目标用户行为监测日志的目标日志用户画像,得到的目标日志用户画像可靠性高。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请的技术方案。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1为本申请实施例提供的一种用户行为数据分析方法的实现流程示意图。
图2为本申请实施例提供的一种用户行为数据分析装置的组成结构示意图。
图3为本申请实施例提供的一种计算机设备的硬件实体示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图和实施例对本申请的技术方案进一步详细阐述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。所涉及的术语“第一/第二/第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请的目的,不是旨在限制本申请。
本申请实施例提供一种用户行为数据分析方法,该方法可以由计算机设备的处理器执行。其中,计算机设备可以指的是服务器、笔记本电脑、平板电脑、台式计算机、智能电视、移动设备(例如移动电话、便携式视频播放器、个人数字助理、专用消息设备、便携式游戏设备)等具备数据处理能力的设备。
图1为本申请实施例提供的一种用户行为数据分析方法的实现流程示意图,如图1所示,该方法包括如下操作:
操作S1:在涵盖不少于一类用户行为类型的目标用户行为监测日志中,提取目标用户行为类型的目标行为描述载体。
其中,用户行为类型指的是根据用户在特定平台或系统上的行为属性所划分出的类别。这些行为属性可以是用户在电商平台上的浏览、收藏、加入购物车、购买、评价等操作,也可以是其他类型的互动行为。每一种用户行为类型都代表了一种特定的用户行为模式或特征。比如,在电商平台上,用户的“购买行为类型”可能包括“高价值消费型”(经常购买高价值商品的用户)、“频繁购买型”(购买频率较高的用户)和“浏览不购买型”(经常浏览但很少购买的用户)等。
用户行为监测日志是记录用户在特定系统或平台上行为活动的数据文件或数据库。这些日志详细记录了用户的各种行为,如点击、浏览、搜索、购买等,以及这些行为发生的时间、频率和其他相关信息。例如,一个电商平台可能会记录用户A在一天内的所有活动,比如他浏览了哪些商品页面、搜索了哪些关键词、加入了哪些商品到购物车以及最终购买了哪些商品。这些详细的活动记录就构成了用户A的行为监测日志。可以理解,如何生成、采集和存储用户的行为数据可以参考现有技术,例如对于电商平台的用户行为数据,可以参考以下采集方式。
用户行为数据主要包括用户的浏览、搜索、点击、购买、评价等行为。这些数据在用户在电商平台进行交互时自然生成。为了更全面地收集用户行为数据,电商平台通常会设计各种互动环节,如搜索推荐、个性化推荐、购物车功能、评价系统等,以鼓励用户产生更多有价值的行为数据。电商平台通过服务器记录用户的访问日志,包括用户的IP地址、访问时间、访问页面、停留时间等信息。这些日志数据可以通过Web日志分析工具进行收集和处理。此外,可以通过埋点采集,埋点是在用户与平台交互的关键节点上植入代码,以收集特定事件的数据。例如,当用户点击某个按钮或查看某个商品时,埋点代码会触发并收集相关数据。埋点采集可以通过无埋点、可视化埋点和全埋点等方式实现。其中,无埋点是通过预定义事件和属性进行采集;可视化埋点允许开发人员通过可视化界面配置需要采集的数据点;全埋点则是尽可能地收集所有用户行为数据,以便后续分析。在数据存储时,可以基于实时存储,即对于需要实时处理的数据,如实时推荐系统,电商平台通常会使用消息队列(如Kafka)进行数据的实时传输和存储。这些数据在经过简单处理后,可以直接用于实时推荐等场景。或者,可以离线存储,即对于不需要实时处理的数据,如用户画像、用户行为分析等,电商平台通常会将其存储在分布式文件系统(如HDFS)或数据仓库(如Hive)中。这些数据在经过清洗、整合和转换后,可以用于更复杂的数据分析和挖掘任务。在数据采集时,可以利用日志采集工具(如Flume、Logstash等)、埋点技术(如JavaScript、SDK等)以及API接口等实现。数据存储时,可以使用关系型数据库(如MySQL、PostgreSQL等)、非关系型数据库(如MongoDB、Redis等)、分布式文件系统(如HDFS)和数据仓库(如Hive、HBase等)等实现。
目标行为描述载体是用于表示或描述特定用户行为类型的数学或数据结构。它可以是向量、矩阵、张量或其他形式的数据结构,用于捕捉和表示用户行为的特征。通过这种行为描述载体,可以将复杂的用户行为数据转化为可计算和分析的形式。例如,假设我们要描述一个用户的“购买行为类型”,我们可以定义一个行为描述向量,其中包含该用户的购买次数、平均购买金额、最高购买金额、购买商品的种类数等特征。比如,用户A的行为描述向量可能是[购买次数: 5, 平均购买金额: 200, 最高购买金额: 500, 购买商品种类数:3],这个向量就是对用户A购买行为的一个数学化描述。
操作S1的目的是从涵盖不少于一类用户行为类型的目标用户行为监测日志中,提取出目标用户行为类型的目标行为描述载体。在一些情况下,目标用户行为监测日志中的用户行为类型可能是未知的(即事先没有与之对应的用户行为类型来帮助判断是什么类型,即不能和现在已知的用户行为类型产生映射关联)。
如上所述,行为描述载体是对用户行为进行特征表示的工具,它可以是向量、矩阵或张量等形式。在向量形式下,每个维度可以对应一个特定的行为特征,如浏览次数、购买金额、评价评分等。这些特征值构成了向量中的各个元素,从而形成了对用户行为的数学化描述。举例来说,假设电商平台想要分析消费谨慎型用户的行为特征,计算机设备会从涵盖这类用户行为类型的监测日志中提取出相应的行为数据。这些数据可以包括用户的浏览记录、购买记录、评价记录等。然后,计算机设备会根据预先定义的特征提取规则或算法,将这些行为数据转化为行为描述向量。比如,可以定义一个特征向量[浏览次数, 购买次数, 平均购买金额, 评价评分],然后对每个用户的行为数据进行统计和计算,得到相应的特征值,从而构成该用户的行为描述向量。通过这样的提取过程,计算机设备能够将复杂的用户行为数据转化为简洁且易于处理的行为描述载体,为后续的用户行为分析和用户画像构建提供有力的支持。同时,这种基于向量的特征表示方法也便于引入机器学习等先进技术进行更深层次的数据挖掘和模式识别。
作为一种实施方式,操作S1,在涵盖不少于一类用户行为类型的目标用户行为监测日志中,提取目标用户行为类型的目标行为描述载体,具体可以包括:
操作S11:在涵盖不少于一类用户行为类型的目标用户行为监测日志中,获取包含目标用户行为类型的目标行为数据。
具体的,计算机设备在执行操作S11时,会首先访问存储有用户行为监测日志的数据库或文件系统。这些监测日志通常包含了用户在一段时间内的各种行为记录,如点击、购买、浏览等。每条行为记录都包含了行为发生的时间戳、行为的类型、行为的对象(如商品ID、页面URL等)以及可能的其他相关信息(如用户ID、设备信息等)。多条行为数据构成一个用户行为类型,这个用户行为类型可能是现在已有的能对应的类型或者未知的不能对应的类型。可以理解,构成一个用户行为类型的数据可能为数据2~40,但是获取的包含目标用户行为类型的目标行为数据的数据范围是1~100,在进行特征提取时,需要依赖后续的操作将数据2~40对应的特征准确提取出来。
操作S12:将目标行为数据划分为多个行为数据分团,获取多个行为数据分团各自的特征描述数组;其中,每个特征描述数组中的一个描述元素表征相应行为数据分团中的一个行为数据。
特征描述数组是一个包含了多个描述元素的序列,用于描述行为数据分团中的特征信息。每个描述元素都对应着行为数据分团中的一个特定属性或特征。描述元素(token)是特征描述数组中的单个组成部分,用于表示行为数据分团中的某个具体特征或属性。每个描述元素都对应着数据中的一个字段或值。
在执行操作S12时,计算机设备可以按照时间顺序将目标行为数据等分为多个行为数据分团,划分完行为数据分团后,计算机设备对每个分团进行特征提取,形成特征描述数组。特征描述数组是一个包含了多个描述元素的序列,每个描述元素都对应着行为数据分团中的一个特定特征。这些特征可以是数值型的,也可以是类别型的,具体取决于数据的特点和业务需求。
例如一个特征描述数组可能包含了以下描述元素:用户ID、商品类别、购买数量、购买时间等。这些描述元素共同构成了对购买行为的全面描述。在实际应用中,可能会根据具体的业务需求和数据特点,选择不同的特征进行提取和描述。
操作S13:根据多个行为数据分团的时序(即行为发生的时间先后),对获取的多个特征描述数组进行统一处理(即批量处理),得到目标行为数据的初始特征描述矩阵。
具体地,计算机设备先获取操作S12中生成的多个特征描述数组。这些数组各自描述了不同的行为数据分团的特征,是原始行为数据的初步抽象。然而,这些数组之间是独立的,缺乏统一的结构和时序关系,不利于直接进行整体分析。操作S13中,将这些特征描述数组按照它们所对应的行为发生的时序进行排序。时序在这里指的是行为发生的时间顺序,它是行为数据的一个重要属性,反映了用户行为的连续性和动态性。通过按照时序排序,计算机设备能够将原本离散的特征描述数组组织成一个有序的数据序列。接下来,计算机设备将排序后的特征描述数组进行批量处理,即将它们合并成一个初始特征描述矩阵。这个矩阵是一个二维的数据结构,其中每一行对应一个特征描述数组,每一列对应一个特定的特征。这样,矩阵中的每个元素都表示了某个特定行为数据分团在某个特定特征上的取值。
操作S14:依据各描述元素属于目标用户行为类型的支持度,对初始特征描述矩阵进行数组解析,得到目标用户行为监测日志中目标用户行为类型的目标行为描述载体。
具体地,计算机设备首先评估初始特征描述矩阵中每个描述元素(也可以理解为特征或令牌)与目标用户行为类型的支持度。支持度是一个量化指标,可以是概率、置信度或其他能反映元素与目标行为类型相关性的变量。例如,在购买行为的分析中,如果某个描述元素“商品类别:电子产品”在大多数购买行为中都出现,那么它的支持度就会相对较高。可以设定一个支持度阈值,这个阈值是根据业务需求或数据分析目标来确定的。只有那些支持度超过这个阈值的描述元素才会被认为是与目标用户行为类型紧密相关的,从而被保留下来。然后,计算机会对初始特征描述矩阵进行解析,具体过程包括:遍历矩阵中的每个特征描述数组,对于数组中的每个描述元素,检查其支持度是否大于阈值。如果大于阈值,则将其抽离出来;否则,忽略该元素。这样,抽离出来的元素被组合成一个只包含高支持度描述元素的新数组,即目标行为描述载体。
操作S2:依据目标用户行为类型的引导描述载体,对目标行为描述载体进行聚合,得到目标聚合描述载体;其中,引导描述载体表征多个已有用户行为监测日志各自对目标用户行为类型提取的已有行为描述载体,与相应的对比日志用户画像之间的牵涉信息。
操作S2中,引导描述载体是一个重要的参考,它包含了已有用户行为监测日志(也即历史用户行为监测日志)中提取的已有行为描述载体与相应的对比日志用户画像之间的牵涉信息(也即关联信息)。具体来说,计算机设备利用引导描述载体中的信息,对目标行为描述载体进行融合处理。这种融合可以是加权平均、拼接、或者通过更复杂的算法如神经网络进行非线性变换等方式实现。融合的目的是为了将目标用户行为类型的行为描述载体与历史数据中的相关信息结合起来,形成一个更全面、更丰富的行为描述。
在一个具体的实施方式中,依据目标用户行为类型的引导描述载体,对目标行为描述载体进行聚合,得到目标聚合描述载体的过程可以包括:
操作S2a:获取包括预设载体单元数量(即特征维度)的引导描述载体。
操作S2b:依据引导描述载体,对目标行为描述载体的载体单元数量进行维数调节,得到包括预设载体单元数量的目标聚合描述载体。
在该实施方式中,为引导描述载体设置了固定的载体单元数量,这个载体单元数量可以理解为特征的维度,通过这个特征维度来调节目标行为描述载体的载体单元数量,得到包括预设载体单元数量的目标聚合描述载体,那么,目标聚合描述载体和对比日志用户画像的画像描述载体在语义层面能够保持一致性。
基于此,由于引导描述载体能表征各已有行为描述载体与相应的对比日志用户画像之间的牵涉信息,依据该牵涉信息对目标用户行为类型的描述更为适配,聚合该引导描述载体和目标行为描述载体,得到目标聚合描述载体,目标聚合描述载体不但包含目标用户行为监测日志中的关键信息,而且包含目标用户行为类型的针对性信息,帮助增加依据目标聚合描述载体生成相应目标日志用户画像的可靠性。
在一些实施方式中,操作S2中,依据目标用户行为类型的引导描述载体,对目标行为描述载体进行聚合,得到目标聚合描述载体,是通过调教后的画像挖掘算法执行得到的,基于此,本公开还提供该画像挖掘算法的调优方案,具体可以包括以下操作:
操作S01:获取示例用户行为监测日志集和具有的各个示例用户行为类型,对于每个示例用户行为类型,完成以下操作S011和S012。
操作S011:获取调优示例集,调优示例集中的每个调优示例包括一个示例行为描述载体和对应的示例画像描述载体。
其中,示例行为描述载体是对一个示例用户行为监测日志中的一个示例用户行为类型进行特征挖掘得到的,示例画像描述载体为一个示例用户行为监测日志的对比日志用户画像的特征载体。
操作S012:基于调优示例集,分别对需要进行调优的画像挖掘算法的针对一个示例用户行为类型预设的示例引导描述载体进行多次调优;其中,每一次调优包括以下操作S0121和S0122。
操作S0121:得到依据示例引导描述载体对挖掘的示例行为描述载体进行描述载体聚合而生成的示例聚合描述载体后,对示例聚合描述载体进行描述载体变换处理,得到变换用户行为监测日志。
其中,对示例聚合描述载体进行描述载体变换处理,得到变换用户行为监测日志,包括:对示例聚合描述载体进行降维操作,得到示例降维描述载体;依据针对一个示例用户行为类型预设的示例变换引导描述载体,对示例降维描述载体进行聚合,得到示例生成描述载体;对示例生成描述载体进行描述载体变换处理,得到变换用户行为监测日志。其中,每一次调优的示例引导描述载体都将和相同次调优对应的示例日志描述载体进行双向聚焦描述载体聚合操作,并和已有调优对应的示例引导描述载体对应的示例生成描述载体进行自对齐聚焦描述载体聚合操作,同理,每一次调优的示例变换引导描述载体,都和相同次调优对应的示例生成描述载体进行双向聚焦描述载体聚合,并和已有调优对应的示例变换引导描述载体进行自对齐聚焦描述载体聚合。
操作S0122:依据各变换用户行为监测日志与相应的示例用户行为监测日志之间的损失,结合示例画像描述载体,更新示例引导描述载体。
可选地,依据各变换用户行为监测日志与相应的示例用户行为监测日志之间的损失,结合示例画像描述载体,调整示例引导描述载体,包括:
获取各示例行为描述载体各自的变换用户行为监测日志,与相应的示例用户行为监测日志之间的日志损失;依据各日志损失分别对示例引导描述载体和示例变换引导描述载体的第二触发结果,修正示例引导描述载体和示例变换引导描述载体;获取各示例行为描述载体各自的示例聚合描述载体,与相应的示例画像描述载体之间的聚合损失;依据各聚合损失分别对示例引导描述载体的第二触发结果,修正示例引导描述载体;获取各示例行为描述载体各自的示例生成描述载体,与相应的示例画像描述载体之间的生成损失;依据各生成损失对示例变换引导描述载体的第二触发结果,修正示例变换引导描述载体。
通过获取各种损失,并依据这些损失来调整或修正示例引导描述载体和示例变换引导描述载体。这些步骤的目的是优化画像挖掘算法,使其能够更准确地根据用户行为类型生成相应的用户画像。
首先,计算机设备会获取每个示例行为描述载体对应的变换用户行为监测日志与相应的示例用户行为监测日志之间的日志损失。这个日志损失反映了变换后的用户行为监测日志与原始示例日志之间的差异程度。为了计算这个损失,计算机设备可以使用各种距离度量方法(如欧氏距离、余弦相似度等)或机器学习模型(如神经网络)来评估两者之间的相似性或不相似性。例如,如果变换后的日志与原始日志在关键特征上存在较大差异,那么日志损失就会较高。此过程采用了度量学习,基于该日志损失完成算法的弱监督学习,这样能克服因为日志用户画像的精度差引起的调优后的算法精度不足的问题。
计算机设备会依据计算出的日志损失来修正示例引导描述载体和示例变换引导描述载体。修正的方式可以是调整它们的权重、添加或删除某些特征、修改聚合规则等。修正的目标是使得在下一次调优过程中,基于修正后的引导描述载体生成的变换用户行为监测日志能够更接近于原始的示例用户行为监测日志。
在另一情形中,除了日志损失外,计算机设备获取每个示例行为描述载体对应的示例聚合描述载体与相应的示例画像描述载体之间的聚合损失。这个聚合损失反映了聚合后的描述载体与期望的用户画像之间的差异程度。同样地,计算机设备可以使用各种距离度量方法或机器学习模型来计算这个损失,并依据该损失来修正示例引导描述载体。这种情形中,在画像-日志描述载体的对齐聚合前提下,通过度量学习,依据各聚合损失对示例变换引导描述载体的第二触发结果,即示例聚合描述载体和对应的示例画像描述载体的损失越大,对示例引导描述载体造成的第二触发结果越大,那么,可以采用限制该聚合损失,让它趋于最小,从而修正示例引导描述载体。
在又一情形中,计算机设备获取每个示例行为描述载体对应的示例生成描述载体与相应的示例画像描述载体之间的生成损失。这个生成损失反映了生成的描述载体与期望的用户画像之间的差异程度。计算机设备同样会使用各种距离度量方法或机器学习模型来计算这个损失,并依据该损失来修正示例变换引导描述载体。这种情形中,在画像-日志描述载体的对齐聚合前提下,通过度量学习,依据各生成损失对示例变换引导描述载体的第二触发结果,修正示例变换引导描述载体,即示例聚合描述载体和对应的示例画像描述载体的损失越大,对示例变换引导描述载体造成的第二触发结果越大,那么,可以采用限制该生成损失,让它趋于最小,从而修正示例变换引导描述载体。
通过不断地迭代调优过程,计算机设备可以逐渐优化画像挖掘算法中的引导描述载体和变换引导描述载体,从而使得生成的用户画像能够更准确地反映用户的实际行为类型。这种调优过程通常会在达到某个预设的停止条件时结束,如达到最大迭代次数、损失函数收敛等。需要注意的是,在整个调优过程中,计算机设备会不断地利用已有的调优结果来辅助新的调优过程。例如,在每次调优时,都会将当前次调优的引导描述载体与相同次调优对应的日志描述载体进行双向聚焦描述载体聚合操作,并与已有调优对应的引导描述载体对应的生成描述载体进行自对齐聚焦描述载体聚合操作。这些操作有助于保持调优过程的一致性和稳定性,并加速算法的收敛速度。
在操作S2中,计算机设备会使用这些引导描述载体中的信息,对目标用户的购买行为描述载体进行聚合。例如,如果引导描述载体显示历史中高价值消费型的用户往往具有较高的购买金额和较低的购买频率,那么计算机设备可能会在聚合过程中增加这些特征的权重,从而得到更贴近实际的目标聚合描述载体。
这个聚合过程可以通过各种算法实现,比如基于规则的加权平均、基于机器学习模型的非线性变换等。如果采用机器学习模型,那么模型的具体实施方式可以是神经网络、决策树、支持向量机等,这些模型会根据历史数据中的关联信息学习如何有效地聚合目标行为描述载体。
最终得到的目标聚合描述载体将是一个融合了目标用户行为类型和历史关联信息的全面描述,为后续的用户行为分析和用户画像构建提供了有力的支持。
关于该引导描述载体,其具体的获取方式可以包括以下操作:
操作S21:获取多个已有用户行为监测日志各自对目标用户行为提取的已有行为描述载体和相应的对比日志用户画像;
操作S22:获取预先确定的初始引导描述载体;
操作S23:分别依据每个已有行为描述载体和相应的对比日志用户画像,对初始引导描述载体进行反复调节更新,得到迭代后的引导描述载体。
操作S23中,对于每一次调节,包括:
操作S231:依据该次调节对应的初始引导描述载体对一个已有行为描述载体进行聚合,得到已有聚合描述载体;
操作S232:根据已有聚合描述载体与相应对比日志用户画像的日志用户画像描述载体之间的载体相似评分(即特征相似度),调节该次调节对应的初始引导描述载体,得到迭代后的引导描述载体,作为后续调节对应的初始引导描述载体。
以上过程中,操作S21获取多个已有用户行为监测日志中对目标用户行为提取的已有行为描述载体和相应的对比日志用户画像。这些已有行为描述载体是基于过去用户行为数据提取的特征集合,它们包含了用户行为的关键信息。而对比日志用户画像则是对这些用户行为的更全面描述,通常包括用户的偏好、习惯等深层次信息。获取这些数据是为了在后续的调节过程中提供参考和对比。
接下来,操作S22获取预先确定的初始引导描述载体。这个初始引导描述载体可以是一个随机生成的或者基于某些先验知识构建的特征集合。它作为迭代过程的起点,将在后续的调节中不断优化和更新。
然后,操作S23对初始引导描述载体进行反复调节更新,以得到迭代后的引导描述载体。具体来说,对于每一次调节,都会执行操作S231和操作S232。
在操作S231中,依据该次调节对应的初始引导描述载体对一个已有行为描述载体进行聚合,得到已有聚合描述载体。聚合的过程是将初始引导描述载体中的特征与已有行为描述载体中的特征进行融合,以形成一个更全面的特征集合。这个已有聚合描述载体将作为后续相似度评分的依据。在操作S232中,根据已有聚合描述载体与相应对比日志用户画像的日志用户画像描述载体之间的载体相似评分(即特征相似度),来调节该次调节对应的初始引导描述载体。相似评分反映了已有聚合描述载体与对比日志用户画像之间的匹配程度。如果相似评分较低,说明当前初始引导描述载体还不能很好地反映目标用户行为的特点,因此需要进行调整。调整的方式可以是增加或删除某些特征,或者修改特征的权重等。经过调节后,得到的迭代后的引导描述载体将作为后续调节的起点。
通过反复执行操作S23,初始引导描述载体将不断被优化和更新,直到达到一定的停止条件(如迭代次数达到预设值或相似评分达到预设阈值等)。最终得到的迭代后的引导描述载体将是一个能够准确反映目标用户行为特点的特征集合,它可以用于后续的用户行为分析、预测或推荐等任务中。需要注意的是,在整个迭代过程中,计算机设备根据具体的算法或模型来实现特征的提取、聚合和相似度评分等操作。这些算法或模型可以是基于传统统计学的方法,也可以是基于机器学习或深度学习的方法。具体选择哪种方法取决于数据的特点和业务的需求。例如,在特征提取阶段,可以使用词袋模型、TF-IDF等方法来提取文本数据中的关键特征;在相似度评分阶段,可以使用余弦相似度、欧氏距离等指标来衡量特征之间的相似程度。
在一些实施例中,操作S231,依据该次调节对应的初始引导描述载体,对一个已有行为描述载体进行聚合,得到已有聚合描述载体,具体可以包括:
操作S2311:将该次调节对应的初始引导描述载体与已有各次调节对应的初始引导描述载体进行自对齐载体聚合处理,以及,将该次调节对应的引导描述载体与一个已有行为描述载体进行双向聚焦载体聚合处理,得到临时引导描述载体;
操作S2312:依据临时引导描述载体,对一个已有行为描述载体进行聚合,得到一个已有行为描述载体的已有聚合描述载体。
操作S2311首先涉及自对齐载体聚合,也称为自注意力特征交互。在这个步骤中,计算机设备会将当前调节对应的初始引导描述载体与先前各次调节对应的初始引导描述载体进行聚合处理。自对齐或自注意力机制允许模型在处理序列数据时,关注序列内部不同位置的重要性。具体到我们的场景中,这意味着模型会考虑当前初始引导描述载体与之前各版本之间的差异和联系,以便在后续步骤中更精准地进行特征聚合。举个例子,如果我们的初始引导描述载体是一系列关于用户购买行为的特征向量,那么自对齐载体聚合可能会强调那些在不同调节阶段都保持重要性的特征,如“用户历史购买频次”或“最近一次购买时间”。
紧接着,操作S2311还包括双向聚焦载体聚合,也称为交叉注意力特征交互。这一步骤中,计算机设备会将当前调节对应的引导描述载体与一个已有的行为描述载体进行聚合。与自注意力不同,交叉注意力机制允许模型关注两个不同序列(在这里是引导描述载体和行为描述载体)之间的相关信息。通过这种方式,模型能够学习到如何最好地结合这两个来源的信息,以生成一个更全面、更准确的载体。以相同的用户购买行为场景为例,双向聚焦载体聚合可能会将引导描述载体中的“预期购买行为类型”特征与行为描述载体中的“实际购买商品类别”特征相结合,从而生成一个既包含用户购买意图又反映其实际购买行为的综合特征向量。完成操作S2311后,我们得到了一个临时引导描述载体。这个中间态的载体已经融合了历史调节信息和当前行为数据的关键特征,为下一步的聚合操作做好了准备。
操作S2312则负责依据这个临时引导描述载体来进一步聚合一个已有的行为描述载体。在这个过程中,计算机设备会使用各种算法(如深度学习中的多层感知机、卷积神经网络或循环神经网络等)来确保聚合操作能够有效地提取和保留最关键的信息。最终生成的已有聚合描述载体将是一个高度精炼的特征集合,它不仅包含了原始行为数据的关键信息,还反映了通过多次调节和优化获得的深层次结构和模式。操作S231通过结合自注意力和交叉注意力机制,以及后续的聚合处理,实现了对初始引导描述载体的有效更新和优化。这一过程对于提高用户行为分析的准确性和效率至关重要。
操作S232,根据已有聚合描述载体与相应对比日志用户画像的日志用户画像描述载体之间的载体相似评分,调节该次调节对应的初始引导描述载体,得到迭代后的引导描述载体,具体可以包括:
操作S2321:确定已有聚合描述载体与相应已有行为描述载体的对比日志用户画像的日志用户画像描述载体之间的第一载体相似评分;
操作S2322:从获取的多个已有行为描述载体中,获取相应已有行为描述载体之外的其他已有行为描述载体;
操作S2323:分别确定已有聚合描述载体与每一其他已有行为描述载体各自的对比日志用户画像的日志用户画像描述载体之间的第二载体相似评分;
操作S2324:依据第一载体相似评分对该次调节对应的初始引导描述载体的第一触发结果,以及依据各第二载体相似评分各自对该次调节对应的初始引导描述载体的第二触发结果,对该次调节对应的初始引导描述载体进行更新,得到迭代后的引导描述载体。
其中,第一触发结果表示:当第一载体相似评分越大时,对应的初始引导描述载体的准确性越高,依据对应的初始引导描述载体得到的已有聚合描述载体与对应的日志用户画像描述载体相似度越高;第二触发结果表示:当第二载体相似评分越小时,对应的初始引导描述载体准确性越高,依据对应的初始引导描述载体得到的已有聚合描述载体与其他的日志用户画像描述载体相似度越低。
操作S2321是确定已有聚合描述载体与相应已有行为描述载体的对比日志用户画像的日志用户画像描述载体之间的第一载体相似评分。这个评分反映了当前聚合描述载体与特定用户行为数据对应的用户画像之间的匹配程度。例如,如果已有聚合描述载体是关于用户购买行为的特征集合,而对比日志用户画像描述了用户的实际购买历史和偏好,那么第一载体相似评分就会衡量这两者之间的相似性。评分越高,说明聚合描述载体越能准确反映该用户的购买行为特点。
接下来,操作S2322是从获取的多个已有行为描述载体中,获取除当前正在考虑的已有行为描述载体之外的其他已有行为描述载体。这一步是为了在更广泛的范围内评估当前聚合描述载体的通用性和区分度。然后,操作S2323是分别确定已有聚合描述载体与每一个其他已有行为描述载体的对比日志用户画像的日志用户画像描述载体之间的第二载体相似评分。这些评分衡量了当前聚合描述载体与其他用户行为数据对应的用户画像之间的相似性。与第一载体相似评分不同,这里我们希望第二载体相似评分尽可能低,因为这表示当前聚合描述载体具有较好的区分度,不会与其他用户的行为混淆。最后,操作S2324是依据第一载体相似评分和第二载体相似评分来调节该次调节对应的初始引导描述载体,得到迭代后的引导描述载体。具体来说,如果第一载体相似评分较高且第二载体相似评分较低,说明当前初始引导描述载体已经能够很好地捕捉目标用户行为的特点,并且具有较好的区分度。在这种情况下,我们可以保留或微调当前初始引导描述载体。反之,如果第一载体相似评分较低或第二载体相似评分较高,说明当前初始引导描述载体还需要进一步优化。这时,我们可以根据相似评分的差距来调整初始引导描述载体中的特征或权重,以期在下一次迭代中获得更好的结果。
在这个过程中,计算机设备会使用各种算法和模型来实现相似评分的计算和初始引导描述载体的调节。例如,相似评分可以通过余弦相似度、欧氏距离或深度学习中的嵌入空间距离等方法来计算;而初始引导描述载体的调节则可以通过梯度下降、随机搜索或遗传算法等优化方法来实现。通过这些自动化和智能化的手段,我们可以高效地生成和优化引导描述载体,以支持后续的用户行为分析和预测任务。
操作S3:对目标聚合描述载体进行描述载体降维处理,得到目标降维描述载体,针对目标降维描述载体,从多个已有用户行为监测日志各自的已有降维描述载体中,确定出达到预设降维相似评估指标的不少于一个对比降维描述载体。
目标聚合描述载体通常是一个高维向量,其中包含了用户行为的多个特征。这些特征可能是冗余的、高度相关的,或者某些特征对于后续的分析任务并不重要。因此,通过降维处理,我们可以去除这些不相关或冗余的特征,得到一个更简洁、更有效的数据表示。降维处理可以采用多种方法,包括但不限于主成分分析(PCA)、t-分布邻域嵌入算法(t-SNE)、自编码器(Autoencoder)等。每种方法都有其特定的适用场景和优缺点。以主成分分析(PCA)为例,PCA 是一种线性降维方法,它通过正交变换将原始特征空间中的线性相关变量变为线性无关的新变量,这些新变量称为主成分。PCA 的目标是找到数据中的主要变化方向,即方差最大的方向,并保留这些方向上的信息。在执行 PCA 降维时,计算机设备会首先计算目标聚合描述载体的协方差矩阵,然后求解该矩阵的特征值和特征向量。特征向量对应了数据的主要变化方向,而特征值的大小则反映了这些方向上数据方差的大小。计算机设备会选择前 k 个最大的特征值对应的特征向量构成一个投影矩阵,然后将目标聚合描述载体投影到这个低维空间上,得到目标降维描述载体。
在一个具体的实现方式中,对目标聚合描述载体进行描述载体降维处理,得到目标降维描述载体的过程,可以包括以下操作:
操作S31:获取多个已有用户行为监测日志各自的已有聚合描述载体;其中,每个已有聚合描述载体是依据引导描述载体,对相应已有用户行为监测日志的已有行为描述载体进行聚合得到;
操作S32:获取每个已有聚合描述载体各自对应的已有降维描述载体;其中,每个已有降维描述载体是对相应已有聚合描述载体进行描述载体降维后得到;
操作S33:针对目标聚合描述载体,从获取的多个已有聚合描述载体中确定出达到预设聚合相似评估指标的已有聚合描述载体所对应的已有降维描述载体,作为目标降维描述载体。
在该实现方式中,操作S31获取多个已有用户行为监测日志各自的已有聚合描述载体。这些聚合描述载体是基于引导描述载体对相应的已有用户行为监测日志中的已有行为描述载体进行聚合而得到的。接下来,操作S32获取每个已有聚合描述载体各自对应的已有降维描述载体,也就是已经降维过得到的载体。最后,针对目标聚合描述载体,从获取的多个已有聚合描述载体中确定出达到预设聚合相似评估指标的已有聚合描述载体所对应的已有降维描述载体,作为目标降维描述载体。操作S33的核心是相似度评估和选择,例如计算机设备计算目标聚合描述载体与每个已有聚合描述载体之间的相似度(如余弦相似度、欧氏距离等),然后选择那些相似度达到预设阈值的已有聚合描述载体所对应的已有降维描述载体作为目标降维描述载体。这样,我们就可以确保目标降维描述载体不仅保留了目标聚合描述载体的主要特征,而且与已有的降维描述载体在特征空间上保持了一定的相似性。
其中,每个已有聚合描述载体各自对应的已有降维描述载体,基于如下过程获取得到:对于一个已有聚合描述载体进行载体抽取,得到载体单元集合;其中,载体单元集合中的每个载体单元表征一种用户行为属性;将载体单元集合中的每个载体单元各自映射至相应用户行为属性对应的载体空间,得到每个载体单元各自的映射载体单元;每个映射载体单元表征相应用户行为属性的属性支持度;通过得到的各个映射载体单元,生成一个已有聚合描述载体的已有降维描述载体。
该过程中,计算机设备会对一个已有的聚合描述载体进行载体抽取,也即进行采样,得到一个载体单元集合。每个载体单元都表征一种特定的用户行为属性(如浏览属性、购买属性、评价属性,每一个属性可以细分为不同的类别,如浏览属性可以包括较多浏览,较少浏览,同类对比浏览,自由浏览等,可以为每一个浏览属性对应的类别进行赋值,如较少浏览为0,同类对比浏览为1,自由浏览为2,通过特征采样操作,得到对应属性的载体单元,也就是特征值,采样后,这些载体单元构成的集合为一个序列,那么,这个序列就可以从浏览属性、购买属性、评价属性等角度对目标用户行为类型进行描述)。例如,如果聚合描述载体是一个包含用户购买行为特征的向量,那么载体单元可能就是向量中的单个元素,如购买频率、购买金额等。接下来,计算机设备会将载体单元集合中的每个载体单元映射到相应用户行为属性对应的载体空间。这个步骤的目的是将每个载体单元转换为一个能够反映其在用户行为属性中重要性或支持度的形式,即映射载体单元。映射的方式可以是多种多样的,取决于具体的用户行为类型和数据特性。例如,对于购买频率这个载体单元,我们可以将其映射为一个表示购买活跃度的数值;对于购买金额,我们可以将其映射为一个表示消费能力的数值。在得到了每个载体单元各自的映射载体单元后,计算机设备会使用这些映射载体单元来生成一个已有聚合描述载体的已有降维描述载体。这个步骤的核心是将高维的聚合描述载体转换为一个低维的降维描述载体,同时保留尽可能多的原始信息。为了实现这一点,计算机设备可能会使用各种降维算法,如主成分分析(PCA)、因子分析、自编码器等。这些算法能够找到原始数据中的主要特征或模式,并将其表示为一个维度更低的向量或矩阵。
举例来说,如果我们有一个包含10个特征的聚合描述载体(如购买频率、购买金额、购买时间等),通过PCA等降维算法,我们可以将其转换为一个只包含3个主要成分的降维描述载体。这个降维描述载体不仅维度更低、更易于处理和分析,而且还能够保留原始数据中的大部分信息。操作S32中的已有降维描述载体的获取过程是一个涉及多个步骤和算法的数据处理流程。通过这个过程,我们可以将复杂的高维数据转换为更简洁、更易于理解和分析的低维形式。
在操作S3中,计算机设备从存储系统中获取预设的对比日志用户画像。这些对比日志用户画像通常是基于历史数据构建的,并且每个画像都包含了一系列用于描述用户行为模式的特征向量。这些特征向量可以涵盖用户的购买频率、购买偏好、浏览习惯等多个方面。接下来,计算机设备会使用匹配算法或机器学习模型来计算目标聚合描述载体与每个对比日志用户画像之间的相似度。相似度的计算可以采用不同的方法,如余弦相似度、欧几里得距离、皮尔逊相关系数等,具体取决于数据的特点和业务需求。如果采用机器学习模型进行匹配,那么可以选择的模型包括但不限于支持向量机(SVM)、k-最近邻(k-NN)、神经网络等。例如,可以使用神经网络模型来学习历史用户行为数据与对比日志用户画像之间的复杂关系,并根据学习到的模型来预测目标聚合描述载体与哪个对比日志用户画像最为匹配。
在匹配过程中,计算机设备会遍历所有的对比日志用户画像,并计算目标聚合描述载体与每个画像之间的相似度得分。然后,根据相似度得分的高低,确定与目标用户行为类型最匹配的预设用户画像。需要注意的是,在实际应用中,可能会存在多个与目标用户行为类型相似的预设用户画像。在这种情况下,计算机设备可以采用不同的策略来选择最合适的画像,如选择相似度得分最高的画像、综合考虑多个画像的特征进行融合等。此外,为了提高匹配的准确性和效率,还可以对匹配算法或机器学习模型进行优化。例如,可以使用更复杂的模型来捕捉用户行为数据中的非线性关系;可以引入特征选择技术来去除冗余或不相关的特征;还可以采用并行计算技术来加速相似度计算的过程等。
通过将目标聚合描述载体与预设的对比日志用户画像进行匹配,为后续的用户行为分析和个性化服务提供了基础。通过选择合适的匹配算法或机器学习模型,并对其进行优化和改进,可以提高匹配的准确性和效率,从而为用户提供更好的体验和服务。
操作S4:将不少于一个对比降维描述载体关联的对比日志用户画像,作为目标用户行为监测日志的目标日志用户画像。
在操作S4中,计算机设备根据操作S3中得到的匹配结果,生成或更新目标用户行为类型的用户画像。这个用户画像是对用户行为特征的全面描述,它可以帮助企业更好地理解用户需求,优化产品设计和提升用户体验。
具体来说,如果操作S3中的匹配结果显示目标聚合描述载体与某个预设的对比日志用户画像高度相似,那么计算机设备就会将该对比日志用户画像作为目标用户行为类型的用户画像。如果匹配结果不理想,即没有找到合适的预设用户画像,计算机设备则可能会根据目标聚合描述载体生成一个新的用户画像。
在生成或更新用户画像时,计算机设备会综合考虑目标聚合描述载体中的各种特征及其权重。例如,如果一个用户的购买行为描述载体表明他经常购买高价值商品且购买频率较低,那么他的用户画像可能会被打上“高价值消费型”的标签,并且这个标签在用户画像中的权重会相对较高。
此外,操作S4还可能涉及到对用户画像的细化和个性化处理。例如,计算机设备可以进一步分析用户的浏览行为、搜索行为等其他类型的行为数据,从中提取出更多细致的特征,如用户的偏好、兴趣等,并将这些特征融入到用户画像中。这样可以使得用户画像更加精准和全面。
需要注意的是,在实际应用中,用户画像的生成和更新是一个持续的过程。随着时间的推移和用户行为的变化,计算机设备需要不断地收集新的用户行为数据,更新已有的用户画像,并生成新的用户画像以适应新的用户需求和行为模式。
假设一个电商平台想要为其用户提供更加个性化的推荐服务。通过收集用户的购买历史、浏览记录等行为数据,并经过操作S1和S2的处理后,计算机设备得到了每个用户的聚合描述载体。然后,在操作S3中,计算机设备将这些聚合描述载体与预设的对比日志用户画像进行匹配。最后,在操作S4中,根据匹配结果生成或更新每个用户的用户画像。这些用户画像可以被用于后续的推荐算法中,以提供更加精准和个性化的商品推荐服务。
可以理解,日志用户画像本质是一个标签或多个标签的组合体,标签可以是数字、字母或文字,日志用户画像中的标签例如是上述用户行为属性对应的信息,如[夜间消费;化妆品达人;高端品牌重度依赖者;对比浏览频繁……]。
在一些实施方式中,为了实现对一个已有降维描述载体关联的对比日志用户画像的获取,本公开提供的方法还可以包括:获取每个已有降维描述载体各自关联的对比日志用户画像,其中,每获取一个已有降维描述载体关联的对比日志用户画像,完成如下步骤:
操作S51:获取多个已有用户行为监测日志各自对应对比日志用户画像的日志用户画像描述载体;
操作S52:对获取的多个日志用户画像描述载体进行划簇,得到不少于一个日志用户画像描述载体集合;
操作S53:从不少于一个日志用户画像描述载体集合各自的代表描述载体中,确定出与一个已有降维描述载体之间达到预设载体相似评估指标的代表描述载体;
操作S54:依据确定出的代表描述载体,将相应日志用户画像描述载体集合中,各日志用户画像描述载体表征的对比日志用户画像,都作为一个已有降维描述载体关联的对比日志用户画像。
操作S51中,计算机设备获取多个已有用户行为监测日志的数据。这些数据记录了用户的各种行为信息,是理解用户习惯和偏好的基础。对于每个日志,计算机设备进一步提取其对应的对比日志用户画像的日志用户画像描述载体。这些描述载体通常是一组特征向量,它们以数值化的形式表达了用户在不同维度上的行为特征,如购买频率、浏览时长、点击次数等。对这些日志用户画像描述载体进行划簇,也就是聚类分析,将相似的对象组织成同一组,而不同组之间的对象则具有较大的差异性。在这个步骤中,计算机设备会利用聚类算法(如K-means、DBSCAN等)对描述载体进行划分,得到若干个日志用户画像描述载体集合。每个集合内部的描述载体在特征空间上相互靠近,意味着它们所对应的用户行为具有某种程度的相似性。然后,计算机设备会从每个日志用户画像描述载体集合中选择一个代表描述载体。这个代表描述载体通常是集合的中心点(质心),它能够最好地反映该集合中所有描述载体的共同特征。随后,计算机设备会计算这些代表描述载体与已有降维描述载体之间的相似度。相似度的评估可以基于各种距离度量方法(如欧氏距离、余弦相似度等)或机器学习模型(如支持向量机、神经网络等)。只有当一个代表描述载体与已有降维描述载体之间的相似度达到预设的阈值时,才会被选中。最后,在操作S54中,计算机设备会根据选定的代表描述载体,将其所对应的日志用户画像描述载体集合中的所有日志用户画像都关联到该已有降维描述载体上。这样,我们就可以为每个已有降维描述载体找到一组最相似的对比日志用户画像,从而更深入地理解用户行为模式和偏好。
举例来说,假设我们有一个已有降维描述载体A,它代表了“高频购买、高消费额”的用户行为模式。通过上述方法,我们可以找到一组与之相似的对比日志用户画像,这些用户同样表现出高频购买和高消费额的行为特征。这样的关联不仅有助于验证降维描述载体的有效性,还可以为后续的用户行为预测和个性化推荐提供有力支持。
基于前述的实施例,本申请实施例提供一种用户行为数据分析装置,该装置所包括的各单元、以及各单元所包括的各模块,可以通过计算机设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(CentralProcessing Unit,CPU)、微处理器(Microprocessor Unit,MPU)、数字信号处理器(DigitalSignal Processor,DSP)或现场可编程门阵列(Field Programmable Gate Array,FPGA)等。
图2为本申请实施例提供的一种用户行为数据分析装置的组成结构示意图,如图2所示,用户行为数据分析装置200包括:
载体挖掘模块210,用于在涵盖不少于一类用户行为类型的目标用户行为监测日志中,提取目标用户行为类型的目标行为描述载体;
载体聚合模块220,用于依据所述目标用户行为类型的引导描述载体,对所述目标行为描述载体进行聚合,得到目标聚合描述载体;其中,所述引导描述载体表征多个已有用户行为监测日志各自对所述目标用户行为类型提取的已有行为描述载体,与相应的对比日志用户画像之间的牵涉信息;
载体降维模块230,用于对所述目标聚合描述载体进行描述载体降维处理,得到目标降维描述载体,针对所述目标降维描述载体,从所述多个已有用户行为监测日志各自的已有降维描述载体中,确定出达到预设降维相似评估指标的不少于一个对比降维描述载体;
画像确定模块240,用于将所述不少于一个对比降维描述载体关联的对比日志用户画像,作为所述目标用户行为监测日志的目标日志用户画像;
其中,所述引导描述载体的获取方式为:
获取所述多个已有用户行为监测日志各自对所述目标用户行为提取的已有行为描述载体和相应的对比日志用户画像;
获取预先确定的初始引导描述载体;
分别依据每个已有行为描述载体和相应的对比日志用户画像,对所述初始引导描述载体进行反复调节更新,得到迭代后的引导描述载体;
对于每一次调节,依据该次调节对应的初始引导描述载体对一个已有行为描述载体进行聚合,得到已有聚合描述载体;
根据所述已有聚合描述载体与相应对比日志用户画像的日志用户画像描述载体之间的载体相似评分,调节所述该次调节对应的初始引导描述载体,得到迭代后的引导描述载体,作为后续调节对应的初始引导描述载体
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。在一些实施例中,本申请实施例提供的装置具有的功能或包含的模块可以用于执行上述方法实施例描述的方法,对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的用户行为数据分析方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件、软件或固件,或者硬件、软件、固件三者之间的任意结合。
本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的部分或全部步骤。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。所述计算机可读存储介质可以是瞬时性的,也可以是非瞬时性的。
本申请实施例提供一种计算机程序,包括计算机可读代码,在所述计算机可读代码在计算机设备中运行的情况下,所述计算机设备中的处理器执行用于实现上述方法中的部分或全部步骤。
本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序被计算机读取并执行时,实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一些实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一些实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
这里需要指出的是:上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考。以上设备、存储介质、计算机程序及计算机程序产品实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请设备、存储介质、计算机程序及计算机程序产品实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
图3为本申请实施例提供的一种计算机设备的硬件实体示意图,如图3所示,该计算机设备1000的硬件实体包括:处理器1001和存储器1002,其中,存储器1002存储有可在处理器1001上运行的计算机程序,处理器1001执行程序时实现上述任一实施例的方法中的步骤。
存储器1002存储有可在处理器上运行的计算机程序,存储器1002配置为存储由处理器1001可执行的指令和应用,还可以缓存待处理器1001以及计算机设备1000中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(Random Access Memory,RAM)实现。
处理器1001执行程序时实现上述任一项的用户行为数据分析方法的步骤。处理器1001通常控制计算机设备1000的总体操作。
本申请实施例提供一种计算机存储介质,计算机存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行,以实现如上任一实施例的用户行为数据分析方法的步骤。
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。上述处理器可以为目标用途集成电路(Application Specific Integrated Circuit,ASIC)、数字信号处理器(DigitalSignal Processor,DSP)、数字信号处理装置(Digital Signal Processing Device,DSPD)、可编程逻辑装置(Programmable Logic Device,PLD)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)、中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地,实现上述处理器功能的电子器件还可以为其它,本申请实施例不作具体限定。
上述计算机存储介质/存储器可以是只读存储器、可编程只读存储器、可擦除可编程只读存储器、电可擦除可编程只读存储器、磁性随机存取存储器、快闪存储器、磁表面存储器、光盘、或只读光盘等存储器;也可以是包括上述存储器之一或任意组合的各种终端,如移动电话、计算机、平板设备、个人数字助理等。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各步骤/过程的序号的大小并不意味着执行顺序的先后,各步骤/过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (12)
1.一种用户行为数据分析方法,其特征在于,应用于计算机设备,所述方法包括:
在涵盖不少于一类用户行为类型的目标用户行为监测日志中,提取目标用户行为类型的目标行为描述载体;
依据所述目标用户行为类型的引导描述载体,对所述目标行为描述载体进行聚合,得到目标聚合描述载体;其中,所述引导描述载体表征多个已有用户行为监测日志各自对所述目标用户行为类型提取的已有行为描述载体,与相应的对比日志用户画像之间的牵涉信息;
对所述目标聚合描述载体进行描述载体降维处理,得到目标降维描述载体,针对所述目标降维描述载体,从所述多个已有用户行为监测日志各自的已有降维描述载体中,确定出达到预设降维相似评估指标的不少于一个对比降维描述载体;
将所述不少于一个对比降维描述载体关联的对比日志用户画像,作为所述目标用户行为监测日志的目标日志用户画像;
其中,所述引导描述载体的获取方式为:
获取所述多个已有用户行为监测日志各自对所述目标用户行为提取的已有行为描述载体和相应的对比日志用户画像;
获取预先确定的初始引导描述载体;
分别依据每个已有行为描述载体和相应的对比日志用户画像,对所述初始引导描述载体进行反复调节更新,得到迭代后的引导描述载体;
对于每一次调节,依据该次调节对应的初始引导描述载体对一个已有行为描述载体进行聚合,得到已有聚合描述载体;
根据所述已有聚合描述载体与相应对比日志用户画像的日志用户画像描述载体之间的载体相似评分,调节所述该次调节对应的初始引导描述载体,得到迭代后的引导描述载体,作为后续调节对应的初始引导描述载体。
2.如权利要求1所述的方法,其特征在于,所述在涵盖不少于一类用户行为类型的目标用户行为监测日志中,提取目标用户行为类型的目标行为描述载体,包括:
在涵盖不少于一类用户行为类型的目标用户行为监测日志中,获取包含目标用户行为类型的目标行为数据;
将所述目标行为数据划分为多个行为数据分团,获取所述多个行为数据分团各自的特征描述数组;其中,每个特征描述数组中的一个描述元素表征相应行为数据分团中的一个行为数据;
根据所述多个行为数据分团的时序,对获取的多个特征描述数组进行统一处理,得到所述目标行为数据的初始特征描述矩阵;
依据各描述元素属于所述目标用户行为类型的支持度,对所述初始特征描述矩阵进行数组解析,得到所述目标用户行为监测日志中目标用户行为类型的目标行为描述载体。
3.如权利要求1所述的方法,其特征在于,所述依据该次调节对应的初始引导描述载体,对一个已有行为描述载体进行聚合,得到已有聚合描述载体,包括:
将该次调节对应的初始引导描述载体与已有各次调节对应的初始引导描述载体进行自对齐载体聚合处理,以及,将所述该次调节对应的引导描述载体与一个已有行为描述载体进行双向聚焦载体聚合处理,得到临时引导描述载体;
依据所述临时引导描述载体,对所述一个已有行为描述载体进行聚合,得到所述一个已有行为描述载体的已有聚合描述载体;
所述根据所述已有聚合描述载体与相应对比日志用户画像的日志用户画像描述载体之间的载体相似评分,调节所述该次调节对应的初始引导描述载体,得到迭代后的引导描述载体,包括:
确定所述已有聚合描述载体与相应已有行为描述载体的对比日志用户画像的日志用户画像描述载体之间的第一载体相似评分;
从获取的多个已有行为描述载体中,获取所述相应已有行为描述载体之外的其他已有行为描述载体;
分别确定所述已有聚合描述载体与每一其他已有行为描述载体各自的对比日志用户画像的日志用户画像描述载体之间的第二载体相似评分;
依据第一载体相似评分对所述该次调节对应的初始引导描述载体的第一触发结果,以及依据各第二载体相似评分各自对所述该次调节对应的初始引导描述载体的第二触发结果,对所述该次调节对应的初始引导描述载体进行更新,得到迭代后的引导描述载体;
所述第一触发结果表示:当所述第一载体相似评分越大时,所述对应的初始引导描述载体的准确性越高,依据所述对应的初始引导描述载体得到的已有聚合描述载体与对应的日志用户画像描述载体相似度越高;所述第二触发结果表示:当所述第二载体相似评分越小时,所述对应的初始引导描述载体准确性越高,依据所述对应的初始引导描述载体得到的已有聚合描述载体与其他的日志用户画像描述载体相似度越低。
4.如权利要求1所述的方法,其特征在于,所述依据所述目标用户行为类型的引导描述载体,对所述目标行为描述载体进行聚合,得到目标聚合描述载体,包括:
获取包括预设载体单元数量的引导描述载体;
依据所述引导描述载体,对所述目标行为描述载体的载体单元数量进行维数调节,得到包括所述预设载体单元数量的目标聚合描述载体。
5.如权利要求1~4任一项所述的方法,其特征在于,所述对所述目标聚合描述载体进行描述载体降维处理,得到目标降维描述载体,包括:
获取所述多个已有用户行为监测日志各自的已有聚合描述载体;其中,每个已有聚合描述载体是依据所述引导描述载体,对相应已有用户行为监测日志的已有行为描述载体进行聚合得到;
获取每个已有聚合描述载体各自对应的已有降维描述载体;其中,每个已有降维描述载体是对相应已有聚合描述载体进行描述载体降维后得到;
针对所述目标聚合描述载体,从获取的多个已有聚合描述载体中确定出达到预设聚合相似评估指标的已有聚合描述载体所对应的已有降维描述载体,作为目标降维描述载体。
6.如权利要求5所述的方法,其特征在于,所述每个已有聚合描述载体各自对应的已有降维描述载体,基于如下过程获取得到:
对于一个已有聚合描述载体进行载体抽取,得到载体单元集合;其中,所述载体单元集合中的每个载体单元表征一种用户行为属性;
将所述载体单元集合中的每个载体单元各自映射至相应用户行为属性对应的载体空间,得到所述每个载体单元各自的映射载体单元;每个映射载体单元表征相应用户行为属性的类型支持度;
通过得到的各个映射载体单元,生成所述一个已有聚合描述载体的已有降维描述载体。
7.如权利要求1~4任一项所述的方法,其特征在于,所述方法还包括:获取每个已有降维描述载体各自关联的对比日志用户画像,其中,每获取一个已有降维描述载体关联的对比日志用户画像,完成如下步骤:
获取所述多个已有用户行为监测日志各自对应对比日志用户画像的日志用户画像描述载体;
对获取的多个日志用户画像描述载体进行划簇,得到不少于一个日志用户画像描述载体集合;
从所述不少于一个日志用户画像描述载体集合各自的代表描述载体中,确定出与所述一个已有降维描述载体之间达到预设载体相似评估指标的代表描述载体;
依据确定出的代表描述载体,将相应日志用户画像描述载体集合中,各日志用户画像描述载体表征的对比日志用户画像,都作为所述一个已有降维描述载体关联的对比日志用户画像。
8.如权利要求1~4任一项所述的方法,其特征在于,所述依据所述目标用户行为类型的引导描述载体,对所述目标行为描述载体进行聚合,得到目标聚合描述载体,通过调教后的画像挖掘算法执行,其中,所述画像挖掘算法采用如下步骤进行调优得到:
获取示例用户行为监测日志集和具有的各个示例用户行为类型,对于每个示例用户行为类型,完成以下操作:
获取调优示例集,所述调优示例集中的每个调优示例包括一个示例行为描述载体和对应的示例画像描述载体;其中,所述示例行为描述载体是对一个示例用户行为监测日志中的一个示例用户行为类型进行特征挖掘得到的,所述示例画像描述载体为所述一个示例用户行为监测日志的对比日志用户画像的特征载体;
基于所述调优示例集,分别对需要进行调优的画像挖掘算法的针对所述一个示例用户行为类型预设的示例引导描述载体进行多次调优;
其中,每一次调优包括:得到依据所述示例引导描述载体对挖掘的示例行为描述载体进行描述载体聚合而生成的示例聚合描述载体后,对所述示例聚合描述载体进行描述载体变换处理,得到变换用户行为监测日志;依据各变换用户行为监测日志与相应的示例用户行为监测日志之间的损失,结合所述示例画像描述载体,更新所述示例引导描述载体。
9.如权利要求8所述的方法,其特征在于,所述对所述示例聚合描述载体进行描述载体变换处理,得到变换用户行为监测日志,包括:
对所述示例聚合描述载体进行降维操作,得到示例降维描述载体;
依据针对所述一个示例用户行为类型预设的示例变换引导描述载体,对所述示例降维描述载体进行聚合,得到示例生成描述载体;
对所述示例生成描述载体进行描述载体变换处理,得到变换用户行为监测日志。
10.如权利要求9所述的方法,其特征在于,所述依据各变换用户行为监测日志与相应的示例用户行为监测日志之间的损失,结合所述示例画像描述载体,调整所述示例引导描述载体,包括:
获取各示例行为描述载体各自的变换用户行为监测日志,与相应的示例用户行为监测日志之间的日志损失;
依据各日志损失分别对所述示例引导描述载体和所述示例变换引导描述载体的第二触发结果,修正所述示例引导描述载体和所述示例变换引导描述载体;
获取所述各示例行为描述载体各自的示例聚合描述载体,与相应的示例画像描述载体之间的聚合损失;
依据各聚合损失分别对所述示例引导描述载体的第二触发结果,修正所述示例引导描述载体;
获取所述各示例行为描述载体各自的示例生成描述载体,与相应的示例画像描述载体之间的生成损失;
依据各生成损失对所述示例变换引导描述载体的第二触发结果,修正所述示例变换引导描述载体。
11.一种用户行为数据分析装置,其特征在于,包括:
载体挖掘模块,用于在涵盖不少于一类用户行为类型的目标用户行为监测日志中,提取目标用户行为类型的目标行为描述载体;
载体聚合模块,用于依据所述目标用户行为类型的引导描述载体,对所述目标行为描述载体进行聚合,得到目标聚合描述载体;其中,所述引导描述载体表征多个已有用户行为监测日志各自对所述目标用户行为类型提取的已有行为描述载体,与相应的对比日志用户画像之间的牵涉信息;
载体降维模块,用于对所述目标聚合描述载体进行描述载体降维处理,得到目标降维描述载体,针对所述目标降维描述载体,从所述多个已有用户行为监测日志各自的已有降维描述载体中,确定出达到预设降维相似评估指标的不少于一个对比降维描述载体;
画像确定模块,用于将所述不少于一个对比降维描述载体关联的对比日志用户画像,作为所述目标用户行为监测日志的目标日志用户画像;
其中,所述引导描述载体的获取方式为:
获取所述多个已有用户行为监测日志各自对所述目标用户行为提取的已有行为描述载体和相应的对比日志用户画像;
获取预先确定的初始引导描述载体;
分别依据每个已有行为描述载体和相应的对比日志用户画像,对所述初始引导描述载体进行反复调节更新,得到迭代后的引导描述载体;
对于每一次调节,依据该次调节对应的初始引导描述载体对一个已有行为描述载体进行聚合,得到已有聚合描述载体;
根据所述已有聚合描述载体与相应对比日志用户画像的日志用户画像描述载体之间的载体相似评分,调节所述该次调节对应的初始引导描述载体,得到迭代后的引导描述载体,作为后续调节对应的初始引导描述载体。
12.一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至10任一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410269729.2A CN117876015B (zh) | 2024-03-11 | 2024-03-11 | 一种用户行为数据分析方法、装置及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410269729.2A CN117876015B (zh) | 2024-03-11 | 2024-03-11 | 一种用户行为数据分析方法、装置及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117876015A CN117876015A (zh) | 2024-04-12 |
CN117876015B true CN117876015B (zh) | 2024-05-07 |
Family
ID=90594897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410269729.2A Active CN117876015B (zh) | 2024-03-11 | 2024-03-11 | 一种用户行为数据分析方法、装置及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117876015B (zh) |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011059802A (ja) * | 2009-09-07 | 2011-03-24 | Chuo Univ | 意思分析サーバ、意思分析方法、プログラムおよび意思分析システム |
CN109509033A (zh) * | 2018-12-14 | 2019-03-22 | 重庆邮电大学 | 一种消费金融场景下的用户购买行为大数据预测方法 |
CN109859004A (zh) * | 2019-01-10 | 2019-06-07 | 珠海金山网络游戏科技有限公司 | 一种基于历史数据的商品推荐方法及系统 |
CN111144933A (zh) * | 2019-12-13 | 2020-05-12 | 北京三快在线科技有限公司 | 商品推荐方法、装置、电子设备及存储介质 |
WO2020248843A1 (zh) * | 2019-06-14 | 2020-12-17 | 平安科技(深圳)有限公司 | 基于大数据的画像分析方法、装置、计算机设备及存储介质 |
CN113361793A (zh) * | 2021-06-21 | 2021-09-07 | 深圳市鸿业电线有限公司 | 应用于电子商务服务的大数据挖掘方法及人工智能分析系统 |
WO2021196097A1 (zh) * | 2020-04-01 | 2021-10-07 | 深圳市欢太科技有限公司 | 用户画像列表构建方法、装置、服务器以及存储介质 |
CN113947431A (zh) * | 2021-10-20 | 2022-01-18 | 北京沃东天骏信息技术有限公司 | 一种用户行为质量评估方法、装置、设备和存储介质 |
CN114741595A (zh) * | 2022-04-12 | 2022-07-12 | 京东城市(北京)数字科技有限公司 | 信息推送的方法和装置 |
CN114926234A (zh) * | 2022-05-10 | 2022-08-19 | 南京数睿数据科技有限公司 | 物品信息推送方法、装置、电子设备和计算机可读介质 |
CN115619496A (zh) * | 2022-09-20 | 2023-01-17 | 深圳摩比电子商务有限公司 | 一种电商产品精准推送方法及服务器 |
CN116091133A (zh) * | 2021-10-29 | 2023-05-09 | 腾讯科技(深圳)有限公司 | 一种目标对象属性的识别方法、装置及存储介质 |
CN116109338A (zh) * | 2022-12-12 | 2023-05-12 | 广东南粤分享汇控股有限公司 | 一种基于人工智能的电商用户分析方法及系统 |
CN116383502A (zh) * | 2023-04-08 | 2023-07-04 | 苏州喜丽安贸易有限公司 | 基于电子商务的信息推送方法及系统 |
CN116738371A (zh) * | 2023-08-14 | 2023-09-12 | 广东信聚丰科技股份有限公司 | 基于人工智能的用户学习画像构建方法及系统 |
CN117557331A (zh) * | 2023-10-20 | 2024-02-13 | 平安健康保险股份有限公司 | 一种产品推荐方法、装置、计算机设备及存储介质 |
WO2024041483A1 (zh) * | 2022-08-26 | 2024-02-29 | 华为技术有限公司 | 一种推荐方法及相关装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11461795B2 (en) * | 2013-06-13 | 2022-10-04 | Flytxt B.V. | Method and system for automated detection, classification and prediction of multi-scale, multidimensional trends |
US20150287091A1 (en) * | 2014-04-08 | 2015-10-08 | Turn Inc. | User similarity groups for on-line marketing |
-
2024
- 2024-03-11 CN CN202410269729.2A patent/CN117876015B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011059802A (ja) * | 2009-09-07 | 2011-03-24 | Chuo Univ | 意思分析サーバ、意思分析方法、プログラムおよび意思分析システム |
CN109509033A (zh) * | 2018-12-14 | 2019-03-22 | 重庆邮电大学 | 一种消费金融场景下的用户购买行为大数据预测方法 |
CN109859004A (zh) * | 2019-01-10 | 2019-06-07 | 珠海金山网络游戏科技有限公司 | 一种基于历史数据的商品推荐方法及系统 |
WO2020248843A1 (zh) * | 2019-06-14 | 2020-12-17 | 平安科技(深圳)有限公司 | 基于大数据的画像分析方法、装置、计算机设备及存储介质 |
CN111144933A (zh) * | 2019-12-13 | 2020-05-12 | 北京三快在线科技有限公司 | 商品推荐方法、装置、电子设备及存储介质 |
WO2021196097A1 (zh) * | 2020-04-01 | 2021-10-07 | 深圳市欢太科技有限公司 | 用户画像列表构建方法、装置、服务器以及存储介质 |
CN113361793A (zh) * | 2021-06-21 | 2021-09-07 | 深圳市鸿业电线有限公司 | 应用于电子商务服务的大数据挖掘方法及人工智能分析系统 |
CN113947431A (zh) * | 2021-10-20 | 2022-01-18 | 北京沃东天骏信息技术有限公司 | 一种用户行为质量评估方法、装置、设备和存储介质 |
CN116091133A (zh) * | 2021-10-29 | 2023-05-09 | 腾讯科技(深圳)有限公司 | 一种目标对象属性的识别方法、装置及存储介质 |
CN114741595A (zh) * | 2022-04-12 | 2022-07-12 | 京东城市(北京)数字科技有限公司 | 信息推送的方法和装置 |
CN114926234A (zh) * | 2022-05-10 | 2022-08-19 | 南京数睿数据科技有限公司 | 物品信息推送方法、装置、电子设备和计算机可读介质 |
WO2024041483A1 (zh) * | 2022-08-26 | 2024-02-29 | 华为技术有限公司 | 一种推荐方法及相关装置 |
CN115619496A (zh) * | 2022-09-20 | 2023-01-17 | 深圳摩比电子商务有限公司 | 一种电商产品精准推送方法及服务器 |
CN116109338A (zh) * | 2022-12-12 | 2023-05-12 | 广东南粤分享汇控股有限公司 | 一种基于人工智能的电商用户分析方法及系统 |
CN116383502A (zh) * | 2023-04-08 | 2023-07-04 | 苏州喜丽安贸易有限公司 | 基于电子商务的信息推送方法及系统 |
CN116738371A (zh) * | 2023-08-14 | 2023-09-12 | 广东信聚丰科技股份有限公司 | 基于人工智能的用户学习画像构建方法及系统 |
CN117557331A (zh) * | 2023-10-20 | 2024-02-13 | 平安健康保险股份有限公司 | 一种产品推荐方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
NLMF: nonliear matrix factorization methods for top-N recommended system;Santosh Kabbur等;2014 IEEE Internatioal Conference on Data Mining Workshop;20150129;第167-174页 * |
基于Web挖掘的个性化视频推荐系统设计与实现;汤伟;;电子设计工程;20180920;第26卷(第18期);第102-106、112页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117876015A (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11256738B2 (en) | Media unit retrieval and related processes | |
US10152479B1 (en) | Selecting representative media items based on match information | |
CN110543598B (zh) | 信息推荐方法、装置及终端 | |
CN110163647B (zh) | 一种数据处理方法及装置 | |
CN102855268B (zh) | 基于属性关系进行图像排序的方法和系统 | |
CN108363821A (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
US20100088151A1 (en) | Method and apparatus for recommending image based on user profile using feature-based collaborative filtering to resolve new item recommendation | |
Huang et al. | Listwise collaborative filtering | |
CN109902823B (zh) | 一种基于生成对抗网络的模型训练方法及设备 | |
Yuan et al. | Utilizing related samples to enhance interactive concept-based video search | |
Zeng et al. | Pyramid hybrid pooling quantization for efficient fine-grained image retrieval | |
CN115982463A (zh) | 资源推荐方法、装置、设备及存储介质 | |
Mazaheri et al. | Learning a multi-concept video retrieval model with multiple latent variables | |
CN117391824B (zh) | 基于大语言模型和搜索引擎推荐物品的方法及装置 | |
CN117876015B (zh) | 一种用户行为数据分析方法、装置及相关设备 | |
JPWO2012077818A1 (ja) | ハッシュ関数の変換行列を定める方法、該ハッシュ関数を利用するハッシュ型近似最近傍探索方法、その装置及びそのコンピュータプログラム | |
Coviello et al. | Multivariate Autoregressive Mixture Models for Music Auto-Tagging. | |
CN114330519A (zh) | 数据确定方法、装置、电子设备及存储介质 | |
CN113704617A (zh) | 物品推荐方法、系统、电子设备及存储介质 | |
Ferdous et al. | Assortment of bangladeshi e-commerce site reviews using machine learning approaches | |
CN117648497B (zh) | 一种基于大数据实现用户信息智能采集方法及系统 | |
Wang et al. | Research on interactive recommendation system based on reinforcement learning | |
US20240013274A1 (en) | Systems and methods for reducing personalized real estate collection suggestion delays via batch generation | |
US20240152512A1 (en) | Machine learning for dynamic information retrieval in a cold start setting | |
CN114417944B (zh) | 识别模型训练方法及装置、用户异常行为识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |