CN114969249B

CN114969249B - 数据挖掘系统及数据挖掘方法

Info

Publication number: CN114969249B
Application number: CN202210480342.2A
Authority: CN
Inventors: 韩岭; 蔡进; 胥传龙; 李明
Original assignee: Jiangsu Sixiang Software Co ltd
Current assignee: Jiangsu Sixiang Software Co ltd
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-12-20
Anticipated expiration: 2042-04-28
Also published as: CN114969249A

Abstract

本发明涉及数据挖掘领域，具体涉及数据挖掘系统及数据挖掘方法，通过对用户的访问行为数据的挖掘；确定用户的购买迟疑程度以及计算用户对已购目标产品的倾向程度；基于已购目标产品的倾向程度、购买迟疑程度以及支付时间长度，计算任意两两用户的行为差异性，得到不同类别的用户群体；同时引入用户群体中任意两用户的历史设定时间内对已购目标产品的查询次数以及滑动速度构成的用户行为向量以及对应的评价特征码，计算任意两两用户之间的邻域距离，基于各用户对应的所有邻域距离，并计算该用户的偏向程度，进而获取各用户群体中偏向程度最大与最小对应的状态向量，确定推送的产品。即本发明的方案能够为网购平台的优化提供依据。

Description

数据挖掘系统及数据挖掘方法

技术领域

本发明涉及数据挖掘领域，具体为数据挖掘系统及数据挖掘方法。

背景技术

近年来，随着互联网技术的发展，网上购票、订房、购物或团购美食已经成为生活中必不可少的消费方式。每天数以亿计的用户访问电商网站平台产生海量的访问数据。

用户访问电商网站平台的行为反映了访客的网购心理和网购倾向，进而反映了用户的价值和创利能力。用户的访问行为是衡量用户是否有价值的一项重要因素，也是衡量网站平台本身用户体验的重要指标。通过对用户的网购行为进行分析，确定访客的价值，便于网站据此调整会员营销策略，优化个性化推荐机制，提升用户体验和转化率等。因此，如何对用户的行为进行分析，确定用户的价值，成为企业越来越关注的信息。

以网购电影票为例，目前对网购电影票的文本数据挖掘只关注如何从评论中分析情感，忽视了用户在进行网购的操作过程中的心理变化，从而无法更精确地洞察大量文本评价数据中的特征，也就无法准确分析用户的行为。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种数据挖掘系统及数据挖掘方法，所采用的技术方案具体如下：

本发明提供的一种数据挖掘方法的技术方案，包括以下步骤：

获取用户当前网购过程中的访问行为数据；所述访问行为数据包括浏览记录总时间、已购目标产品对应页面的停留时间、已购目标产品的支付时间长度；将所述停留时间与浏览记录总时间的比值作为用户的购买迟疑程度；

根据所述支付时间长度、停留时间以及购买迟疑程度，计算用户对已购目标产品的倾向程度；

基于已购目标产品的倾向程度、购买迟疑程度以及支付时间长度，计算任意两两用户的行为差异性，基于各行为差异性对所有用户进行划分，得到不同类别的用户群体；

获取各用户群体中的各用户在历史设定时间内对所述已购目标产品的查询次数以及滑动速度，基于所述查询次数以及滑动速度，构建用户行为向量；对各用户群体中的各用户对已购目标产品的评价内容进行数据挖掘，得到评价关键词，对所述评价关键词进行编码得到评价特征码；

基于各用户群体中的任意两两用户的评价特征码和用户行为向量，计算任意两两用户之间的邻域距离，基于各用户对应的所有邻域距离，并计算该用户的偏向程度；将各用户群体中的最大偏向程度与最小偏向程度组成状态向量；

对所有用户群体的状态向量进行跟踪，计算设定时间段内用户群体的状态稳定性，确定状态稳定性较差的前M个用户群体，根据该M个用户群体的评论情况，在平台页面随机投放热评指数较高的已购目标产品的评论，M大于等于2。

优选地，所述偏向程度的获取过程为：将其中任一用户对应的邻域距离按照从小到大排序，选取前k个邻域距离；将前k个邻域距离之和作为该用户的偏向程度。

优选地，所述倾向程度为：

F_interest＝exp(-t_commit)*tanh(t_hang)*(1-K_ok)

其中，t_commit表示当前用户购票的支付时间长度，t_hang表示当前用户当日在电影介绍页的停留时间，K_ok表示当前订单购票的购买迟疑程度。

优选地，所述对已购目标产品进行数据挖掘是通过基于词袋模型的分词处理进行的。

优选地，所述行为差异性的获取过程为：

1)根据任意两用户对应的支付时间长度、停留时间以及购买迟疑程度，采用余弦相似度算法，确定该两用户的相似度，进而获取两用户的不相似度；

2)将已购目标产品的倾向程度的差异的绝对值与不相似度的乘积作为两用户的行为差异性。

本发明还提供一种数据挖掘系统，包括存储器和处理器，所述处理器执行所述存储器存储的上述一种数据挖掘方法的技术方案。

本发明的有益效果：

本发明通过分析滚动行为和订单行为，与对应的已购目标产品的评价内容做绑定，同时将用户文本语义的评价作为舆情变化的动态基准，实现一种自动的行为-舆论联合的数据挖掘系统。

同时，本发明的方案还能够通过获取用户在网站平台中的访问行为，模拟出用户在进行消费时的一系列行为轨迹，从而统计出大多数用户的行为，从而表征网购平台的产品热度，为后续的平台上展示哪些产品以及产品评论提供了依据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明的一种数据挖掘方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明的方案，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

本发明的一种数据挖掘方法，如图1所示，包括以下步骤：

上述中的已购目标产品为网购平台上的电影票、美食或者酒店等等，本发明不局限于特定的对象。

下面以网购电影票为例，对本发明提供的一种数据挖掘方法进行具体介绍：

首先，通过滚动行为确定用户在网购平台上购票的访问行为数据，具体为当前用户购票成功前N小时的浏览习惯，该浏览习惯包括浏览网购平台的所有电影票的浏览记录总时间、已购电影票所属页面的停留时间和付款时的购票的支付时间长度。

上述中的浏览记录总时间是对用户的浏览时间进行统计，其是从用户从进入网购平台到付款中对各浏览的电影页面的时间统计。

上述中的停留时间为在当前电影页面从购票到付款之前的迟疑时间。

上述中的支付时间长度为用户在生成订单后支付迟疑时间，一般来说，购票订单确定后在一定时间内需要用户进行支付，在订单生成后到支付成功，能够直接获得用户支付的时间长度t_commit。

如果长时间不支付，导致当前订单关闭，或者，用户购票后，短期内(如2小时)进行退款处理，可以结合用户在历史查看记录中用户未购票的查看数量，进一步确定购买迟疑程度：

购买迟疑程度的计算方式为：购票成功前N小时内，当前订单的购买迟疑程度：K_ok＝当前迟疑计数/总迟疑计数。

其中，当前迟疑计数为购票前N小时内对所购票电影的影评、介绍页的查看时间，不包括支付时间长度；总迟疑计数：购票前N小时内对所有电影的影评、介绍页的查看时间。

需要说明的是，上述中的总迟疑计数为浏览记录总时间，而当前迟疑计数为停留时间，将停留时间与浏览距离总时间的比值作为当前用户的购买迟疑程度，可以表征当前用户从购票到付款前的用户的购买迟疑程度。

对用户而言，支付速度越快，即迟疑或商讨时间越短，对该电影购票的坚定程度越高，用户对此电影的购票需求更大。另外，由于一般购票平台使用优惠价的机制，导致用户成功购票后退票，但仍重新进行购买，也即购票仍然成功，因此该值能够说明当前的用户对购票电影的需求，同时使得K_ok值更能代表用户的真实迟疑程度。进一步地，用户在电影介绍页内关注的时间越长，说明对当前的电影感兴趣程度越高。

其次，根据上述获取的支付时间长度、停留时间以及倾向购买程度，计算用户对购买的电影票的倾向程度：

F_interest＝exp(-t_commit)*tanh(t_hang)*(1-K_ok)

公式中，exp()函数为以e为底的指数函数，当用户在7天内反复查看则意味着犹豫时间较长，说明对购票该电影时未做好充分准备，对当前电影的坚定程度比较低。(1-K_ok)为用户果断程度，在一定程度上对当前购票行为给出一定参考，对用户购票电影的坚定程度进行修正。tanh()为双曲正切函数，此处用于参数的归一化。

本实施例中，用户对电影购票的购买迟疑程度，能够反应用户在购票后对当前观影的后续退票的概率程度，如果用户对当前电影的购买迟疑程度比较高，说明对当前电影了解不够充分，后续评价的内容可能会出现较为无意义或异常的语义特征。

然后，对一个电影对应的所有购票用户进行分析，确定不同用户群体在电影购票过程中的行为差异性，并对所有用户进行分类，得到不同类别的用户群体，并获取各类用户群体中用户的行为特征向量；其具体过程为：

1)基于已购票用户的相关数据，计算任意两两用户购票的行为差异性：

其中，

表示当前用户A购票时的偏向程度，

表示当前用户B购票时的偏向程度，

表示当前用户A购票时的支付时间长度，

表示当前用户B购票时的支付时间长度，

表示当前用户A购票时的购买迟疑程度，

表示当前用户B购票时的购买迟疑程度，。

表示当前用户A购票时的停留时间；

表示当前用户B购票时的停留时间。

上述公式中，

是使用余弦相似度距离进行二次比较，其中的向量元素均为衡量购票时购买迟疑程度的参量，这里引入余弦相似度距离的目的是，避免确定购买迟疑程度时不同行为模式造成的用户坚定程度相似的巧合性，导致不同参量的值最终计算得到的结果相同。

由此，根据当前的比较，确定任意两个用户之间的购票电影的坚定程度的差异。根据本方式，对当前任意两个抽样的用户进行距离比较，得到任意两个用户之间的行为差异性。

2)基于上述中的行为差异性，对所有用户进行分类，得到不同类别的用户群体。

本实施例中的分类是采用DBSCAN算法，设定合适的r和minpts得到较多的聚集簇，该聚集簇为不同类别的用户群体。

需要说明的是，本发明中的不同类别的用户群体，实际上可以看作用户群体假设空间，基于该假设空间，不同的购票心理模式的用户被划分为不同的用户群体。

3)基于各用户群体，获取各用户群体中的每个用户的用户行为向量。

具体地，各类用户群体中用户的用户行为向量

其中，

为某一用户近7日历史查询量在群体的排名位置百分比；

为某一用户的滑动行为的速度的排名位置百分比。

上述中滑动行为的速度的排名位置百分比为用户在购票页面的滑动速度v_slide在对应用户群体中的排名位置；其中的滑动速度v_slide为用户近7日的电影页面的滑动速度，可以依靠AndroidSDK、iOS相关API或vue控件直接获得。所谓滑动速度，即用户在进行翻页操作时滑动速度，滑动速度越快，说明对该区域不感兴趣，或行为越草率，或者因个体差异导致信息读取较快造成的。

上述中的近7日历史查询量n_his是为了能够有效区分用户群体，限制在购票前7天内，确定用户对所有影评的查询次数，获得历史查询次数n_his。具体地，以查询后半小时内不再访问购票页面为条件，计算用户查询获次数，得到近7日历史查询量n_his；考虑到部分用户对观影时间难以协调或对电影较为陌生，因此查询量比较多，同时查询时间长度不一，由此说明的情况也不相同，本实施例中仅针对已经购票且进行影评的用户进行查询量的获取。

本实施例中还对各用户群体中的每个用户观影后的影评进行数据挖掘，得到影评关键词，对影评关键词进行编码得到影评特征码；其中的影评关键词是对电影的评价的内容。

具体地，对于一般的热访问的影评，变动内容较大的一方面可能是类如登记表、记录，或者是经常被共享访问的影评。本实施例中对于变动较大的定义是：影评内容因为文档的词向量分布的含义发生变化而导致的文档含义在空间中游走的范围发生变化。

对于一般的影评，内容上是有一定相似性的，即讨论内容有一定的重合性，因此基于影评进行关键词的剔除，能够得到评价相关的内容。

具体地，本实施例中是基于文本词频统计的分词方法处理各用户观影后的影评，获取影评关键词，并对文本词汇表中的所有词汇进行编码得到影评特征码。

本实施例中的文本词频统计的分词方法为基于词袋模型的文本词频统计，即对于电影的影评，对其进行基于词袋模型的文本词频统计，词袋模型统计词频后，得到该影评中所有词的词频，此时实施者需要对常见词汇和角色、梗等重复出现的词汇进行排除，实施者可以较为灵活地选择排除词汇，从而得到影评关键词。

目前有较多的领域常用词词库，实施者可以较为灵活地选择排除词汇。

本实施例中，词袋模型在分词之后，通过统计每个词在文本中出现的次数，就可以得到该文本基于词的特征，即一种词向量，该方法主要通过TF-IDF进行次特征值的计算，及时去除了常用词和领域词，但由于影评过多，因此词汇表很容易突破100万的大小。由于文本的稀疏性和语义的相似性，进行哈希表示后的特征仍然能够很好代表哈希前的特征，本发明使用HashingVectorizer，对影评词汇表编码为5120维的特征码。

需要说明的是，每个影评都含有语义特征，因此构建用户群体评论语义特征空间，即对每个影评的特征码单独作为一个对象放置在该空间。由于影评的特征码是5120维的，因此该空间为5120维。

需要说明的是，由于具体舆情与用户行为群体相关，例如坚定程度较大的用户通常对上映何种电影较为理解，评价内容较为激进，主观性较强，有两级分化的趋势，信息量也较大。对于鉴定程度较低的用户，可能不是因为电影本身而选择该电影，因此评价内容较为中立。对于每类用户划分群体后能够基于舆情内容进一步分析用户群体对已购电影票的影评行为。

最后，基于各用户群体中的任意两两用户的影评特征码和用户行为向量，计算任意两两用户之间的邻域距离，基于各用户对应的所有邻域距离，并计算该用户的偏向程度；将各用户群体中的最大偏向程度与最小偏向程度组成状态向量，对所有用户群体的状态向量进行跟踪，计算距离上N时刻的状态稳定性，确定状态稳定性较差的前M个用户群体，根据该M个用户群体的评论情况，在平台页面随机投放热评指数较高的电影的影评。

本实施例中的邻域距离为：

其中，F_p为用户p的影评特征码，F_q为用户q的影评特征码，V_p为用户p的用户行为向量，V_q为用户q的用户行为向量。

上述公式中，

为哈希特征表示的历史特征码之间的向量夹角相似度，即基于余弦相似度的距离，其值域是[1,3]；该项代表了编辑行为的距离缩放系数，从而形成一种共同表示用户操作时的内容及操作异常性的联合距离。其中L2(V_p,V_q)为购票行为的相似距离，是一种L2距离。需要说明的是，由于一个群体影评的所包含的语义不是完全相似的，但可能近似属于同一种语义，因此当一个影评特征码属于一个类型的影评形式时，

能够代表影评的内容特征相似，因此在假设空间中距离被缩放至相近的距离上，即该项趋于1，反之被疏远到较远的距离。用户的行为也可能的对该群体的评价造成部分影响，从而导致影评的内容在群体内部不同，因此购票行为能够进一步体现用户在群体内的“激进”、“迟疑”行为差别。

上述中的偏向程度的获取是随机选取其中任一用户，该用户对应的所有邻域距离之和，作为偏向程度。

进一步地，为了降低计算量以及提高数据的准确性，本实施例中还将各用户对应的邻域距离按照从小到大排序，选取前k个邻域距离；将前k个邻域距离的均值作为用户的偏向程度：

其中，N_K(p)为用户p对应的邻域距离按照从小到大排序之后的前k个邻域距离的集合，D_K(p,q)为N_K(p)集合中用户p与用户q之间的邻域距离。

上述中的N_K(p)集合的获取，是以一个用户样本在假设空间中向外辐射，直至涵盖了第K个邻近样本时的距离。本实施例中K是以邻域用户数量的20％为准。在用户p的第K可达距离D_K内，能够涵盖较多的用户q，因此在涵盖的空间内将涵盖的所有用户q构建成集合N_K(p)。

当用户的偏向程度与相邻用户相同时，用户p的语义和行为与周围用户的密集度越高。反之意味着密集度低，意味着该用户的语义和行为具有独特性。

需要说明的是，对于独特的用户有多种情况：

1)用户可能主观意识过强，例如对偶像过于痴迷，评论内容有异。

2)用户样本评论过于草率。

因此，根据偏向程度D_Reach，每个用户群体内都有两种：用户群体内购票最坚定者和最不坚定者，也即是偏向程度最大值对应的用户和偏向程度最小值对应的用户，即可得到用户群体内最坚定者和最不坚定者的偏向程度的状态向量D_stat＝{D_Reach-max,D_Reach-min}。

本实施例中，基于上述获取的各用户群体内的状态向量，计算该用户群体在设定时间段内的状态稳定性：

其中，t为当前时刻，N为设定时间段，

为用户群体在设定时间段N内的第i-1个状态向量，

为用户群体在设定时间段N内的第i个状态向量。

需要说明的是，第i-1个状态向量和第i个状态向量均是一个用户群体对应的状态向量，对于一个用户群体，随着数据挖掘过程中的网络数据的不断更新，该用户群体也是不断更新的,那么，基于DBSCAN的分簇结果也是更新的，也就是说，这样得到的用户群体的状态向量是变化的。

本实施例中，根据该M个用户群体的评论情况，在平台页面随机投放热评指数较高的电影的影评的具体手段为：

1)基于设定时间段N内的用户群体的状态稳定性，找到当前稳定性最差的前M个群体，从M个用户群体的评论中随机选取M个评论；

2)影评平台构建快速点赞/踩的机制，针对M个评论，让已购票评价后的用户进行点赞/踩，从而加强互动性，由于已经购票评价后的用户带有自己的主观色彩，因此对于对方的一些评价更能起到共鸣或反对，因此点赞、踩的数量N_good,N_bad可以作为评价的热评指数：

S_HOT＝N_good+N_bad

至此，影评平台可以在购票页面随机投放热评指数较高的影评，从而吸引用户对电影内容有更多关注，促进购票欲望。

本发明还提供了一种数据挖掘系统，包括存储器和处理器，所述处理器执行所述存储器存储的上述的一种数据挖掘系统的技术方案。

由于上述已对一种数据挖掘方法进行了详细的介绍，此处不再进行过多赘述。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。