发明内容
为了解决对于这种浏览范围较广、缺乏购买数据验证用户偏好的情况将难以捕捉用户的真实意图,无法形成有效的商品智能化展示的技术问题,本发明的目的在于提供一种线上商城商品智能化展示系统,所采用的技术方案具体如下:
本发明提供了一种线上商城商品智能化展示系统,所述系统包括:
数据获取模块,用于获取每个用户的用户数据;所述用户数据包括浏览数据和购买数据,所述浏览数据和购买数据中均包括单个商品的具体信息和用户具体行为信息;
特征关键词提取模块,用于获取每个所述购买数据中商品具体信息的每个关键词出现的频率;根据用户数据总数、每个关键词存在的用户数据数与每个关键词在每个所述用户数据中的出现次数获得调节参数;根据所述每个关键词出现的频率以及对应的所述调节参数获得重要性评估值,根据所述重要性评估值对关键词筛选,获得每个所述购买数据的特征关键词;
浏览行为特征分析模块,用于获取每个所述购买数据的购买周期,将每个所述购买数据中每个特征关键词与对应购买周期内的每个浏览数据中对应的特征关键词出现次数的差异作为特征关键词差异,根据每个特征关键词的所述特征关键词差异与重要性评估值获得所述购买数据与对应购买周期内每个浏览数据的数据相似度;根据所有所述数据相似度获得连续浏览数据聚簇,获取所述连续浏览聚簇中的用户具体行为信息;
聚簇分析模块,用于根据用户对每类商品的浏览时间获得每类商品的商品聚簇;根据所述连续浏览聚簇与每类商品的每个商品聚簇的用户行为具体信息之间的差异以及每类商品的每个商品聚簇中的数据量获得聚簇相似度;
商品展示模块,用于根据所述聚簇相似度获得智能化展示商品。
进一步地,所述调节参数的获取方法包括:
根据所述用户数据总数与所述每个关键词存在的用户数据数获得每个关键词的非冗余性;所述用户数据总数与所述非冗余性呈正相关,所述每个关键词存在的用户数据数与所述非冗余性呈负相关;
统计每个关键词在每个所述用户数据中出现的次数在所有所述用户数据中的方差,获得每个关键词的特征趋向性;
将所述非冗余性与所述特征趋向性相乘作为每个关键词的所述调节参数。
进一步地,所述重要性评估值的获取方法包括:
将每个关键词的所述调节参数与每个关键词出现的频率相乘作为每个关键词的重要性评估值。
进一步地,所述特征关键词的获取方法包括:
以重要性评估值最大的预设数量个关键词作为所述特征关键词。
进一步地,所述购买周期的获取方法包括:
设置预设时间间隔;
若用户的购买数据与上一次购买数据时间间隔超过所述预设时间间隔,则购买周期为预设时间间隔;若用户的购买数据与上一次购买数据时间间隔不超过所述预设时间间隔,则购买周期为两次购买数据的时间间隔。
进一步地,所述购买数据与对应购买周期内每个浏览数据的数据相似度的获取方法包括:
将每个特征关键词的重要性评估值归一化后与特征关键词对应的所述特征关键词差异的平方相乘,作为每个特征关键词对应的调整后的特征关键词差异;
将所有调整后的特征关键词差异的平均值进行负相关映射并归一化作为所述购买数据与对应购买周期内每个浏览数据的数据相似度。
进一步地,所述连续浏览数据聚簇的获取方法包括:
设置预设判断阈值;
将购买周期内的浏览数据的数据相似度大于所述预设判断阈值的浏览数据作为决策数据;
对所述决策数据进行DBSCAN聚类,获得与购买数据时间最近的聚簇作为所述连续浏览数据聚簇。
进一步地,所述聚簇相似度的获取方法包括:
将所述连续浏览聚簇与所述每类商品中每个商品聚簇的每种用户具体行为信息之间的差异累加后进行负相关映射并归一化作为初始相似度,将每类商品的每个商品聚簇中的浏览数据量归一化后与对应的初始相似度相乘获得所述聚簇相似度。
进一步地,所述智能化展示商品的获取方法包括:
对所有商品的最大聚簇相似度进行降序排序获得聚簇相似度有序序列,根据所述聚簇相似度有序序列中的元素依次展示商品。
本发明具有如下有益效果:
本发明首先获取用户的浏览数据和购买数据,浏览数据和购买数据为后续的处理分析提供初始参考;进而可以基于购买数据提取出后续可为用户进行智能化推荐的商品的特征关键词,获取用户的购买数据中每个关键词的频率,可将该频率视为每个关键词为特征关键词的初始评估值,但是由于关键词中会存在停用词或者固定展示模板包含的无用词,如果仅根据关键词出现的频率作为评估值会导致特征关键词的提取准确度较差,故本发明获取了每个关键词的调节参数对初始评估值进行调整获得重要性评估值,提高了特征关键词的获取准确度;然后获取购买数据的购买周期,进而可以基于特征关键词以及重要性评估值获得购买周期内的浏览数据与购买数据的数据相似度,获得连续浏览数据聚簇,故连续浏览数据聚簇可以视为促成用户购买的主要影响因素;进一步基于连续浏览数据聚簇和每类商品的每个聚簇的聚簇相似度获得智能化展示商品;在本发明的整个过程中,不仅通过调节参数可以提高特征关键词的获取准确度,避免了非特征关键词的混入;连续浏览数据聚簇中的数据是基于筛选出来的特征关键词,然后根据购买数据与购买周期内的浏览数据的相似度获得的,可以作为影响用户购买行为的主要决定因素,所以本发明不需要大量购买数据,也不需要完全依赖浏览数据,就可以形成有效、可信度较高的商品智能化展示方案。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种建筑吊篮的智能监控系统及监控方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
线上商城商品智能化展示系统实施例:
下面结合附图具体的说明本发明所提供的一种线上商城商品智能化展示系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种线上商城商品智能化展示系统框图,该系统包括:数据获取模块101,特征关键词提取模块102,浏览行为特征分析模块103,聚簇分析模块104,商品展示模块105。
数据获取模块101用于获取每个用户的用户数据。
智能化的商品展示系统必然是具有准确的侧重性且随用户的偏好进行动态变化的,智能化展示的参考依据需要从用户数据中获取,故在本发明实施例中,首先从线上商城运维服务器中获取用户数据,用户数据主要有浏览数据和购买数据,并且浏览数据与购买数据中均包括单个商品的具体信息以及用户具体行为信息,以日志的形式进行记录,其中单个商品的具体信息包括文字介绍、价格等,用户具体行为信息包括浏览商品的浏览频率、商品页面浏览停留时长、点击率、滑动速度等具体用户行为。
至此,获得了用户数据,可以为后续对数据进行分析处理做准备。
特征关键词提取模块102用于提取出商品具体信息中的特征关键词。
相较于任何浏览行为,购买行为都是绝对强有力的用户偏好证明。当购买行为较多时,可以根据已购买商品进行推荐;当没有购买行为时,可以根据商城推广商品或用户浏览次数、频率进行推荐;而当购买行为发生较少,仅有一次、两次,浏览量巨大却没有促成购买时,仅通过少量的购买数据无法完全把握用户的购买喜好,无法对形成购买产生促进作用即少量购买数据无法形成有效说服力;但是大量浏览行为中却潜藏极大的挖掘价值。每次购买行为发生之前,相关的浏览行为都可以视为影响购买发生的因素,即认为前者为后者的前提条件,挖掘这一过程可以对用户的购买习惯进行建模。
首先需要提取出商品具体信息中的特征关键词,商品具体信息中的特征关键词并不是指每类商品所属的大类,例如衣服、鞋子、零食等,而是商品的细节特征,例如,修身、宽松、正肩、纯棉、休闲、网面、复古、厚底等等,原因是在每次购买的实际过程中,是需要进行一系列的精挑细选才筛选出最后购买的商品;故获取购买数据中商品具体信息的所有关键词,对关键词进行筛选获得特征关键词。
每个关键词在购买数据中出现的频率可以初步作为该关键词的重要性评估值,所以本发明统计了每个关键词在所在购买数据中出现的频率;然后关键词中会出现类似“是”、“的”、“了”等停用词,该类停用词的出现频率也很高,同时由于商品页面往往存在固定的展示模板,含有大量无用词,其频繁在每个用户数据中出现,而特征关键词则间断出现,所以当某个关键词出现频率很高时,也可能为展示页面通用或固定模板、话术所包含的无用词。所以本发明基于用户数据总数、每个关键词存在的用户数据数与每个关键词在所有用户数据中的出现次数获得调节参数对每个关键词在购买数据中出现的频率进行调整,可以获得更加准确的重要性评估值,根据重要性评估值可以进行筛选获得特征关键词。
优选地,本发明一个实施例中调节参数的获取方法包括:
由于关键词中的停用词如“是”、“的”、“了”的出现频率很高,若在每个用户数据中出现的次数均很高则说明冗余程度高,所以可以根据用户数据总数与每个关键词存在的用户数据数的比值获得每个关键词的非冗余性。关键词的非冗余性的公式模型为:
其中,Ri表示第i个关键词的非冗余性,H表示每个用户的用户数据总数,Hi表示包含第i个关键词的用户数据数,ln()表示以自然常数e为底的对数函数。
在关键词的非冗余性的公式模型中,将分母加1,避免分母为0;的比值应当大于1,当该比值越接近1即Ri越小时,说明第i个关键词的冗余性越高,则该关键词越不可能为特征关键词;然后利用对数函数非线性转化,调整非冗余程度的值域,用于提高非冗余度较小的关键词的重要程度。
而通常商品展示时会采用固定的展示模板,该模板中含有大量的无用词,并且无用词频繁地在每个用户数据中出现,而特征关键词则间断出现,所以可以利用每个关键词在所有用户数据中出现的次数的方差来描述每个关键词的特征趋向性。特征趋向性的公式模型为:
其中,Qi表示第i个关键词的特征趋向性,表示第i个关键词在第r个用户数据中出现的次数,σ2()表示方差函数,th[]表示双曲正切函数。
在特征趋向性的公式模型中,当关键词的方差越小,说明该关键词在每个用户数据中出现的次数均较多,所以为无用词的概率就越大;当关键词的方差越大,说明该关键词在每个用户数据中出现次数差异性比较大,所以为特征关键词的概率就越大,即特征趋向性越大。同时引入双曲正切函数,其函数值在(0,1)内对应的函数曲线正比例增大,越接近0曲线变化越剧烈,符合抑制方差极小的关键词的重要程度的要求。
将每个关键词的冗余性与特征趋向性相乘作为每个关键词的调节参数。调节参数的公式模型为:
Ti=Qi×Ri
其中,Ti表示第i个关键词的调节参数,Qi表示第i个关键词的特征趋向性,Ri表示第i个关键词的非冗余性。
在调节参数的公式模型中,当关键词对应的非冗余性越大,并且特征趋向性越大时,说明该关键词为停用词或固定模板的无用词的概率越小,即该关键词对应的调节参数应该越大;当关键词对应的非冗余性越小,并且特征趋向性越小时,说明该关键词为停用词或固定模板的无用词的概率越大,即该关键词对应的调节参数应该越小。
然后可以根据每个关键词的调节参数对每个关键词在购买数据中出现的频率进行调整获得准确的重要性评估值。
优选地,本发明一个实施例中重要性评估值的获取方法包括:
将每个关键词的调节参数与每个关键词出现的频率相乘作为每个关键词的重要性评估值。重要性评估值的公式模型为:
其中,Pi表示第i个关键词的重要性评估值,Ti表示第i个关键词的调节参数,gi表示第i个关键词在每个购买数据中出现的次数,G表示每个购买数据中关键词的总数。
在重要性评估值的公式模型中,当每个关键词在所属购买数据中出现的频率越大,即越大,同时对应的调节参数也越大,则该关键词的重要性评估值就越大,即为特征关键词的可能性也就越大。
由于重要性评估值是由关键词的频率以及调节参数共同表征的,所以可信度高,因而可以基于重要性评估值筛选出特征关键词。
优选地,本发明一个实施例中特征关键词的获取方法包括:
由于特征关键词应该是重要性程度较高的关键词,故以关键词的重要性评估值最大的预设数量个关键词作为特征关键词。需要说明的是,本发明中的预设数量为20,具体数值的设置实施者可根据具体实施场景进行调整,在此不做限定。
至此,提取出了每个购买页面的特征关键词。
浏览行为特征分析模块103用于获取与用户购买相关的浏览行为特征。
基于特征关键词提取模块102可以获得每个购买页面的特征关键词,所以可以根据特征关键词获得购买数据与浏览数据之间的数据相似度,为后续的操作过程提供参考。
首先需要获取用于数据相似度匹配的目标数据集,所以先获取每次购买数据的购买周期。
优选地,本发明一个实施例中购买数据的购买周期的获取方法包括:
若用户的购买数据与上一次购买数据时间间隔超过预设时间间隔,则购买周期为预设时间间隔;若用户的购买数据与上一次购买数据时间间隔不超过预设时间间隔,则购买周期为两次购买数据的时间间隔。需要说明的是,本发明实施例中预设时间间隔为一个月,具体时间间隔时长实施者可根据具体实施场景进行调整,在此不做限定。
至此,可以获得每个购买数据的购买周期,购买周期内的浏览数据即为用于数据相似度匹配的目标数据集,可将每个购买数据与对应的目标数据集中的每个浏览数据之间每个特征关键词出现次数的差值作为特征关键词差异,特征关键词差异可以表征购买数据与浏览数据的每个特征关键词的初始相似程度,然后将每个特征关键词的初始相似程度与对应的重要性评估值进行结合可以获得购买数据与购买周期内每个浏览数据的数据相似度。
优选地,本发明一个实施例中购买数据与对应购买周期内每个浏览数据的数据相似度的获取方法包括:
将每个特征关键词对应的特征关键词差异进行平方,然后将每个特征关键词的重要性评估值进行归一化,重要性评估值归一化后可以作为对应的特征关键词差异的可信度权重;然后将每个关键词的重要性评估值归一化后的值与对应的特征关键词差异的平方相乘,作为每个特征关键词对应的调整后的特征关键词差异;获取所有调整后的特征关键词差异的平均值,获取平均值的目的在于可以获得更加准确的数据相似度,然后对该平均值进行负相关映射并归一化获得购买数据与对应购买周期内每个浏览数据的数据相似度。数据相似度的公式模型为:
其中,v表示购买数据,ε表示购买数据对应的购买周期内的第ε个浏览数据,表示购买数据中第i个特征关键词出现的次数,/>表示第ε个浏览数据中第i个特征关键词出现的次数,Pi表示第i个特征关键词的重要性评估值,N表示关键词提取模块102中获得的购买页面的特征关键词总数,norm()表示归一化操作,∑表示求和符号,exp[]表示以自然常数e为底的指数函数。
在数据相似度的公式模型中,对进行负相关映射的目的在于进行逻辑关系矫正,当两个数据的特征关键词差异越小,两个数据的相似度就越大;引入exp函数的目的在于将数据相似度的取值限定在(0,1)之间,方便后续判断阈值的设置。需要说明的是,归一化操作的过程为本领域技术人数熟知的操作过程,在此不做赘述。
在获取购买数据与对应的购买周期内每个浏览数据的数据相似度后,可以根据数据相似度获得连续浏览数据聚簇,该连续浏览数据聚簇可以作为促成用户购买行为完成的主要影响因素。
优选地,本发明一个实施例中连续浏览数据聚簇的获取方法包括:
首先设置预设判断阈值;然后将购买周期内的浏览数据的数据相似度与预设判断阈值进行比较,将数据相似度大于或等于预设判断阈值的浏览数据作为决策数据,决策数据为目标数据集中与购买商品相似的浏览数据;对决策数据进行预设搜索范围和预设密度的DBSCAN时序聚类,将与购买数据时间最近的聚簇作为连续浏览数据聚簇。需要说明的是,在本发明实施例中,预设判断阈值为0.7,预设搜索范围为两天,预设密度为10,具体数值实施者可根据具体实施场景进行调整,在此不做限定。
由于连续浏览数据聚簇可作为促成用户购买行为完成的主要影响因素,故获得连续浏览数据聚簇中每个浏览数据的用户具体行为信息,该用户具体行为信息包括浏览商品的浏览频率、商品页面浏览停留时长、点击率、滑动速度等具体用户行为。为后续获得聚簇相似度提供参考。
聚簇分析模块104用于获取聚簇相似度。
当用户缺少实际购买数据,但存在大量浏览数据时,可以将购买发生时的连续浏览数据聚簇与其他任意时段的浏览数据进行匹配。当浏览数据中存在该连续浏览数据聚簇中浏览用户具体行为信息相近的数据集合时,则代表用户在浏览过程中对某一类商品产生了较强烈的购买兴趣,可以再次为用户进行推荐展示,以促成交易。
首先获取浏览数据中每类商品的商品聚簇,具体方法为先将用户的所有浏览数据根据商品的类别进行分类,即每类商品单独分布在一个时序轴上,分布位置不发生变化,利用DBSCAN聚类方法,以预设搜索范围以及预设密度对每类商品进行聚类分析,获得每类商品的多个商品聚簇。需要说明的是,本发明实施例中预设搜索范围为两天,预设密度为10,具体数值实施者可根据具体实施场景进行调整,在此不做限定。
然后可以将连续浏览聚簇与每类商品的每个商品聚簇进行匹配,获得聚簇相似度。
优选地,本发明一个实施例中聚簇相似度的获取方法包括:
将连续浏览聚簇与每类商品中每个商品聚簇的每种用户具体行为信息之间的差异进行累加,将该累加后的值进行负相关映射并归一化作为两个聚簇之间的初始相似度,由于会存在聚簇体量的可信度问题,故将每类商品的每个商品聚簇中的浏览数据量归一化后与对应的初始相似度相乘获得聚簇相似度。聚簇相似度的公式模型为:
其中,a表示连续浏览聚簇,b表示每类商品的第b个商品聚簇,S(a,b)表示连续浏览聚簇与第b个商品聚簇的聚簇相似度,表示连续浏览聚簇中第m个用户具体行为信息的值,/>表示第b个商品聚簇中第m个用户具体行为信息的值,Cb表示第b个商品聚簇中的浏览数据量,th()表示双曲正切函数,∑表示求和符号,exp()表示以自然常数e为底的指数函数。
在聚簇相似度的公式模型中,当聚簇之间数据中的用户具体行为信息的差异越小,两个聚簇之间的相似度就越大,聚簇相似度越大则该商品聚簇中的商品就越可能为用户感兴趣的商品,即可以根据聚簇相似度为用户进行商品的智能化展示。
商品展示模块105用于根据聚簇相似度获得智能化展示商品。
由于在聚簇分析模块104中已经获取了聚簇相似度,故可以根据聚簇相似度获得需要进行智能化展示的商品,来促成用户的购买行为。
优选地,本发明一个实施例中,智能化展示商品的获取方法包括:
对所有商品的最大聚簇相似度进行排序获得聚簇相似度有序序列,由于相似度越高越可能为用户想要购买的商品,故本实施例中的有序序列为降序序列,将所有商品的聚簇按照聚簇相似度由大到小排列,作为该用户的推荐展示商品,并且按照聚簇相似度大小的关系排列商品展示顺序以及展示窗口的尺寸,完成商品的智能化展示。
综上所述,本发明实施例首先从线上运维服务器中获取用户的浏览数据和购买数据,浏览数据和购买数据中均包括了单个商品的具体信息以及用户具体行为信息,然后提取出用户的购买数据中的特征关键词,在提取特征关键词的过程中,综合考虑了关键词的出现的频次、停用词以及无用词的干扰,使得获取的每个关键词的重要性评估值的精确度更高,进而最终提取出来的特征关键词更加准确;然后获取购买周期,根据购买周期可以获得用于获取相数据似度匹配的目标数据集,根据购买数据与对应的购买周期中浏览数据的特征关键词出现的次数差异以及特征关键词对应的重要性评估值获得数据相似度,根据数据相似度获取连续浏览数据聚簇,该连续浏览数据聚簇可以作为促成用户购买行为完成的主要影响因素;然后根据用户对每类商品的浏览时间获得每类商品的商品聚簇,进而根据连续浏览聚簇与每类商品的每个商品聚簇的用户具体行为信息之间的差异以及商品聚簇的数据量获得聚簇相似度,最后可根据聚簇相似度进行筛选,将聚簇相似度按从大到小进行排列,获得为用户进行智能化展示的商品。本发明在提取特征关键词时,考虑到了停用词以及无用词的影响,并且由于本发明不需要大量购买数据,也不需要完全依赖浏览数据,故对于浏览范围广,但是缺乏购买数据验证用户偏好导致难以捕捉用户意图的情况,可以形成更加有效、准确的商品智能化展示。
线上商城用户数据筛选系统实施例:
线上商城通常会根据用户的购买行为以及浏览行为判断用户的真实意图进而对用户进行标记或者分类,但是对于某些用户存在大量的浏览数据,但是缺乏购买数据时,现有技术无法准确的将对用户进行标记或者分类,导致对用户数据的管理效率低下。为了解决对于某些用户存在大量的浏览数据,但是缺乏购买数据时,导致对用户数据的管理效率低下的技术问题,本实施例提供了一种线上商城用户数据筛选系统,包括:
数据获取模块101,用于获取每个用户的用户数据;所述用户数据包括浏览数据和购买数据,所述浏览数据和购买数据中均包括单个商品具体信息;
特征关键词提取模块102,用于特征关键词获取每个所述购买数据中商品具体信息的每个关键词出现的频率;根据用户数据总数、每个关键词存在的用户数据数与每个关键词在每个所述用户数据中的出现次数获得调节参数;根据所述每个关键词出现的频率以及对应的所述调节参数获得重要性评估值,根据所述重要性评估值对关键词筛选,获得每个所述购买数据的特征关键词;
浏览行为特征分析模块103,用于获取每个所述购买数据的购买周期,将每个所述购买数据中每个特征关键词与对应购买周期内的每个浏览数据中对应的特征关键词出现次数的差异作为特征关键词差异,根据每个特征关键词的所述特征关键词差异与重要性评估值获得所述购买数据与对应购买周期内每个浏览数据的数据相似度;根据所有所述数据相似度获得连续浏览数据聚簇。
其中,数据获取模块101、特征关键词提取模块102、浏览行为特征分析模块103在上述线上商城商品智能化展示系统实施例中已给出了详细说明,在此不再赘述。
本实施例带来的有益效果包括:在用户购买数据少、浏览数据多的情况下,根据购买数据与浏览数据的关键词出现的次数差异获得了特征关键词,并且考虑到非特征词对于提取特征关键词的影响,使得获得的特征关键词更加的准确,然后获取购买周期中的浏览数据与购买数据的相似度,然后筛选出连续浏览数据聚簇,连续浏览数据聚簇可以作为促成用户购买行为的主要影响因素。本发明可以在用户浏览数据多,购买数据少的情况下精准筛选影响用户购买行为的数据,进而完成对用户的标记或者分类,提高了商城对用户数据的管理效率。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。