CN105677828A

CN105677828A - 基于大数据的用户信息处理方法

Info

Publication number: CN105677828A
Application number: CN201610003689.2A
Authority: CN
Inventors: 董政; 吴文杰; 陈露; 李学生
Original assignee: Chengdu Mo Yun Science And Technology Ltd
Current assignee: Chengdu Mo Yun Science And Technology Ltd
Priority date: 2016-01-04
Filing date: 2016-01-04
Publication date: 2016-06-15

Abstract

本发明提供了一种基于大数据的用户信息处理方法，该方法包括：对网站日志数据进行处理后，提取交易业务，通过聚类得到推荐候选集合；通过用户的当前会话获取当前行为特征，将行为特征与聚类后的集合进行计算，确定推荐列表。本发明提出了一种基于大数据的用户信息处理方法，基于文本特征挖掘用户兴趣，并准确跟踪用户在访问电商网站的过程中的需求变化，为用户提供有效的内容个性化推送。

Description

基于大数据的用户信息处理方法

技术领域

本发明涉及大数据挖掘，特别涉及一种基于大数据的用户信息处理方法。

背景技术

互联网技术日新月异的发展，以及计算机的普及，造就了巨大数量网民的同时，也正逐步的改变着人们的生活方式，网上购物便是其中之一。良好的用户体验成为了电商网站经营者的重要研发项目。如何为用户提供更优质的信息和服务对电商网站至关重要，优质的服务能很好的抓住用户，降低用户的流失率同时，可以吸引新的用户加入。而优质信息的提供就包括主动的向用户推荐他们潜在需求的商品。就目前电商网站运行的实际情况来看，电商站点在有针对性地提供产品和服务信息方面做得不够，用户不能快速地获得所需信息；并且电商网站不能快捷地帮助用户在其站点上找到感兴趣的产品和服务，用户很容易产生转向访问其它站点的动机。电商网站个性化推荐根据用户的喜好、历史访问留下的信息以及其他相似用户的相关信息，已经成为当前电商中的热门研究领域之一。此外，传统的个性化推荐算法在实际的应用中具备良好的性能，但是当用户真正的浏览电商网站的过程中，需求会发生一定的变化，而现有方案对这种变化的跟踪并不精确。从而无法提升推荐满意度。

发明内容

为解决上述现有技术所存在的问题，本发明提出了一种基于大数据的用户信息处理方法，包括：

对网站日志数据进行处理后，提取交易业务，通过聚类得到推荐候选集合；

通过用户的当前会话获取当前行为特征，将行为特征与聚类后的集合进行计算，确定推荐列表。

优选地，在经过数据过滤后，将网站日志转化成一系列的交易业务文本页面集，将文本页面集用特征词集进行表示，即提取页面文本中代表主题含义的关键词组成的特征词集，该提取特征词集的过程包括提取特征词条、计算特征词条的权值以及选择特征词条；

其中，用于聚类的交易业务是推荐候选集合，该集合中的每一个交易业务均由一系列页面组成，代表用户的兴趣特征和浏览的商品；当前用户会话被进行特征化后与该候选集合进行相似性计算，计算后得到最大相似的交易业务集后，将其包含的页面推荐至当前用户；

优选地，所述提取特征词条之前，通过以下过程完成分词：

定义标注集合，建立语料词库，将被标注好的语料以及人工设置的特征模板作为机器学习工具的输入，机器学习的结果输出特征集，该特征集用于对未被标记的文本进行标记，最后用得到的标记对该文本进行分割；

设C＝{c₁,c₂…c_n}为待分词的中文句，c_i表示句中的第i个中文字；L＝{l₁,l₂…l_n}为在句C上的语料识别结果的标记序列，l_i表示中文字c_i在语料中的位置标记，SW＝{sw₁,sw₂…sw_m}为句C的语料串序列，该字词串序列上的识别结果为R＝{r₁,r₂…r_m}，r_i代表语料sw_i在词中出现的位置标记，L’和R’分别表示在中文句C上最大可能的语料分割和词的分割，则将分词任务转换为求解如下最大概率：

<L’，R’>＝argmaxP(L,R|C)＝argmaxP(R|SW)P(L|C)

其中P(R|SW)和P(L|C)都是在一个观测序列上有关序列标记的概率值，定义其概率分布为

P (R | S W) P (L | C)

= \frac{1}{Z_{R} (S W)} \exp (Σ_{j = 1}^{m} Σ_{k = 1}^{K_{R}} λ_{k} f_{k} (R, S W, j)) \times \frac{1}{Z_{L} (C)} \exp (Σ_{j = 1}^{n} Σ_{k = 1}^{K L} μ_{k} g_{k} (L, C, i))

m和n分别是句C中语料和字的个数，Z_R(SW)和Z_L(C)是正则化因数，λ_k和μ_k分别是第1层和第2层条件随机场的参数，f_k和g_k对应第1层和第2层条件随机场的特征函数；这样将中文分词问题转换为两层的条件随机场的序列标注问题；第1层用来学习基于字的语料的标注，第2层用来学习基于语料的词的标注。

本发明相比现有技术，具有以下优点：

本发明提出了一种基于大数据的用户信息处理方法，基于文本特征挖掘用户兴趣，并准确跟踪用户在访问电商网站的过程中的需求变化，为用户提供有效的内容个性化推送。。

附图说明

图1是根据本发明实施例的基于大数据的用户信息处理方法的流程图。

具体实施方式

下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明，但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定，并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节，并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。

本发明的一方面提供了一种基于大数据的用户信息处理方法。图1是根据本发明实施例的基于大数据的用户信息处理方法流程图。

本发明的模型框架分为两大部分，网站日志的挖掘和当前用户的会话处理。网站日志挖掘经过数据处理、交易业务提取以及特征化表示，经过聚类分析形成推荐的候选集合；对于用户的当前会话根据日志挖掘的方式，挖掘出当前行为兴趣的特点，利用相应的匹配方法与聚类后的集合计算，给出推荐列表。聚类后交易业务是推荐候选集合，该集合中的每一个交易业务均由一系列页面组成，代表用户的兴趣特征和浏览的商品。当前用户会话被进行特征化后与其进行相似性计算，计算后得到最大相似的交易业务集后，将其包含的页面推荐至当前用户。

网页文本挖掘是从大量网页文本文档集合C中发现隐含的模式P的过程M。在经过数据过滤后，网站日志被转化成了一系列的交易业务文本页面集，以下进一步将文本页面集用特征词集进行表示。用特征词集来表示网页文本的过程就是文本特征化，即提取页面文本中代表主题含义的关键词，关键词组成的集合就是特征词集。标准的特征化过程包括提取特征词条、计算特征词条的权值以及选择特征词条。特征词条的提取要做好分词；按照分词算法计算后所产生的特征词条组成一个特征词条候选集合，对这些特征词条进行权重的计算，词条出现的位置决定它们的权重不同；最后对集合中的候选特征词条进行筛选，可以根据权重等信息选出最能代表文本页面的词条构成特征词集合。

通过对网页网站日志进行预处理后，可以读取用户点击浏览页面文本信息。获取这些文本信息之后的工作对这些信息进行分词，以便形成适合的特征词条来满足接下来的聚类分析工作。

本发明采用基于语料的分词，分为两个步骤：第1步是利用训练语料构建语料词库；第2步是利用语料词库和初始测试语料构建测试语料。方法首要任务是定义标注集合，建立语料词库，将被标注好的语料以及人工设置的特征模板作为机器学习工具的输入，机器学习的结果输出一套特征集，该特征集可对未被标记的文本进行标记，最后用得到的标记对该文本进行分割。

设C＝{c₁,c₂…c_n}为待分词的中文句，c_i表示句中的第i个中文字；L＝{l₁,l₂…l_n}为在句C上的语料识别结果的标记序列，l_i表示中文字c_i在语料中的位置标记，SW＝{sw₁,sw₂…sw_m}为句C的语料串序列，该字词串序列上的识别结果为R＝{r₁,r₂…r_m}，r_i代表语料sw_i在词中出现的位置标记，L’和R’分别表示在中文句C上最大可能的语料分割和词的分割。则分词任务转换为求解如下最大概率：

<L’，R’>＝argmaxP(L,R|C)＝argmaxP(R|SW)P(L|C)

P(R|SW)和P(L|C)都是在一个观测序列上有关序列标记的概率值，因此，定义它们的概率分布为

\begin{matrix} P (R | S W) P (L | C) \\ = \frac{1}{Z_{R} (S W)} \exp (Σ_{j = 1}^{m} Σ_{k = 1}^{K_{R}} λ_{k} f_{k} (R, S W, j)) \times \frac{1}{Z_{L} (C)} \exp (Σ_{j = 1}^{n} Σ_{k = 1}^{K L} μ_{k} g_{k} (L, C, i)) \end{matrix}

m和n分别是句C中语料和字的个数，Z_R(SW)和Z_L(C)是正则化因数，λ_k和μ_k分别是第1层和第2层条件随机场的参数，f_k和g_k对应第1层和第2层条件随机场的特征函数。这样就将中文分词问题转换为两层的条件随机场的序列标注问题。第1层用来学习基于字的语料的标注，第2层用来学习基于语料的词的标注。该方法消除了可能的语料跨越标记错误。

在确定了文本分词之后，就可以建立网页文本的特征表示，将网页文本转化成一种类似关系数据且能表现网页文本内容的结构化形式，即网页文本特征的提取。本发明应用的提取方法将文档分割成为不同的部分，在特征词条查找匹配页面时，将目标页面集划分为相关页面和无关页面，用p(D|R)表示特征词对页面D的相关性概率，p(D|NR)表示特征词对页面D的无关性概率；若p(D|R)>p(D|NR)，则页面D确定为相关页面，否者确定为无关页面；利用特征词在相关页面中出现的概率与在无关页面中出现的概率进行相关性值的计算：

w＝Σlog(p_i(1-s_i)/(s_i(1-p_i)))

其中p(D|R)/p(D|NR)＝∏p_i(1-s_i)/(s_i(1-p_i))，p_i为特征词t_i在相关页面中出现的概率，s_i为特征词t_i在无关页面中出现的概率；

令R表示相关页面的个数，C-R代表无关页面个数。对于特征词t_i，包含该特征词的页面个数为ci，相关页面为r_i，包含该特征词的无关页面个数为c_i-r_i；

计算特征词t_i在相关页面中出现的概率p_i＝r_i/R，在无关页面中出现的概率si＝(c_i-r_i)/(C-R)，选择的平滑参数0.5和0.1，平滑后公式如下：

p_i＝(r_i+0.5)/(R+1.0)

s_i＝(c_i-r_i+0.5)/(C-R+1.0)

得到相关性值：

w＝Σlog(((r_i+0.5)/(R-r_i+0.5))/((c_i-r_i+0.5)/(C-R)-(c_i-r_i)+0.5))

将页面分解成为不同的部分，考虑特征词在不同部分内权重的计算：

w_i＝Σlog((TF/k+TF)((r_i+0.5)/(R-r_i+0.5))/((c_i-r_i+0.5)/(C-R)-(c_i-r_i)+0.5))

其中TF包括特征词条在不同部分出现的词频以及在不同部分的权重信息；其具体的表达式如下：

T F = Σ_{k = 1}^{u} v_{k} \frac{f_{u}}{B_{u}}

B_{u} = (1 - b_{u}) + \frac{{ul}_{u}}{{avul}_{u}} \times b_{u}

其中，将一个页面文档分为u个不同的部分，v_k是每个部分的权重，f_u代表特征词在第u个部分中出现的词频数，ul_u代表第u个部分的实际长度，avul_u是指在页面集合中该部分的平均长度；k和b_u是调节因数，分别用来调节特征词在页面文档的词频和用来对当前部分进行调节，最终得到相应的特征词条在文档集中的权重w_i。

在上文对页面文本特征提取的基础上，本发明继续对交易业务进行特征化表示，形成结构化的存储形式，便于个性化推荐系统处理。在经过对交易业务的结构化表示后，为了挖掘推荐信息，提供精确的推荐结果，需要进行相应的聚类处理。

首先对每一个单独的页面进行特征词条提取，进而上升到该交易业务的所有页面。根据特征词条出现的频率可以发现用户的兴趣爱好和浏览过的相关商品信息。在组成交易业务的页面链接关系中，以链接关系为主线，分析链接前后页面的关键特征词的变化，进而及时的提取用户当前兴趣爱好的迁移。故对交易业务的特征词条表示的第一步是汇总交易业务所有页面的特征表示。

在对单个页面进行特征词提取后，得到单个页面的特征词集合T＝{t₁,t₂…t_n}，预先设定提取n个特征词条；在一个交易业务中页面集合表示为P＝{p₁,p₂…p_m}，每个不同的页面用其相对应的唯一URL地址进行单独识别。交易业务的特征词条根据空间向量初步形成矩阵关系。交易业务的特征词条更进一步的表示可以转化为特征词条的权重。所以此时将单个页面p_i使用特征词条的权重表示为如下关系：

p_i＝{tw<t_l,p_i>,tw<t₂,p_i>tw<t_i,p_i>，…tw<t_n,pi>}。这里的权重tw选择计算如下：

tw<t_i,p_i>＝Σlog((TF/k+TF)((r_i+0.5)/(R-r_i+0.5))/((c_i-r_i+0.5)/(C-R)-(c_i-r_i)+0.5))

利用这种表示方式，将交易业务页面集合P表示为关联矩阵Q。

对于某一个符合用户潜在需求的中意商品，用户在浏览该页面时会停留相对较长的时间。给出基于停留时间的权重表示如下：交易业务集表示为S＝{s₁,s₂…s_q}共q个交易业务，交易业务集S与页面P之间的访问关系可通过访问权重w<p_i,s_j>表示，形成关联矩阵N。该访问权重是基于停留时间的，w<p_i,s_j>＝time_i/content_j

即停留时间time与访问页面的文本长度大小content之间的比值。

将基于特征词频和停留时间的关联矩阵矩阵Q和N进行矩阵相乘运算，可以得出新的关联矩阵Q’，作为最终的交易业务特征化表示，矩阵中的每个元素表示交易业务和特征词条之间的权重关系，并且作为对交易业务进行聚类的输入值。

聚类的目的是在相似性的基础之上将目标数据进行分类。每次将两个旧类合并成一个新类，直到最终合并成一个类为止。每合并一次，则在距离矩阵中删除相对应的行与列。描述如下:

步骤1：初始共设有N个类，每个类由一个对象类形成。令顺序号m＝0,L(m)＝0；

步骤2：在距离矩阵D中寻找最小距离d[(r)，(s)]＝mind[(i)，G)]。

步骤：3将两个类(r)和(s)合并成一个新类(r，s)；令m＝m+l,L(m)＝d[(r)，(s)]。

步骤4：更新距离矩阵D:将表示类(r)和类(s)的行列删除，同时加入表示新类(r,s)的行列；同时定义新类(r，s)与各旧类(k)的距离为d[(k)，(r,s)]＝mind[(k),(r)],d[(k)，(s)]。

步骤5反复步骤2-4，直到所有对象合并成一个类为止。

对于词条重合度的信息度量，本发明获取两个集合A和B的交集元素在A,B的并集中所占的比例，用符号J(A，B)表示。在计算列之间的权重比例相似度时，在计算出的交集中，计算各词条权重的差，单独出现在一列中的词条，其自身的权重就记为该词条的权重差，汇总所有词条的差值的和，此时设定数值为二者之间的距离。迭代计算完成聚类。

对关联矩阵Q’进行分层聚类处理后，可以得到TC＝{tc₁,tc₂,…,tc_k)，即基于特征词条的交易聚类。为了是推荐规则更加精确，还需要对TC集合进行相应的转换，转换为附有权重的页面集合，该集合将是最直接的推荐候选集合。最终形成基于交易业务聚类转换的网页文档集合可以表示为Tcp＝{pc₁,pc₂…,pc_k},pc_i是指对交易业务聚类tc_i通过计算所有页面的权重而得出的文本文档，该权重计算的过程如下，该文档是推荐候选页面集，其可以通过权重进行如下的关系表示：Pc_i＝{<p_i，w’<p_i,pc_i>>|p_i∈P)。

w^{,} < p_{i}, {pc}_{i} > = \underset{p_{i} &Element; t c}{Σ} Σ_{j = 1}^{n} t w < t_{j}, p_{i} > / \underset{p_{i} &Element; t c}{Σ} Σ_{j = 1}^{n} t w < t_{j}, p_{i} >

w’<p_i,pc_i>代表页面p_i在文本文档pc_i中的权重。最终，通过对交易业务进行特征化表示、分层聚类以及聚类结果的相应转换过程，得到了文本挖掘后的网页文本文档集合对其进行进一步的优化，利用w’<p_i,pc_i>得出新的关联矩阵Q”。

当当前用户进入网站后产生一系列的访问页面，这些页面同样需要进行特征词条提取和页面停留时间计算等特征化表示。对于用户访问形成的当前会话，同样需要利用网页网站日志进行本次会话的跟踪，并将跟踪的结果进行网页文本文档预处理，形成用特征词条及其权重表示的网页文本文档集合。处理过的当前用户会话表示为U＝{u₁,u₂,…,u_m}，每个u表示页面在当前用户会话中的权重，使用多重链表进行存储。针对当前用户会话U，每一个页面p的推荐值由两部分组成。第一部分是用户会话与文本文档计算的余弦相似值，第二部分是页面p在文本文档中的权重。如果页面p出现在当前用户会话U中，即待推荐给用户的页面中，存在用户已经访问过的页面，那么不再将其列入推荐列表。

具体的推荐值用Rec表示rec(p，U)＝Sim(U，pc)×w’<p,pc>

其中

S i m (U, p c) = \frac{Σ_{i = 1}^{m} u_{i} \times w^{'} < p_{i}, p c >}{\sqrt{Σ {(u_{i})}^{2} \times Σ {(w^{'} < p_{i}, p c >)}^{2}}}

通过对交易业务分层聚类后转换的网页文本文档有多个，所以产生的候选推荐页面也有多个，此时进一步对推荐的网页文本经过过滤处理，然后形成推荐集。过滤的方式可以设定阈值e，小于该阈值的推荐页面不被列入推荐集。

最后对所有推荐值进行排序，选取排在推荐集前段的作为推荐结果。

综上所述，本发明提出了一种基于大数据的用户信息处理方法，基于文本特征挖掘用户兴趣，并准确跟踪用户在访问电商网站的过程中的需求变化，为用户提供有效的内容个性化推送。。

显然，本领域的技术人员应该理解，上述的本发明的各模块或各步骤可以用通用的计算系统来实现，它们可以集中在单个的计算系统上，或者分布在多个计算系统所组成的网络上，可选地，它们可以用计算系统可执行的程序代码来实现，从而，可以将它们存储在存储系统中由计算系统来执行。这样，本发明不限制于任何特定的硬件和软件结合。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于大数据的用户信息处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在经过数据过滤后，将网站日志转化成一系列的交易业务文本页面集，将文本页面集用特征词集进行表示，即提取页面文本中代表主题含义的关键词组成的特征词集，该提取特征词集的过程包括提取特征词条、计算特征词条的权值以及选择特征词条；

其中，用于聚类的交易业务是推荐候选集合，该集合中的每一个交易业务均由一系列页面组成，代表用户的兴趣特征和浏览的商品；当前用户会话被进行特征化后与该候选集合进行相似性计算，计算后得到最大相似的交易业务集后，将其包含的页面推荐至当前用户。

3.根据权利要求2所述的方法，其特征在于，所述提取特征词条之前，通过以下过程完成分词：

<L’，R’>＝argmaxP(L,R|C)＝argmaxP(R|SW)P(L|C)