CN108154395B

CN108154395B - 一种基于大数据的客户网络行为画像方法

Info

Publication number: CN108154395B
Application number: CN201711430678.3A
Authority: CN
Inventors: 程永新; 郭伟; 马彦平; 邓学梅
Original assignee: Shanghai New Century Network Co ltd
Current assignee: Shanghai New Century Network Co ltd
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2021-10-29
Anticipated expiration: 2037-12-26
Also published as: CN108154395A

Abstract

本发明公开了一种基于大数据的客户网络行为画像方法，包括步骤一：根据客户浏览网页频度，初步筛选活跃客户为目标客户，通过目标客户请求的URL提取网页的信息，提取客户关键词；步骤二：根据业务需求，筛选网络语料库种子URL；爬取网络语料库种子URL以下各层级的网页数据，提取网络事件关键词；步骤三：对客户关键词和网络事件关键词进行相似度计算，用网络事件关键词替换客户关键词，得到客户的网络事件标签，构建客户画像。本发明提供的基于大数据的客户网络行为画像方法，通过对网络数据的自动爬取、特征抽取、相似度匹配、数据处理，最终实现相对精准全面的客户画像。

Description

一种基于大数据的客户网络行为画像方法

技术领域

本发明涉及一种客户网络行为分析收集方法，尤其涉及一种基于大数据的客户网络行为画像方法。

背景技术

随着互联网的飞速发展，人们每天花在网上的时间越来越多，搜索、阅读、购物等行为产生大量的点击数据。如能对这类点击数据进行深入挖掘，了解客户真实的使用习惯和偏好，进行有针对性的营销，可以产生巨大的商业价值。

现阶段，如搜索引擎厂商、浏览器厂商、网络运营商等企业均可以获得较为全面的用户点击数据，然而目前的点击数据分析大多局限于域名分析，缺少对用户访问网页内容的理解，使得精细化的营销无法开展。

此外，大部分企业的客户标签也只是解析客户点击数据中与本企业元数据(如商品信息、新闻分类等)存在交集的部分，使得数据来源较为单一，客户画像较为粗糙，难以利用与本企业从事行业无关的页面浏览行为。鉴于这种现状，有必要对现有的客户网络行为分析收集方法进行改进。

发明内容

本发明所要解决的技术问题是提供一种基于大数据的客户网络行为画像方法，能够实现点击数据与互联网内容数据的高效对接，形成精准全面的客户画像。

本发明为解决上述技术问题而采用的技术方案是提供一种基于大数据的客户网络行为画像方法，包括以下步骤：

步骤一：客户关键词提取

步骤1.1：根据客户浏览网页频度，初步筛选活跃客户为目标客户；

步骤1.2：通过目标客户请求的URL提取网页的信息；

步骤1.3：对提取的网页信息进行解析和正文分词；

步骤1.4：计算客户关键词；

步骤二：网络事件关键词提取

步骤2.1：根据业务需求，筛选网络语料库种子URL；

步骤2.2：爬取网络语料库种子URL以下各层级的网页数据；

步骤2.3：对爬取的网页信息进行解析和正文分词；

步骤2.4：计算网络事件关键词；

步骤三：根据客户关键词和网络事件关键词，构建客户画像

步骤3.1：对客户关键词和网络事件关键词进行相似度计算；

步骤3.2：用网络事件关键词替换客户关键词，得到客户的网络事件标签；

步骤3.3：构建客户画像。

上述的基于大数据的客户网络行为画像方法，其中，所述步骤1.1包括：根据客户质量和业务需求预设检测周期和点击量，根据客户在预设的检测周期内浏览网页的点击量是否超过预设点击量来确定客户是否为活跃客户。

上述的基于大数据的客户网络行为画像方法，其中，所述步骤1.2包括：对目标客户某时间段内浏览网页的日志信息进行清洗并抽取得到URL集合，再通过爬虫工具将URL对应的网页文本信息爬取到本地，并采用关系型数据库或NoSQL数据库对网页数据进行储存。

上述的基于大数据的客户网络行为画像方法，其中，所述步骤1.3中网页信息解析是采用正则表达式、XPATH以及CSS选择器对网页元素解析，并提取出标题、作者、关键字和正文元素，所述正文分词采用基于逆向隐马尔可夫模型的算法对网页正文部分进行分词。

上述的基于大数据的客户网络行为画像方法，其中，所述步骤1.4包括：对步骤1.3得到的分词结果过滤停止词，剩余的实词按客户维度汇总计算词频并从高到低排序，保留词频靠前的词汇，再通过词典合并同义词，最后留下的词汇作为客户关键词进行储存。

上述的基于大数据的客户网络行为画像方法，其中，所述步骤2.1包括：根据关注的特定业务领域，结合网站搜索排名、网站用户数指标，选择网络语料库的种子URL，通过所选的种子URL向下逐层爬取，从而得到特定网站特定分类的全部文章。

上述的基于大数据的客户网络行为画像方法，其中，所述步骤2.2包括：使用调度工具和爬虫工具，定时爬取目标网页的文本数据，并采用关系型数据库或NoSQL数据库对网页数据进行储存。

上述的基于大数据的客户网络行为画像方法，其中，所述步骤2.4包括：对步骤2.3得到的分词结果过滤停止词，剩余的实词按内容分类维度汇总计算词频并从高到低排序，保留词频靠前的词汇，再通过词典合并同义词，最后留下的词汇作为网络事件关键词进行储存。

上述的基于大数据的客户网络行为画像方法，其中，所述步骤3.1包括对步骤1.4和步骤2.4生成的关键词，两两配对计算其语义相似度；所述步骤3.2设置阈值t，如果相似度大于等于阈值t，则用该网络事件关键词替换该客户关键词，并记录相似度；否则舍弃该客户关键词；全部替换完后，将所留下的网络事件关键词的相似度进行汇总，即得到客户网络事件标签，并采用关系型数据库或NoSQL数据库对标签数据进行储存。

上述的基于大数据的客户网络行为画像方法，其中，所述步骤3.3包括：将客户网络事件标签与客户静态标签，按照客户id进行关联，使得客户标签数据具有网络事件标签与静态标签两类数据，得到相对精准全面的客户画像。

本发明对比现有技术有如下的有益效果：本发明提供的基于大数据的客户网络行为画像方法，对网络数据的自动爬取、特征抽取、相似度匹配、数据处理，最终实现相对精准全面的客户画像。本发明数据准备简单，使用者只需对客户浏览网页频度和种子URL进行简单配置，即可完成用户数据与语料数据的输入；利用客户浏览的文本内容来计算客户关键词，避免客户画像局限于本企业内部数据；通过计算词汇相似度，使用网络事件关键词替换客户关键词，既保证了标签的收敛性，又保证了标签的多样性；灵活的实现方式，系统逻辑实现可使用Java、Python等任意一种高级语言，爬虫数据和标签数据的存储支持关系型数据库或NoSQL数据库，使得整个系统具备广泛的适用范围。

附图说明

图1为本发明基于大数据的客户网络行为画像流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的描述。

图1为本发明基于大数据的客户网络行为画像流程示意图。

本发明提供的基于大数据的客户网络行为画像方法，包括客户关键词提取和网络事件关键词提取，然后根据客户关键词和网络事件关键词，构建客户画像。本发明通过点击数据生成客户标签的标准流程，可自定义客户范围、爬取周期、爬虫策略等。在使用时，使用者先进行简单的配置，然后启动系统，系统即可按配置的周期和策略自动爬取用户访问网页和语料库网页，并进行分词、相似度计算等各种处理，最后自动输出客户标签。使用者可将这种动态的客户标签与静态客户标签结合，生成客户画像。

请参见图1，本发明详细步骤如下：

步骤1.1：根据客户浏览网页频度，初步筛选活跃客户即目标客户。

使用者可根据客户特定周期内浏览网页的点击量(PV)来确定客户是否活跃，筛选出活跃客户进行后续计算。周期、点击量参数可根据客户质量、业务需求等因素自行决定，如使用者得到的客户访问清单中，正常用户的月PV量在100以上，小部分异常用户月PV为数次或数十次，则可将单月PV量大于等于100次的客户定义为活跃客户。

步骤1.2：通过客户请求的URL提取网页的信息。

步骤1.1筛选出的活跃客户，对其某时间段内浏览网页的日志信息进行清洗并抽取得到URL集合，再通过爬虫工具(包括开源爬虫框架如Nutch、pyspider或使用者自行开发的爬虫工具)将URL对应的网页文本信息爬取到本地，并采用关系型数据库(包括Oracle、mysql等)或NoSQL数据库(包括Elasticsearch、HBase等)对网页数据进行储存。

步骤1.3：网页信息解析、正文分词。

网页信息解析是指从原始网页上解析出标题、作者、关键字、正文等元素。优先采用XPATH以及CSS选择器对网页元素解析并提取，对少量这两个提取器无法提取的特殊元素的，则可选用正则表达式。

正文分词可选用各种分词框架(如lucene)，如已使用Elasticsearch，则其已经基于lucene开发，可使用lucene的各种分词插件。考虑到中国用户浏览的网页大多为中文内容，为提高分词准确率，也可使用基于逆向隐马尔可夫模型的分词算法如下：隐马尔可夫模型是一个五元组：HMM＝(N,M,π,A,B)。其中该元组的参数具体为：

1)N是隐藏状态集合，N＝{S₁,S₂,S₃,…Sn}，S_i(1≤i≤n)表示各个隐藏状态的值。

2)M是观察值集合，M＝{O₁,O₂,O₃,…O_m},Oi(1≤i≤m)表示各个观察值。

3)向量π是初始状态空间的概率分布，π＝{π₁,π₂,π₃,…π_m}。

4)A是状态转移概率分布，A＝{a_ij,1≤i≤n,1≤j≤n}，q_t表示t时刻的观察变量。a_ij表示状态q_t-1＝S_i的前提下，q_t＝S_j的概率。即a_ij＝P[q_t＝S_j|q_t-1＝S_i]。所谓状态转移的解释，就是由状态S_i“转移”到下一个状态s_j的概率。

5)B是给定状态下，观察值概率分布，即每个字的各状态观察概率分布，定义如下。B＝{b_j(k)}，其中，v_k表示在t时刻下观察值是O_k，v＝Ok，那么b_j(k)＝P[v_k a_t t|q_t＝S_j]，b_j(k)就是隐藏状态为S_j的情况下，观察值是O_k的概率。

其中，π和A描述了马尔可夫链，B描述了一般随机过程。一个HMM完全由A，B，π所确定，记λ＝(A,B,π)。一个λ参数，即确定了一个隐马尔可夫模型。

传统的隐马尔可夫模型的训练过程，就是一次一次地迭代计算λ＝(A,B,π)，当P(O|λ)>P(O|λ)，就用新的模型λ＝(A,B,π)替换之前的模型λ，经过多次替代，找到一个局部最优模型。每次迭代，都要计算参数π，以及a_ij的矩阵A以及b_ij的矩阵B。逆向隐马尔可夫模型训练的算法，就是在求π，a_ij，b_ij的时候采用逆向的Baum‐Welch算法。具体方法和公式如下：

首先定义四个变量。给定观察序列O及隐马尔可夫模型λ，定义t时刻位于隐藏状态S_i的逆向概率变量为：rγ_t(i)＝P(q_t＝S_i|O,λ)

在传统的的Baum-Welch训练算法中：前向算法中的局部概率定义为α_t(i)，α_t(i)＝P(O₁,O₂…O_t，qt＝S_i|λ)；后向局部概率变量β_t(i)：β_t(i)＝P(O_t+1,O_t+2…O_t，Q_t|q_t＝S_i，λ),这里使用逆向的变量将其定义为：rα_t(i)，rβ_t(i)，且rα_T(j)＝π(j)*b_jk_T，

a_t(i)a_ij，rβ₁(i)＝1，(1≤I≤N)

因此，S_i的逆向概率变量可变为：

rγ_t(i)＝rα_t(i)rβ_t(i)/P(O|λ)

即：rγ_t(i)＝rα_t(i)

给定观察序列O及隐马尔可夫模型λ，定义t时刻位于隐藏状态S_i及t-1时刻位于隐藏状态S_j的概率变量为：rξ_t(i,j)＝P(q_t＝S_i，q_t-1＝S_j|O,λ)。根据以上得出的变量rγ_t(i)、rα_t(i)、rβ_t(i)、rξ_t(i,j)，可以计算逆向隐马尔可夫模型的3个关键参数，他们的推导公式可以由以上函数构成。

a、逆向初始化分布rπ：

rπ＝rγ_T(i)

b、逆向状态转移概率ra_ij：

c、逆向发射频率rb_ij：

根据以上所列的递推公式，利用逆向Baum‐Welch算法，可以求得一个局部最优模型，随着迭代次数的增加，则其越接近真实最优模型。对语料进行统计和似然估计，最后形成一个用于分词的逆向HMM模型。分词算法实现：其中Pi、M、A、B已定义。Last用来暂存前一个状态，now暂存当前状态，Be、M、E、S分别表示词头、词中、词尾和单字成词的状态值。

初始化：

If(B)Pi.Be+＝1，B.当前字.Be+＝1，last＝Be

Else Pi.S+＝1，B.当前字.S+＝1，last＝S

递归：

For从第二个字到最后一个字

now＝当前状态

Switch(now)

Case Be:B.当前字.Be+＝1

Case M:B.当前字.M+＝1

Case E:B.当前字.E+＝1

Case S:B.当前字.S+＝1

RecordParaMeterA(last,now)

结束：

所有句子统计完后，根据统计结果计算HMM的各个参数。

步骤1.4：计算客户关键词。

对步骤1.3得到的分词结果过滤停止词(无意义的虚词，如英文的’the’、中文的’的’)，剩余的实词按客户维度汇总计算词频并从高到低排序，保留词频top N的词汇，再通过词典合并同义词，此时留下的词汇即作为客户关键词进行储存。N可根据业务需求等因素自行决定，如设为100。

步骤2.1：根据业务需求，筛选网络语料库种子URL。

根据关注的特定业务领域，结合网站搜索排名、网站用户数等指标，选择网络语料库的种子URL，通过这些种子URL可向下逐层爬取，从而得到特定网站特定分类的全部文章。例如，若构建客户兴趣偏好标签(旅游爱好者、电影爱好者、科技发烧友、足球爱好者、篮球爱好者、汽车爱好者)则可用旅游、电影、体育、科技、军事、汽车类等相关网站URL；若构建客户社会属性标签(职业、收入、资产、负债、学历)则可偏向于微博、招聘、财经等网站URL。

步骤2.2：爬取网络语料库种子URL以下各层级的网页数据。

使用某种调度工具(如kettle或crontab脚本)和某种爬虫工具(同步骤1.2中的爬虫工具)，以一定周期自动化地爬取目标网页的文本数据，并采用关系型数据库或NoSQL数据库对网页数据进行储存。

步骤2.3：网页信息解析、正文分词。

与步骤1.3所述的网页信息解析、正文分词方法一致。

步骤2.4：获取网络事件关键词。

对步骤2.3得到的分词结果过滤停止词(无意义的虚词，如英文的’the’、中文的’的’)，剩余的实词按内容分类维度汇总计算词频并从高到低排序，保留词频top N的词汇，再通过词典合并同义词，此时留下的词汇即作为网络事件关键词进行储存。N可根据业务需求等因素自行决定，如设为10000。

步骤3.1：对客户关键词和网络事件关键词进行相似度计算。

客户关键词和网络事件关键词的相似度计算，可使用基于认知语言学的语义网络(如英文的wordnet、中文的知网)来计算。具体算法可参考wordnet、知网的相关文献进行设计。

步骤3.2：用网络事件关键词替换客户关键词，得到客户的网络事件标签。

在步骤3.1计算出的两两相似度的基础上，设置阈值t，通常可取t＝0.5。如有客户关键词A和网络事件关键词B，其相似度为Sim(A,B)，若Sim(A,B)≥t，则用该网络事件关键词替换该客户关键词，并记录相似度；否则舍弃该客户关键词。全部替换完后，将所留下的网络事件关键词的相似度进行汇总，客户对关键词B的

if Sim(A,B)≥t，其中Sim(A,B)为两词的相似度，P_A为A词的词频。如此对全部留下的网络事件关键词计算完后，即得到客户网络事件标签与其偏好值，并采用关系型数据库或NoSQL数据库对标签数据进行储存。

步骤3.3：构建客户画像。

将客户网络事件标签与客户静态标签(性别、年龄、地域等)，按照客户id等主键进行关联，使得客户标签数据具有网络事件标签与静态标签两类数据，得到相对精准全面的客户画像。

虽然本发明已以较佳实施例揭示如上，然其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神和范围内，当可作些许的修改和完善，因此本发明的保护范围当以权利要求书所界定的为准。

Claims

1.一种基于大数据的客户网络行为画像方法，其特征在于，包括以下步骤：

步骤一：客户关键词提取

步骤1.2：通过目标客户请求的URL提取网页的信息；

步骤1.3：对提取的网页信息进行解析和正文分词；

步骤1.4：计算客户关键词；

步骤二：网络事件关键词提取

步骤2.1：根据业务需求，筛选网络语料库种子URL；

步骤2.2：爬取网络语料库种子URL以下各层级的网页数据；

步骤2.3：对爬取的网页信息进行解析和正文分词；

步骤2.4：计算网络事件关键词；

步骤三：根据客户关键词和网络事件关键词，构建客户画像

步骤3.1：对客户关键词和网络事件关键词进行相似度计算；

步骤3.3：构建客户画像；

所述步骤1.3中网页信息解析是采用正则表达式、XPATH以及CSS选择器对网页元素解析，并提取出标题、作者、关键字和正文元素，所述正文分词采用基于逆向隐马尔可夫模型的算法对网页正文部分进行分词；

所述步骤2.1包括：根据关注的特定业务领域，结合网站搜索排名、网站用户数指标，选择网络语料库的种子URL，通过所选的种子URL向下逐层爬取，从而得到特定网站特定分类的全部文章；

所述步骤3.1包括对步骤1.4和步骤2.4生成的关键词，两两配对计算其语义相似度；所述步骤3.2设置阈值t，如果相似度大于等于阈值t，则用该网络事件关键词替换该客户关键词，并记录相似度；否则舍弃该客户关键词；全部替换完后，将所留下的网络事件关键词的相似度进行汇总，即得到客户网络事件标签，并采用关系型数据库或NoSQL数据库对标签数据进行储存；

所述步骤3.3包括：将客户网络事件标签与客户静态标签，按照客户id进行关联，使得客户标签数据具有网络事件标签与静态标签两类数据，得到相对精准全面的客户画像。

2.如权利要求1所述的基于大数据的客户网络行为画像方法，其特征在于，所述步骤1.1包括：根据客户质量和业务需求预设检测周期和点击量，根据客户在预设的检测周期内浏览网页的点击量是否超过预设点击量来确定客户是否为活跃客户。

3.如权利要求1所述的基于大数据的客户网络行为画像方法，其特征在于，所述步骤1.2包括：对目标客户某时间段内浏览网页的日志信息进行清洗并抽取得到URL集合，再通过爬虫工具将URL对应的网页文本信息爬取到本地，并采用关系型数据库或NoSQL数据库对网页数据进行储存。

4.如权利要求1所述的基于大数据的客户网络行为画像方法，其特征在于，所述步骤1.4包括：对步骤1.3得到的分词结果过滤停止词，剩余的实词按客户维度汇总计算词频并从高到低排序，保留词频靠前的词汇，再通过词典合并同义词，最后留下的词汇作为客户关键词进行储存。

5.如权利要求1所述的基于大数据的客户网络行为画像方法，其特征在于，所述步骤2.2包括：使用调度工具和爬虫工具，定时爬取目标网页的文本数据，并采用关系型数据库或NoSQL数据库对网页数据进行储存。

6.如权利要求1所述的基于大数据的客户网络行为画像方法，其特征在于，所述步骤2.4包括：对步骤2.3得到的分词结果过滤停止词，剩余的实词按内容分类维度汇总计算词频并从高到低排序，保留词频靠前的词汇，再通过词典合并同义词，最后留下的词汇作为网络事件关键词进行储存。