CN105279191A

CN105279191A - 基于网络数据分析的潜在用户挖掘方法

Info

Publication number: CN105279191A
Application number: CN201410348303.2A
Authority: CN
Inventors: 吴晨
Original assignee: Individual
Current assignee: Individual
Priority date: 2014-07-22
Filing date: 2014-07-22
Publication date: 2016-01-27
Anticipated expiration: 2034-07-22
Also published as: CN105279191B

Abstract

本发明公开了一种基于网络数据分析的潜在用户挖掘方法，该方法包括：采集互联网网页；网页初始化，获取网页中的正文信息；抽取网页正文信息中可能存在的邮件地址、手机号码；针对存在邮件地址或者手机号码的网页正文信息，识别可能存在的人物描述信息；针对存在邮件地址或者手机号码的网页正文信息，进行分词，获取关键词组，并对每一关键词进行权重计算；对关键词进行权重排序，生成关键词特征向量，用于描述偏好信息；将邮件地址、手机号码、人物描述信息以及关键词特征向量保存至潜在用户数据库。本发明通过对网络数据的分析，挖掘潜在用户及其特点与偏好，据此可以实现针对性邮件、短信精准营销。

Description

基于网络数据分析的潜在用户挖掘方法

技术领域

　本发明涉及互联网数据处理领域，尤其是一种潜在用户挖掘方法。

背景技术

随着网络的不断发展和营销手段的不断更新，邮件营销、短信营销已经成为新兴的热门营销模式，在国内外都得到了广泛的应用。这类营销手段是将电子邮件、短信作为专业的营销工具，将企业的产品信息、促销信息等发送给目标用户，从而实现与顾客的快速高效沟通。

但是，由于发现目标用户本身不易，许多企业采用了基于邮件地址列表、手机号码段的盲目群发方式来进行产品营销，营销效果难言理想。许多用户收到很多对其毫无价值的商业电子邮件、短信，产生了垃圾邮件、骚扰短信的反感印象，点击率低、被举报，用户怨声载道时常发生。

邮件服务商、移动运营商、防火墙软件商为了迎合用户需要，解决垃圾邮件、短信泛滥问题，建立起了反垃圾邮件、短信机制，使得大部分群发的邮件、短信被送至垃圾箱甚至被彻底阻隔，造成了群发邮件、短信的投递效果大幅度下降，既产生了运营成本，又未能将信息及时送到用户处。

于是，如何发现潜在用户，如何对潜在用户进行区分并了解其感兴趣的内容，是目前很多企业在开展针对性营销时非常关心的问题。

而解决这一问题的核心就在于发现潜在用户的同时，发现用户特点，挖掘蕴藏在E-MAIL、手机号码背后的用户兴趣点，获取用户的真实需求。并据此实现个性化、小规模、低频率、高效率的精准邮件、短信营销。

面向互联网的潜在用户挖掘方法旨在通过行之有效的互联网数据分析手段建设可以揭示用户特征的潜在用户数据库。

相关技术如专利号为“201210248221.1”的专利公开的技术为“本发明提供一种移动互联网内容的用户偏好推送方法与装置，用于根据用户的访问获取用户的互联网内容偏好信息，同时根据该偏好信息向用户进行有针对性的内容推送"该移动互联网内容的用户偏好推送方法包括:基于用户的访问行为获取所述用户访问的第一信息;对所述第一信息所涉及的网络内容进行分类处理，得到第二信息;针对所述第二信息对所述用户的偏好进行评分，得出所述用户的偏好信息，根据所述偏好信息向相应的用户推送与所述偏好信息相对应的网络内容”。该方法实施过程中从移动互联网的服务器中得到所述用户访问的基础数据，包括用户访问的业务内容，此应用领域面向电信服务商自有服务运营层面。

相关技术如专利号为“201210121176.3”的专利公开的技术为“揭示了一种邮件群发方法及系统，该方法包括如下步骤：获取当前邮件所需发送的所有邮箱地址;将属于同一邮件域的邮箱地址进行汇总;将不同邮件域的邮箱地址均匀插分以生成发送队列;设定发送间隔时间，以使在所述发送队列中的同一邮件域的邮件发送间隔时间大于该邮件域服务商垃圾邮件的报警闭值;根据所述发送间隔时间和所述发送队列逐一发送邮件”。该方法解决的是优化邮件的发送时间间隔问题，确保发送时间间隔大于垃圾邮件报警闭值，从而提高群发邮件的达到率。不涉及用户及用户需求挖掘的问题。

发明内容

本发明的目的是针对上述问题，提供一种基于网络数据分析的潜在用户挖掘方法。所述技术方案如下：

一种基于网络数据分析的潜在用户挖掘方法，其步骤包括如下：

采集互联网网页；

网页初始化，获取网页中的正文信息；

抽取网页正文信息中可能存在的邮件地址、手机号码；

针对存在邮件地址或者手机号码的网页正文信息，识别可能存在的人物描述信息；

针对存在邮件地址或者手机号码的网页正文信息，进行分词，获取关键词组，并对每一关键词进行权重计算；

对关键词进行权重排序，生成特征关键词向量，用于描述偏好信息；

将邮件地址、手机号码、识别的可能存在的人物描述信息以及所生成的关键词特征向量保存至潜在用户数据库。

可选地，所述步骤采集互联网网页进一步包括：根据输入的预定网址，采集该网址下的所有网页。

可选地，所述人物描述信息包括：姓名、性别、出生年月、职务、职称。

可选地，在所述步骤对每一关键词进行权重计算之前，方法还包括:根据预先设置的停用词表对关键词组中的垃圾关键词进行过滤。

可选地，所述步骤对每一关键词进行权重计算进一部包括：计算关键词在正文中的词频（TF），同时计算该关键词的文件频率(IDF)，关键词权重为TF与IDF的乘积。

可选地，所述步骤对关键词进行权重排序之前，方法还包括：根据预先设定的权重阈值，对权重低于阈值的关键词从关键词组中删除。

本发明提供的技术方案的有益效果是：

通过对网络数据的分析，发现潜在用户，同时挖掘出蕴藏在用户联系方式背后的用户特点与偏好，进而生成潜在用户数据库。基于这一数据库，可以实现个性化、针对性、小规模、低重复的邮件、短信精准营销，避免盲目投递，消除负面影响。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是本发明潜在用户挖掘方法的流程图；

图2是本发明抽取邮件地址、手机号码的流程图；

图3是本发明识别人物描述信息的流程图。

具体实施方式

为了解决现有技术中邮件营销、短信营销的盲目性问题，本发明提供了一种基于网络数据分析的潜在用户挖掘方法，为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明实施方式作进一步地详细描述：

本实施例提供了一种基于网络数据分析的潜在用户挖掘方法，如图１所示，该方法包括：

步骤10采集互联网网页；

每隔一定时间对网络进行一次采集。本实施例中，采集间隔时间可以任意设置，依据所采集网站的特点而灵活设定。对于互动类的网站，如论坛，间隔时间设的较短；对于信息公开类的网站，如高校师生信息公开栏目，间隔时间设的很长。

优选地，为了有效降低采集规模、提升采集效率，考虑到采集目标内容的特点，本实施例根据输入的预定网址，只对URL中含有预定网址的网页进行采集，对于URL中不包含预定网址的网页删去不做处理。预定网址由维护人员依据经验输入。预定网址主要集中在论坛、博客、评论、电子公告板、电子商务网站、百科网站、信息公开类网站。

步骤20网页初始化，获取网页中的正文信息；

[35]优选地，所述正文信息包括：标题、正文内容、发布时间、网站名称。由于当所述网页来自互动类网站时，如论坛、电子公告板、博克，能够反映网页主题的很可能为其所在板块名称，所以针对论坛、电子公告板、博克时，网页正文信息还包括板块名称。

步骤30抽取网页正文信息中可能存在的邮件地址、手机号码；

邮件地址和手机号的抽取流程如图2所示，通过正则表达式匹配的方法来实现，具体流程包括：

步骤301在网页正文信息中匹配邮件地址正则表达式。

邮件地址正则表达式为：

如果匹配成功，执行步骤302，如果匹配失败，直接执行步骤303。

步骤302抽取上述匹配到的邮件地址，所抽取的邮件地址可能存在一个或者多个，抽取所有并输出。

步骤303在网页正文信息中匹配手机号码正则表达式。

手机号码正则表达式为：

如果匹配成功，执行步骤304，如果301、303均匹配失败，则返回失败。

步骤304抽取手机号码，所抽取的手机号码可能存在一个或者多个，抽取所有并输出。

步骤40针对正文信息中存在邮件地址或者手机号码的网页正文信息，识别可能存在的人物描述信息；

可能存在的人物描述信息包括：姓名、性别、出生年月、职务、职称。其中，姓名为必选项，否则认为网页中不存在人物描述信息。性别、出生年月、职务、职称为可选项，不要求都识别得到结果。姓名、性别、出生年月、职务、职称都根据预先定义的规则来识别。本实施例中，可能存在的人物描述信息用一个XML结构来描述并记录。

识别可能存在的人物描述信息的识别流程如图3所示。识别只针对正文中存在邮件地址或者手机号码的网页。

步骤401判断网页正文信息中是否存在人物描述信息特征词；

特征词包括：简介、介绍、履历、简历、个人陈述、工作经历。特征词由维护人员依据经验分析预先维护好。

如网页正文信息中存在人物描述信息特征词，执行步骤402，否则返回结论：网页正文信息中不存在人物描述信息。

步骤402判断网页正文信息中是否存在人名特征；

其存在条件为：在网页正文内容中匹配到人名特征字符串，并且仅匹配到一次，人名特征字符串的匹配正则表达式为：

如存在，执行步骤403，否则返回结论：网页正文信息中不存在人物描述信息。

步骤403抽取人名；

抽取上述匹配到的人名特征字符串，并写入上述XML结构相应标签中。

步骤404判断网页正文中是否存在性别特征词；

其存在条件为：网页正文内容中存在特征词：男、女，并且特征词只出现一次。

如符合存在条件，执行步骤405，否则执行步骤406。

步骤405抽取性别信息；

性别信息为上述正文内容中存在的性别特征词：男或者女，将其写入上述XML结构相应标签中。

步骤406判断网页正文内容中是否存在出生日期信息；

其存在条件为：在网页正文内容中匹配到出生日期特征字符串，并且仅匹配到一次，出生日期特征字符串的匹配正则表达式为：

如存在，执行步骤407，否则执行步骤408。

步骤407抽取出生日期信息；

抽取以上匹配到的出生日期特征字符串，写入上述XML结构相应标签中。

步骤408判断网页正文中是否存在职务信息；

本实施例中维护了一个职务信息数据库，数据库中枚举了所有可能的职务名称，如总经理、总裁、总统等。步骤408的处理流程为：依次获取职务信息数据库中的职务名称，判断该名称是否在网页正文信息中出现，如出现则执行步骤409，否则执行步骤410。职务信息数据库由维护人员依据现实情况预先维护好。

步骤409抽取职务信息；

将上述职务信息数据库中存在的，并且出现在网页正文内容中的职务名称写入XML结构相应标签中，如出现多个职务名称，一起写入XML结构相应标签中。

步骤410判断网页正文中是否存在职称信息；

本实施例中维护了一个职称信息数据库，数据库中枚举了所有可能的职称名称，如研究员、教授、编审等。步骤410的处理流程为：依次获取职称信息数据库中的职称名称，判断该名称是否在网页正文内容中出现，如出现则执行411，否则将上述步骤抽取到的人物描述信息XML结构输出。职称信息数据库由维护人员依据国家职称评定办法预先维护好。

步骤411抽取职称信息；

将上述职称信息数据库中存在的，并且出现在网页正文内容中的职称名称写入XML结构相应标签中，如出现多个职称名称，一起写入XML结构相应标签中。

最后，将上述步骤抽取到的人物描述信息XML结构整体输出。

步骤50针对存在邮件或者手机号码的网页正文信息，进行分词，获取关键词组，并对每一关键词进行权重计算；

优选的，在步骤50中，在对每一个关键词进行权重计算之前，为了更好地提取到能够反映网页正文信息的关键词，可以根据预先维护好的停用词表对获取的关键词组进行过滤，例如，将转载、方法、效率、比方等词过滤掉。

在步骤50中，对每一关键词进行权重计算的方法是：计算关键词在网页正文中的词频（TF），同时计算该关键词的文件频率(IDF)，将两者的乘积作为该关键词的权重。关键词权重的计算公式为：

步骤60对关键词进行权重排序，生成特征关键词向量，用于描述偏好信息；

依据关键词的权重，对关键词依据权重从大到小排序。优选地，为了限制关键词的数量，本实施例预先设定了有效关键词权重阈值，对权重低于阈值的关键词从关键词组中删除。

将关键词连同权重一并输出，作为表征网页正文信息的关键词特征向量，这一关键词特征向量将用来描述用户偏好。

步骤70将邮件地址、手机号码、识别的可能存在的人物描述信息以及所生成的关键词特征向量保存至潜在用户数据库；

[88]上述获取到的信息作为一组记录保存到潜在用户数据库中，其中关键词特征向量用来描述用户偏好。

为了更好的说明本发明所述方法的有益效果，本实施例不妨以一个示例说明基于本发明所述方案生成的潜在用户数据库的应用价值，如表1所示。表中第一列为开展的业务名称，表中第一行为潜在用户数据库中挖掘到的用户信息，表中其他位置为基于业务，针对潜在用户信息，所开展的精准营销的内容。

表1

必须指出的是，上述表1所述应用示例旨在说明本发明所述方法获取到的潜在用户数据库的应用价值，其内容不包含在本发明涉及的内容以及权利要求之内。

以上所述实施方式仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案作出的各种变形和改进，均应落入本发明的权利要求书确定的保护范围内。

Claims

1.一种基于网络数据分析的潜在用户挖掘方法，其特征在于，包括：

采集互联网网页；

网页初始化，获取网页中的正文信息；

抽取网页正文信息中可能存在的邮件地址、手机号码；

对关键词进行权重排序，生成关键词特征向量，用于描述偏好信息；

2.如权利要求1所述的方法，其特征在于：所述步骤采集互联网网页进一步包括：根据输入的预定网址，采集该网址下的所有网页。

3.如权利要求1所述的方法，其特征在于：所述抽取网页正文信息中可能存在的邮件地址、手机号码进一步包括：

在网页正文信息中匹配邮件地址正则表达式；

抽取成功匹配的邮件地址；

在网页正文信息中匹配手机号码正则表达式；

抽取成功匹配的手机号码。

4.如权利要求3所述的方法，其特征在于：邮件地址正则表达式为：

。

5.如权利要求3所述的方法，其特征在于：手机号码正则表达式为：

。

6.如权利要求1所述的方法，其特征在于：所述人物描述信息包括：姓名、性别、出生年月、职务、职称。

7.如权利要求1、6所述的方法，其特征在于：所述识别可能存在的人物描述信息进一步包括：

判断网页正文信息中是否存在人物描述信息特征词；

判断网页正文信息中是否存在人名特征；

抽取人名；

判断网页正文中是否存在性别特征词；

抽取性别信息；

判断网页正文内容中是否存在出生日期信息；

抽取出生日期信息；

判断网页正文中是否存在职务信息；

抽取职务信息；

判断网页正文中是否存在职称信息；

抽取职称信息；

将上述步骤抽取到的人物描述信息整体输出。

8.如权利要求7所述的方法，其特征在于：存在人名特征的条件进一步为：在网页正文内容中匹配到人名特征字符串，并且仅匹配到一次，人名特征字符串的匹配正则表达式为：

。

9.如权利要求7所述的方法，其特征在于：存在出生日期信息条件进一步为：在网页正文内容中匹配到出生日期特征字符串，并且仅匹配到一次，出生日期特征字符串的匹配正则表达式为：

。

10.如权利要求1所述的方法，其特征在于：对每一关键词进行权重计算进一步包括：计算关键词在正文中的词频（TF），同时计算该关键词的文件频率(IDF)，关键词权重为TF与IDF的乘积，关键词权重的计算公式为：

。