CN104268292A

CN104268292A - 画像系统的标签词库更新方法

Info

Publication number: CN104268292A
Application number: CN201410572863.6A
Authority: CN
Inventors: 石忠民; 徐亚波; 王树辰; 何金城
Original assignee: GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Current assignee: HUDONGPAI TECHNOLOGY CO.,LTD.
Priority date: 2014-10-23
Filing date: 2014-10-23
Publication date: 2015-01-07
Anticipated expiration: 2034-10-23
Also published as: CN104268292B

Abstract

本发明涉及画像系统的标签词库更新方法，其包括：获取用户的画像数据，所述画像数据包括用于描述所述用户的标签和所述用户发表的原始文本；当标签的数量与原始文本的数量的比值小于预设的第一阈值时，对所述用户发表的所有原始文本进行分词处理，以得到多个标签候选词，并将标签候选词发送至推荐系统；推荐系统计算每一个标签候选词与预设的词向量模型文件中每一个词的向量距离，将存在向量距离大于预设的第二阈值的标签候选词加入到标签词库中，将不存在向量距离大于第二阈值的标签候选词删除。本发明能够及时对标签词库进行更新，以更好地对用户进行描述。

Description

画像系统的标签词库更新方法

技术领域

本发明涉及计算机信息处理技术，具体涉及画像系统的标签词库更新方法。

背景技术

随着数据采集、存储技术的不断发展，大量的用户个人数据、社交数据、活动数据被记录下来，在精准营销、个性化推荐等领域均有着广泛应用。

目前的画像系统多是根据某个企业用户的需求进行定制设计开发，数据来源单一。对于画像服务而言，标签体系是刻画用户特性的基础之一，要求有足够的覆盖面及细粒度，然而传统的标签体系通常有以下几个问题：1)固定的标签集合很难满足业务的弹性需求；2)上层标签太通用，无法描述特定的细分人群。另外，简单的关键词模型对通用类别词的效果不佳，并且缺少高质量多层多分类的模型训练数据。

目前与本发明技术相关的技术有用户标签分析、标签推荐系统、文本分类、索引服务、海量数据处理架构等方面。

(1)用户行为分析

用户行为分析的概念是对有关数据进行统计、分析，从中发现用户行为规律并将这些规律与网络营销策略相结合，从而发现目前网络营销活动中可能存在的问题，并为进一步修正或重新制定网络营销策略提供有效依据。

用户行为分析的意义在于通过对用户行为监测获得的数据进行分析，可以让企业更加详细、清楚地了解用户的行为习惯，从而找出网站、推广渠道等企业营销环境存在的问题，有助于企业发掘高转化率页面，让企业的营销更加精准、有效，提高业务转化率，从而提升企业的收益。

国外对网络用户行为的研究起步很早，从1994年开始就有机构对用户的使用行为进行初步的统计分析，探讨各类网络用户行为的表现、策略以及影响因素。Tillontson等人对多伦多大学的学生及教学人员使用网络的情况进行了调查和分析，包括确定因特网的用户有哪些、他们性别和学历上存在哪些差异、上网地点、用因特网查询什么、对查找结构是否满意、对大学提供的上网设施是否满意、对系统改进的建议等。而国内研究基础相对比较薄弱，目前国内对用户行为的研究主要体现对我国网民的网络行为的统计、分析和比较，这其中包括对网民性别、年龄、上网地点、上网方式、上网时间段以及网民文化程度，所从事的职业等不同角度进行分析。

现今的用户行为分析系统大多只是在某一单一数据源上进行分析，无法准确分析出用户在整体社会中的行为特点。而我们的系统支持多数据源的用户行为分析，并且对多数据源的分析结果进行整合，准确概括出用户的行为特征属性。

(2)推荐系统

个性化推荐是根据用户的兴趣特点和购买行为，向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大，商品个数和种类快速增长，顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题，个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台，以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。

互联网的出现和普及给用户带来了大量的信息，满足了用户在信息时代对信息的需求，但随着网络的迅速发展而带来的网上信息量的大幅增长，使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息，对信息的使用效率反而降低了，这就是所谓的信息超载(informationoverload)问题。

解决信息超载问题一个非常有潜力的办法是推荐系统，它是根据用户的信息需求、兴趣等，将用户感兴趣的信息、产品等推荐给用户的个性化信息推荐系统。和搜索引擎相比推荐系统通过研究用户的兴趣偏好，进行个性化计算，由系统发现用户的兴趣点，从而引导用户发现自己的信息需求。一个好的推荐系统不仅能为用户提供个性化的服务，还能和用户之间建立密切关系，让用户对推荐产生依赖。

推荐系统现已广泛应用于很多领域，其中最典型并具有良好的发展和应用前景的领域就是电子商务领域。同时学术界对推荐系统的研究热度一直很高，逐步形成了一门独立的学科。

推荐系统利用电子商务网站向客户提供商品信息和建议，帮助用户决定应该购买什么产品，模拟销售人员帮助客户完成购买过程。

推荐系统有3个重要的模块：用户建模模块、推荐对象建模模块、推荐算法模块。推荐系统把用户模型中兴趣需求信息和推荐对象模型中的特征信息匹配，同时使用相应的推荐算法进行计算筛选，找到用户可能感兴趣的推荐对象，然后推荐给用户。

推荐系统主要推荐方法:

基于内容推荐

基于内容的推荐(Content-based Recommendation)是信息过滤技术的延续与发展，它是建立在项目的内容信息上作出推荐的，而不需要依据用户对项目的评价意见，更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。在基于内容的推荐系统中，项目或对象是通过相关的特征的属性来定义，系统基于用户评价对象的特征，学习用户的兴趣，考察用户资料与待预测项目的相匹配程度。用户的资料模型取决于所用学习方法，常用的有决策树、神经网络和基于向量的表示方法等。基于内容的用户资料是需要有用户的历史数据，用户资料模型可能随着用户的偏好改变而发生变化。

基于内容推荐方法的优点是：

1)不需要其它用户的数据，没有冷开始问题和稀疏问题。

2)能为具有特殊兴趣爱好的用户进行推荐。

3)能推荐新的或不是很流行的项目，没有新项目问题。

4)通过列出推荐项目的内容特征，可以解释为什么推荐那些项目。

5)已有比较好的技术，如关于分类学习方面的技术已相当成熟。

缺点是要求内容能容易抽取成有意义的特征，要求特征内容有良好的结构性，并且用户的口味必须能够用内容特征形式来表达，不能显式地得到其它用户的判断情况。

协同过滤推荐

协同过滤推荐(Collaborative Filtering Recommendation)技术是推荐系统中应用最早和最为成功的技术之一。它一般采用最近邻技术，利用用户的历史喜好信息计算用户之间的距离，然后利用目标用户的最近邻居用户对商品评价的加权评价值来预测目标用户对特定商品的喜好程度，系统从而根据这一喜好程度来对目标用户进行推荐。协同过滤最大优点是对推荐对象没有特殊的要求，能处理非结构化的复杂对象，如音乐、电影。

协同过滤是基于这样的假设：为一用户找到他真正感兴趣的内容的好方法是首先找到与此用户有相似兴趣的其他用户，然后将他们感兴趣的内容推荐给此用户。其基本思想非常易于理解，在日常生活中，我们往往会利用好朋友的推荐来进行一些选择。协同过滤正是把这一思想运用到电子商务推荐系统中来，基于其他用户对某一内容的评价来向目标用户进行推荐。

基于协同过滤的推荐系统可以说是从用户的角度来进行相应推荐的，而且是自动的即用户获得的推荐是系统从购买模式或浏览行为等隐式获得的，不需要用户努力地找到适合自己兴趣的推荐信息，如填写一些调查表格等。

和基于内容的过滤方法相比，协同过滤具有如下的优点：

1)能够过滤难以进行机器自动内容分析的信息，如艺术品，音乐等。

2)共享其他人的经验，避免了内容分析的不完全和不精确，并且能够基于一些复杂的，难以表述的概念(如信息质量、个人品味)进行过滤。

3)有推荐新信息的能力。可以发现内容上完全不相似的信息，用户对推荐信息的内容事先是预料不到的。这也是协同过滤和基于内容的过滤一个较大的差别，基于内容的过滤推荐很多都是用户本来就熟悉的内容，而协同过滤可以发现用户潜在的但自己尚未发现的兴趣偏好。

4)能够有效的使用其他相似用户的反馈信息，较少用户的反馈量，加快个性化学习的速度。

虽然协同过滤作为一种典型的推荐技术有其相当的应用，但协同过滤仍有许多的问题需要解决。最典型的问题有稀疏问题(Sparsity)和可扩展问题(Scalability)。

基于关联规则推荐

基于关联规则的推荐(Association Rule-basedRecommendation)是以关联规则为基础，把已购商品作为规则头，规则体为推荐对象。关联规则挖掘可以发现不同商品在销售过程中的相关性，在零售业中已经得到了成功的应用。管理规则就是在一个交易数据库中统计购买了商品集X的交易中有多大比例的交易同时购买了商品集Y，其直观的意义就是用户在购买某些商品的时候有多大倾向去购买另外一些商品。比如购买牛奶的同时很多人会同时购买面包。

算法的第一步关联规则的发现最为关键且最耗时，是算法的瓶颈，但可以离线进行。其次，商品名称的同义性问题也是关联规则的一个难点。

基于效用推荐

基于效用的推荐(Utility-based Recommendation)是建立在对用户使用项目的效用情况上计算的，其核心问题是怎么样为每一个用户去创建一个效用函数，因此，用户资料模型很大程度上是由系统所采用的效用函数决定的。基于效用推荐的好处是它能把非产品的属性，如提供商的可靠性(Vendor Reliability)和产品的可得性(Product Availability)等考虑到效用计算中。

基于知识推荐

基于知识的推荐(Knowledge-based Recommendation)在某种程度是可以看成是一种推理(Inference)技术，它不是建立在用户需要和偏好基础上推荐的。基于知识的方法因它们所用的功能知识不同而有明显区别。效用知识(Functional Knowledge)是一种关于一个项目如何满足某一特定用户的知识，因此能解释需要和推荐的关系，所以用户资料可以是任何能支持推理的知识结构，它可以是用户已经规范化的查询，也可以是一个更详细的用户需要的表示。

组合推荐

由于各种推荐方法都有优缺点，所以在实际中，组合推荐(HybridRecommendation)经常被采用。研究和应用最多的是内容推荐和协同过滤推荐的组合。最简单的做法就是分别用基于内容的方法和协同过滤推荐方法去产生一个推荐预测结果，然后用某方法组合其结果。尽管从理论上有很多种推荐组合方法，但在某一具体问题中并不见得都有效，组合推荐一个最重要原则就是通过组合后要能避免或弥补各自推荐技术的弱点。

在组合方式上，有研究人员提出了七种组合思路：

1)加权(Weight)：加权多种推荐技术结果。

2)变换(Switch)：根据问题背景和实际情况或要求决定变换采用不同的推荐技术。

3)混合(Mixed)：同时采用多种推荐技术给出多种推荐结果为用户提供参考。

4)特征组合(Feature combination)：组合来自不同推荐数据源的特征被另一种推荐算法采用。

5)层叠(Cascade)：先用一种推荐技术产生一种粗糙的推荐结果，第二种推荐技术在此推荐结果的基础上进一步作出更精确的推荐。

6)特征扩充(Feature augmentation)：一种技术产生附加的特征信息嵌入到另一种推荐技术的特征输入中。

7)元级别(Meta-level)：用一种推荐方法产生的模型作为另一种推荐方法的输入。

(3)文本分类

文本分类的过程一般包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程，其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤。文本分类系统的总体功能模块为：

1)预处理：将原始语料格式化为同一格式，便于后续的统一处理；

2)索引：将文档分解为基本处理单元，同时降低后续处理的开销；

3)统计：词频统计，项(单词、概念)与分类的相关概率；

4)特征抽取：从文档中抽取出反映文档主题的特征；

5)分类器：分类器的训练；

6)评价：分类器的测试结果分析。

(4)索引服务

索引服务是从一组文档中提取信息，并组织该信息，以便能够通过Windows Server 2003的“搜索”功能、索引服务查询表或Web浏览器快速地进行访问。该信息可以包含文档中的文字(内容)和文档的特征及参数(属性)，例如作者姓名。一旦创建了索引，就可以查询包含关键字或者属性的文档的索引。例如，可以查询所以包含单词“management”的文档，也可以查询特定作者写的所有MicrosoftOffice文档。索引服务将返回符合搜索条件的所有文档的列表。

(5)海量数据处理架构

Hadoop框架是Apache基金会用java语言实现的开源分布式计算框架，其可在大型集群的硬件设备上有效运行，并且它还实现了对大型集群设备的控制和管理；同时，Hadoop也能为各种采用分布式架构的应用程序提供稳定可靠的接口，接口实现了海量数据的运算和管理。编程人员可以在不了解分布式底层细节的情况下，开发分布式的应用程序，并且开发的分布式应用程序也可以充分利用大型集群高速的运算能力和庞大的存储能力。

Hadoop最核心的内容是分布式文件系统(Hadoop DistributedFile System，简称为HDFS)和Map/Reduce计算模型。分布式文件系统(HDFS)有高容错性的特点，并且它能提供高吞吐量的数据访问功能，非常适合大规模信息的运算处理；Map/Reduce计算模型是Hadoop分布式的核心计算模型，该模型能将复杂的分布式运算过程高度抽象为Map和Reduce两个任务，从而使分布式应用的开发编程变得简单并且有效。

目前的画像系统没有对其标签词库设置更新机制，导致随着时间的推移，无法更为准确的对用户进行标签描述。

发明内容

本发明的目的在于提出一种画像系统的标签词库更新方法，其能解决标签词库没有更新提醒的问题。

为了达到上述目的，本发明所采用的技术方案如下：

画像系统的标签词库更新方法，其包括以下步骤：

步骤1、获取用户的画像数据，所述画像数据包括用于描述所述用户的标签和所述用户发表的原始文本；

步骤2、当标签的数量与原始文本的数量的比值小于预设的第一阈值时，对所述用户发表的所有原始文本进行分词处理，以得到多个标签候选词，并将标签候选词发送至推荐系统；

步骤3、推荐系统计算每一个标签候选词与预设的词向量模型文件中每一个词的向量距离，将存在向量距离大于预设的第二阈值的标签候选词加入到标签词库中，将不存在向量距离大于第二阈值的标签候选词删除。

优选的，步骤3之后还有以下步骤：

步骤4、将与标签候选词的向量距离大于第二阈值的词与标签词库中的标签词进行比对处理，若有超过第三阈值数量的词不在标签词库中时，执行步骤5，否则执行步骤1；

步骤5、计算标签词库中的每一个标签词与词向量转换模块的词库中每一个实体词的向量距离，将向量距离大于预设的第四阈值的实体词加入到标签词库中。进一步优选的，所述词向量转换模块为谷歌公司的word2vec工具。

优选的，所述词向量模型文件的训练过程如下：

选取一个自然语言的语料库；

对语料库中的语料进行分词处理，以得到多个语料词；

通过词向量转换模块计算每一个语料词的向量，并将语料词及其对应的向量保存至所述词向量模型文件中。

本发明具有如下有益效果：

能够及时对标签词库进行更新，以更好地对用户进行描述。

附图说明

图1为本发明较佳实施例的画像系统的标签词库更新方法的流程图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述。

标签词库，给用户打标签用的词库，其组成可以是：从微博上爬取的用户标签，由服务提供商提供的感兴趣的标签，在大量文本中通过ansj分词技术和tf.idf分离出来的高频关键词。

开始时，标签词库并不大，因此并不能够覆盖到足够多的标签。再加上随时间的推移，可用于标签的热词或新词也在不断发生变化。因此，每隔一段时间就需要对标签词库进行更新。

基于上述背景，本实施例提供了一种画像系统的标签词库更新方法，其包括以下步骤：

步骤S1、获取用户的画像数据，所述画像数据包括用于描述所述用户的标签和所述用户发表的原始文本。例如，所述原始文本可以是微博原文、论坛原文等。

步骤S2、当标签的数量与原始文本的数量的比值小于预设的第一阈值时，对所述用户发表的所有原始文本进行分词处理，以得到多个标签候选词，并将标签候选词发送至推荐系统。

具体过程如下：

对于每个用户，获取其标签数量#tag和该用户的原始文本条数#userdata，计算他们的比值#tag/#userdata，如果该比值小于第一阈值，则将该用户所有的原始文本取出，并入到集合S_data中。

对S_data集合中的每条原始文本进行分词，得到一组词w＝{w₁，w₂，…}；

然后计算所有词w在S_data中出现的频次，为了减少计算量，这一步的值可以直接通过已经计算出来的词到频次的映射表获得。词频作为衡量一个词在文本中重要程度的标准，当文本数量大到一定量时，词频的排序基本不变，所以可以用已计算获得的词频来评估新文本中各个词在文本中的重要程度。

对所有词按词频排序，同时将一些没有标签意义的词过滤掉，如“我们”、“你们”、“于是”、“或者”这样的一类词和停用词。过滤后剩下的词，成为标签候选词。

步骤S3、推荐系统计算每一个标签候选词与预设的词向量模型文件中每一个词的向量距离，将存在向量距离大于预设的第二阈值的标签候选词加入到标签词库中(其说明该标签候选词能够得到推荐系统的返回推荐结果)，将不存在向量距离大于第二阈值的标签候选词删除(其说明该标签候选词无法得到推荐系统的识别)。这一步主要用于保证metalabel词库中的词一定会出现在推荐系统中，从而能够获得推荐。

推荐系统需要用到词向量模型文件，其内容为词汇与其相应转化后的向量之间的映射关系。

根据时间维度或集中出现重大突发事件等情况，适时重新训练词向量模型文件。例如，某一时间段内连续发生重大事件，可以选择在这段时间内重新收集包含这些重大事件关键词的语料来训练；或者半年(3个月)内都没有更新过语料库，可以选择重新收集最近时间段内的语料来进行模型文件训练。

以下是词向量模型文件训练过程：

步骤S21、选取一个自然语言的语料库。语料库的选择多种多样。最简单的，可以到一些公司的分享中下载回来，国外的如Yahoo！、Google等，国内的如搜狗等公司都会分享一些语料库。其次，可以使用爬取微博内容作为语料库。更为一般的，是通过爬虫爬取各种网站的文本内容，集合成一个语料库。

步骤S22、对语料库中的语料进行分词处理，以得到多个语料词。分词算法有不少，常用的有ik分词和ansj分词，这两种分词都有非常好的理论支撑，有很多论文。还有一种跟简单的分词方法叫最大后向匹配(backward max match)。本实施例使用的就是这种方法。

最大后向匹配算法，需要一个词典，用于匹配文本并分词，称词典为dict。分词过程用以下例子来说明。现在要对“我爱北京天安门”这句话进行分词。

首先，算法把“我爱北京天安门”当做一个词，到词典dict中匹配，发现没有这个词，于是算法把词的长度往后减1；

这个时候，算法将“爱北京天安门”当作一个词，到dict中匹配，发现没有这个词，又将词的长度往后减1；

依此类推，一直到词“天安门”，算法发现它在dict中，于是得到了“天安门”这个词。

接着，算法对剩下的部分“我爱北京”使用同样的方式进行分词。如此重复，会得到“北京”“爱”“我”这些词。

步骤S23、通过词向量转换模块计算每一个语料词的向量，并将语料词及其对应的向量保存至所述词向量模型文件中。语料词的向量为谷歌公司的word2vec工具。

步骤S4、将与标签候选词的向量距离大于第二阈值的词与标签词库中的标签词进行比对处理，若有超过第三阈值数量的词不在标签词库中时，例如，有超过80％数量的词都不在标签词库中，就需要执行步骤S5，否则执行步骤S1。

步骤S5、计算标签词库中的每一个标签词与词向量转换模块的词库中每一个实体词的向量距离，将向量距离大于预设的第四阈值的实体词加入到标签词库中。

比对过程为：对标签词库中{m₁，m₂，…}的每个词m，使用word2vec获得m的近似词(即对应的实体词，该实体词位于word2vec的词库中)和对应的近似度(即对应的向量距离)。舍弃近似度低于第四阈值的近似词，保留高于第四阈值的近似词。

在word2vec的词库中每个实体词被表示为一个向量。标签词库中的词m_i对应的词向量为v_i，计算m_i与word2vec的词库中其他所有词w所对应向量的cos距离得到相似度。假定m_i对应的向量v_i＝<a，b，c>，word2vec的词库中某个词w_j对应的向量为u_j＝<d，e，f>，则m_i和w_j之间的相似度为：

(a \times d + b \times e + c \times f) / (\sqrt{a^{2} + b^{2} + c^{2}} \times \sqrt{d^{2} + e^{2} + f^{2}}) .

通过本实施例的方法，可以实时保持标签词库随时间推移而更新。

对于本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及变形，而所有的这些改变以及变形都应该属于本发明权利要求的保护范围之内。

Claims

1.画像系统的标签词库更新方法，其特征在于，包括以下步骤：

2.如权利要求1所述的标签词库更新方法，其特征在于，步骤3之后还有以下步骤：

步骤5、计算标签词库中的每一个标签词与词向量转换模块的词库中每一个实体词的向量距离，将向量距离大于预设的第四阈值的实体词加入到标签词库中。

3.如权利要求2所述的标签词库更新方法，其特征在于，所述词向量转换模块为谷歌公司的word2vec工具。

4.如权利要求1所述的标签词库更新方法，其特征在于，所述词向量模型文件的训练过程如下：

选取一个自然语言的语料库；

对语料库中的语料进行分词处理，以得到多个语料词；