CN104268292A - 画像系统的标签词库更新方法 - Google Patents

画像系统的标签词库更新方法 Download PDF

Info

Publication number
CN104268292A
CN104268292A CN201410572863.6A CN201410572863A CN104268292A CN 104268292 A CN104268292 A CN 104268292A CN 201410572863 A CN201410572863 A CN 201410572863A CN 104268292 A CN104268292 A CN 104268292A
Authority
CN
China
Prior art keywords
word
label
user
vector
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410572863.6A
Other languages
English (en)
Other versions
CN104268292B (zh
Inventor
石忠民
徐亚波
王树辰
何金城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HUDONGPAI TECHNOLOGY CO.,LTD.
Original Assignee
GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD filed Critical GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority to CN201410572863.6A priority Critical patent/CN104268292B/zh
Publication of CN104268292A publication Critical patent/CN104268292A/zh
Application granted granted Critical
Publication of CN104268292B publication Critical patent/CN104268292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2358Change logging, detection, and notification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及画像系统的标签词库更新方法,其包括:获取用户的画像数据,所述画像数据包括用于描述所述用户的标签和所述用户发表的原始文本;当标签的数量与原始文本的数量的比值小于预设的第一阈值时,对所述用户发表的所有原始文本进行分词处理,以得到多个标签候选词,并将标签候选词发送至推荐系统;推荐系统计算每一个标签候选词与预设的词向量模型文件中每一个词的向量距离,将存在向量距离大于预设的第二阈值的标签候选词加入到标签词库中,将不存在向量距离大于第二阈值的标签候选词删除。本发明能够及时对标签词库进行更新,以更好地对用户进行描述。

Description

画像系统的标签词库更新方法
技术领域
本发明涉及计算机信息处理技术,具体涉及画像系统的标签词库更新方法。
背景技术
随着数据采集、存储技术的不断发展,大量的用户个人数据、社交数据、活动数据被记录下来,在精准营销、个性化推荐等领域均有着广泛应用。
目前的画像系统多是根据某个企业用户的需求进行定制设计开发,数据来源单一。对于画像服务而言,标签体系是刻画用户特性的基础之一,要求有足够的覆盖面及细粒度,然而传统的标签体系通常有以下几个问题:1)固定的标签集合很难满足业务的弹性需求;2)上层标签太通用,无法描述特定的细分人群。另外,简单的关键词模型对通用类别词的效果不佳,并且缺少高质量多层多分类的模型训练数据。
目前与本发明技术相关的技术有用户标签分析、标签推荐系统、文本分类、索引服务、海量数据处理架构等方面。
(1)用户行为分析
用户行为分析的概念是对有关数据进行统计、分析,从中发现用户行为规律并将这些规律与网络营销策略相结合,从而发现目前网络营销活动中可能存在的问题,并为进一步修正或重新制定网络营销策略提供有效依据。
用户行为分析的意义在于通过对用户行为监测获得的数据进行分析,可以让企业更加详细、清楚地了解用户的行为习惯,从而找出网站、推广渠道等企业营销环境存在的问题,有助于企业发掘高转化率页面,让企业的营销更加精准、有效,提高业务转化率,从而提升企业的收益。
国外对网络用户行为的研究起步很早,从1994年开始就有机构对用户的使用行为进行初步的统计分析,探讨各类网络用户行为的表现、策略以及影响因素。Tillontson等人对多伦多大学的学生及教学人员使用网络的情况进行了调查和分析,包括确定因特网的用户有哪些、他们性别和学历上存在哪些差异、上网地点、用因特网查询什么、对查找结构是否满意、对大学提供的上网设施是否满意、对系统改进的建议等。而国内研究基础相对比较薄弱,目前国内对用户行为的研究主要体现对我国网民的网络行为的统计、分析和比较,这其中包括对网民性别、年龄、上网地点、上网方式、上网时间段以及网民文化程度,所从事的职业等不同角度进行分析。
现今的用户行为分析系统大多只是在某一单一数据源上进行分析,无法准确分析出用户在整体社会中的行为特点。而我们的系统支持多数据源的用户行为分析,并且对多数据源的分析结果进行整合,准确概括出用户的行为特征属性。
(2)推荐系统
个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对信息的需求,但随着网络的迅速发展而带来的网上信息量的大幅增长,使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,这就是所谓的信息超载(informationoverload)问题。
解决信息超载问题一个非常有潜力的办法是推荐系统,它是根据用户的信息需求、兴趣等,将用户感兴趣的信息、产品等推荐给用户的个性化信息推荐系统。和搜索引擎相比推荐系统通过研究用户的兴趣偏好,进行个性化计算,由系统发现用户的兴趣点,从而引导用户发现自己的信息需求。一个好的推荐系统不仅能为用户提供个性化的服务,还能和用户之间建立密切关系,让用户对推荐产生依赖。
推荐系统现已广泛应用于很多领域,其中最典型并具有良好的发展和应用前景的领域就是电子商务领域。同时学术界对推荐系统的研究热度一直很高,逐步形成了一门独立的学科。
推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。
推荐系统有3个重要的模块:用户建模模块、推荐对象建模模块、推荐算法模块。推荐系统把用户模型中兴趣需求信息和推荐对象模型中的特征信息匹配,同时使用相应的推荐算法进行计算筛选,找到用户可能感兴趣的推荐对象,然后推荐给用户。
推荐系统主要推荐方法:
基于内容推荐
基于内容的推荐(Content-based Recommendation)是信息过滤技术的延续与发展,它是建立在项目的内容信息上作出推荐的,而不需要依据用户对项目的评价意见,更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。在基于内容的推荐系统中,项目或对象是通过相关的特征的属性来定义,系统基于用户评价对象的特征,学习用户的兴趣,考察用户资料与待预测项目的相匹配程度。用户的资料模型取决于所用学习方法,常用的有决策树、神经网络和基于向量的表示方法等。基于内容的用户资料是需要有用户的历史数据,用户资料模型可能随着用户的偏好改变而发生变化。
基于内容推荐方法的优点是:
1)不需要其它用户的数据,没有冷开始问题和稀疏问题。
2)能为具有特殊兴趣爱好的用户进行推荐。
3)能推荐新的或不是很流行的项目,没有新项目问题。
4)通过列出推荐项目的内容特征,可以解释为什么推荐那些项目。
5)已有比较好的技术,如关于分类学习方面的技术已相当成熟。
缺点是要求内容能容易抽取成有意义的特征,要求特征内容有良好的结构性,并且用户的口味必须能够用内容特征形式来表达,不能显式地得到其它用户的判断情况。
协同过滤推荐
协同过滤推荐(Collaborative Filtering Recommendation)技术是推荐系统中应用最早和最为成功的技术之一。它一般采用最近邻技术,利用用户的历史喜好信息计算用户之间的距离,然后利用目标用户的最近邻居用户对商品评价的加权评价值来预测目标用户对特定商品的喜好程度,系统从而根据这一喜好程度来对目标用户进行推荐。协同过滤最大优点是对推荐对象没有特殊的要求,能处理非结构化的复杂对象,如音乐、电影。
协同过滤是基于这样的假设:为一用户找到他真正感兴趣的内容的好方法是首先找到与此用户有相似兴趣的其他用户,然后将他们感兴趣的内容推荐给此用户。其基本思想非常易于理解,在日常生活中,我们往往会利用好朋友的推荐来进行一些选择。协同过滤正是把这一思想运用到电子商务推荐系统中来,基于其他用户对某一内容的评价来向目标用户进行推荐。
基于协同过滤的推荐系统可以说是从用户的角度来进行相应推荐的,而且是自动的即用户获得的推荐是系统从购买模式或浏览行为等隐式获得的,不需要用户努力地找到适合自己兴趣的推荐信息,如填写一些调查表格等。
和基于内容的过滤方法相比,协同过滤具有如下的优点:
1)能够过滤难以进行机器自动内容分析的信息,如艺术品,音乐等。
2)共享其他人的经验,避免了内容分析的不完全和不精确,并且能够基于一些复杂的,难以表述的概念(如信息质量、个人品味)进行过滤。
3)有推荐新信息的能力。可以发现内容上完全不相似的信息,用户对推荐信息的内容事先是预料不到的。这也是协同过滤和基于内容的过滤一个较大的差别,基于内容的过滤推荐很多都是用户本来就熟悉的内容,而协同过滤可以发现用户潜在的但自己尚未发现的兴趣偏好。
4)能够有效的使用其他相似用户的反馈信息,较少用户的反馈量,加快个性化学习的速度。
虽然协同过滤作为一种典型的推荐技术有其相当的应用,但协同过滤仍有许多的问题需要解决。最典型的问题有稀疏问题(Sparsity)和可扩展问题(Scalability)。
基于关联规则推荐
基于关联规则的推荐(Association Rule-basedRecommendation)是以关联规则为基础,把已购商品作为规则头,规则体为推荐对象。关联规则挖掘可以发现不同商品在销售过程中的相关性,在零售业中已经得到了成功的应用。管理规则就是在一个交易数据库中统计购买了商品集X的交易中有多大比例的交易同时购买了商品集Y,其直观的意义就是用户在购买某些商品的时候有多大倾向去购买另外一些商品。比如购买牛奶的同时很多人会同时购买面包。
算法的第一步关联规则的发现最为关键且最耗时,是算法的瓶颈,但可以离线进行。其次,商品名称的同义性问题也是关联规则的一个难点。
基于效用推荐
基于效用的推荐(Utility-based Recommendation)是建立在对用户使用项目的效用情况上计算的,其核心问题是怎么样为每一个用户去创建一个效用函数,因此,用户资料模型很大程度上是由系统所采用的效用函数决定的。基于效用推荐的好处是它能把非产品的属性,如提供商的可靠性(Vendor Reliability)和产品的可得性(Product Availability)等考虑到效用计算中。
基于知识推荐
基于知识的推荐(Knowledge-based Recommendation)在某种程度是可以看成是一种推理(Inference)技术,它不是建立在用户需要和偏好基础上推荐的。基于知识的方法因它们所用的功能知识不同而有明显区别。效用知识(Functional Knowledge)是一种关于一个项目如何满足某一特定用户的知识,因此能解释需要和推荐的关系,所以用户资料可以是任何能支持推理的知识结构,它可以是用户已经规范化的查询,也可以是一个更详细的用户需要的表示。
组合推荐
由于各种推荐方法都有优缺点,所以在实际中,组合推荐(HybridRecommendation)经常被采用。研究和应用最多的是内容推荐和协同过滤推荐的组合。最简单的做法就是分别用基于内容的方法和协同过滤推荐方法去产生一个推荐预测结果,然后用某方法组合其结果。尽管从理论上有很多种推荐组合方法,但在某一具体问题中并不见得都有效,组合推荐一个最重要原则就是通过组合后要能避免或弥补各自推荐技术的弱点。
在组合方式上,有研究人员提出了七种组合思路:
1)加权(Weight):加权多种推荐技术结果。
2)变换(Switch):根据问题背景和实际情况或要求决定变换采用不同的推荐技术。
3)混合(Mixed):同时采用多种推荐技术给出多种推荐结果为用户提供参考。
4)特征组合(Feature combination):组合来自不同推荐数据源的特征被另一种推荐算法采用。
5)层叠(Cascade):先用一种推荐技术产生一种粗糙的推荐结果,第二种推荐技术在此推荐结果的基础上进一步作出更精确的推荐。
6)特征扩充(Feature augmentation):一种技术产生附加的特征信息嵌入到另一种推荐技术的特征输入中。
7)元级别(Meta-level):用一种推荐方法产生的模型作为另一种推荐方法的输入。
(3)文本分类
文本分类的过程一般包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程,其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤。文本分类系统的总体功能模块为:
1)预处理:将原始语料格式化为同一格式,便于后续的统一处理;
2)索引:将文档分解为基本处理单元,同时降低后续处理的开销;
3)统计:词频统计,项(单词、概念)与分类的相关概率;
4)特征抽取:从文档中抽取出反映文档主题的特征;
5)分类器:分类器的训练;
6)评价:分类器的测试结果分析。
(4)索引服务
索引服务是从一组文档中提取信息,并组织该信息,以便能够通过Windows Server 2003的“搜索”功能、索引服务查询表或Web浏览器快速地进行访问。该信息可以包含文档中的文字(内容)和文档的特征及参数(属性),例如作者姓名。一旦创建了索引,就可以查询包含关键字或者属性的文档的索引。例如,可以查询所以包含单词“management”的文档,也可以查询特定作者写的所有MicrosoftOffice文档。索引服务将返回符合搜索条件的所有文档的列表。
(5)海量数据处理架构
Hadoop框架是Apache基金会用java语言实现的开源分布式计算框架,其可在大型集群的硬件设备上有效运行,并且它还实现了对大型集群设备的控制和管理;同时,Hadoop也能为各种采用分布式架构的应用程序提供稳定可靠的接口,接口实现了海量数据的运算和管理。编程人员可以在不了解分布式底层细节的情况下,开发分布式的应用程序,并且开发的分布式应用程序也可以充分利用大型集群高速的运算能力和庞大的存储能力。
Hadoop最核心的内容是分布式文件系统(Hadoop DistributedFile System,简称为HDFS)和Map/Reduce计算模型。分布式文件系统(HDFS)有高容错性的特点,并且它能提供高吞吐量的数据访问功能,非常适合大规模信息的运算处理;Map/Reduce计算模型是Hadoop分布式的核心计算模型,该模型能将复杂的分布式运算过程高度抽象为Map和Reduce两个任务,从而使分布式应用的开发编程变得简单并且有效。
目前的画像系统没有对其标签词库设置更新机制,导致随着时间的推移,无法更为准确的对用户进行标签描述。
发明内容
本发明的目的在于提出一种画像系统的标签词库更新方法,其能解决标签词库没有更新提醒的问题。
为了达到上述目的,本发明所采用的技术方案如下:
画像系统的标签词库更新方法,其包括以下步骤:
步骤1、获取用户的画像数据,所述画像数据包括用于描述所述用户的标签和所述用户发表的原始文本;
步骤2、当标签的数量与原始文本的数量的比值小于预设的第一阈值时,对所述用户发表的所有原始文本进行分词处理,以得到多个标签候选词,并将标签候选词发送至推荐系统;
步骤3、推荐系统计算每一个标签候选词与预设的词向量模型文件中每一个词的向量距离,将存在向量距离大于预设的第二阈值的标签候选词加入到标签词库中,将不存在向量距离大于第二阈值的标签候选词删除。
优选的,步骤3之后还有以下步骤:
步骤4、将与标签候选词的向量距离大于第二阈值的词与标签词库中的标签词进行比对处理,若有超过第三阈值数量的词不在标签词库中时,执行步骤5,否则执行步骤1;
步骤5、计算标签词库中的每一个标签词与词向量转换模块的词库中每一个实体词的向量距离,将向量距离大于预设的第四阈值的实体词加入到标签词库中。进一步优选的,所述词向量转换模块为谷歌公司的word2vec工具。
优选的,所述词向量模型文件的训练过程如下:
选取一个自然语言的语料库;
对语料库中的语料进行分词处理,以得到多个语料词;
通过词向量转换模块计算每一个语料词的向量,并将语料词及其对应的向量保存至所述词向量模型文件中。
本发明具有如下有益效果:
能够及时对标签词库进行更新,以更好地对用户进行描述。
附图说明
图1为本发明较佳实施例的画像系统的标签词库更新方法的流程图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述。
标签词库,给用户打标签用的词库,其组成可以是:从微博上爬取的用户标签,由服务提供商提供的感兴趣的标签,在大量文本中通过ansj分词技术和tf.idf分离出来的高频关键词。
开始时,标签词库并不大,因此并不能够覆盖到足够多的标签。再加上随时间的推移,可用于标签的热词或新词也在不断发生变化。因此,每隔一段时间就需要对标签词库进行更新。
基于上述背景,本实施例提供了一种画像系统的标签词库更新方法,其包括以下步骤:
步骤S1、获取用户的画像数据,所述画像数据包括用于描述所述用户的标签和所述用户发表的原始文本。例如,所述原始文本可以是微博原文、论坛原文等。
步骤S2、当标签的数量与原始文本的数量的比值小于预设的第一阈值时,对所述用户发表的所有原始文本进行分词处理,以得到多个标签候选词,并将标签候选词发送至推荐系统。
具体过程如下:
对于每个用户,获取其标签数量#tag和该用户的原始文本条数#userdata,计算他们的比值#tag/#userdata,如果该比值小于第一阈值,则将该用户所有的原始文本取出,并入到集合Sdata中。
对Sdata集合中的每条原始文本进行分词,得到一组词w={w1,w2,…};
然后计算所有词w在Sdata中出现的频次,为了减少计算量,这一步的值可以直接通过已经计算出来的词到频次的映射表获得。词频作为衡量一个词在文本中重要程度的标准,当文本数量大到一定量时,词频的排序基本不变,所以可以用已计算获得的词频来评估新文本中各个词在文本中的重要程度。
对所有词按词频排序,同时将一些没有标签意义的词过滤掉,如“我们”、“你们”、“于是”、“或者”这样的一类词和停用词。过滤后剩下的词,成为标签候选词。
步骤S3、推荐系统计算每一个标签候选词与预设的词向量模型文件中每一个词的向量距离,将存在向量距离大于预设的第二阈值的标签候选词加入到标签词库中(其说明该标签候选词能够得到推荐系统的返回推荐结果),将不存在向量距离大于第二阈值的标签候选词删除(其说明该标签候选词无法得到推荐系统的识别)。这一步主要用于保证metalabel词库中的词一定会出现在推荐系统中,从而能够获得推荐。
推荐系统需要用到词向量模型文件,其内容为词汇与其相应转化后的向量之间的映射关系。
根据时间维度或集中出现重大突发事件等情况,适时重新训练词向量模型文件。例如,某一时间段内连续发生重大事件,可以选择在这段时间内重新收集包含这些重大事件关键词的语料来训练;或者半年(3个月)内都没有更新过语料库,可以选择重新收集最近时间段内的语料来进行模型文件训练。
以下是词向量模型文件训练过程:
步骤S21、选取一个自然语言的语料库。语料库的选择多种多样。最简单的,可以到一些公司的分享中下载回来,国外的如Yahoo!、Google等,国内的如搜狗等公司都会分享一些语料库。其次,可以使用爬取微博内容作为语料库。更为一般的,是通过爬虫爬取各种网站的文本内容,集合成一个语料库。
步骤S22、对语料库中的语料进行分词处理,以得到多个语料词。分词算法有不少,常用的有ik分词和ansj分词,这两种分词都有非常好的理论支撑,有很多论文。还有一种跟简单的分词方法叫最大后向匹配(backward max match)。本实施例使用的就是这种方法。
最大后向匹配算法,需要一个词典,用于匹配文本并分词,称词典为dict。分词过程用以下例子来说明。现在要对“我爱北京天安门”这句话进行分词。
首先,算法把“我爱北京天安门”当做一个词,到词典dict中匹配,发现没有这个词,于是算法把词的长度往后减1;
这个时候,算法将“爱北京天安门”当作一个词,到dict中匹配,发现没有这个词,又将词的长度往后减1;
依此类推,一直到词“天安门”,算法发现它在dict中,于是得到了“天安门”这个词。
接着,算法对剩下的部分“我爱北京”使用同样的方式进行分词。如此重复,会得到“北京”“爱”“我”这些词。
步骤S23、通过词向量转换模块计算每一个语料词的向量,并将语料词及其对应的向量保存至所述词向量模型文件中。语料词的向量为谷歌公司的word2vec工具。
步骤S4、将与标签候选词的向量距离大于第二阈值的词与标签词库中的标签词进行比对处理,若有超过第三阈值数量的词不在标签词库中时,例如,有超过80%数量的词都不在标签词库中,就需要执行步骤S5,否则执行步骤S1。
步骤S5、计算标签词库中的每一个标签词与词向量转换模块的词库中每一个实体词的向量距离,将向量距离大于预设的第四阈值的实体词加入到标签词库中。
比对过程为:对标签词库中{m1,m2,…}的每个词m,使用word2vec获得m的近似词(即对应的实体词,该实体词位于word2vec的词库中)和对应的近似度(即对应的向量距离)。舍弃近似度低于第四阈值的近似词,保留高于第四阈值的近似词。
在word2vec的词库中每个实体词被表示为一个向量。标签词库中的词mi对应的词向量为vi,计算mi与word2vec的词库中其他所有词w所对应向量的cos距离得到相似度。假定mi对应的向量vi=<a,b,c>,word2vec的词库中某个词wj对应的向量为uj=<d,e,f>,则mi和wj之间的相似度为:
( a &times; d + b &times; e + c &times; f ) / ( a 2 + b 2 + c 2 &times; d 2 + e 2 + f 2 ) .
通过本实施例的方法,可以实时保持标签词库随时间推移而更新。
对于本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及变形,而所有的这些改变以及变形都应该属于本发明权利要求的保护范围之内。

Claims (4)

1.画像系统的标签词库更新方法,其特征在于,包括以下步骤:
步骤1、获取用户的画像数据,所述画像数据包括用于描述所述用户的标签和所述用户发表的原始文本;
步骤2、当标签的数量与原始文本的数量的比值小于预设的第一阈值时,对所述用户发表的所有原始文本进行分词处理,以得到多个标签候选词,并将标签候选词发送至推荐系统;
步骤3、推荐系统计算每一个标签候选词与预设的词向量模型文件中每一个词的向量距离,将存在向量距离大于预设的第二阈值的标签候选词加入到标签词库中,将不存在向量距离大于第二阈值的标签候选词删除。
2.如权利要求1所述的标签词库更新方法,其特征在于,步骤3之后还有以下步骤:
步骤4、将与标签候选词的向量距离大于第二阈值的词与标签词库中的标签词进行比对处理,若有超过第三阈值数量的词不在标签词库中时,执行步骤5,否则执行步骤1;
步骤5、计算标签词库中的每一个标签词与词向量转换模块的词库中每一个实体词的向量距离,将向量距离大于预设的第四阈值的实体词加入到标签词库中。
3.如权利要求2所述的标签词库更新方法,其特征在于,所述词向量转换模块为谷歌公司的word2vec工具。
4.如权利要求1所述的标签词库更新方法,其特征在于,所述词向量模型文件的训练过程如下:
选取一个自然语言的语料库;
对语料库中的语料进行分词处理,以得到多个语料词;
通过词向量转换模块计算每一个语料词的向量,并将语料词及其对应的向量保存至所述词向量模型文件中。
CN201410572863.6A 2014-10-23 2014-10-23 画像系统的标签词库更新方法 Active CN104268292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410572863.6A CN104268292B (zh) 2014-10-23 2014-10-23 画像系统的标签词库更新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410572863.6A CN104268292B (zh) 2014-10-23 2014-10-23 画像系统的标签词库更新方法

Publications (2)

Publication Number Publication Date
CN104268292A true CN104268292A (zh) 2015-01-07
CN104268292B CN104268292B (zh) 2018-03-16

Family

ID=52159813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410572863.6A Active CN104268292B (zh) 2014-10-23 2014-10-23 画像系统的标签词库更新方法

Country Status (1)

Country Link
CN (1) CN104268292B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834686A (zh) * 2015-04-17 2015-08-12 中国科学院信息工程研究所 一种基于混合语义矩阵的视频推荐方法
CN105243389A (zh) * 2015-09-28 2016-01-13 北京橙鑫数据科技有限公司 公司名称的行业分类标签的确定方法和装置
CN105719189A (zh) * 2016-01-15 2016-06-29 天津大学 一种社交网络中有效提高标签多样性的标签推荐方法
CN105912682A (zh) * 2016-04-14 2016-08-31 乐视控股(北京)有限公司 一种视频分类标签的生成方法和装置
CN106168971A (zh) * 2016-07-08 2016-11-30 北京麒麟合盛网络技术有限公司 信息订阅方法及装置
CN106339806A (zh) * 2016-08-24 2017-01-18 北京创业公社征信服务有限公司 一种面向企业信息的行业全息画像构建方法及系统
CN106452808A (zh) * 2015-08-04 2017-02-22 北京奇虎科技有限公司 一种数据处理方法和装置
WO2017071370A1 (zh) * 2015-10-30 2017-05-04 华为技术有限公司 一种标签处理方法及装置
CN107093115A (zh) * 2017-05-10 2017-08-25 杭州纸箱哥文化传播有限公司 一种精准营销的广告纸箱定制方法及系统
CN107102981A (zh) * 2016-02-19 2017-08-29 腾讯科技(深圳)有限公司 词向量生成方法和装置
CN107391638A (zh) * 2017-07-10 2017-11-24 北京神州泰岳软件股份有限公司 规则关联模型的新概念发现方法及装置
CN107533698A (zh) * 2015-05-08 2018-01-02 汤森路透全球资源无限公司 社交媒体事件的检测与验证
CN108280202A (zh) * 2018-01-30 2018-07-13 湖南蚁坊软件股份有限公司 一种动态可扩展的实时流标签框架
CN105243121B (zh) * 2015-09-29 2018-08-21 中国运载火箭技术研究院 一种基于数据挖掘的文本数据网络构建系统
CN111611807A (zh) * 2020-05-18 2020-09-01 北京邮电大学 一种基于神经网络的关键词提取方法、装置及电子设备
CN111858901A (zh) * 2019-04-30 2020-10-30 北京智慧星光信息技术有限公司 一种基于语义相似的文本推荐方法及系统
CN112035750A (zh) * 2020-09-17 2020-12-04 上海二三四五网络科技有限公司 一种用户标签扩展的控制方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101101779A (zh) * 2006-07-06 2008-01-09 三星电子株式会社 数据记录和再现设备以及产生元数据的方法
CN101464984A (zh) * 2007-12-17 2009-06-24 上海亿动信息技术有限公司 一种利用广告位标签发布广告的广告发布控制系统及方法
US20120023103A1 (en) * 2009-01-21 2012-01-26 Telefonaktiebolaget Lm Ericsson (Publ) Generation of Annotation Tags Based on Multimodal Metadata and Structured Semantic Descriptors

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101101779A (zh) * 2006-07-06 2008-01-09 三星电子株式会社 数据记录和再现设备以及产生元数据的方法
CN101464984A (zh) * 2007-12-17 2009-06-24 上海亿动信息技术有限公司 一种利用广告位标签发布广告的广告发布控制系统及方法
US20120023103A1 (en) * 2009-01-21 2012-01-26 Telefonaktiebolaget Lm Ericsson (Publ) Generation of Annotation Tags Based on Multimodal Metadata and Structured Semantic Descriptors

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834686B (zh) * 2015-04-17 2018-12-28 中国科学院信息工程研究所 一种基于混合语义矩阵的视频推荐方法
CN104834686A (zh) * 2015-04-17 2015-08-12 中国科学院信息工程研究所 一种基于混合语义矩阵的视频推荐方法
CN107533698A (zh) * 2015-05-08 2018-01-02 汤森路透全球资源无限公司 社交媒体事件的检测与验证
CN106452808A (zh) * 2015-08-04 2017-02-22 北京奇虎科技有限公司 一种数据处理方法和装置
CN105243389A (zh) * 2015-09-28 2016-01-13 北京橙鑫数据科技有限公司 公司名称的行业分类标签的确定方法和装置
CN105243121B (zh) * 2015-09-29 2018-08-21 中国运载火箭技术研究院 一种基于数据挖掘的文本数据网络构建系统
WO2017071370A1 (zh) * 2015-10-30 2017-05-04 华为技术有限公司 一种标签处理方法及装置
CN105719189A (zh) * 2016-01-15 2016-06-29 天津大学 一种社交网络中有效提高标签多样性的标签推荐方法
CN105719189B (zh) * 2016-01-15 2019-12-27 天津大学 一种社交网络中有效提高标签多样性的标签推荐方法
CN107102981A (zh) * 2016-02-19 2017-08-29 腾讯科技(深圳)有限公司 词向量生成方法和装置
CN107102981B (zh) * 2016-02-19 2020-06-23 腾讯科技(深圳)有限公司 词向量生成方法和装置
CN105912682A (zh) * 2016-04-14 2016-08-31 乐视控股(北京)有限公司 一种视频分类标签的生成方法和装置
CN106168971A (zh) * 2016-07-08 2016-11-30 北京麒麟合盛网络技术有限公司 信息订阅方法及装置
CN106339806A (zh) * 2016-08-24 2017-01-18 北京创业公社征信服务有限公司 一种面向企业信息的行业全息画像构建方法及系统
CN107093115A (zh) * 2017-05-10 2017-08-25 杭州纸箱哥文化传播有限公司 一种精准营销的广告纸箱定制方法及系统
CN107093115B (zh) * 2017-05-10 2021-05-25 杭州纸箱哥文化传播有限公司 一种精准营销的广告纸箱定制方法及系统
CN107391638A (zh) * 2017-07-10 2017-11-24 北京神州泰岳软件股份有限公司 规则关联模型的新概念发现方法及装置
CN108280202A (zh) * 2018-01-30 2018-07-13 湖南蚁坊软件股份有限公司 一种动态可扩展的实时流标签框架
CN108280202B (zh) * 2018-01-30 2020-10-30 湖南蚁坊软件股份有限公司 一种动态可扩展的实时流标签系统
CN111858901A (zh) * 2019-04-30 2020-10-30 北京智慧星光信息技术有限公司 一种基于语义相似的文本推荐方法及系统
CN111611807A (zh) * 2020-05-18 2020-09-01 北京邮电大学 一种基于神经网络的关键词提取方法、装置及电子设备
CN112035750A (zh) * 2020-09-17 2020-12-04 上海二三四五网络科技有限公司 一种用户标签扩展的控制方法及装置

Also Published As

Publication number Publication date
CN104268292B (zh) 2018-03-16

Similar Documents

Publication Publication Date Title
CN104268292B (zh) 画像系统的标签词库更新方法
Al-Ghuribi et al. Multi-criteria review-based recommender system–the state of the art
Liu et al. Analyzing changes in hotel customers’ expectations by trip mode
Hu et al. Opinion mining from online hotel reviews–a text summarization approach
Rossetti et al. Analyzing user reviews in tourism with topic models
Bach et al. Personalized recommendation of stories for commenting in forum-based social media
Agarwal et al. Modeling and data mining in blogosphere
CN102982042B (zh) 一种个性化内容推荐方法、平台以及系统
Gkikas et al. Artificial intelligence (AI) impact on digital marketing research
Tewari et al. Sequencing of items in personalized recommendations using multiple recommendation techniques
AU2011269676A1 (en) Systems of computerized agents and user-directed semantic networking
Zhong et al. Building discriminative user profiles for large-scale content recommendation
Krestel et al. Diversifying customer review rankings
Chang et al. An adaptive contextual recommender system: A slow intelligence perspective
Malhotra et al. A comprehensive review from hyperlink to intelligent technologies based personalized search systems
Nasir et al. Semantic enhanced Markov model for sequential E-commerce product recommendation
Dong et al. Improving sequential recommendation with attribute-augmented graph neural networks
Nasir et al. Improving e-commerce product recommendation using semantic context and sequential historical purchases
Klašnja-Milićević et al. Folksonomy and tag-based recommender systems in e-learning environments
Natarajan et al. CD-SemMF: Cross-domain semantic relatedness based matrix factorization model enabled with linked open data for user cold start issue
Xie et al. Interactive resource recommendation with optimization by tag association and significance analysis
Yang An active recommendation approach to improve book-acquisition process
Sheil Discovering user intent in e-commerce clickstreams
Zhang et al. Domain knowledge based personalized recommendation model and its application in cross-selling
Chu et al. Personalized e-commerce website construction based on data mining

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: GUANGZHOU ZHISUO INFORMATION TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO.,LTD.

Effective date: 20150826

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150826

Address after: 2304, room 207, No. 510000, Whampoa Avenue, Tianhe District, Guangdong, Guangzhou province (for office use only)

Applicant after: GUANGZHOU ZHISUO INFORMATION TECHNOLOGY CO.,LTD.

Address before: 510000, Guangzhou District, Guangdong, Guangzhou hi tech Industrial Development Zone, science Avenue, No. 182, zone C1, eleventh, 1101

Applicant before: Guangzhou Summba Information Technology Co.,Ltd.

CB02 Change of applicant information

Address after: 510000, four, room 702, 100 West Whampoa Road, Tianhe District, Guangdong, Guangzhou

Applicant after: GUANGZHOU ZHISUO INFORMATION TECHNOLOGY CO.,LTD.

Address before: 2304, room 207, No. 510000, Whampoa Avenue, Tianhe District, Guangdong, Guangzhou province (for office use only)

Applicant before: GUANGZHOU ZHISUO INFORMATION TECHNOLOGY CO.,LTD.

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20181114

Address after: 510623 Room 1501, 120 Huangpu Avenue West, Tianhe District, Guangzhou City, Guangdong Province

Patentee after: HUDONGPAI TECHNOLOGY CO.,LTD.

Address before: 510000 Room 702, Room 4, No. 100 West Huangpu Avenue, Tianhe District, Guangzhou City, Guangdong Province

Patentee before: GUANGZHOU ZHISUO INFORMATION TECHNOLOGY CO.,LTD.

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20150107

Assignee: Guangzhou swift breeze Information Technology Co.,Ltd.

Assignor: HUDONGPAI TECHNOLOGY CO.,LTD.

Contract record no.: X2023980039879

Denomination of invention: A Method for Updating Label Lexicon in Portrait Systems

Granted publication date: 20180316

License type: Common License

Record date: 20230817