CN105574159B - 一种基于大数据的用户画像建立方法和用户画像管理系统 - Google Patents

一种基于大数据的用户画像建立方法和用户画像管理系统 Download PDF

Info

Publication number
CN105574159B
CN105574159B CN201510944668.6A CN201510944668A CN105574159B CN 105574159 B CN105574159 B CN 105574159B CN 201510944668 A CN201510944668 A CN 201510944668A CN 105574159 B CN105574159 B CN 105574159B
Authority
CN
China
Prior art keywords
user
portrait
classification
behavior
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510944668.6A
Other languages
English (en)
Other versions
CN105574159A (zh
Inventor
厉紫阳
庄良
王智斌
沈徐兰
岳涛
岳一涛
冯卢梦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Straits Innovation Internet Co ltd
Original Assignee
Zhejiang Hakim Yuyou Financial Services Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Hakim Yuyou Financial Services Co Ltd filed Critical Zhejiang Hakim Yuyou Financial Services Co Ltd
Priority to CN201510944668.6A priority Critical patent/CN105574159B/zh
Publication of CN105574159A publication Critical patent/CN105574159A/zh
Application granted granted Critical
Publication of CN105574159B publication Critical patent/CN105574159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提出一种基于大数据的用户画像建立方法和用户画像管理系统,其利用有效时间期限内的用户行为和/或内容建立一个临时用户画像,并且使该临时用户画像从用户画像当中继承与有效时间期限内的用户行为和/或内容相匹配的描述性标签属性,而当有效时间期限内的用户行为和/或内容与用户画像的描述性标签属性不匹配时,则在临时用户画像中新建描述性标签属性。本发明能够实现根据用户行为和/或内容数据对用户画像的有效维护,特别是在用户行为和/或内容发生阶越式突变的情况下,能够快速淘汰分布统计规律上占有优势但已经不符合用户当前内容和行为的累积数据的影响。

Description

一种基于大数据的用户画像建立方法和用户画像管理系统
技术领域
本发明涉及网络数据分析与处理领域,尤其涉及一种基于大数据的用户画像建立方法和用户画像管理系统。
背景技术
大数据技术是以任何系统的全部数据资源为对象并从中发现数据之间表现的相关性关系的信息处理技术,目前已经广泛应用于互联网的流程优化、目标化消息及广告推送、用户个性化服务与改善等方面,成为了网络服务背后强大的后台支撑。
用户画像是大数据技术的重要应用,其目标是在很多的维度上建立针对用户的描述性标签属性,从而利用这些标签属性对用户多方面的真实个人特征进行勾勒,进而,可以利用用户画像发掘用户需求,分析用户偏好,并通过匹配用户画像提供给用户更高效和更有针对性的信息输送以及更贴近个人习惯的用户体验。
建立用户画像的数据源是与用户相关的全部数据,对与用户相关的全部数据按照封闭的分类体系进行归类,所谓封闭的分类体系是指该体系中的分类类目是有限的并且是封闭的。将用户数据归入封闭的分类体系当中的分类类目,通过数据的不断积累和归入,可以求得数据在分类类目当中分布的统计规律,并将统计规律对应为描述性标签属性。
用于建立用户画像的数据包括自然数据、行为数据以及内容数据。自然数据表示包括用户性别、年龄等用户自身固有的属性,可以在用户注册等环节中向用户收集。行为数据描述用户所执行的行为,包括访问次数、访问频度、访问停留时间、操作活跃时间、信息输入、用点击链接、交互操作(如加关注、取消关注、打分、保存为书签、加入购物车、取出购物车、形成订单、取消订单、付款、退款等等)。内容数据表示用户行为的对象,例如用户所加关注的微博ID、用户打分的歌曲、用户保存为书签的网页上的内容、用户加入购物车或者形成订单的商品等等。在需要的情况下,会提取原始内容的关键要素作为内容数据,来代表用户行为针对的内容;例如,用户把关于某支乐队即将在1月1日在上海闵行区某体育场举办摇滚演唱会的网页加为书签,则可以提取乐队名称、上海以及演唱会作为关键要素标签,来代表用户加为书签这一行为对应的内容。
封闭的分类体系具有从最高级别的主分类和其下若干个更低级别的子分类直至最低级别的等级划分。与数据包括自然数据、行为数据以及内容数据相对应,分类体系也包括自然分类、行为分类和内容分类三个方面。例如,关于年龄的自然分类可以包括儿童、少年、青年、中年、中老年、老年等主分类的类目,在青年这个类目下又可以划分为18-25岁、25-30岁、30-35岁等子分类的类目。对于行为分类,以用户对网站或网络服务每次的访问停留时间为例,可以分为短暂停留、普通停留、长时间停留等主分类类目,在长时间停留类目下又包括停留1-1.5小时、停留1.5-2.5小时、停留2.5小时以上等子分类级别的类目。对于内容分类,由于网络信息环境中存在海量的内容,可以采用更多级别和类目进行归类,并且可以将同一个内容同时归类到不同的类目之下,例如某支乐队即将在1月1日在上海举办演唱会的网页内容,可以归入“艺术-音乐-摇滚-X乐队”的类目,也可以同时归入“上海-闵行-某体育场”的类目。
描述性标签属性代表了用户数据长期的积累过程中在从主分类到子分类各个类目当中呈现的分布统计规律。例如,根据用户自然分类生成关于用户性别、年龄等自身固有属性的描述性标签属性;用户在对网站或网络服务长期和反复访问过程中,将每次的访问停留时间的记录归入上面介绍的类目,通过积累达到大数据的规模,即可以统计用户的访问停留时间在各个类目中分布的规律,例如如果用户的访问停留时间记录70%以上分布在“长时间停留”下的“停留2.5小时以上”类目,则可以为该用户加上“深度使用用户”的描述性标签属性。相类似的,如果用户浏览、关注的内容记录中,归入“艺术-音乐-摇滚-X乐队”类目的内容记录超过一定阈值,则可以将“音乐”、“摇滚”、“X乐队”作为该用户的描述性标签属性。
因此,当用户数据达到足够的密集程度之后,用户的描述性标签属性会表现为较高的稳定性,也正是通过这种稳定性与用户长期形成的真实个人特征达到了匹配。但是,以上方法也存在灵活变化的适应能力不足的问题,特别是不能适应用户数据发生阶越式突变的情况。
例如,用户是主要从事家用汽车零部件销售的人员,因此其出于工作需要进行网络浏览、输入关键词等行为主要集中在与汽车零部件相关的内容。然而,如果该用户近期内转为从事建筑工程机械的零部件,则近期的浏览与关键词输入就会突变为与建筑工程机械的零部件相关的内容。但是,将用户画像的描述性标签属性从汽车零部件转为建筑工程机械的零部件并不会由此而立即实现,仍然需要很长过程的积累,直至在与建筑工程机械的零部件对应的子分类下积累了比原来的汽车零部件更多的数据,从而体现出来更强的统计规律性。在转换期间,系统仍然会基于汽车零部件的描述性标签属性而对用户提供这方面的推送或者广告,显然这已经脱离了用户真实的关注。
现有技术中为了缓解上述问题所采取的手段是根据发生时间的先后为用户数据分配权重,发生时间距离现在越近的用户数据在统计分布规律时所具有的权重越大,发生时间距离现在越远的用户数据在统计分布规律时所具有的权重越小,这样能够加快将体现用户当前阶段真实特征的用户数据转化为描述性标签属性的进程。
然而,当用户在先积累的用户数据在分布统计规律上的优势过于明显的时候,单纯依靠上述权重调整仍然不能够快速及时实现描述性标签属性与当前用户数据特征的匹配。因而,用户画像更新的滞后性成为了本领域一个难以解决的问题。
发明内容
鉴于上述现有技术中存在的以上缺陷,本发明提出一种基于大数据的用户画像建立方法和用户画像管理系统。本发明利用有效时间期限内的用户行为和/或内容建立一个临时用户画像,并且使该临时用户画像从用户画像当中继承与有效时间期限内的用户行为和/或内容相匹配的描述性标签属性,而当有效时间期限内的用户行为和/或内容与用户画像的描述性标签属性不匹配时,则在临时用户画像中新建描述性标签属性。评估临时用户画像的成熟度,当足够成熟时采用临时用户画像替代原来的用户画像。
本发明所述的基于大数据的用户画像建立方法,其特征在与,包括以下步骤:
根据在先积累的用户数据建立包括描述性标签属性的用户画像;
建立临时用户画像;所述临时用户画像从所述用户画像中继承根据自然分类生成的描述性标签属性;
获得有效时间期限内的用户行为和/或内容;
判断有效时间期限内的用户行为和/或内容与用户画像中根据行为分类和/或内容分类生成的描述性标签属性的匹配度;
当所述匹配度大于阈值的情况下,使所述临时用户画像继承用户画像中根据行为分类和/或内容分类生成的描述性标签属性;
当匹配度小于阈值的情况下,统计有效时间期限内的用户行为和/或内容在行为分类和/或内容分类中的分布,在临时用户画像中生成与行为分类和/或内容分类对应的描述性标签属性;
评估临时用户画像的成熟度,当达到成熟时采用临时用户画像替代原来的用户画像。
优选的是,计算有效时间期限内的用户行为和/或内容与用户画像中根据行为分类和/或内容分类生成的描述性标签属性的匹配度的步骤具体包括:将有效时间期限内的用户行为和/或内容归入对应的行为分类和/或内容分类的最底层类目;比较该最底层类目是否属于与描述性标签属性相对应的行为分类和/或内容分类的最底层类目,若属于则计入最大分值;若该最底层类目不属于与描述性标签属性相对应的行为分类和/或内容分类的最底层类目,则进一步判断该最底层类目是否与描述性标签属性相对应的行为分类和/或内容分类的最底层类目从属于同一个上级类目,若从属于同一个上级类目则计入中间分值;若该最底层类目不属于与描述性标签属性相对应的行为分类和/或内容分类的任何一级类目,则计入零分值;将所有分值求和作为所述匹配度。
优选的是,当所述匹配度大于阈值的情况下,首先统计有效时间期限内的用户行为和/或内容在行为分类和/或内容分类中的分布,进而根据统计结果更新用户画像中根据行为分类和/或内容分类生成的描述性标签属性,再使所述临时用户画像继承用户画像中根据行为分类和/或内容分类生成的描述性标签属性。
优选的是,评估临时用户画像的成熟度的具体步骤包括:提取最近若干个临时用户画像,比较其中最新的临时用户画像与其它临时用户画像中非从用户画像继承的描述性标签属性的重合率,当平均重合率大于重合阈值时则认为最新的临时用户画像达到成熟。
优选的是,应用所述临时用户画像进行用户偏好分析以及信息和/或服务提供。
本发明进而提供了一种基于大数据的用户画像管理系统,其特征在于,包括:
用户画像提供模块,用于根据在先积累的用户数据建立包括描述性标签属性的用户画像;
临时用户画像建立模块,用于建立临时用户画像;所述临时用户画像从所述用户画像中继承根据自然分类生成的描述性标签属性;
用户数据接口,获得有效时间期限内的用户行为和/或内容;
匹配度判断模块,用于判断有效时间期限内的用户行为和/或内容与用户画像中根据行为分类和/或内容分类生成的描述性标签属性的匹配度;
临时用户画像更新模块,当所述匹配度大于阈值的情况下,所述临时用户画像更新模块使所述临时用户画像继承用户画像中根据行为分类和/或内容分类生成的描述性标签属性;当匹配度小于阈值的情况下,临时用户画像更新模块统计有效时间期限内的用户行为和/或内容在行为分类和/或内容分类中的分布,在临时用户画像中生成与行为分类和/或内容分类对应的描述性标签属性;
用户画像更新模块,用于评估临时用户画像的成熟度,当达到成熟时采用临时用户画像替代原来的用户画像。
优选的是,所述匹配度判断模块计算有效时间期限内的用户行为和/或内容与用户画像中根据行为分类和/或内容分类生成的描述性标签属性的匹配度具体包括:将有效时间期限内的用户行为和/或内容归入对应的行为分类和/或内容分类的最底层类目;比较该最底层类目是否属于与描述性标签属性相对应的行为分类和/或内容分类的最底层类目,若属于则计入最大分值;若该最底层类目不属于与描述性标签属性相对应的行为分类和/或内容分类的最底层类目,则进一步判断该最底层类目是否与描述性标签属性相对应的行为分类和/或内容分类的最底层类目从属于同一个上级类目,若从属于同一个上级类目则计入中间分值;若该最底层类目不属于与描述性标签属性相对应的行为分类和/或内容分类的任何一级类目,则计入零分值;将所有分值求和作为所述匹配度。
优选的是,当所述匹配度大于阈值的情况下,用户画像更新模块首先统计有效时间期限内的用户行为和/或内容在行为分类和/或内容分类中的分布,进而根据统计结果更新用户画像中根据行为分类和/或内容分类生成的描述性标签属性,临时用户画像更新模块再使所述临时用户画像继承用户画像中根据行为分类和/或内容分类生成的描述性标签属性。
优选的是,用户画像更新模块评估临时用户画像的成熟度的具体包括:提取最近若干个临时用户画像,比较其中最新的临时用户画像与其它临时用户画像中非从用户画像继承的描述性标签属性的重合率,当平均重合率大于重合阈值时则认为最新的临时用户画像达到成熟。
优选的是,所述用户画像管理系统还包括:画像应用模块,用于应用所述临时用户画像进行用户偏好分析以及信息和/或服务提供。
通过本发明,能够实现根据用户行为和/或内容数据对用户画像的有效维护,特别是在用户行为和/或内容发生阶越式突变的情况下,利用临时用户画像可以匹配有效时间内用户的行为和内容偏好,并且实现对用户画像的选择性继承;通过评估临时用户画像成熟度,加快用户画像更新,在阶越式突变的情况下能够快速淘汰分布统计规律上占有优势但已经不符合用户当前内容和行为的累积数据的影响。
说明书附图
图1是本发明优选实施例的方法流程示意图;
图2是本发明优选实施例的系统结构示意图。
具体实施方式
下面通过实施例,对本发明的技术方案做进一步具体的说明。
参见图1所示的流程图,本发明所述的基于大数据的用户画像建立方法,包括以下步骤:
首先,步骤101中,根据在先积累的用户数据建立包括描述性标签属性的用户画像。用户通过用户设备UT(如智能手机、电脑、个人数字终端)联网接入到由一个或者多个服务提供商所提供的网页或者APP等网络服务,例如新闻客户端、微博、网上购物网站、电子机票平台、旅店预定网站、在线音乐播放器等等。在使用这些网络服务过程中,首先用户的访问本身以及输入信息、点击链接、通过交互界面操作实现例如加关注、取消关注、打分、保存为书签、加入购物车、取出购物车、形成订单、取消订单、付款、退款等等交互操作的用户行为都可在得到授权的前提下由用户设备采集和记录,并进行定量的统计,从而形成行为数据。用户所加关注的微博ID、用户打分的歌曲、用户保存为书签的网页上的内容、用户加入购物车或者形成订单的商品等等则会被保存或提炼形成内容数据。自然数据表示包括用户性别、年龄等用户自身固有的属性,可以在用户注册等环节中向用户收集。
系统以日志文件或数据流的形式获得用户全部的行为数据与内容数据;对于非实时性的应用需求,可以按日或更长的时间周期向大数据系统导入较大规模的用户日志文件,文件大小可达到数个GB量级;对于实时性应用需求,则系统以数据流的方式动态不间断采集当前正在发生的用户行为和/或内容数据;而对于介于实时性和非实时性之间的应用需求,可以以较高的频率向大数据系统提供MB级别的用户日志文件,一般数分钟就向系统提供一次。
通过将用户的自然数据、行为数据和内容数据归入分类体系中的类目,并统计这些数据在类目中的分布,建立描述性标签属性构成的用户画像。
步骤102,每当用户接入一次上述网络服务,则针对该用户建立一个临时用户画像;或者,可以按照一定的时间周期,定期为用户建立临时用户画像。每当建立临时用户画像时,该临时用户画像从步骤101的所述用户画像中继承根据自然分类生成的描述性标签属性,以便反映用户的性别、年龄等固有属性;而临时用户画像中反映用户行为和/或内容的描述性标签属性则将通过以下步骤获得。
步骤103,获得有效时间期限内的用户的行为数据和/或内容数据。有效时间期限是预设的固定值,例如将用户每次重新接入网络服务起所经历的时间作为有效时间期限;或者,可以按照一定的时间周期,将固定的时间段(如48小时)作为有效时间期限。按照与步骤101相同的方法,获得在有效时间期限内的用户的行为数据和/或内容数据。
步骤104,判断有效时间期限内的用户行为和/或内容与用户画像中根据行为分类和/或内容分类生成的描述性标签属性的匹配度。计算有效时间期限内的用户行为和/或内容与用户画像中根据行为分类和/或内容分类生成的描述性标签属性的匹配度的步骤具体包括:将有效时间期限内的用户行为和/或内容归入对应的行为分类和/或内容分类的最底层类目;比较该最底层类目是否属于与描述性标签属性相对应的行为分类和/或内容分类的最底层类目,若属于则计入最大分值;若该最底层类目不属于与描述性标签属性相对应的行为分类和/或内容分类的最底层类目,则进一步判断该最底层类目是否与描述性标签属性相对应的行为分类和/或内容分类的最底层类目从属于同一个上级类目,若从属于同一个上级类目则计入中间分值;若该最底层类目不与描述性标签属性相对应的行为分类和/或内容分类的共同从属于任何一级类目,则计入零分值;将所有分值求和作为所述匹配度。举例来说,有效时间期限内的用户查询了关于建筑用起重机悬臂的网页,访问停留时间50分钟;则有效时间期限内产生的内容数据可归入“工程与设备-建筑机械-起重机-起重机零部件”的类目,访问停留时间的行为数据可归入“普通停留-半小时至1小时”的类目;而用户画像中该用户根据行为分类和/或内容分类生成的描述性标签属性是“汽车”,“零部件”以及“深度使用用户”,对于描述性标签属性是“汽车”,“零部件”,其对应的分类类目是“工程与设备-交通-汽车-汽车零部件”,由于有效时间期限内产生的内容数据归入的最底层类目与描述性标签属性的最底层类目不同,因此不能计入最大分值,但二者从属于同一个上级类目“工程与设备”,故可以计入一个中间分值;而对于访问停留时间的行为数据,由于与描述性标签属性“深度使用用户”不共同从属于任何一级类目,则计入零分值。将所有分值求和,作为所述匹配度。
步骤105,当所述匹配度大于阈值的情况下,说明用户当前的行为与内容与用户画像具有较高的一致性,故而可以参照原有的用户画像为用户提供服务,因此,使所述临时用户画像继承用户画像中匹配度大于阈值的描述性标签属性。这种情况下,首先统计有效时间期限内的用户行为和/或内容在行为分类和/或内容分类中的分布,进而根据统计结果更新用户画像中根据行为分类和/或内容分类生成的描述性标签属性,再使所述临时用户画像继承用户画像中根据行为分类和/或内容分类生成的描述性标签属性。
当匹配度小于阈值的情况下,相反,说明用户在有效时间内的行为和内容已经偏离了用户画像,则不再继承用户画像中的描述性标签属性;若用户画像中没有与当前有效时间期限内的行为和内容匹配的描述性标签属性,则统计有效时间期限内的用户行为和/或内容在行为分类和/或内容分类中的分布,在临时用户画像中生成与行为分类和/或内容分类对应的描述性标签属性。
步骤106,评估临时用户画像的成熟度,当达到成熟时采用临时用户画像替代原来的用户画像。评估临时用户画像的成熟度的具体步骤包括:提取最近若干个临时用户画像,比较其中最新的临时用户画像与其它临时用户画像中非从用户画像继承的描述性标签属性的重合率,当平均重合率大于重合阈值时则认为最新的临时用户画像达到成熟。
作为临时用户画像的作用,可以应用所述临时用户画像进行用户偏好分析以及信息和/或服务提供。
如图2所示,本发明进而提供了一种基于大数据的用户画像管理系统,其特征在于,包括:
用户画像提供模块201,用于根据在先积累的用户数据建立包括描述性标签属性的用户画像;
临时用户画像建立模块202,用于建立临时用户画像;所述临时用户画像从所述用户画像中继承根据自然分类生成的描述性标签属性;
用户数据接口203,获得有效时间期限内的用户行为和/或内容;
匹配度判断模块204,用于判断有效时间期限内的用户行为和/或内容与用户画像中根据行为分类和/或内容分类生成的描述性标签属性的匹配度;
临时用户画像更新模块205,当所述匹配度大于阈值的情况下,所述临时用户画像更新模块使所述临时用户画像继承用户画像中根据行为分类和/或内容分类生成的描述性标签属性;当匹配度小于阈值的情况下,临时用户画像更新模块统计有效时间期限内的用户行为和/或内容在行为分类和/或内容分类中的分布,在临时用户画像中生成与行为分类和/或内容分类对应的描述性标签属性;其中,当所述匹配度大于阈值的情况下,用户画像更新模块206首先统计有效时间期限内的用户行为和/或内容在行为分类和/或内容分类中的分布,进而根据统计结果更新用户画像中根据行为分类和/或内容分类生成的描述性标签属性,临时用户画像更新模块205再使所述临时用户画像继承用户画像中根据行为分类和/或内容分类生成的描述性标签属性;
用户画像更新模块206,用于评估临时用户画像的成熟度,当达到成熟时采用临时用户画像替代原来的用户画像。
其中,所述匹配度判断模块204计算有效时间期限内的用户行为和/或内容与用户画像中根据行为分类和/或内容分类生成的描述性标签属性的匹配度具体包括:将有效时间期限内的用户行为和/或内容归入对应的行为分类和/或内容分类的最底层类目;比较该最底层类目是否属于与描述性标签属性相对应的行为分类和/或内容分类的最底层类目,若属于则计入最大分值;若该最底层类目不属于与描述性标签属性相对应的行为分类和/或内容分类的最底层类目,则进一步判断该最底层类目是否与描述性标签属性相对应的行为分类和/或内容分类的最底层类目从属于同一个上级类目,若从属于同一个上级类目则计入中间分值;若该最底层类目不属于与描述性标签属性相对应的行为分类和/或内容分类的任何一级类目,则计入零分值;将所有分值求和作为所述匹配度。
用户画像更新模块206评估临时用户画像的成熟度的具体包括:提取最近若干个临时用户画像,比较其中最新的临时用户画像与其它临时用户画像中非从用户画像继承的描述性标签属性的重合率,当平均重合率大于重合阈值时则认为最新的临时用户画像达到成熟。
所述用户画像管理系统还包括画像应用模块207,用于应用所述临时用户画像进行用户偏好分析以及信息和/或服务提供。
通过本发明,能够实现根据用户行为和/或内容数据对用户画像的有效维护,特别是在用户行为和/或内容发生阶越式突变的情况下,利用临时用户画像可以匹配有效时间内用户的行为和内容偏好,并且实现对用户画像的选择性继承;通过评估临时用户画像成熟度,加快用户画像更新,在阶越式突变的情况下能够快速淘汰分布统计规律上占有优势但已经不符合用户当前内容和行为的累积数据的影响。。
以上实施例仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (8)

1.一种基于大数据的用户画像建立方法,其特征在与,包括以下步骤:
根据在先积累的用户数据建立包括描述性标签属性的用户画像;
建立临时用户画像;所述临时用户画像从所述用户画像中继承根据自然分类生成的描述性标签属性;
获得有效时间期限内的用户行为和/或内容;
判断有效时间期限内的用户行为和/或内容与用户画像中根据行为分类和/或内容分类生成的描述性标签属性的匹配度;
当所述匹配度大于阈值的情况下,使所述临时用户画像继承用户画像中根据行为分类和/或内容分类生成的描述性标签属性;
当匹配度小于阈值的情况下,统计有效时间期限内的用户行为和/或内容在行为分类和/或内容分类中的分布,在临时用户画像中生成与行为分类和/或内容分类对应的描述性标签属性;
提取最近若干个临时用户画像,比较其中最新的临时用户画像与其它临时用户画像中非从用户画像继承的描述性标签属性的重合率,当平均重合率大于重合阈值时则认为最新的临时用户画像达到成熟,当达到成熟时采用临时用户画像替代原来的用户画像。
2.根据权利要求1所述的基于大数据的用户画像建立方法,其特征在于,计算有效时间期限内的用户行为和/或内容与用户画像中根据行为分类和/或内容分类生成的描述性标签属性的匹配度的步骤具体包括:将有效时间期限内的用户行为和/或内容归入对应的行为分类和/或内容分类的最底层类目;比较该最底层类目是否属于与描述性标签属性相对应的行为分类和/或内容分类的最底层类目,若属于则计入最大分值;若该最底层类目不属于与描述性标签属性相对应的行为分类和/或内容分类的最底层类目,则进一步判断该最底层类目是否与描述性标签属性相对应的行为分类和/或内容分类的最底层类目从属于同一个上级类目,若从属于同一个上级类目则计入中间分值;若该最底层类目不属于与描述性标签属性相对应的行为分类和/或内容分类的任何一级类目,则计入零分值;将所有分值求和作为所述匹配度。
3.根据权利要求2所述的基于大数据的用户画像建立方法,其特征在于,当所述匹配度大于阈值的情况下,首先统计有效时间期限内的用户行为和/或内容在行为分类和/或内容分类中的分布,进而根据统计结果更新用户画像中根据行为分类和/或内容分类生成的描述性标签属性,再使所述临时用户画像继承用户画像中根据行为分类和/或内容分类生成的描述性标签属性。
4.根据权利要求1所述的基于大数据的用户画像建立方法,其特征在于,应用所述临时用户画像进行用户偏好分析以及信息和/或服务提供。
5.一种基于大数据的用户画像管理系统,其特征在于,包括:
用户画像提供模块,用于根据在先积累的用户数据建立包括描述性标签属性的用户画像;
临时用户画像建立模块,用于建立临时用户画像;所述临时用户画像从所述用户画像中继承根据自然分类生成的描述性标签属性;
用户数据接口,获得有效时间期限内的用户行为和/或内容;
匹配度判断模块,用于判断有效时间期限内的用户行为和/或内容与用户画像中根据行为分类和/或内容分类生成的描述性标签属性的匹配度;
临时用户画像更新模块,当所述匹配度大于阈值的情况下,所述临时用户画像更新模块使所述临时用户画像继承用户画像中根据行为分类和/或内容分类生成的描述性标签属性;当匹配度小于阈值的情况下,临时用户画像更新模块统计有效时间期限内的用户行为和/或内容在行为分类和/或内容分类中的分布,在临时用户画像中生成与行为分类和/或内容分类对应的描述性标签属性;
用户画像更新模块,用于提取最近若干个临时用户画像,比较其中最新的临时用户画像与其它临时用户画像中非从用户画像继承的描述性标签属性的重合率,当平均重合率大于重合阈值时则认为最新的临时用户画像达到成熟,当达到成熟时采用临时用户画像替代原来的用户画像。
6.根据权利要求5所述的基于大数据的用户画像管理系统,其特征在于,所述匹配度判断模块计算有效时间期限内的用户行为和/或内容与用户画像中根据行为分类和/或内容分类生成的描述性标签属性的匹配度具体包括:将有效时间期限内的用户行为和/或内容归入对应的行为分类和/或内容分类的最底层类目;比较该最底层类目是否属于与描述性标签属性相对应的行为分类和/或内容分类的最底层类目,若属于则计入最大分值;若该最底层类目不属于与描述性标签属性相对应的行为分类和/或内容分类的最底层类目,则进一步判断该最底层类目是否与描述性标签属性相对应的行为分类和/或内容分类的最底层类目从属于同一个上级类目,若从属于同一个上级类目则计入中间分值;若该最底层类目不属于与描述性标签属性相对应的行为分类和/或内容分类的任何一级类目,则计入零分值;将所有分值求和作为所述匹配度。
7.根据权利要求6所述的基于大数据的用户画像管理系统,其特征在于,当所述匹配度大于阈值的情况下,用户画像更新模块首先统计有效时间期限内的用户行为和/或内容在行为分类和/或内容分类中的分布,进而根据统计结果更新用户画像中根据行为分类和/或内容分类生成的描述性标签属性,临时用户画像更新模块再使所述临时用户画像继承用户画像中根据行为分类和/或内容分类生成的描述性标签属性。
8.根据权利要求5所述的基于大数据的用户画像管理系统,其特征在于,所述用户画像管理系统还包括:画像应用模块,用于应用所述临时用户画像进行用户偏好分析以及信息和/或服务提供。
CN201510944668.6A 2015-12-16 2015-12-16 一种基于大数据的用户画像建立方法和用户画像管理系统 Active CN105574159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510944668.6A CN105574159B (zh) 2015-12-16 2015-12-16 一种基于大数据的用户画像建立方法和用户画像管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510944668.6A CN105574159B (zh) 2015-12-16 2015-12-16 一种基于大数据的用户画像建立方法和用户画像管理系统

Publications (2)

Publication Number Publication Date
CN105574159A CN105574159A (zh) 2016-05-11
CN105574159B true CN105574159B (zh) 2019-04-16

Family

ID=55884290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510944668.6A Active CN105574159B (zh) 2015-12-16 2015-12-16 一种基于大数据的用户画像建立方法和用户画像管理系统

Country Status (1)

Country Link
CN (1) CN105574159B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127515A (zh) * 2016-06-22 2016-11-16 北京网智天元科技股份有限公司 一种旅客画像及数据分析的方法及装置
CN106489159A (zh) * 2016-06-29 2017-03-08 深圳狗尾草智能科技有限公司 一种基于深度神经网络的用户画像表示学习系统及方法
CN107767155B (zh) * 2016-08-18 2021-06-18 腾讯科技(深圳)有限公司 一种评估用户画像数据的方法及系统
CN106372128A (zh) * 2016-08-24 2017-02-01 南方科技大学 一种数据处理方法和装置
CN108268547A (zh) * 2016-12-29 2018-07-10 北京国双科技有限公司 用户画像生成方法和装置
CN106982253A (zh) * 2017-03-27 2017-07-25 中国联合网络通信集团有限公司 一种用户画像解析方法及装置、网络系统
CN107124653B (zh) * 2017-05-16 2020-09-29 四川长虹电器股份有限公司 电视用户画像的构建方法
CN108053324A (zh) * 2017-11-28 2018-05-18 平安养老保险股份有限公司 保险核保方法、装置、计算机设备及存储介质
CN108053257A (zh) * 2017-12-27 2018-05-18 互动派科技股份有限公司 一种大数据用户运营金字塔体系的建立方法及应用系统
CN108090685B (zh) * 2017-12-29 2021-11-26 北京致远互联软件股份有限公司 一种基于协同管理软件的协同行为画像的构建方法及装置
WO2019140702A1 (zh) * 2018-01-22 2019-07-25 华为技术有限公司 一种用户画像的生成方法及装置
CN108564262A (zh) * 2018-03-31 2018-09-21 甘肃万维信息技术有限责任公司 基于大数据分析的企业画像大数据模型系统
CN109146539A (zh) * 2018-06-28 2019-01-04 深圳市彬讯科技有限公司 用户画像的更新方法及装置
CN111240562B (zh) * 2018-11-28 2023-04-25 阿里巴巴集团控股有限公司 数据处理方法、装置、终端设备及计算机存储介质
CN109711885A (zh) * 2018-12-27 2019-05-03 上海旺翔文化传媒股份有限公司 激励视频广告智能投放方法
CN111382266A (zh) * 2018-12-28 2020-07-07 沈阳美行科技有限公司 一种用户画像的生成方法、装置和设备
CN110415024A (zh) * 2019-07-11 2019-11-05 广东奥园奥买家电子商务有限公司 一种基于用户行为的用户画像方法及装置
CN111522978B (zh) * 2020-05-28 2023-09-19 泰康保险集团股份有限公司 一种数据推送方法和装置
CN111898031B (zh) * 2020-08-14 2024-04-05 腾讯科技(深圳)有限公司 一种获得用户画像的方法及装置
CN114338392A (zh) * 2020-09-29 2022-04-12 中国电信股份有限公司 网络数据分析方法和网络数据分析功能实体
CN112215656A (zh) * 2020-10-13 2021-01-12 湖南亚信软件有限公司 用户画像生成方法、装置、电子设备及计算机可读存储介质
CN112433655B (zh) * 2020-12-04 2021-09-07 武汉迈异信息科技有限公司 基于云计算的信息流交互处理方法及云计算验证互动中心
CN114880535B (zh) * 2022-06-09 2023-04-21 武汉十月科技有限责任公司 一种基于通讯大数据的用户画像生成方法
CN117235586B (zh) * 2023-11-16 2024-02-09 青岛小帅智能科技股份有限公司 酒店客户画像构建方法、系统、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1983264A (zh) * 2006-05-19 2007-06-20 华为技术有限公司 一种收集用户数据的系统及方法
CN103914550A (zh) * 2014-04-11 2014-07-09 百度在线网络技术(北京)有限公司 展现推荐内容的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130212115A1 (en) * 2012-02-09 2013-08-15 Gface Gmbh Tag inheritance

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1983264A (zh) * 2006-05-19 2007-06-20 华为技术有限公司 一种收集用户数据的系统及方法
CN103914550A (zh) * 2014-04-11 2014-07-09 百度在线网络技术(北京)有限公司 展现推荐内容的方法和装置

Also Published As

Publication number Publication date
CN105574159A (zh) 2016-05-11

Similar Documents

Publication Publication Date Title
CN105574159B (zh) 一种基于大数据的用户画像建立方法和用户画像管理系统
CN106156127B (zh) 选择数据内容向终端推送的方法及装置
CN103744928B (zh) 一种基于历史访问记录的网络视频分类方法
CN102033883B (zh) 一种提高网站数据传输速度的方法、装置及系统
CN103678613B (zh) 一种计算影响力数据的方法与装置
CN103546326B (zh) 一种网站流量统计的方法
CN103118111B (zh) 一种基于多个数据交互中心的数据进行信息推送的方法
CN109255586B (zh) 一种面向电子政务办事的在线个性化推荐方法
CN110462604A (zh) 基于设备使用关联互联网设备的数据处理系统和方法
CN103020293B (zh) 一种移动应用的本体库的构建方法及系统
CN107958317A (zh) 一种众包项目中选取众包参与人的方法和装置
CN1954336A (zh) 用于确定通信网络用户概况的系统和方法
CN107644089A (zh) 一种基于网络媒体的热门事件提取方法
US8768943B2 (en) Multi-source consumer behavior tracking system
CN106960354A (zh) 一种基于客户生命周期的精准化推荐方法及装置
CN104750856A (zh) 一种多维协同推荐的系统与方法
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
CN102098332A (zh) 一种内容审核方法和装置
CN112632405B (zh) 一种推荐方法、装置、设备及存储介质
CN103309894B (zh) 基于用户属性的搜索实现方法及系统
Hanley et al. No calm in the storm: Investigating qanon website relationships
CN109559152A (zh) 一种网络营销方法、系统及计算机存储介质
CN105893421A (zh) Uv计算方法、装置
CN107180078A (zh) 一种基于用户兴趣学习的垂直搜索方法
CN110059981A (zh) 信任度评估方法、装置及终端设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221013

Address after: Floor 17, building 6, jinjingwan business operation center, Pingtan Comprehensive Experimental Zone, Fuzhou City, Fujian Province 350400

Patentee after: Straits innovation Internet Co.,Ltd.

Address before: 310004 Room 1206, Floor 12, No. 536 Shaoxing Road, Xiacheng District, Hangzhou City, Zhejiang Province

Patentee before: ZHEJIANG HAKIM YUYOU FINANCIAL SERVICES Co.,Ltd.

TR01 Transfer of patent right