CN106919625A - 一种互联网用户属性识别方法和装置 - Google Patents

一种互联网用户属性识别方法和装置 Download PDF

Info

Publication number
CN106919625A
CN106919625A CN201511001263.5A CN201511001263A CN106919625A CN 106919625 A CN106919625 A CN 106919625A CN 201511001263 A CN201511001263 A CN 201511001263A CN 106919625 A CN106919625 A CN 106919625A
Authority
CN
China
Prior art keywords
label
classification
level
level label
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201511001263.5A
Other languages
English (en)
Other versions
CN106919625B (zh
Inventor
高丹
赵耀红
熊龙
邓展成
宋刚
邓超
冯俊兰
顾志峰
石世磊
许闱纬
彭传金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201511001263.5A priority Critical patent/CN106919625B/zh
Publication of CN106919625A publication Critical patent/CN106919625A/zh
Application granted granted Critical
Publication of CN106919625B publication Critical patent/CN106919625B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Abstract

本发明实施例公开了一种互联网用户属性识别方法和装置,获取标签信息,根据所述标签信息生成标签类目树,所述标签信息至少包括类目级标签;根据所述类目级标签的级数对所述标签类目树进行标签类目编码;根据所述类目级标签的类型和互联网用户行为类型确定标签映射规则;获取用户行为数据,根据所述标签映射规则为所述用户设定与所述标签类目树中对应的类目级标签。

Description

一种互联网用户属性识别方法和装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种互联网用户属性识别方法和装置。
背景技术
互联网用户浏览网站或使用手机软件的行为的时间是十分碎片化的,浏览时间也同样碎片化,这使得很多流量不大但质量不错的中小网站的广告位有了一定的市场。现有技术中,通常通过对用户上网行为分析、给用户打标签、以便针对性投放广告的方案。
然而,现有技术中,给用户打标签的方案主要依赖数据挖掘模型,通常是对用户的偏好进行人工整理,再通过简单的host规则匹配,给用户标记的内容标签是比较有限的用户偏好标签,最终只会给用户标记上很少的几个标签,很难满足全面用户标签管理的需求。
发明内容
为解决上述技术问题,本发明实施例提供一种互联网用户属性识别方法和装置,可以更方便、更精准地给用户设定标签。
本发明的技术方案是这样实现的:
本发明实施例提供一种互联网用户属性识别方法,所述方法包括:
获取标签信息,根据所述标签信息生成标签类目树,所述标签信息至少包括类目级标签;
根据所述类目级标签的级数对所述标签类目树进行标签类目编码;
根据所述类目级标签的类型和互联网用户行为类型确定标签映射规则;
获取用户行为数据,根据所述标签映射规则为所述用户设定与所述标签类目树中对应的类目级标签。
进一步地,所述获取标签信息,根据所述标签信息生成标签类目树,所述标签信息至少包括类目级标签,包括:
根据预设规则获取互联网上的每一个行业的静态页面信息,根据所述静态页面信息生成互联网信息表,从所述互联网信息表获取标签信息,所述标签信息至少包括类目级标签,根据所述类目级标签生成标签类目树。
进一步地,所述类目级标签包括:至少一个父类目级标签和所述至少一个父类目级标签对应的子类目级标签,所述根据所述类目级标签的级数对所述标签类目树进行标签类目编码,包括:
根据所述至少一个父类目级标签的预设编码对所述至少一个父类目级标签对应的子类目级标签进行编码,获得所述至少一个父类目级标签对应的子类目级标签的子类目编码;
当所述至少一个父类目级标签增加新的子类目级标签时,确定所述至少一个父类目级标签对应的子类目编码是否超出预设范围;
若所述至少一个父类目级标签对应的子类目编码未超出预设范围,将所述至少一个父类目级标签对应的子类目编码的个数加1获得新的子类目编码,其中,一个子类目级标签对应于至少一个父类目级标签。
进一步地,所述标签信息还包括:产品级标签;
所述方法还包括:将所述产品级标签添加到所述标签类目树中至少一个类目级标签对应的位置。
进一步地,其特征在于,所述方法还包括:增加类目级标签和/或产品级标签更新所述标签类目树。
进一步地,在所述根据所述类目级标签的类型和互联网用户行为类型确定标签映射规则之后,还包括:根据所述标签映射规则生成标签规则表,其中,在所述标签规则表中,一个标签对应至少一个标签映射规则。
本发明实施例还提供一种互联网用户属性识别装置,所述装置包括:获取单元、处理单元、确定单元,其中,
所述获取单元,用于获取标签信息,所述标签信息至少包括类目级标签;
所述处理单元,用于根据所述标签信息生成标签类目树,还用于根据所述类目级标签的级数对所述标签类目树进行标签类目编码;
所述确定单元,用于根据所述类目级标签的类型和互联网用户行为类型确定标签映射规则;
所述获取单元,还用于获取用户行为数据;
所述处理单元,还用于根据所述标签映射规则为所述用户设定与所述标签类目树中对应的类目级标签。
进一步地,所述获取单元,用于根据预设规则获取互联网上的每一个行业的静态页面信息;
所述处理单元,用于根据所述静态页面信息生成互联网信息表,从所述互联网信息表获取标签信息,所述标签信息至少包括类目级标签,根据所述类目级标签生成标签类目树。
进一步地,所述类目级标签包括:至少一个父类目级标签和所述至少一个父类目级标签对应的子类目级标签,所述处理单元,用于根据所述至少一个父类目级标签的预设编码对所述至少一个父类目级标签对应的子类目级标签进行编码,获得所述至少一个父类目级标签对应的子类目级标签的子类目编码;还用于当所述至少一个父类目级标签增加新的子类目级标签时,确定所述至少一个父类目级标签对应的子类目编码是否超出预设范围;还用于若所述至少一个父类目级标签对应的子类目编码未超出预设范围,将所述至少一个父类目级标签对应的子类目编码的个数加1获得新的子类目编码,其中,一个子类目级标签对应于至少一个父类目级标签。
进一步地,所述标签信息还包括:产品级标签;所述处理单元,用于将所述产品级标签添加到所述标签类目树中至少一个类目级标签对应的位置。
进一步地,所述处理单元,用于增加类目级标签和/或产品级标签更新所述标签类目树,其中,在所述标签规则表中,一个标签对应至少一个标签映射规则。
进一步地,所述处理单元,用于根据所述标签映射规则生成标签规则表,其中,在所述标签规则表中,一个标签对应至少一个标签映射规则。
本发明实施例提供了一种互联网用户属性识别方法和装置,获取标签信息,根据所述标签信息生成标签类目树,所述标签信息至少包括类目级标签;根据所述类目级标签的级数对所述标签类目树进行标签类目编码;根据所述类目级标签的类型和互联网用户行为类型确定标签映射规则;获取用户行为数据,根据所述标签映射规则为所述用户设定与所述标签类目树中对应的类目级标签。本发明实施例提供的互联网用户属性识别方法和装置,通过构建标签类目树及编码管理可以更方便地表示各级类目标签之间的关系,方便给用户设定标签,通过匹配不同标签类型和用户行为类型的标签映射规则,可以更精准地给用户设定标签,能够更全面、更准确、更高效地提供标签和用户订阅服务。
附图说明
图1为本发明实施例提供的互联网用户属性识别方法流程示意图一;
图2为本发明实施例提供的互联网用户属性识别方法流程示意图二;
图3为本发明实施例提供的互联网用户属性识别装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
实施例一
本发明实施例提供一种互联网用户属性识别方法,如图1所示,该方法可以包括:
步骤101、互联网用户属性识别装置获取标签信息,根据所述标签信息生成标签类目树,所述标签信息至少包括类目级标签。
具体的,互联网用户属性识别装置根据预设规则获取互联网上的每一个行业的静态页面信息,根据所述静态页面信息自动生成互联网信息表,例如,从汽车之家网站爬取的互联网信息表包括:每一款车的关键词信息,以及该车的url信息和页面的具体内容信息,然后,从所述互联网信息表获取标签信息,所述标签信息至少包括类目级标签,并根据所述类目级标签自动生成标签类目树。可选的,标签信息也可以通过手工整理。
现有技术的标签体系通常是手工整理,通常是少量扁平的用户偏好标签;而本发明实施例的多层级标签体系,标签非常丰富,且是通过爬虫自动生成互联网信息表,再通过程序自动生成标签类目树。
其中,所述预设规则可以根据需要获取的标签信息进行自定义设定,例如,当需要获取汽车行业的标签信息时,预设规则可以设定为与汽车行业相关的关键词信息,例如,汽车的级别、品牌、国别、车名、配置、价格等,根据该关键词信息从互联网上的静态页面信息获取汽车行业的标签信息。
现有技术通常采用的是样本库数据;而本发明实施例采集的是全量互联网用户属性的标签信息,包括用户行为可能涉及的所有静态页面信息,可以更方便地表示各级类目标签之间的关系,方便给用户设定标签。
步骤102、互联网用户属性识别装置根据所述类目级标签的级数对所述标签类目树进行标签类目编码。
其中,所述类目级标签包括:至少一个父类目级标签和所述至少一个父类目级标签对应的子类目级标签。
具体的,互联网用户属性识别装置根据所述至少一个父类目级标签的预设编码对所述至少一个父类目级标签对应的子类目级标签进行编码,获得所述至少一个父类目级标签对应的子类目级标签的子类目编码;当所述至少一个父类目级标签增加新的子类目级标签时,确定所述至少一个父类目级标签对应的子类目编码是否超出预设范围;若所述至少一个父类目级标签对应的子类目编码未超出预设范围,将所述至少一个父类目级标签对应的子类目编码的个数加1获得新的子类目编码,其中,一个子类目级标签对应于至少一个父类目级标签。
步骤103、互联网用户属性识别装置根据所述类目级标签的类型和互联网用户行为类型确定标签映射规则。
具体的,根据不同的类目级标签类型和可能的互联网用户动态行为类型,设置不同的标签映射规则,并生成标签规则表。其中,一个标签可以对应多个标签规则。
标签信息表可以用于描述标签,包括标签id、标签名、父类id、是否有子类、标签描述、创建时间、来源、有效期、敏感度级别、标签定价等信息。
标签规则表还可以用于描述映射规则,包括规则id、标签id、host、path、query key/value、Hash、正则、规则描述、规则类型、app类型、终端类型、行为类型等标签规则相关信息。不同标签的映射规则不同,规则类型规定了该标签规则是由其中那些信息来匹配的。
步骤104、互联网用户属性识别装置获取用户行为数据,根据所述标签映射规则为所述用户设定与所述标签类目树中对应的类目级标签。
具体的,互联网用户属性识别装置采集互联网用户行为数据,依据标签映射规则对用户行为数据进行标签匹配,通过标签匹配对用户设定相应的标签。对用户设定的标签可以包括类目级标签,其中,类目级标签可以根据标签类目树中设置的类目和类目之间的关系进行匹配。
当互联网用户属性识别装置给用户匹配上一个类目级标签后,同时也给用户打上该类目级标签对应的所有父类目标签,例如,父类目、祖父类目、曾祖父类目等。
需要说明的是,根据标签映射规则对用户行为数据进行标签匹配可以是实时的,也可以是离线的。
现有技术是通过网页抓取和文本处理,采用规则解析或文本分类的方法对用户标记内容标签,所谓的规则解析和文本分类都是对网页内容的处理;而本发明实施例是对用户行为数据进行处理,并根据不同的标签类型以及可能的互联网用户动态行为类型,设置不同的标签映射规则。
本发明实施例提供的互联网用户属性识别方法,通过构建标签类目树及编码管理可以更方便地表示类目标签之间的关系,方便给用户设定标签,通过匹配不同标签类型和用户行为类型的标签映射规则,可以更精准地给用户设定标签,能够更全面、更准确、更高效地提供标签和用户订阅服务。
实施例二
本发明实施例提供一种互联网用户属性识别方法,如图2所示,该方法可以包括:
步骤201、互联网用户属性识别装置根据预设规则获取互联网上的每一个行业的静态页面信息,根据所述静态页面信息生成互联网信息表,从所述互联网信息表获取标签信息,所述标签信息至少包括类目级标签和产品级标签,根据所述类目级标签和产品级标签生成标签类目树。
具体的,互联网用户属性识别装置从互联网爬取相关行业的静态页面信息,生成互联网信息表并从中采集标签信息,所述标签信息至少包括各级类目级标签和产品级标签。例如,从汽车之家网站爬取的互联网信息表包括:每一款车的关键词信息,以及该车的url信息和页面的具体内容信息。
其中,所述预设规则可以根据需要获取的标签信息进行自定义设定,例如,当需要获取汽车行业的标签信息时,预设规则可以设定为与汽车行业相关的关键词信息,例如,汽车的级别、品牌、国别、车名、配置、价格等,根据该关键词信息从互联网上的静态页面信息获取汽车行业的标签信息。
互联网用户属性识别装置提取类目级标签之间的关系,例如,产品所属的大类、中类、小类等信息,生成标签类目树;生成的标签类目树可以进一步合并和修改,使得类目的划分更科学、描述更精准,可以按规则手动单个修改或半自动批量修改可以按规则单个修改或批量修改,整理成标签体系。
互联网用户属性识别装置设置标签类目之间的父子类目关系,不同的标签类目可以存在交叉的关系,以及设置产品标签和类目标签之间的归属。
一个类目级标签可以存在多个父类目级标签,以汽车为例,品牌类目可以同时是车系类目和车型类目的子类目,比如“宝马”可以同时是“德系”和“豪华车”的子类。
一个产品级标签可以属于多个类目级标签,从多个维度、多个层次地描述对该产品有动态行为的用户特征,以汽车为例进行说明,某款汽车产品可以同时属于“车系/品牌”类目和“车型/品牌”类目,还可以属于“价格/具体价格区间”类目,比如“奇瑞QQ”可以同时属于“国产/奇瑞”、“微型车/奇瑞”和“价格/5万以下”类目。
可选的,互联网用户属性识别装置可以对标签类目树进行更新,将新增标签添加至标签类目树中相应位置,并进行标签编码管理。
现有技术通常给用户标记的内容标签是比较有限的用户偏好标签,最终只会给用户标记上很少的几个标签;而本发明实施例构建了一个多级类目树以及产品级的标签体系,一个用户可能被打上成千上万个标签,从而可以更精准地给用户设定标签,能够更全面、更准确地提供标签和用户订阅服务。
步骤202、互联网用户属性识别装置根据所述类目级标签和所述产品级标签的级数对所述标签类目树进行标签类目编码。
具体的,互联网用户属性识别装置可以对标签类目树进行编码化管理,按类目级标签的级数依次生成每级类目的标签类目编码,对于产品级标签,可以匹配相应的标签类目,将标签产品添加到标签类目树的相应位置,并进行编码化管理,整合各级标签类目信息和标签产品信息,生成标签信息表。
其中,所述类目级标签包括:至少一个父类目级标签和所述至少一个父类目级标签对应的子类目级标签。
具体的,互联网用户属性识别装置根据所述至少一个父类目级标签的预设编码对所述至少一个父类目级标签对应的子类目级标签进行编码,获得所述至少一个父类目级标签对应的子类目级标签的子类目编码;当所述至少一个父类目级标签增加新的子类目级标签时,确定所述至少一个父类目级标签对应的子类目编码是否超出预设范围;若所述至少一个父类目级标签对应的子类目编码未超出预设范围,将所述至少一个父类目级标签对应的子类目编码的个数加1获得新的子类目编码,其中,一个子类目级标签对应于至少一个父类目级标签。
步骤203、互联网用户属性识别装置根据所述类目级标签的类型和互联网用户行为类型确定标签映射规则,并根据所述标签映射规则生成标签规则表。
具体的,根据不同的类目级标签类型和可能的互联网用户动态行为类型,设置不同的标签映射规则,并生成标签规则表。其中,一个标签可以对应多个标签规则。
标签信息表可以用于描述标签,包括标签id、标签名、父类id、是否有子类、标签描述、创建时间、来源、有效期、敏感度级别、标签定价等信息。
标签规则表还可以用于描述映射规则,包括规则id、标签id、host、path、query key/value、Hash、正则、规则描述、规则类型、app类型、终端类型、行为类型等标签规则相关信息。不同标签的映射规则不同,规则类型规定了该标签规则是由其中那些信息来匹配的。
具体的,映射可以包括:规则类型映射和行为类型映射。
规则类型可以包括多种,可以是url,或者host,或者host+path,或者querykey/value,或者host+query key/value,还可以是正则表达式定义的规则等等。不同网站有不同的规则类型,一旦用户访问日志里匹配到相应规则,就给相应用户设定相应的标签。
行为类型也可以包括多种,例如,浏览、点击、搜索、收藏、删除收藏、添加购物车等;对于不同的标签类型,例如,电商、汽车、游戏、应用、房产等,每种标签类型可以对应多种用户行为类型,例如,电商对应的用户行为类型可以为浏览、点击、搜索、收藏、删除收藏、添加购物车、删除购物车、购买、优惠券、评论等行为类型,而游戏对应的用户行为类型可以为浏览、点击、搜索、下载、安装、付费等行为类型,不同标签的不同用户行为可以对应不同的标签规则。
现有技术中匹配url所用的网址分类库是样本数据,且网址分类库是很简单的host规则;而本发明实施例根据不同的标签类型以及可能的互联网用户动态行为类型,设置不同的标签映射规则,可以更精准地给用户设定标签,能够更全面、更准确、更高效地提供标签和用户订阅服务。
步骤204、互联网用户属性识别装置获取用户行为数据,根据所述标签映射规则为所述用户设定与所述标签类目树中对应的类目级标签。
具体的,互联网用户属性识别装置采集互联网用户行为数据,依据标签映射规则对用户行为数据进行标签匹配,通过标签匹配对用户设定相应的标签。对用户设定的标签可以包括产品级标签和类目级标签,其中,类目级标签可以根据标签类目树中设置的产品和类目、类目和类目之间的关系进行匹配。当互联网用户属性识别装置给用户匹配上一个类目级标签后,同时也给用户打上该类目级标签对应的所有父类目标签,例如,父类目、祖父类目、曾祖父类目等。
需要说明的是,根据标签映射规则对用户行为数据进行标签匹配可以是实时的,也可以是离线的。
示例性的,以电商行业的京东为例进行说明,产品“利率模型”的标签映射规则为host+query key/value类型,其中,host是www.jd.com,query key是id,query value是1060679598。其中,query key可以是ware id,也可以是itemid等等,根据用户访问日志进行匹配。根据用户行为是浏览、点击、搜索、收藏、删除收藏、添加购物车、删除购物车、购买、优惠券、评论等,对用户行为打上不同的行为标签。从标签类目树中的设置,可以确定“利率模型”产品对应的类目标签,也给用户打上相应的类目标签,包括“图书”、“经济”、“经典著作”、“100元以下”等“利率模型”的父标签。
现有技术中通常采用的是样本数据,而本发明实施例采集的是全量的用户行为数据,且根据不同的标签类型以及可能的互联网用户动态行为类型,设置不同的标签映射规则,以便采集互联网用户行为数据,依据标签映射规则给用户打上相应的标签。
本发明实施例提供的互联网用户属性识别方法,通过构建标签类目树及编码管理可以更方便地表示类目标签之间的关系,方便给用户设定标签,通过匹配不同标签类型和用户行为类型的标签映射规则,可以更精准地给用户设定标签,能够更全面、更准确、更高效地提供标签和用户订阅服务。
实施例三
本发明实施例提供一种互联网用户属性识别装置1,如图3所示,所述装置1可以包括:获取单元10、处理单元11、确定单元12,其中,
所述获取单元10,用于获取标签信息,所述标签信息至少包括类目级标签;
所述处理单元11,用于根据所述标签信息生成标签类目树,还用于根据所述类目级标签的级数对所述标签类目树进行标签类目编码;
所述确定单元12,用于根据所述类目级标签的类型和互联网用户行为类型确定标签映射规则;
所述获取单元10,还用于获取用户行为数据;
所述处理单元11,还用于根据所述标签映射规则为所述用户设定与所述标签类目树中对应的类目级标签。
进一步地,所述获取单元10,用于根据预设规则获取互联网上的每一个行业的静态页面信息;
所述处理单元11,用于根据所述静态页面信息生成互联网信息表,从所述互联网信息表获取标签信息,所述标签信息至少包括类目级标签,根据所述类目级标签生成标签类目树。
进一步地,所述类目级标签包括:至少一个父类目级标签和所述至少一个父类目级标签对应的子类目级标签,所述处理单元11,用于根据所述至少一个父类目级标签的预设编码对所述至少一个父类目级标签对应的子类目级标签进行编码,获得所述至少一个父类目级标签对应的子类目级标签的子类目编码;还用于当所述至少一个父类目级标签增加新的子类目级标签时,确定所述至少一个父类目级标签对应的子类目编码是否超出预设范围;还用于若所述至少一个父类目级标签对应的子类目编码未超出预设范围,将所述至少一个父类目级标签对应的子类目编码的个数加1获得新的子类目编码,其中,一个子类目级标签对应于至少一个父类目级标签。
进一步地,所述标签信息还包括:产品级标签;所述处理单元11,用于将所述产品级标签添加到所述标签类目树中至少一个类目级标签对应的位置。
进一步地,所述处理单元11,用于增加类目级标签和/或产品级标签更新所述标签类目树。
进一步地,所述处理单元11,用于根据所述标签映射规则生成标签规则表,其中,在所述标签规则表中,一个标签对应至少一个标签映射规则。
具体的,本发明实施例提供的互联网用户属性识别装置的理解可以参考实施例一和实施例二的互联网用户属性识别方法的说明,本发明实施例在此不再赘述。
本发明实施例提供的互联网用户属性识别装置,通过构建标签类目树及编码管理可以更方便地表示类目标签之间的关系,方便给用户设定标签,通过匹配不同标签类型和用户行为类型的标签映射规则,可以更精准地给用户设定标签,能够更全面、更准确、更高效地提供标签和用户订阅服务。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (12)

1.一种互联网用户属性识别方法,其特征在于,所述方法包括:
获取标签信息,根据所述标签信息生成标签类目树,所述标签信息至少包括类目级标签;
根据所述类目级标签的级数对所述标签类目树进行标签类目编码;
根据所述类目级标签的类型和互联网用户行为类型确定标签映射规则;
获取用户行为数据,根据所述标签映射规则为所述用户设定与所述标签类目树中对应的类目级标签。
2.根据权利要求1所述的方法,其特征在于,所述获取标签信息,根据所述标签信息生成标签类目树,所述标签信息至少包括类目级标签,包括:
根据预设规则获取互联网上的每一个行业的静态页面信息,根据所述静态页面信息生成互联网信息表,从所述互联网信息表获取标签信息,所述标签信息至少包括类目级标签,根据所述类目级标签生成标签类目树。
3.根据权利要求1或2所述的方法,其特征在于,所述类目级标签包括:至少一个父类目级标签和所述至少一个父类目级标签对应的子类目级标签,所述根据所述类目级标签的级数对所述标签类目树进行标签类目编码,包括:
根据所述至少一个父类目级标签的预设编码对所述至少一个父类目级标签对应的子类目级标签进行编码,获得所述至少一个父类目级标签对应的子类目级标签的子类目编码;
当所述至少一个父类目级标签增加新的子类目级标签时,确定所述至少一个父类目级标签对应的子类目编码是否超出预设范围;
若所述至少一个父类目级标签对应的子类目编码未超出预设范围,将所述至少一个父类目级标签对应的子类目编码的个数加1获得新的子类目编码,其中,一个子类目级标签对应于至少一个父类目级标签。
4.根据权利要求1所述的方法,其特征在于,所述标签信息还包括:产品级标签;所述方法还包括:将所述产品级标签添加到所述标签类目树中至少一个类目级标签对应的位置。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:增加类目级标签和/或产品级标签更新所述标签类目树。
6.根据权利要求1所述的方法,其特征在于,在所述根据所述类目级标签的类型和互联网用户行为类型确定标签映射规则之后,还包括:根据所述标签映射规则生成标签规则表,其中,在所述标签规则表中,一个标签对应至少一个标签映射规则。
7.一种互联网用户属性识别装置,其特征在于,所述装置包括:获取单元、处理单元、确定单元,其中,
所述获取单元,用于获取标签信息,所述标签信息至少包括类目级标签;
所述处理单元,用于根据所述标签信息生成标签类目树,还用于根据所述类目级标签的级数对所述标签类目树进行标签类目编码;
所述确定单元,用于根据所述类目级标签的类型和互联网用户行为类型确定标签映射规则;
所述获取单元,还用于获取用户行为数据;
所述处理单元,还用于根据所述标签映射规则为所述用户设定与所述标签类目树中对应的类目级标签。
8.根据权利要求7所述的装置,其特征在于,
所述获取单元,用于根据预设规则获取互联网上的每一个行业的静态页面信息;
所述处理单元,用于根据所述静态页面信息生成互联网信息表,从所述互联网信息表获取标签信息,所述标签信息至少包括类目级标签,根据所述类目级标签生成标签类目树。
9.根据权利要求7或8所述的装置,其特征在于,所述类目级标签包括:至少一个父类目级标签和所述至少一个父类目级标签对应的子类目级标签,所述处理单元,用于根据所述至少一个父类目级标签的预设编码对所述至少一个父类目级标签对应的子类目级标签进行编码,获得所述至少一个父类目级标签对应的子类目级标签的子类目编码;还用于当所述至少一个父类目级标签增加新的子类目级标签时,确定所述至少一个父类目级标签对应的子类目编码是否超出预设范围;还用于若所述至少一个父类目级标签对应的子类目编码未超出预设范围,将所述至少一个父类目级标签对应的子类目编码的个数加1获得新的子类目编码,其中,一个子类目级标签对应于至少一个父类目级标签。
10.根据权利要求7所述的装置,其特征在于,所述标签信息还包括:产品级标签;所述处理单元,用于将所述产品级标签添加到所述标签类目树中至少一个类目级标签对应的位置。
11.根据权利要求10所述的装置,其特征在于,所述处理单元,用于增加类目级标签和/或产品级标签更新所述标签类目树。
12.根据权利要求7所述的装置,其特征在于,所述处理单元,用于根据所述标签映射规则生成标签规则表,其中,在所述标签规则表中,一个标签对应至少一个标签映射规则。
CN201511001263.5A 2015-12-28 2015-12-28 一种互联网用户属性识别方法和装置 Active CN106919625B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511001263.5A CN106919625B (zh) 2015-12-28 2015-12-28 一种互联网用户属性识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511001263.5A CN106919625B (zh) 2015-12-28 2015-12-28 一种互联网用户属性识别方法和装置

Publications (2)

Publication Number Publication Date
CN106919625A true CN106919625A (zh) 2017-07-04
CN106919625B CN106919625B (zh) 2021-04-09

Family

ID=59455126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511001263.5A Active CN106919625B (zh) 2015-12-28 2015-12-28 一种互联网用户属性识别方法和装置

Country Status (1)

Country Link
CN (1) CN106919625B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107545143A (zh) * 2017-09-04 2018-01-05 复旦大学 疾病与人体部位的映射方法
CN108427749A (zh) * 2018-03-12 2018-08-21 上海哔哩哔哩科技有限公司 商品标签管理方法、服务器及商品标签管理系统
CN109062986A (zh) * 2018-06-29 2018-12-21 深圳市彬讯科技有限公司 一种标签的分类处理方法及装置
CN109062970A (zh) * 2018-06-28 2018-12-21 深圳市彬讯科技有限公司 用户画像的生成方法、生成设备及计算机可读存储介质
CN109191158A (zh) * 2018-06-28 2019-01-11 深圳市彬讯科技有限公司 用户画像标签数据的处理方法及处理设备
CN109255000A (zh) * 2018-07-17 2019-01-22 深圳市彬讯科技有限公司 一种标签数据的维度管理方法及装置
CN109548005A (zh) * 2018-11-27 2019-03-29 浙江每日互动网络科技股份有限公司 获取移动终端标签信息的系统
CN110019562A (zh) * 2018-06-28 2019-07-16 深圳市彬讯科技有限公司 用户画像标签的配置管理方法及配置管理设备
CN110334279A (zh) * 2019-07-09 2019-10-15 西安点告网络科技有限公司 广告投放方法、装置、服务器及存储介质
CN111026753A (zh) * 2019-12-04 2020-04-17 北京明略软件系统有限公司 基于树形结构的标签存储方法及装置
CN111881330A (zh) * 2020-08-05 2020-11-03 上海奥珩企业管理有限公司 居家服务场景自动还原方法及系统
CN112231568A (zh) * 2020-10-22 2021-01-15 携程计算机技术(上海)有限公司 酒店标签自动配置化方法、装置、电子设备、存储介质
CN113434746A (zh) * 2021-06-23 2021-09-24 深圳市酷开网络科技股份有限公司 基于用户标签的数据处理方法、终端设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070073752A1 (en) * 2005-09-29 2007-03-29 Computer Associates Think, Inc. Method and apparatus for transposing data trees
CN101430708A (zh) * 2008-11-21 2009-05-13 哈尔滨工业大学深圳研究生院 一种基于标签聚类的博客层次分类树构建方法
CN101639831A (zh) * 2008-07-29 2010-02-03 华为技术有限公司 一种搜索方法、装置及系统
CN101799814A (zh) * 2009-12-31 2010-08-11 茂名学院 自由分类标签类聚成网状分类结构的方法
CN102143224A (zh) * 2011-01-25 2011-08-03 张金海 基于手机上网用户行为的分析方法和装置
CN102592236A (zh) * 2011-12-28 2012-07-18 北京品友互动信息技术有限公司 一种互联网广告人群分析系统和分析方法
CN102609545A (zh) * 2012-03-14 2012-07-25 福建榕基软件股份有限公司 树型结构中快速搜索定位树结点的方法
CN102737057A (zh) * 2011-04-14 2012-10-17 阿里巴巴集团控股有限公司 一种商品类目信息的确定方法及装置
US20120323939A1 (en) * 2010-02-02 2012-12-20 International Business Machines Corporation Mining dependencies from disk images
CN103389988A (zh) * 2012-05-10 2013-11-13 腾讯科技(深圳)有限公司 一种引导用户进行信息搜索的方法及装置
CN103678335A (zh) * 2012-09-05 2014-03-26 阿里巴巴集团控股有限公司 商品标识标签的方法、装置及商品导航的方法
CN104090888A (zh) * 2013-12-10 2014-10-08 深圳市腾讯计算机系统有限公司 一种用户行为数据的分析方法和装置
CN104317891A (zh) * 2014-10-23 2015-01-28 华为软件技术有限公司 一种对页面标注标签的方法及装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070073752A1 (en) * 2005-09-29 2007-03-29 Computer Associates Think, Inc. Method and apparatus for transposing data trees
CN101639831A (zh) * 2008-07-29 2010-02-03 华为技术有限公司 一种搜索方法、装置及系统
CN101430708A (zh) * 2008-11-21 2009-05-13 哈尔滨工业大学深圳研究生院 一种基于标签聚类的博客层次分类树构建方法
CN101799814A (zh) * 2009-12-31 2010-08-11 茂名学院 自由分类标签类聚成网状分类结构的方法
US20120323939A1 (en) * 2010-02-02 2012-12-20 International Business Machines Corporation Mining dependencies from disk images
CN102143224A (zh) * 2011-01-25 2011-08-03 张金海 基于手机上网用户行为的分析方法和装置
CN102737057A (zh) * 2011-04-14 2012-10-17 阿里巴巴集团控股有限公司 一种商品类目信息的确定方法及装置
CN102592236A (zh) * 2011-12-28 2012-07-18 北京品友互动信息技术有限公司 一种互联网广告人群分析系统和分析方法
CN102609545A (zh) * 2012-03-14 2012-07-25 福建榕基软件股份有限公司 树型结构中快速搜索定位树结点的方法
CN103389988A (zh) * 2012-05-10 2013-11-13 腾讯科技(深圳)有限公司 一种引导用户进行信息搜索的方法及装置
CN103678335A (zh) * 2012-09-05 2014-03-26 阿里巴巴集团控股有限公司 商品标识标签的方法、装置及商品导航的方法
CN104090888A (zh) * 2013-12-10 2014-10-08 深圳市腾讯计算机系统有限公司 一种用户行为数据的分析方法和装置
CN104317891A (zh) * 2014-10-23 2015-01-28 华为软件技术有限公司 一种对页面标注标签的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TAHER AHMED GHALEB 等: "Novel scheme for labeling XML trees based on bits-masking and logical matching", 《2013 WORLD CONGRESS ON COMPUTER AND INFORMATION TECHNOLOGY (WCCIT)》 *
TIN MAUNG: "Preference querying using simple tree matching", 《THE 7TH INTERNATIONAL CONFERENCE ON NETWORKED COMPUTING AND ADVANCED INFORMATION MANAGEMENT》 *
靳延安: "社会标签推荐技术与方法研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107545143A (zh) * 2017-09-04 2018-01-05 复旦大学 疾病与人体部位的映射方法
CN108427749A (zh) * 2018-03-12 2018-08-21 上海哔哩哔哩科技有限公司 商品标签管理方法、服务器及商品标签管理系统
CN109062970A (zh) * 2018-06-28 2018-12-21 深圳市彬讯科技有限公司 用户画像的生成方法、生成设备及计算机可读存储介质
CN109191158A (zh) * 2018-06-28 2019-01-11 深圳市彬讯科技有限公司 用户画像标签数据的处理方法及处理设备
CN110019562A (zh) * 2018-06-28 2019-07-16 深圳市彬讯科技有限公司 用户画像标签的配置管理方法及配置管理设备
CN109062970B (zh) * 2018-06-28 2022-07-12 土巴兔集团股份有限公司 用户画像的生成方法、生成设备及计算机可读存储介质
CN109062986A (zh) * 2018-06-29 2018-12-21 深圳市彬讯科技有限公司 一种标签的分类处理方法及装置
CN109255000A (zh) * 2018-07-17 2019-01-22 深圳市彬讯科技有限公司 一种标签数据的维度管理方法及装置
CN109548005B (zh) * 2018-11-27 2021-10-01 每日互动股份有限公司 获取移动终端标签信息的系统
CN109548005A (zh) * 2018-11-27 2019-03-29 浙江每日互动网络科技股份有限公司 获取移动终端标签信息的系统
CN110334279A (zh) * 2019-07-09 2019-10-15 西安点告网络科技有限公司 广告投放方法、装置、服务器及存储介质
CN111026753A (zh) * 2019-12-04 2020-04-17 北京明略软件系统有限公司 基于树形结构的标签存储方法及装置
CN111881330A (zh) * 2020-08-05 2020-11-03 上海奥珩企业管理有限公司 居家服务场景自动还原方法及系统
CN111881330B (zh) * 2020-08-05 2023-10-27 颐家(上海)医疗养老服务有限公司 居家服务场景自动还原方法及系统
CN112231568A (zh) * 2020-10-22 2021-01-15 携程计算机技术(上海)有限公司 酒店标签自动配置化方法、装置、电子设备、存储介质
CN112231568B (zh) * 2020-10-22 2023-11-03 携程计算机技术(上海)有限公司 酒店标签自动配置化方法、装置、电子设备、存储介质
CN113434746A (zh) * 2021-06-23 2021-09-24 深圳市酷开网络科技股份有限公司 基于用户标签的数据处理方法、终端设备及存储介质
CN113434746B (zh) * 2021-06-23 2023-10-13 深圳市酷开网络科技股份有限公司 基于用户标签的数据处理方法、终端设备及存储介质

Also Published As

Publication number Publication date
CN106919625B (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN106919625A (zh) 一种互联网用户属性识别方法和装置
CN111444334B (zh) 数据处理方法、文本识别方法、装置及计算机设备
US20170329856A1 (en) Method and device for selecting data content to be pushed to terminal, and non-transitory computer storage medium
CN110008397B (zh) 一种推荐模型训练方法及装置
CN105718184A (zh) 一种数据处理方法和装置
CN112837106A (zh) 商品推荐方法、装置、计算机设备
CN104281622A (zh) 一种社交媒体中的信息推荐方法和装置
WO2011025696A1 (en) Method and system of information matching in electronic commerce website
US20230066853A1 (en) Method and apparatus for training information prediction models, method and apparatus for predicting information, and storage medium and device thereof
CN102279851A (zh) 一种智能导航方法、装置和系统
CN106688215A (zh) 针对内容效能优化的自动点击类型选择
CN110827112B (zh) 深度学习的商品推荐方法、装置、计算机设备及存储介质
CN104063476A (zh) 基于社交网络的内容推荐方法和系统
CN111680165B (zh) 信息匹配方法、装置、可读存储介质和电子设备
CN108959329B (zh) 一种文本分类方法、装置、介质及设备
US20230153366A1 (en) System and method for improved searching across multiple databases
CN110298029A (zh) 基于用户语料的好友推荐方法、装置、设备及介质
CN111815375B (zh) 广告投放中的用户画像方法及装置
CN105069077A (zh) 搜索方法及装置
CN113220657B (zh) 数据处理方法、装置及计算机设备
CN111400586A (zh) 群组展示方法、终端、服务器、系统及存储介质
CN111400613A (zh) 物品推荐方法、装置、介质及计算机设备
CN110955690A (zh) 一种基于大数据技术的自助数据标签平台及自助数据标签方法
CN115471283B (zh) 广告批量投放方法、装置、设备及存储介质
CN105786965A (zh) 一种基于url的用户行为分析方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant