CN108288229B - 一种用户画像构建方法 - Google Patents

一种用户画像构建方法 Download PDF

Info

Publication number
CN108288229B
CN108288229B CN201810175814.7A CN201810175814A CN108288229B CN 108288229 B CN108288229 B CN 108288229B CN 201810175814 A CN201810175814 A CN 201810175814A CN 108288229 B CN108288229 B CN 108288229B
Authority
CN
China
Prior art keywords
corpus
word set
weight
similarity
content text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810175814.7A
Other languages
English (en)
Other versions
CN108288229A (zh
Inventor
卢美莲
刘星辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201810175814.7A priority Critical patent/CN108288229B/zh
Publication of CN108288229A publication Critical patent/CN108288229A/zh
Application granted granted Critical
Publication of CN108288229B publication Critical patent/CN108288229B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明实施例提供一种用户画像构建方法,该方法包括:建立基于主题的本体层级标签体系;根据主题模型和外部语料库生成本体层级标签体系中各个标签对应的语料词集;根据用户参与的目标文本,确定特征词集;分别计算特征词集与各个语料词集的相似度;根据同类别标签的相似度之和,从本体层级标签体系中选择相似度之和大于第一预设阈值的特征词集所对应的兴趣标签作为内容文本标签;并将内容文本标签所对应的相似度作为该内容文本标签的权值;将各个内容文本标签相叠加构建用户画像。本发明实施例提供的技术方案确定的内容文本标签更加全面,能够构建全面准确定位用户兴趣特征的用户画像。

Description

一种用户画像构建方法
技术领域
本发明涉及计算机应用技术领域,特别是涉及一种用户画像构建方法。
背景技术
随着互联网技术的发展,内容社区平台受到越来越多用户的喜爱。内容社区平台以丰富的内容元素为主导,具有内容元素多样性、分类明确性和极强互动性等特点,并能够为登录内容社区平台的用户提供用户间互动、分享等社交功能。现阶段,具有代表性的内容社区平台有豆瓣网、微博、贴吧等。
随着内容社区平台发布的信息不断激增,用户在享受信息带来便利的同时,也经常受到冗杂信息的干扰,如用户经常会收到内容社区平台推送的自己不感兴趣的信息。因此,为了实现内容社区平台向用户推送其感兴趣的信息,用户画像的支持必不可少。
用户画像是对现实世界中用户的数学建模,用户画像是根据用户的属性和行为信息,充分地了解用户、挖掘用户、定位用户,并根据用户的特征偏好精准地分析用户需求而生成的能够表征用户兴趣爱好的画像。
因此,设计一种面向内容社区平台并能够全面准确地定位用户兴趣特征的用户画像构建方法具有十分重要的意义。
发明内容
本发明实施例的目的在于提供一种用户画像构建方法,以实现全面准确地定位用户兴趣特征进而生成用户画像。具体技术方案如下:
本发明实施例提供的一种用户画像构建方法,所述方法包括:
建立基于主题模型的本体层级标签体系,其中,所述主题模型为:预先设定的用于生成文档主题的模型,所述本体层级标签体系为:表示兴趣的标签的树状集合;
根据所述主题模型和外部语料库生成所述本体层级标签体系中各个兴趣标签对应的语料词集,所述外部语料库包括:开源本体词库和同义词库;
根据用户参与的目标文本,确定表示用户兴趣的特征词,并根据所确定的特征词生成特征词集,所述目标文本为:所述用户登录的内容社区平台发布的内容文本;
分别计算所述特征词集与所述本体层级标签体系中各个兴趣标签的语料词集的相似度,作为第一类相似度;
计算所述第一类相似度中属于同一类别标签的相似度的和,得到第二类相似度,其中,所述同一类别标签为:表示相同兴趣类别的标签;
选择所述第二类相似度中大于第一预设阈值的相似度对应的兴趣标签作为内容文本标签;
将所选择内容文本标签所对应的相似度作为所选择内容文本标签的权值;
根据所选择的内容文本标签和所选择的内容文本标签的权值构建用户画像。
可选的,所述建立基于主题模型的本体层级标签体系的步骤,包括:
对所述内容社区平台发布的各个内容文本进行预处理,得到各个内容文本的分词集合;
分别将所得到各个内容文本的分词集合输入至预设的主题模型,得到预设主题数量下各个主题的主题词集和主题词集中主题词的概率分布,其中,所述预设的主题模型包括:文档主题生成模型LDA;
根据每个主题下主题词集和主题词集中主题词的主题概率分布,确定每个主题下主题词集的主题名,并根据所确定的主题名生成每个主题下主题词集所属的兴趣标签类别的标签数据源;
根据所述标签数据源,利用预设的标签体系构建方法构建本体层级标签体系,其中,所述预设的标签体系构建方法包括:骨架法Skeletal Methodolody。
可选的,所述对所述内容社区平台发布的各个内容文本进行预处理,得到各个内容文本的分词集合的步骤,包括:
筛除所述内容社区平台发布的各个内容文本中重复、不完整以及错误的数据;
对筛除后的各个活动内容文本进行分词,选取表征兴趣爱好的分词构成分词集合。
可选的,所述根据所述主题模型和外部语料库生成所述本体层级标签体系中各个兴趣标签对应的语料词集的步骤,包括:
分别为所述标签体系中各个兴趣标签建立语料词集,其中,一个兴趣标签的语料词集包括:主题语料词集、同义语料词集、实例语料词集,
所述主题语料词集为:根据主题、主题下包含相同主题意义的词汇及其概率确定的语料词形成的词集,所述同义语料词集为:根据主题、主题下与主题概念同义或相近的词汇确定的语料词形成的词集,所述实例语料词集为:根据主题、主题下主题概念所包含的实例词语以及和主题概念相关的附属词语确定;
分别为所建立的各个语料词集包含的主题语料词集、同义语料词集、实例语料词集分配语料词集权值,作为第一类语料词集权值。
可选的,所述分别计算所述特征词集与所述本体层级标签体系中各个兴趣标签的语料词集的相似度,作为第一类相似度的步骤,包括:
按照以下方式计算所述特征词集与预设标签体系中每一标签的每一语料词集的相似度:
分别计算所述特征词集与语料词集包含的主题语料词集、同义语料词集、实例语料词集的相似度,作为第三类相似度;
计算所述第三类相似度中每一相似度与该相似度对应语料词集权值的乘积,根据计算得到的各个乘积的值确定所述特征词集与所述本体层级标签体系中各个兴趣标签的语料词集的相似度。
可选的,所述分别为所建立的各个语料词集包含的主题语料词集、同义语料词集、实例语料词集分配语料词集权值,作为第一类语料词集权值的步骤之后,还包括:
确定各个语料词集对应的兴趣标签在本体层级标签体系的层级;
根据预设的层级权值更新所述第一类语料词集权值。
可选的,所述根据用户参与的目标文本,确定表示用户兴趣的特征词,并根据所确定的特征词生成特征词集的步骤,包括:
从所述目标文本中,选取表征用户兴趣的词作为目标特征词;
确定每一目标特征词在所述目标文本中的出现频率;
确定每一目标特征词在所述内容社区平台发布的活动内容文本中的反文档频率;
针对每一目标特征词,计算目标特征词的出现频率与反文档频率的乘积作为目标特征词的第一权值;
选取第一权值大于第二预设阈值的目标特征词作为表示用户兴趣的特征词。
可选的,所述针对每一目标特征词,计算目标特征词的出现频率与反文档频率的乘积作为目标特征词的第一权值的步骤之后,还包括:
确定每一目标特征词在所述目标文本中的位置,并获取所确定的各个位置的预设权重;
计算每一所确定位置的第二权重,其中,一个所确定位置的第二权重为:该所确定位置的预设权重与位于该所确定位置的目标特征词的第一权重的乘积;
针对每一所确定的位置,将位于所确定位置的目标特征词的第一权值更新为所确定位置的第二权值。
可选的,所述根据所选择的内容文本标签和所选择的内容文本标签的权值构建用户画像的步骤,包括:
确定用户参与所述目标文本的参与行为和参与时间;
获取所述参与行为的预设行为权重;
根据所述参与时间与当前时间的时间差,计算时间衰减因子;
采用所获取的预设行为权重和所述时间衰减因子更新所选择的内容文本标签的权值;
根据所选择的内容文本标签和更新后内容文本标签的权值构建用户画像。
可选的,所述根据所选择的内容文本标签和更新后内容文本标签的权值构建用户画像的步骤,包括:
获取所选择的内容文本标签在所述本体层级标签体系中所属的父活动标签;
根据预设的父、子内容文本活动标签的权值对应关系,分别计算所获取的父内容文本标签的权值;
选取所计算权值大于第三预设阈值的父内容文本活动标签;
根据所选择的内容文本标签、更新后内容文本标签的权值根、所选取的父内容文本标签和所选取的父内容文本标签的权值构建用户画像。
本发明实施例还提供了一种用户画像构建装置,所述装置包括:
标签体系构建模块,用于建立基于主题模型的本体层级标签体系,其中,所述主题模型为:预先设定的用于生成文档主题的模型,所述本体层级标签体系为:表示兴趣的标签的树状集合;
语料词集生成模块,用于根据所述主题模型和外部语料库生成所述本体层级标签体系中各个兴趣标签对应的语料词集,所述外部语料库包括:开源本体词库和同义词库;
特征词集确定模块,用于根据用户参与的目标文本,确定表示用户兴趣的特征词,并根据所确定的特征词生成特征词集,所述目标文本为:所述用户登录的内容社区平台发布的内容文本;
第一类相似度计算模块,用于分别计算所述特征词集与所述本体层级标签体系中各个兴趣标签的语料词集的相似度,作为第一类相似度;
第二类相似度计算模块,用于计算所述第一类相似度中属于同一类别标签的相似度的和,得到第二类相似度,其中,所述同一类别标签为:表示相同兴趣类别的标签;
兴趣标签选择模块,用于选择所述第二类相似度中大于第一预设阈值的相似度对应的兴趣标签作为内容文本标签;
权值确定模块,用于将所选择内容文本标签所对应的相似度作为所选择内容文本标签的权值;
用户画像构建模块,用于根据所选择的内容文本标签和所选择的内容文本标签的权值构建用户画像。
可选的,上述标签体系构建模块,包括:
内容文本预处理子模块,用于对所述内容社区平台发布的各个内容文本进行预处理,得到各个内容文本的分词集合;
主题模型子模块,用于分别将所得到各个内容文本的分词集合输入至预设的主题模型,得到预设主题数量下各个主题的主题词集和主题词集中主题词的概率分布,其中,所述预设的主题模型包括:文档主题生成模型LDA;
标签数据源生成子模块,用于根据每个主题下主题词集和主题词集中主题词的主题概率分布,确定每个主题下主题词集的主题名,并根据所确定的主题名生成每个主题下主题词集所属的兴趣标签类别的标签数据源;
标签体系构建子模块,用于根据所述标签数据源,利用预设的标签体系构建方法构建本体层级标签体系,其中,所述预设的标签体系构建方法包括:骨架法SkeletalMethodolody。
可选的,上述内容文本预处理子模块,具体用于:
筛除所述内容社区平台发布的各个内容文本中重复、不完整以及错误的数据;
对筛除后的各个内容文本进行分词,选取表征兴趣爱好的分词构成分词集合。
可选的,上述语料词集生成模块,包括:
语料词集建立子模块,用于分别为所述标签体系中各个兴趣标签建立语料词集,其中,一个兴趣标签的语料词集包括:主题语料词集、同义语料词集、实例语料词集,
所述主题语料词集为:根据主题、主题下包含相同主题意义的词汇及其概率确定的语料词形成的词集,所述同义语料词集为:根据主题、主题下与主题概念同义或相近的词汇确定的语料词形成的词集,所述实例语料词集为:根据主题、主题下主题概念所包含的实例词语以及和主题概念相关的附属词语确定;
语料词集权值建立子模块,用于分别为所建立的各个语料词集包含的主题语料词集、同义语料词集、实例语料词集分配语料词集权值,作为第一类语料词集权值。
可选的,上述第一类相似度计算模块,具体用于:
按照以下方式计算所述特征词集与预设标签体系中每一兴趣标签的每一语料词集的相似度:
分别计算所述特征词集与语料词集包含的主题语料词集、同义语料词集、实例语料词集的相似度,作为第三类相似度;
计算所述第三类相似度中每一相似度与该相似度对应语料词集权值的乘积,根据计算得到的各个乘积的值确定所述特征词集与所述本体层级标签体系中各个兴趣标签的语料词集的相似度。
可选的,所述装置还包括:语料词集权值更新子模块,用于在执行上述语料词集权值建立子模块之后,执行以下步骤:
确定各个语料词集对应的兴趣标签在本体层级标签体系的层级;
根据预设的层级权值更新所述第一类语料词集权值。
可选的,上述特征词集确定模块,包括:
目标特征词选取子模块,用于从所述目标文本中,选取表征用户兴趣的词作为目标特征词;
出现频率确定子模块,用于确定每一目标特征词在所述目标文本中的出现频率;
反文档频率确定子模块,用于确定每一目标特征词在所述内容社区平台发布的内容文本中的反文档频率;
第一权值计算子模块,用于针对每一目标特征词,计算目标特征词的出现频率与反文档频率的乘积作为目标特征词的第一权值;
特征词选取子模块,用于选取第一权值大于第二预设阈值的目标特征词作为表示用户兴趣的特征词。
可选的,上述装置还包括第一权值更新子模块,用于在执行上述第一权值计算子模块后,执行以下步骤:
确定每一目标特征词在所述目标文本中的位置,并获取所确定的各个位置的预设权重;
计算每一所确定位置的第二权重,其中,一个所确定位置的第二权重为:该所确定位置的预设权重与位于该所确定位置的目标特征词的第一权重的乘积;
针对每一所确定的位置,将位于所确定位置的目标特征词的第一权值更新为所确定位置的第二权值。
可选的,上述用户画像构建模块,包括:
确定子模块,用于确定用户参与所述目标文本的参与行为和参与时间;
获取子模块,用于获取所述参与行为的预设行为权重;
计算子模块,用于根据所述参与时间与当前时间的时间差,计算时间衰减因子;
更新子模块,用于采用所获取的预设行为权重和所述时间衰减因子更新所选择的内容文本标签的权值;
构建子模块,用于根据所选择的内容文本标签和所选择的内容文本标签更新后的权值构建用户画像。
可选的,上述构建子模块,具体用于:
获取所选择的内容文本标签在所述本体层级标签体系中所属的父内容文本标签;
根据预设的父、子内容文本标签的权值对应关系,分别计算所获取的父内容文本标签的权值;
选取所计算权值大于第三预设阈值的父内容文本标签;
根据所选择的内容文本标签、所选择的内容文本标签更新后的权值、所选取的父内容文本标签和所选取的父内容文本标签的权值构建用户画像。
本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的用户画像构建方法。
本发明实施例还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的用户画像构建方法。
本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的用户画像构建方法。
本发明实施例提供的用户画像构建方法,可以根据用户参与的目标文本确定表示用户兴趣的特征词,进而生成特征词集来精确定位用户的兴趣特征;然后分别计算特征词集与本体层级标签体系中各个兴趣标签的语料词集的相似度,作为第一类相似度;计算所述第一类相似度中属于同一类别标签的相似度的和,得到第二类相似度;选择所述第二类相似度中大于第一预设阈值的相似度对应的兴趣标签作为内容文本标签。使得确定的用于构建用户画像的活动标签更加全面准确,进而能够构建全面准确地定位用户兴趣特征的用户画像。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种用户画像构建方法的流程示意图;
图2为本发明实施例提供的一种构建本体层级标签体系的流程示意图;
图3为本发明实施例提供的一种生成本体层级标签体系中各个兴趣标签对应的语料词集的流程示意图;
图4为本发明实施例提供的一种生成特征词集的流程示意图;
图5为本发明实施例提供的一种根据所选择的内容文本标签和所选择的内容文本标签的权值构建用户画像的流程示意图;
图6为本发明实施例提供的一种用户画像构建装置的结构示意图;
图7为本发明实施例提供的一种电子设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,示出了本发明实施例提供的一种用户画像构建方法的流程示意图,所述方法包括:
S100,建立基于主题模型的本体层级标签体系,其中,所述主题模型为:预先设定的用于生成文档主题的模型,所述本体层级标签体系为:表示兴趣的标签的树状集合;
一个表示兴趣的标签为一个能够表示兴趣的词,本体层级标签体系父兴趣标签概括宽泛、子兴趣标签细致具体。例如,一个父兴趣标签为:绘画,该父兴趣标签的子兴趣标签可以包括:国画、油画、漫画等。
S200,根据所述主题模型和外部语料库生成所述本体层级标签体系中各个兴趣标签对应的语料词集,所述外部语料库包括:开源本体词库和同义词库;
开源本体词库包括:知网HowNet、基于认知语言学的英语词典WordNet、语义网应用范例DBpedia等通用本体库。
同义词库包括:同义词词林、词林近义词词典、中文近义词工具包等开源资料库。
每个活动标签对应一个语料词集,语料词集为表示相同兴趣标签概念的语料词的集合。例如,兴趣标签为:艺术;相应地该兴趣标签对应的语料词集可以包括:绘画、文学、戏剧、国画等。
S300,根据用户参与的目标文本,确定表示用户兴趣的特征词,并根据所确定的特征词生成特征词集,所述目标文本为:所述用户登录的内容社区平台发布的内容文本;
内容文本可以理解为内容社区平台发布的即将举行平台活动的公告,可以包括:活动标题、活动时间、活动地点、活动详情等。
一种实现方式中,可以通过预先设定的分词器,如斯坦福分词包,对目标文本进行分词,得到分词集合;由于得到的分词集合中所包含的词较多,并且并不全都能够表示用户兴趣特征,因此需要通过词性标注器,如stanford-postagger开源词性标注器,进行词性标注,筛选出除专业名词和时间名词以外的其他名词和除谓语性形容词、系动词以外的其他动词,将从分词集合中经过筛选得到的词作为表示用户兴趣的特征词。
一种实现方式中,可以根据用户参与平台活动的历史记录中确定用户参与过的平台活动,进而获取用户参与过的平台活动所对应的活动内容文本。
S400,分别计算所述特征词集与所述本体层级标签体系中各个兴趣标签的语料词集的相似度,作为第一类相似度;
一种实现方式中,可以利用余弦相似度计算方法来分别计算特征词集与本体层级标签体系中各个兴趣标签的语料词集的相似度。
S500,计算所述第一类相似度中属于同一类别标签的相似度的和,得到第二类相似度,其中,所述同一类别标签为:表示相同兴趣类别的标签;
实际应用中,所计算的第一类相似度中可能存在同属于一个兴趣类别的标签的相似度,基于此,可以将同属于一个兴趣类别标签的相似度的和作为该兴趣类别标签的相似度。例如,第一类相似度中存在0.2和0.1两个相似度属于表示绘画兴趣类别的标签,那么表示绘画兴趣类别的标签的相似度则为0.3。
S600,选择所述第二类相似度中大于第一预设阈值的相似度对应的兴趣标签作为内容文本标签;
第一预设阈值可以根据实际需要进行设定,第一预设阈值越大相应地最终确定的标签的数量越少,但是最终确定的标签对表征用户兴趣特征的意义越大。
S700,将所选择内容文本标签所对应的相似度作为所选择内容文本标签的权值;
所选择内容文本标签所对应的相似度即为上述S600中所选择的兴趣标签的相似度。
S800,根据所选择的内容文本标签和所选择的内容文本标签的权值构建用户画像。
不难理解的是,所选择的内容文本标签的权值越大则表明该内容文本标签对表征用户兴趣爱好的意义越大。基于此,一种实现方式中,在构建用户画像的过程中,内容文本标签的权值越大在用户画像中的显示字体越大,以实现在用户画像中突出显示对表征用户兴趣权重大的内容文本标签。
本发明实施例一种实现方式中,由于每个用户参与内容社区平台的平台活动的参与次数和参与频率不同。例如,用户A参与过100次平台活动,其中有10次平台活动的类型为电影类型;用户B参与过10次平台活动,其中有6次平台活动的类型为电影类型;可见,用户B虽然参加电影类型的平台活动次数少于用户A,但是用户B参加参加电影类型的平台活动次数占自身参加平台活动总次数的比例高。基于此,可以针对具有相同标签的用户中各个相同标签的标签权值进行归一化处理,使得具有相同标签的用户中各个相同标签权值均为处于0到1之间的值,以减少各个用户参加某一类型平台活动的次数对确定标签权重的影响,方便用户画像的后续应用。
本发明实施例一种实现方式中,在上述S800之后,还可以将具有相似用户画像特征的用户聚类到一起,形成群体用户画像,进而能够帮助内容社区平台实现用户群体的精细化管理。其中,相似用户画像特征的用户可以理解为用户画像中拥有相同兴趣标签的数量大于预设数量阈值的用户。具体的,可以使用使用K-means聚类算法对用户标签进行聚类。
本发明实施例提供的技术方案可以根据用户参与的目标文本确定表示用户兴趣的特征词,进而生成特征词集来精确定位用户的兴趣特征;然后分别计算特征词集与本体层级标签体系中各个兴趣标签的语料词集的相似度,作为第一类相似度;计算所述第一类相似度中属于同一类别标签的相似度的和,得到第二类相似度;选择所述第二类相似度中大于第一预设阈值的相似度对应的兴趣标签作为内容文本标签。使得确定的用于构建用户画像的活动标签更加全面准确,进而能够构建全面准确地定位用户兴趣特征的用户画像。
参照图2,上述S100可以包括:
S110,对所述内容社区平台发布的各个内容文本进行预处理,得到各个内容文本的分词集合;
一种实现方式中,上述S110,包括:
A1,筛除所述内容社区平台发布的各个内容文本中重复、不完整以及错误的数据;
A2,通过预先设定的分词器对筛除后的各个内容文本进行分词,选取表征兴趣爱好的分词构成分词集合。其中,分词器可以选用斯坦福分词包。
一种实现方式中,构成分词集合之后还可以根据预设的停用词库筛除停用词,然后将筛除停用词后得到的分词集合中单字的词筛除,以减少分词集合中词的数量,进而简化后续创建标签体系的过程。其中,停用词是指为节省存储空间和提高搜索效率,在处理文本数据时自动过滤掉某些字或词。
S120,分别将所得到各个内容文本的分词集合输入至预设的主题模型,得到预设主题数量下各个主题的主题词集和主题词集中主题词的概率分布,其中,所述预设的主题模型包括:文档主题生成模型LDA;
概率分布可以理解为一个主题词在该主题词所属的主题词集对应的主题下的出现频率。
LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。
预设主题数量可以根据LDA困惑度来确定,一种实现方式中,困惑度的定义公式为:
Figure BDA0001587283810000141
M为内容文本的分词集合中包含的分词数量;P(w)为主题词集中各个主题词的概率分布,一个主题词的P(w)由该词在所有主题词集中的概率分布p(z|d)与该词所在内容文本的概率分布p(w|z)做乘积得到,其计算公式为:
P(w)=∑zp(z|d)*p(w|z)
困惑度数值越小,代表主题模型的训练效果越好。一种实现方式中,可以通过比较计算主题数量分别为5、10、15…150时的困惑度折线图,确定出最终主题划分的个数。准确的主题数量,能够全面挖掘内容社区平台发布的内容文本的主题维度,帮助构建更加全面完备的本体层级标签体系。
S130,根据每个主题下主题词集和主题词集中主题词的主题概率分布,确定每个主题下主题词集的主题名,并根据所确定的主题名生成每个主题下主题词集所属的兴趣标签类别的标签数据源;
标签数据源可以理解为用于构建本体层级标签体系中各个兴趣标签
一种实现方式中,可以根据主题下主题词集包含的表征相同主题概念的词中概率分布按照由高到低的顺序排名在前的词,确定每个主题下主题词集的主题名。具体的,某一个主题下主题词集包含的表征相同主题概念的词中概率分布按照由高到低的顺序排名在前的词为:足球、篮球、运动;则确定该主题下主题词集的主题名为:球类运动。
S140,根据所述标签数据源,利用预设的标签体系构建方法构建本体层级标签体系,其中,所述预设的标签体系构建方法包括:骨架法Skeletal Methodolody。
一种实现方式中,针对描述用户兴趣特征的需求,结合标签数据源,筛选出构建本体层级标签体系中的重要主题概念和兴趣元素;再根据开源本体词库中的概念和关系,对筛选出的概念和术语进行关系梳理和分组,梳理出相关性较强的主题词组形成子领域。采用自顶向下法从平台顶级标签概念开始,向下梳理标签下级分支并添加子类细化概念。使用树形结构将平台领域内的主题标签组织成具有层次结构的标签体系。
参见图3,上述S200,包括:
S210,分别为所述标签体系中各个兴趣标签建立语料词集,其中,一个兴趣标签的语料词集包括:主题语料词集、同义语料词集、实例语料词集,
所述主题语料词集为:根据主题、主题下包含相同主题意义的词汇及其概率确定的语料词形成的词集,所述同义语料词集为:根据主题、主题下与主题概念同义或相近的词汇确定的语料词形成的词集,所述实例语料词集为:根据主题、主题下主题概念所包含的实例词语以及和主题概念相关的附属词语确定;
S220,分别为所建立的各个语料词集包含的主题语料词集、同义语料词集、实例语料词集分配语料词集权值,作为第一类语料词集权值。
一种实现方式中,主题语料词集是根据主题、主题下包含相同主题意义的词汇及其概率确定的语料词形成的词集,主题特征明显且准确度较高,可以为主题语料词集分配最大的语料词集权值。实例语料词集包含主题概念所关联的一些词语,在匹配过程中容易出现一些概念偏差,可以为实例语料词集分配最小的语料词集权值。
本发明实施例提供的技术方案为一个兴趣标签建立语料词集的过程中,分别建立主题语料词集、同义语料词集、实例语料词集三种不同类型的语料词集,使得一个兴趣标签所对应的语料词集中包含的语料词更加丰富,选取用于构建用户画像的兴趣标签更全面准确。
一种实现方式中,上述S220:包括
B1,按照以下方式计算所述特征词集与预设标签体系中每一兴趣标签的每一语料词集的相似度:
B2,分别计算所述特征词集与语料词集包含的主题语料词集、同义语料词集、实例语料词集的相似度,作为第三类相似度;
B3,计算所述第三类相似度中每一相似度与该相似度对应语料词集权值的乘积,根据计算得到的各个乘积的值确定所述特征词集与所述本体层级标签体系中各个兴趣标签的语料词集的相似度。
一种实现方式中,首先分别计算特征词集与语料词集包含的主题语料词集的相似度得到主题语料词集相似度;计算特征词集与语料词集包含的同义语料词集的相似度得到同义语料词集相似度;计算特征词集与语料词集包含的实例语料词集的相似度得到实例语料词集相似度;然后再分别计算主题语料词集相似度与主题语料词集权值的乘积;计算同义语料词集相似度与同义语料词集权值的乘积;计算实例语料词集相似度与实例语料词集权值的乘积;最后比较计算得到的各个乘积的值,将其中,最大的乘积值作为特征词集与预设标签体系中每一活动标签的每一语料词集的相似度。一种实现方式中还可以对计算得到的三个乘积的值进行加权相加得到的值作为特征词集与预设标签体系中每一活动标签的每一语料词集的相似度。
本发明实施例一种实现方式中,上述S220之后,还包括:
C1,确定各个语料词集对应的兴趣标签在本体层级标签体系的层级;
C2,根据预设的层级权值更新所述第一类语料词集权值。
由于本发明实施例构建的本体层级标签体系是多层级的树形结构,具有父兴趣标签概括宽泛、子兴趣标签细致具体的特点。由于上父、子标签具有关联关系,所以其语料库中的特征项存在一部分交集。为了挖掘用户细致的兴趣特征,本发明实施例可以在根据内容文本构建本体层级标签的过程中增加子兴趣标签的权重,提高将用户参与的内容文本匹配到更加细致标签的概率。
一种实现方式中,可以将本体层级标签体系中不具有子兴趣标签的兴趣标签所在的层级作为底层兴趣标签;将不具有父兴趣标签的兴趣标签所在的层级作为顶层;基于此,预设的层级权值可以按照由底层到顶层的层级权值依次递减的规则设定。例如,本体层级标签体系中一共有6层兴趣标签,可以依次设定底层标签到顶层标签的层级权值为6、5、4、3、2、1。
参见图4,上述S300,包括:
S310,从所述目标文本中,选取表征用户兴趣的词作为目标特征词;
S320,确定每一目标特征词在所述目标文本中的出现频率;
S330,确定每一目标特征词在所述内容社区平台发布的内容文本中的反文档频率;
S340,针对每一目标特征词,计算目标特征词的出现频率与反文档频率的乘积作为目标特征词的第一权值;
S350,选取第一权值大于第二预设阈值的目标特征词作为表示用户兴趣的特征词。
出现频率可以理解为特征词在目标文本中的出现次数;
反文档频率可以通过内容社区平台发布的内容文本数量与包含特征词的内容文本数量商的对数来确定,具体的,可以通过以下公式来计算:
Figure BDA0001587283810000171
其中,idfk为特征词k的反文档频率;N表示内容社区平台发布的内容文本数量;nk表示包含特征词k的内容文本数量。
由于当内容社区平台发布的内容文本都包含同一特征值时,idfk的值为0,为避免0值对运算的干扰,在计算时加入常数限制,将idfk的计算公式改为:
Figure BDA0001587283810000172
其中,c∈(0,1)。
本发明实施例提供的技术方案可以在选取表征用户兴趣的词作为目标特征词后,根据每一目标特征词的出现频率和反文档频率来确定每一目标特征词的权值,进而选取权值大于第二预设阈值的目标特征词来作为表示用户兴趣的特征词。基于此,能够使得所选取的特征词更具代表性,并且能够降低后续构建用户画像的过程的复杂度。
本发明实施例一种实现方式中,上述S340之后,还包括:
D1,确定每一目标特征词在所述目标文本中的位置,并获取所确定的各个位置的预设权重;
D2,计算每一所确定位置的第二权重,其中,一个所确定位置的第二权重为:该所确定位置的预设权重与位于该所确定位置的目标特征词的第一权重的乘积;
D3,针对每一所确定的位置,将位于所确定位置的目标特征词的第一权值更新为所确定位置的第二权值。
在目标文本中的位置分为:标题位置,正文位置;其中,正文位置有可以分为:第一自然段位置、第二自然段位置……最后自然段位置。
一种实现方式中,可以预先为不同的位置分配不同的位置权重,通常情况下用户在阅读一篇内容文本时首先注意的是标题,并且一篇内容文本的标题也是对内容文本内容的概述,对于内容文本所属兴趣类别的确定有着重要意义。基于此,可以为标题位置分配的位置权重高于正文位置的位置权重;正文位置中各个自然段位置的位置权重可以相同,也可以不同。一种实现方式中,正文位置中可以为第一自然段位置分配最高的位置权重,然后依次递减为最后自然段位置分配最低的位置权重。
本发明实施例提供的技术方案,可以为内容文本中不同位置分配不同的位置权重,进而能在确定表示用户兴趣的特征词的过程中,增大处于内容文本中标题位置的特征词的权值,进而提高处于内容文本中处于标题位置的特征词在构建用户画像过程中的作用。
参见图5,上述S800,包括:
S810,确定用户参与所述目标文本的参与行为和参与时间;
S820,获取所述参与行为的预设行为权重;
S830,根据所述参与时间与当前时间的时间差,计算时间衰减因子;
S840,采用所获取的预设行为权重和所述时间衰减因子更新所选择的内容文本标签的权值;
S850,根据所选择的内容文本标签和所选择的内容文本标签更新后的权值构建用户画像。
参与行为包括:包括浏览、收藏、评论、实际参加等行为,不同的参与行为能够表征用户对平台活动的不同喜好程度。具体的,浏览行为表示用户只是查看了内容社区平台发布的平台活动的内容文本;实际参加行为则表示用户具体参与到了内容社区平台发布的平台活动。基于此,在为用户匹配标签的过程中,可以为实际参与行为分配的权重高于其他参与行为的权重。一种实现方式中,可以按照分配的权重由高到低的顺序依次为实际参加、评论、收藏、浏览的参与行为分配权重。
相应的参与时间则为浏览、收藏、评论、实际参与等行为发生的时间。用户的兴趣会随着时间推移发生衰减,用户的参与行为距离当前时间越接近,其代表的兴趣特征对表征用户的兴趣标签越准确。
一种实现方式中,可以通过以下公式来计算时间衰减因子:
Figure BDA0001587283810000191
Iweight表示时间衰减因子;t表示参与时间与当前时间的时间差;c表示时间衰减的程度系数。
一种实现方式中,可以利用所获取的预设行为权重、时间衰减因子和第二类活动标签的权值三者乘积的值来更新第二类活动标签的权值。
本发明实施例提供的技术方案能够根据用户参与目标文本的参与行为和参与时间来更新所选取的活动标签的权值,以使得为用户构建的用户画像能更准确表征用户兴趣特征。
一种实现方式中,上述S850,包括:
E1,获取所选择的内容文本标签在所述本体层级标签体系中所属的父内容文本标签;
E2,根据预设的父、子内容文本标签的权值对应关系,分别计算所获取的父内容文本标签的权值;
E3,选取所计算权值大于第三预设阈值的父内容文本标签;
E4,根据所选择的内容文本标签、所选择的内容文本标签更新后的权值、所选取的父内容文本标签和所选取的父内容文本标签的权值构建用户画像。
一种实现方式中,预设的父、子活动标签的权值对应关系可以为:Z=F*A,其中,Z表示子活动标签的权值;F表示父活动标签的权值;A为预设的实数。
本发明实施例提供的技术方案能够根据预设的父、子活动标签的权值对应关系,计算所选取的内容文本标签所属的父活动标签的权值,当所计算的父活动标签的权值大于第三预设阈值时,在为用户构建的用户画像中增加所选取的父活动标签及所选取的父活动标签的权值,以使得最终构建的用户画像更加全面。
参照图6,示出了本发明实施例提供的一种用户画像构建装置的结构示意图,所述装置包括:
标签体系构建模块1000,用于建立基于主题模型的本体层级标签体系,其中,所述主题模型为:预先设定的用于生成文档主题的模型,所述本体层级标签体系为:表示兴趣的标签的树状集合;
语料词集生成模块1100,用于根据所述主题模型和外部语料库生成所述本体层级标签体系中各个兴趣标签对应的语料词集,所述外部语料库包括:开源本体词库和同义词库;
特征词集确定模块1200,用于根据用户参与的目标文本,确定表示用户兴趣的特征词,并根据所确定的特征词生成特征词集,所述目标文本为:所述用户登录的内容社区平台发布的内容文本;
第一类相似度计算模块1300,用于分别计算所述特征词集与所述本体层级标签体系中各个兴趣标签的语料词集的相似度,作为第一类相似度;
第二类相似度计算模块1400,用于计算所述第一类相似度中属于同一类别标签的相似度的和,得到第二类相似度,其中,所述同一类别标签为:表示相同兴趣类别的标签;
兴趣标签选择模块1500,用于选择所述第二类相似度中大于第一预设阈值的相似度对应的兴趣标签作为内容文本标签;
权值确定模块1600,用于将所选择内容文本标签所对应的相似度作为所选择内容文本标签的权值;
用户画像构建模块1700,用于根据所选择的内容文本标签和所选择的内容文本标签的权值构建用户画像。
本发明实施例一种实现方式中,标签体系构建模块1000,包括:
内容文本预处理子模块,用于对所述内容社区平台发布的各个内容文本进行预处理,得到各个内容文本的分词集合;
主题模型子模块,用于分别将所得到各个内容文本的分词集合输入至预设的主题模型,得到预设主题数量下各个主题的主题词集和主题词集中主题词的概率分布,其中,所述预设的主题模型包括:文档主题生成模型LDA;
标签数据源生成子模块,用于根据每个主题下主题词集和主题词集中主题词的主题概率分布,确定每个主题下主题词集的主题名,并根据所确定的主题名生成每个主题下主题词集所属的兴趣标签类别的标签数据源;
标签体系构建子模块,用于根据所述标签数据源,利用预设的标签体系构建方法构建本体层级标签体系,其中,所述预设的标签体系构建方法包括:骨架法SkeletalMethodolody。
本发明实施例一种实现方式中,上述内容文本预处理子模块,具体用于:
筛除所述内容社区平台发布的各个内容文本中重复、不完整以及错误的数据;
对筛除后的各个内容文本进行分词,选取表征兴趣爱好的分词构成分词集合。
本发明实施例一种实现方式中,上述语料词集生成模块1100,包括:
语料词集建立子模块,用于分别为所述标签体系中各个兴趣标签建立语料词集,其中,一个兴趣标签的语料词集包括:主题语料词集、同义语料词集、实例语料词集,
所述主题语料词集为:根据主题、主题下包含相同主题意义的词汇及其概率确定的语料词形成的词集,所述同义语料词集为:根据主题、主题下与主题概念同义或相近的词汇确定的语料词形成的词集,所述实例语料词集为:根据主题、主题下主题概念所包含的实例词语以及和主题概念相关的附属词语确定;
语料词集权值建立子模块,用于分别为所建立的各个语料词集包含的主题语料词集、同义语料词集、实例语料词集分配语料词集权值,作为第一类语料词集权值。
本发明实施例一种实现方式中,上述第一类相似度计算模块1300,具体用于:
按照以下方式计算所述特征词集与预设标签体系中每一兴趣标签的每一语料词集的相似度:
分别计算所述特征词集与语料词集包含的主题语料词集、同义语料词集、实例语料词集的相似度,作为第三类相似度;
计算所述第三类相似度中每一相似度与该相似度对应语料词集权值的乘积,根据计算得到的各个乘积的值确定所述特征词集与所述本体层级标签体系中各个兴趣标签的语料词集的相似度。
本发明实施例一种实现方式中,所述装置还包括,语料词集权值更新子模块用于在执行上述语料词集权值建立子模块之后,执行以下步骤:
确定各个语料词集对应的兴趣标签在本体层级标签体系的层级;
根据预设的层级权值更新所述第一类语料词集权值。
本发明实施例一种实现方式中,上述特征词集确定模块1200,包括:
目标特征词选取子模块,用于从所述目标文本中,选取表征用户兴趣的词作为目标特征词;
出现频率确定子模块,用于确定每一目标特征词在所述目标文本中的出现频率;
反文档频率确定子模块,用于确定每一目标特征词在所述内容社区平台发布的内容文本中的反文档频率;
第一权值计算子模块,用于针对每一目标特征词,计算目标特征词的出现频率与反文档频率的乘积作为目标特征词的第一权值;
特征词选取子模块,用于选取第一权值大于第二预设阈值的目标特征词作为表示用户兴趣的特征词。
本发明实施例一种实现方式中,上述装置还包括第一权值更新子模块,用于在执行上述第一权值计算子模块后,执行以下步骤:
确定每一目标特征词在所述目标文本中的位置,并获取所确定的各个位置的预设权重;
计算每一所确定位置的第二权重,其中,一个所确定位置的第二权重为:该所确定位置的预设权重与位于该所确定位置的目标特征词的第一权重的乘积;
针对每一所确定的位置,将位于所确定位置的目标特征词的第一权值更新为所确定位置的第二权值。
本发明实施例一种实现方式中,上述用户画像构建模块1700,包括:
确定子模块,用于确定用户参与所述目标文本的参与行为和参与时间;
获取子模块,用于获取所述参与行为的预设行为权重;
计算子模块,用于根据所述参与时间与当前时间的时间差,计算时间衰减因子;
更新子模块,用于采用所获取的预设行为权重和所述时间衰减因子更新所选择的内容文本标签的权值;
构建子模块,用于根据所选择的内容文本标签和所选择的内容文本标签更新后的权值构建用户画像。
本发明实施例一种实现方式中,上述构建子模块,具体用于:
获取所选择的内容文本标签在所述本体层级标签体系中所属的父内容文本标签;
根据预设的父、子内容文本标签的权值对应关系,分别计算所获取的父内容文本标签的权值;
选取所计算权值大于第三预设阈值的父内容文本标签;
根据所选择的内容文本标签、所选择的内容文本标签更新后的权值、所选取的父内容文本标签和所选取的父内容文本标签的权值构建用户画像。
本发明实施例提供的各个方案中,用户画像构建装置可以根据用户参与的目标文本确定表示用户兴趣的特征词,进而生成特征词集来精确定位用户的兴趣特征;然后分别计算特征词集与本体层级标签体系中各个兴趣标签的语料词集的相似度,作为第一类相似度;计算所述第一类相似度中属于同一类别标签的相似度的和,得到第二类相似度;选择所述第二类相似度中大于第一预设阈值的相似度对应的兴趣标签作为内容文本标签。使得确定的用于构建用户画像的活动标签更加全面准确,进而能够构建全面准确地定位用户兴趣特征的用户画像。
本发明实施例还提供了一种电子设备,如图7所示,包括处理器001、通信接口002、存储器003和通信总线004,其中,处理器001,通信接口002,存储器003通过通信总线004完成相互间的通信,
存储器003,用于存放计算机程序;
处理器001,用于执行存储器003上所存放的程序时,实现本发明实施例所述的用户画像构建方法。
具体的,上述用户画像构建方法,包括:
建立基于主题模型的本体层级标签体系,其中,所述主题模型为:预先设定的用于生成文档主题的模型,所述本体层级标签体系为:表示兴趣的标签的树状集合;
根据所述主题模型和外部语料库生成所述本体层级标签体系中各个兴趣标签对应的语料词集,所述外部语料库包括:开源本体词库和同义词库;
根据用户参与的目标文本,确定表示用户兴趣的特征词,并根据所确定的特征词生成特征词集,所述目标文本为:所述用户登录的内容社区平台发布的内容文本;
分别计算所述特征词集与所述本体层级标签体系中各个兴趣标签的语料词集的相似度,作为第一类相似度;
计算所述第一类相似度中属于同一类别标签的相似度的和,得到第二类相似度,其中,所述同一类别标签为:表示相同兴趣类别的标签;
选择所述第二类相似度中大于第一预设阈值的相似度对应的兴趣标签作为内容文本标签;
将所选择内容文本标签所对应的相似度作为所选择内容文本标签的权值;
根据所选择的内容文本标签和所选择的内容文本标签的权值构建用户画像。
需要说明的是,上述处理器001执行存储器003上所存放的程序实现用户画像构建方法的其他实施例,与前述方法实施例部分提供的实施例相同,这里不再赘述。
本发明实施例提供的各个方案中,电子设备可以根据用户参与的目标文本确定表示用户兴趣的特征词,进而生成特征词集来精确定位用户的兴趣特征;然后分别计算特征词集与本体层级标签体系中各个兴趣标签的语料词集的相似度,作为第一类相似度;计算所述第一类相似度中属于同一类别标签的相似度的和,得到第二类相似度;选择所述第二类相似度中大于第一预设阈值的相似度对应的兴趣标签作为内容文本标签。使得确定的用于构建用户画像的活动标签更加全面准确,进而能够构建全面准确地定位用户兴趣特征的用户画像。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,实现本发明实施例所述的用户画像构建方法。
具体的,上述用户画像构建方法,包括:
建立基于主题模型的本体层级标签体系,其中,所述主题模型为:预先设定的用于生成文档主题的模型,所述本体层级标签体系为:表示兴趣的标签的树状集合;
根据所述主题模型和外部语料库生成所述本体层级标签体系中各个兴趣标签对应的语料词集,所述外部语料库包括:开源本体词库和同义词库;
根据用户参与的目标文本,确定表示用户兴趣的特征词,并根据所确定的特征词生成特征词集,所述目标文本为:所述用户登录的内容社区平台发布的内容文本;
分别计算所述特征词集与所述本体层级标签体系中各个兴趣标签的语料词集的相似度,作为第一类相似度;
计算所述第一类相似度中属于同一类别标签的相似度的和,得到第二类相似度,其中,所述同一类别标签为:表示相同兴趣类别的标签;
选择所述第二类相似度中大于第一预设阈值的相似度对应的兴趣标签作为内容文本标签;
将所选择内容文本标签所对应的相似度作为所选择内容文本标签的权值;
根据所选择的内容文本标签和所选择的内容文本标签的权值构建用户画像。
需要说明的是,通过上述计算机可读存储介质实现用户画像构建方法的其他实施例,与前述方法实施例部分提供的实施例相同,这里不再赘述。
本发明实施例提供的各个方案中,通过运行上述计算机可读存储介质中存储的指令,可以根据用户参与的目标文本确定表示用户兴趣的特征词,进而生成特征词集来精确定位用户的兴趣特征;然后分别计算特征词集与本体层级标签体系中各个兴趣标签的语料词集的相似度,作为第一类相似度;计算所述第一类相似度中属于同一类别标签的相似度的和,得到第二类相似度;选择所述第二类相似度中大于第一预设阈值的相似度对应的兴趣标签作为内容文本标签。使得确定的用于构建用户画像的活动标签更加全面准确,进而能够构建全面准确地定位用户兴趣特征的用户画像。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,实现本发明实施例所述的用户画像构建方法。
具体的,上述用户画像构建方法,包括:
建立基于主题模型的本体层级标签体系,其中,所述主题模型为:预先设定的用于生成文档主题的模型,所述本体层级标签体系为:表示兴趣的标签的树状集合;
根据所述主题模型和外部语料库生成所述本体层级标签体系中各个兴趣标签对应的语料词集,所述外部语料库包括:开源本体词库和同义词库;
根据用户参与的目标文本,确定表示用户兴趣的特征词,并根据所确定的特征词生成特征词集,所述目标文本为:所述用户登录的内容社区平台发布的内容文本;
分别计算所述特征词集与所述本体层级标签体系中各个兴趣标签的语料词集的相似度,作为第一类相似度;
计算所述第一类相似度中属于同一类别标签的相似度的和,得到第二类相似度,其中,所述同一类别标签为:表示相同兴趣类别的标签;
选择所述第二类相似度中大于第一预设阈值的相似度对应的兴趣标签作为内容文本标签;
将所选择内容文本标签所对应的相似度作为所选择内容文本标签的权值;
根据所选择的内容文本标签和所选择的内容文本标签的权值构建用户画像。
需要说明的是,通过上述计算机程序产品实现用户画像构建方法的其他实施例,与前述方法实施例部提供的实施例相同,这里不再赘述。
本发明实施例提供的各个方案中,通过运行上述包含指令的计算机程序产品,可以根据用户参与的目标文本确定表示用户兴趣的特征词,进而生成特征词集来精确定位用户的兴趣特征;然后分别计算特征词集与本体层级标签体系中各个兴趣标签的语料词集的相似度,作为第一类相似度;计算所述第一类相似度中属于同一类别标签的相似度的和,得到第二类相似度;选择所述第二类相似度中大于第一预设阈值的相似度对应的兴趣标签作为内容文本标签。使得确定的用于构建用户画像的活动标签更加全面准确,进而能够构建全面准确地定位用户兴趣特征的用户画像。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质、计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (9)

1.一种用户画像构建方法,其特征在于,包括:
建立基于主题模型的本体层级标签体系,其中,所述主题模型为:预先设定的用于生成文档主题的模型,所述本体层级标签体系为:表示兴趣的标签的树状集合;
根据所述主题模型和外部语料库生成所述本体层级标签体系中各个兴趣标签对应的语料词集,所述外部语料库包括:开源本体词库和同义词库;
根据用户参与的目标文本,确定表示用户兴趣的特征词,并根据所确定的特征词生成特征词集,所述目标文本为:所述用户登录的内容社区平台发布的内容文本;
分别计算所述特征词集与所述本体层级标签体系中各个兴趣标签的语料词集的相似度,作为第一类相似度;
计算所述第一类相似度中属于同一类别标签的相似度的和,得到第二类相似度,其中,所述同一类别标签为:表示相同兴趣类别的标签;
选择所述第二类相似度中大于第一预设阈值的相似度对应的兴趣标签作为内容文本标签;
将所选择内容文本标签所对应的相似度作为所选择内容文本标签的权值;
根据所选择的内容文本标签和所选择的内容文本标签的权值构建用户画像;
所述根据所述主题模型和外部语料库生成所述本体层级标签体系中各个兴趣标签对应的语料词集的步骤,包括:
分别为所述标签体系中各个兴趣标签建立语料词集,其中,一个兴趣标签的语料词集包括:主题语料词集、同义语料词集、实例语料词集,
所述主题语料词集为:根据主题、主题下包含相同主题意义的词汇及其概率确定的语料词形成的词集,所述同义语料词集为:根据主题、主题下与主题概念同义或相近的词汇确定的语料词形成的词集,所述实例语料词集为:根据主题、主题下主题概念所包含的实例词语以及和主题概念相关的附属词语确定;
分别为所建立的各个语料词集包含的主题语料词集、同义语料词集、实例语料词集分配语料词集权值,作为第一类语料词集权值。
2.如权利要求1所述的方法,其特征在于,所述建立基于主题模型的本体层级标签体系的步骤,包括:
对所述内容社区平台发布的各个内容文本进行预处理,得到各个内容文本的分词集合;
分别将所得到各个内容文本的分词集合输入至预设的主题模型,得到预设主题数量下各个主题的主题词集和主题词集中主题词的概率分布,其中,所述预设的主题模型包括:文档主题生成模型LDA;
根据每个主题下主题词集和主题词集中主题词的主题概率分布,确定每个主题下主题词集的主题名,并根据所确定的主题名生成每个主题下主题词集所属的兴趣标签类别的标签数据源;
根据所述标签数据源,利用预设的标签体系构建方法构建本体层级标签体系,其中,所述预设的标签体系构建方法包括:骨架法Skeletal Methodolody。
3.如权利要求2所述的方法,其特征在于,所述对所述内容社区平台发布的各个内容文本进行预处理,得到各个内容文本的分词集合的步骤,包括:
筛除所述内容社区平台发布的各个内容文本中重复、不完整以及错误的数据;
对筛除后的各个内容文本进行分词,选取表征兴趣爱好的分词构成分词集合。
4.如权利要求1所述的方法,其特征在于,所述分别计算所述特征词集与所述本体层级标签体系中各个兴趣标签的语料词集的相似度,作为第一类相似度的步骤,包括:
按照以下方式计算所述特征词集与预设标签体系中每一兴趣标签的每一语料词集的相似度:
分别计算所述特征词集与语料词集包含的主题语料词集、同义语料词集、实例语料词集的相似度,作为第三类相似度;
计算所述第三类相似度中每一相似度与该相似度对应语料词集权值的乘积,根据计算得到的各个乘积的值确定所述特征词集与所述本体层级标签体系中各个兴趣标签的语料词集的相似度。
5.如权利要求1所述的方法,其特征在于,所述分别为所建立的各个语料词集包含的主题语料词集、同义语料词集、实例语料词集分配语料词集权值,作为第一类语料词集权值的步骤之后,还包括:
确定各个语料词集对应的兴趣标签在本体层级标签体系的层级;
根据预设的层级权值更新所述第一类语料词集权值。
6.如权利要求1所述的方法,其特征在于,所述根据用户参与的目标文本,确定表示用户兴趣的特征词,并根据所确定的特征词生成特征词集的步骤,包括:
从所述目标文本中,选取表征用户兴趣的词作为目标特征词;
确定每一目标特征词在所述目标文本中的出现频率;
确定每一目标特征词在所述内容社区平台发布的内容文本中的反文档频率;
针对每一目标特征词,计算目标特征词的出现频率与反文档频率的乘积作为目标特征词的第一权值;
选取第一权值大于第二预设阈值的目标特征词作为表示用户兴趣的特征词。
7.如权利要求6所述的方法,其特征在于,所述针对每一目标特征词,计算目标特征词的出现频率与反文档频率的乘积作为目标特征词的第一权值的步骤之后,还包括:
确定每一目标特征词在所述目标文本中的位置,并获取所确定的各个位置的预设权重;
计算每一所确定位置的第二权重,其中,一个所确定位置的第二权重为:该所确定位置的预设权重与位于该所确定位置的目标特征词的第一权重的乘积;
针对每一所确定的位置,将位于所确定位置的目标特征词的第一权值更新为所确定位置的第二权值。
8.如权利要求1所述的方法,其特征在于,所述根据所选择的内容文本标签和所选择的内容文本标签的权值构建用户画像的步骤,包括:
确定用户参与所述目标文本的参与行为和参与时间;
获取所述参与行为的预设行为权重;
根据所述参与时间与当前时间的时间差,计算时间衰减因子;
采用所获取的预设行为权重和所述时间衰减因子更新所选择的内容文本标签的权值;
根据所选择的内容文本标签和所选择的内容文本标签更新后的权值构建用户画像。
9.如权利要求8所述的方法,其特征在于,所述根据所选择的内容文本标签和更新后内容文本标签的权值构建用户画像的步骤,包括:
获取所选择的内容文本标签在所述本体层级标签体系中所属的父内容文本标签;
根据预设的父、子内容文本标签的权值对应关系,分别计算所获取的父内容文本标签的权值;
选取所计算权值大于第三预设阈值的父内容文本标签;
根据所选择的内容文本标签、所选择的内容文本标签更新后的权值、所选取的父内容文本标签和所选取的父内容文本标签的权值构建用户画像。
CN201810175814.7A 2018-03-02 2018-03-02 一种用户画像构建方法 Expired - Fee Related CN108288229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810175814.7A CN108288229B (zh) 2018-03-02 2018-03-02 一种用户画像构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810175814.7A CN108288229B (zh) 2018-03-02 2018-03-02 一种用户画像构建方法

Publications (2)

Publication Number Publication Date
CN108288229A CN108288229A (zh) 2018-07-17
CN108288229B true CN108288229B (zh) 2022-03-15

Family

ID=62833434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810175814.7A Expired - Fee Related CN108288229B (zh) 2018-03-02 2018-03-02 一种用户画像构建方法

Country Status (1)

Country Link
CN (1) CN108288229B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447689A (zh) * 2018-09-27 2019-03-08 深圳壹账通智能科技有限公司 用户风险画像生成方法、装置、设备及可读存储介质
CN109284932B (zh) * 2018-10-08 2020-08-04 杭州飞弛网络科技有限公司 一种基于大数据的陌生人社交用户评价方法与系统
CN109255128B (zh) * 2018-10-11 2023-11-28 北京小米移动软件有限公司 多层级标签的生成方法、装置和存储介质
CN109558500A (zh) * 2018-11-21 2019-04-02 杭州网易云音乐科技有限公司 多媒体序列生成方法、介质、装置和计算设备
CN109740157B (zh) * 2018-12-29 2023-08-18 贵州小爱机器人科技有限公司 工作个体的标签确定方法、装置以及计算机存储介质
CN109635070B (zh) * 2019-01-18 2020-11-17 上海迹寻科技有限公司 一种基于行动轨迹构建用户兴趣画像的方法及其数据更新方法
CN109871415B (zh) * 2019-01-21 2021-04-30 武汉光谷信息技术股份有限公司 一种基于图数据库的用户画像构建方法、系统及存储介质
CN110008391A (zh) * 2019-02-28 2019-07-12 平安科技(深圳)有限公司 用户兴趣画像的构建方法及装置、存储介质、计算机设备
CN110334202A (zh) * 2019-03-28 2019-10-15 平安科技(深圳)有限公司 基于新闻应用软件的用户兴趣标签构建方法及相关设备
CN111814475A (zh) * 2019-04-09 2020-10-23 Oppo广东移动通信有限公司 用户画像构建方法、装置、存储介质和电子设备
CN110209908A (zh) * 2019-04-19 2019-09-06 平安科技(深圳)有限公司 基于用户兴趣画像的应用推荐方法、装置、计算机设备及计算机存储介质
CN110727797A (zh) * 2019-09-17 2020-01-24 北京三快在线科技有限公司 标签生成方法、装置、电子设备和计算机可读介质
CN112559853B (zh) * 2019-09-26 2024-01-12 北京沃东天骏信息技术有限公司 用户标签的生成方法和装置
CN111275492A (zh) * 2020-02-07 2020-06-12 腾讯科技(深圳)有限公司 用户画像生成方法、装置、存储介质及设备
CN111754116B (zh) * 2020-06-24 2023-10-17 国家电网有限公司大数据中心 一种基于标签画像技术的信用评估方法及装置
CN111782956A (zh) * 2020-07-08 2020-10-16 重庆帮企科技集团有限公司 一种基于用户行为和关键词分类的搜索方法
CN112182451A (zh) * 2020-09-18 2021-01-05 武汉绿色网络信息服务有限责任公司 网页内容摘要生成方法、设备、存储介质及装置
CN115600945B (zh) * 2022-09-07 2023-06-30 淮阴工学院 基于多粒度的冷链配载用户画像构建方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729360A (zh) * 2012-10-12 2014-04-16 腾讯科技(深圳)有限公司 一种兴趣标签推荐方法及系统
CN105512245B (zh) * 2015-11-30 2018-08-21 青岛智能产业技术研究院 一种基于回归模型建立企业画像的方法
CN105677873B (zh) * 2016-01-11 2019-03-26 中国电子科技集团公司第十研究所 基于领域知识模型的文本情报关联聚类汇集处理方法
CN106778862B (zh) * 2016-12-12 2020-04-21 上海智臻智能网络科技股份有限公司 一种信息分类方法及装置
CN107578292B (zh) * 2017-09-19 2020-10-16 上海财经大学 一种用户画像构建系统

Also Published As

Publication number Publication date
CN108288229A (zh) 2018-07-17

Similar Documents

Publication Publication Date Title
CN108288229B (zh) 一种用户画像构建方法
US10402703B2 (en) Training image-recognition systems using a joint embedding model on online social networks
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
US10528635B2 (en) Blending by query classification on online social networks
US10268646B2 (en) Tensor-based deep relevance model for search on online social networks
US10162886B2 (en) Embedding-based parsing of search queries on online social networks
Arias et al. Forecasting with twitter data
US10185763B2 (en) Syntactic models for parsing search queries on online social networks
US20190188285A1 (en) Image Search with Embedding-based Models on Online Social Networks
US10535106B2 (en) Selecting user posts related to trending topics on online social networks
CN110704626B (zh) 一种用于短文本的分类方法及装置
US10678786B2 (en) Translating search queries on online social networks
US10755179B2 (en) Methods and apparatus for identifying concepts corresponding to input information
US20190108282A1 (en) Parsing and Classifying Search Queries on Online Social Networks
US20180089542A1 (en) Training Image-Recognition Systems Based on Search Queries on Online Social Networks
US20200065422A1 (en) Document Entity Linking on Online Social Networks
Cordobés et al. Graph-based techniques for topic classification of tweets in Spanish
Lytvyn et al. Textual Content Categorizing Technology Development Based on Ontology.
Tayal et al. Personalized ranking of products using aspect-based sentiment analysis and Plithogenic sets
US9965812B2 (en) Generating a supplemental description of an entity
Guzmán de Núñez et al. A proposal for sentiment analysis on twitter for tourism-based applications
Iram et al. Anatomy of Sentiment Analysis of Tweets Using Machine Learning Approach: Anatomy of Sentiment Analysis of Tweets
Iliadis et al. Fast facts: Platforms from personalization to centralization
Dende Sentimental Analysis in crime detection: A case study of Kenya law enforcement agencies
Asif et al. Hashtag the tweets: Experimental evaluation of semantic relatedness measures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220315