CN109815386B - 一种基于用户画像的构建方法、装置及存储介质 - Google Patents

一种基于用户画像的构建方法、装置及存储介质 Download PDF

Info

Publication number
CN109815386B
CN109815386B CN201811577206.5A CN201811577206A CN109815386B CN 109815386 B CN109815386 B CN 109815386B CN 201811577206 A CN201811577206 A CN 201811577206A CN 109815386 B CN109815386 B CN 109815386B
Authority
CN
China
Prior art keywords
user
webpage
word
weight
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811577206.5A
Other languages
English (en)
Other versions
CN109815386A (zh
Inventor
林志扬
黄南松
栾江霞
章正道
王仁斌
朱振水
江明臻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN201811577206.5A priority Critical patent/CN109815386B/zh
Publication of CN109815386A publication Critical patent/CN109815386A/zh
Application granted granted Critical
Publication of CN109815386B publication Critical patent/CN109815386B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种基于用户画像的构建方法、装置及存储介质,该方法包括:登记用户的个人信息数据,记录用户的网页浏览记录和收藏的网页记录,对所述用户的搜索网页记录和收藏的网页记录进行处理得到初始兴趣标签,以所述初始兴趣标签为起点关联用户的网页浏览记录,以生成最终兴趣标签,基于用户的所述最终兴趣标签和个人信息数据为该用户构建用户画像。本发明从用户在浏览器的使用记录信息生成初始兴趣标签,然后,通过改进PageRank算法生成所有用户的最终兴趣标签,减少用户无意识浏览对用户兴趣标签的影响,减少广告网页对用户最终兴趣标签产生的不利影响,以及对未知兴趣标签属性的挖掘,使用户兴趣标签更加准确,使得构建的用户画像信息更为准确。

Description

一种基于用户画像的构建方法、装置及存储介质
技术领域
本发明涉及数据处理技术领域,特别是一种基于用户画像的构建方法、装置及存储介质。
背景技术
个性化推荐系统目前很多,个性化推荐的基础是要分析出每个用户的特征,才能对用户的爱好、特点进行建模,基于这个模型为用户推荐新的内容。
用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理。
现有技术中,用户画像一般用作推荐系统的基础性工作。传统的画像引擎系统无效化比较严重,实际场景中无意义或者意义很弱的标签属性太多。标签静态化问题,需要大量人工标记来设定已知标签属性,无法根据使用场景来动态挖掘未知属性。
发明内容
本发明针对上述现有技术中的缺陷,提出了如下技术方案。
一种基于用户画像的构建方法,该方法包括:
登记步骤,用于登记用户的个人信息数据;
记录步骤,用于记录用户的网页浏览记录和收藏的网页记录;
初始兴趣标签生成步骤,对所述用户的搜索网页记录和收藏的网页记录进行处理得到初始兴趣标签;
最终兴趣标签生成步骤,用于以所述初始兴趣标签为起点关联用户的网页浏览记录,以生成最终兴趣标签;
构建步骤,基于用户的所述最终兴趣标签和个人信息数据为该用户构建用户画像。
更进一步地,所述个人信息数据包括用户ID、地域、IP地址、单位、电话号码和/或收藏记录。
更进一步地,所述搜索网页记录和收藏的网页记录包括网址、标题、时间和/或关键词。
更进一步地,所述初始兴趣标签生成步骤包括:
第一分析步骤,获取用户网页浏览记录中的URL,分析URL是否为搜索URL,如果是,通过正则规则抽取出所搜索的关键词;
第二分析步骤,获取用户收藏的网页记录中的URL,使用爬虫获得URL的网页内容,对所述网页内容进行处理得到文本摘要,对摘要内容进行分词,并对分词后的结果进行过滤得到过滤后的关键词;
生成步骤,将所述搜索的关键词和过滤后的关键词设为初始兴趣标签,并为每个关键词设置一个初始权重,初始权重统一设置为1。
更进一步地,所述最终兴趣标签生成步骤包括:
处理步骤,获取当前用户所有浏览的URL,过滤搜索URL,通过爬虫对用户浏览的非搜索页面进行抓取,对抓取的网页内容生成文本摘要,对文本摘要进行分词处理,并过滤后生成一词语集合;
权重设置步骤,以所述词语集合中的每个词语为一个节点,并为每个节点分配相应权重,如果该词语存在于初始兴趣标签中,其权重为1;如果该词语不存在于初始兴趣标签中,其权重为1/N,N为词语集合中的词语个数;
窗口设置步骤,用于设置每个网页的文本摘要为一个窗口,每个窗口中任意两个词语节点存在无向无权边,基于所述词语集合构成图;
权重计算步骤,迭代传播各个节点的权重,直至收敛;
获得步骤,计算权重收敛后得到T个词语,在原始网页内容中进行标记,若形成相邻词组,则组合成多词关键词,返回权重超过预设阀值的关键词的集合为该用户的最终兴趣标签。
更进一步地,所述节点Vi的权重计算公式如下:
Figure BDA0001916312730000031
其中V为词语节点,E为边,其中E(Vi)表示与节点Vi连接的所有节点的集合,常数d的值为0.85,S(Vj)为词语Vj的权重,Wji代表Vi与Vj之间的边的权重,每个文本摘要为一个窗口,窗口中包含k个词语,倘若两个词语都存在,称为共现,将词对间的共现次数作为连接它们的边权重,i,j为序号。
本发明还提出了一种基于用户画像的构建装置,该装置包括:
登记单元,用于登记用户的个人信息数据;
记录单元,用于记录用户的网页浏览记录和收藏的网页记录;
初始兴趣标签生成单元,对所述用户的搜索网页记录和收藏的网页记录进行处理得到初始兴趣标签;
最终兴趣标签生成单元,用于以所述初始兴趣标签为起点关联用户的网页浏览记录,以生成最终兴趣标签;
构建单元,基于用户的所述最终兴趣标签和个人信息数据为该用户构建用户画像。
更进一步地,所述个人信息数据包括用户ID、地域、IP地址、单位、电话号码和/或收藏记录。
更进一步地,所述网页浏览记录和收藏的网页记录包括网址、标题、时间和/或关键词。
更进一步地,所述初始兴趣标签生成单元包括:
第一分析单元,获取用户网页浏览记录中的URL,分析URL是否为搜索URL,如果是,通过正则规则抽取出所搜索的关键词;
第二分析单元,获取用户收藏的网页记录中的URL,使用爬虫获得URL的网页内容,对所述网页内容进行处理得到文本摘要,对摘要内容进行分词,并对分词后的结果进行过滤得到过滤后的关键词;
生成单元,将所述搜索的关键词和过滤后的关键词设为初始兴趣标签,并为每个关键词设置一个初始权重,初始权重统一设置为1。
更进一步地,所述最终兴趣标签生成单元包括:
处理单元,获取当前用户所有浏览的URL,过滤搜索URL,通过爬虫对用户浏览的非搜索页面进行抓取,对抓取的网页内容生成文本摘要,对文本摘要进行分词处理,并过滤后生成一词语集合;
权重设置单元,以所述词语集合中的每个词语为一个节点,并为每个节点分配相应权重,如果该词语存在于初始兴趣标签中,其权重为1;如果该词语不存在于初始兴趣标签中,其权重为1/N,N为词语集合中的词语个数;
窗口设置单元,用于设置每个网页的文本摘要为一个窗口,每个窗口中任意两个词语节点存在无向无权边,基于所述词语集合构成图;
权重计算单元,迭代传播各个节点的权重,直至收敛;
获得单元,计算权重收敛后得到T个词语,在原始网页内容中进行标记,若形成相邻词组,则组合成多词关键词,返回权重超过预设阀值的关键词的集合为该用户的最终兴趣标签。
更进一步地,所述节点Vi的权重计算公式如下:
Figure BDA0001916312730000051
其中V为词语节点,E为边,其中E(Vi)表示与节点Vi连接的所有节点的集合,常数d的值为0.85,S(Vj)为词语Vj的权重,Wji代表Vi与Vj之间的边的权重,每个文本摘要为一个窗口,窗口中包含k个词语,倘若两个词语都存在,称为共现,将词对间的共现次数作为连接它们的边权重,i,j为序号。
本发明还提出了一种计算机可读存储介质,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行上述之任一的方法。
本发明的技术效果为:本发明从用户在浏览器的使用记录信息生成初始兴趣标签,然后,通过改进PageRank算法生成所有用户的最终兴趣标签,减少用户无意识浏览对用户兴趣标签的影响,减少广告网页对用户最终兴趣标签产生的不利影响,以及对未知兴趣标签属性的挖掘,使用户兴趣标签更加准确,使得构建的用户画像信息更为准确,提高了用户体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。
图1是根据本发明的实施例的一种基于用户画像的构建方法的流程图。
图2是根据本发明的实施例的初始兴趣标签生成步骤的流程图。
图3是根据本发明的实施例的最终兴趣标签生成步骤的流程图。
图4是根据本发明的实施例的一种基于用户画像的构建装置的结构图。
图5是根据本发明的实施例的初始兴趣标签生成单元的结构图。
图6是根据本发明的实施例的最终兴趣标签生成单元的结构图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了本发明的一种基于用户画像的构建方法,该方法包括:
登记步骤S101,用于登记用户的个人信息数据。在本发明的一个实施例中,所述个人信息数据包括用户ID、地域、IP地址、单位、电话号码和/或收藏记录等等。
记录步骤S102,用于记录用户的网页浏览记录和收藏的网页记录;在本发明的一个实施例中,所述网页浏览记录和收藏的网页记录包括网址、标题、时间和/或关键词。
初始兴趣标签生成步骤S103,对所述用户的搜索网页记录和收藏的网页记录进行处理得到初始兴趣标签。
最终兴趣标签生成步骤S104,用于以所述初始兴趣标签为起点关联用户的网页浏览记录,以生成最终兴趣标签。
构建步骤S105,基于用户的所述最终兴趣标签和个人信息数据为该用户构建用户画像。
在本发明的方法的实施例中,可以对每个用户构建用户画像,即在用户登录进入系统时,获取用户的相关信息及浏览记录、历史收藏记录等等信息。
如图2所示,在本发明的一个实施例中,所述初始兴趣标签生成步骤S103包括:
第一分析步骤S1031,获取用户网页浏览记录中的URL,分析URL是否为搜索URL,如果是,通过正则规则抽取出所搜索的关键词。该步骤中,使用正则规则(也称为正则表达式)从用户的抖索记录中的URL中提取用户的搜索关键词,一般来说,用户的搜索关键词体现了用户的偏好,适于构建用户画像。
第二分析步骤S1032,获取用户收藏的网页记录中的URL,使用爬虫获得URL的网页内容,对所述网页内容进行处理得到文本摘要,对摘要内容进行分词,并对分词后的结果进行过滤得到过滤后的关键词。
生成步骤S1033,将所述搜索的关键词和过滤后的关键词设为初始兴趣标签,并为每个关键词设置一个初始权重,初始权重统一设置为1。
在第二分析步骤S1032中,对网页内容采用本司申请的申请号为CN201711121022.3、发明名称为《关于特定主题类别的文本摘要提取方法、可读存储介质》中的技术进行生成文本摘要,本发明中所使用的过滤机制如下:过滤不需要的词语包括:停用词,代词、介词、连词、助词、叹词、语气词、标点符号。
如图3所示,在本发明的一个实施例中,所述最终兴趣标签生成步骤S104包括:
处理步骤S1041,获取当前用户所有浏览的URL,过滤搜索URL,通过爬虫对用户浏览的非搜索页面进行抓取,对抓取的网页内容生成文本摘要,对文本摘要进行分词处理,并过滤后生成一词语集合。
在处理步骤S1041中,对网页内容采用本司申请的申请号为CN201711121022.3、发明名称为《关于特定主题类别的文本摘要提取方法、可读存储介质》中的技术进行生成文本摘要,本发明中所使用的过滤机制如下:过滤不需要的词语包括:停用词,代词、介词、连词、助词、叹词、语气词、标点符号。
权重设置步骤S1042,以所述词语集合中的每个词语为一个节点,并为每个节点分配相应权重,如果该词语存在于初始兴趣标签中,其权重为1;如果该词语不存在于初始兴趣标签中,其权重为1/N,N为词语集合中的词语个数。
窗口设置步骤S1043,用于设置每个网页的文本摘要为一个窗口,每个窗口中任意两个词语节点存在无向无权边,基于所述词语集合构成图。
权重计算步骤S1044,迭代传播各个节点的权重,直至收敛。
获得步骤S1045,计算权重收敛后得到T个词语,在原始网页内容中进行标记,若形成相邻词组,则组合成多词关键词,返回权重超过预设阀值的关键词的集合为该用户的最终兴趣标签。
本发明中先生成初始兴趣标签,在基于初始兴趣标签及用户的浏览记录生成最终兴趣标签,且在权重计算时,如果该词语存在于初始兴趣标签中,其权重为1;如果该词语不存在于初始兴趣标签中,其权重为1/N,N为词语集合中的词语个数,从而减少了用户无意识浏览对用户兴趣标签的影响,减少广告网页对用户最终兴趣标签产生的不利影响,以及对未知兴趣标签属性的挖掘,使用户兴趣标签更加准确,进而使得构建的用户画像信息更为准确,这是本发明的重要发明点之一。
在本发明的一个实施例中,所述节点Vi的权重计算公式如下:
Figure BDA0001916312730000101
其中V为词语节点,E为边,其中E(Vi)表示与节点Vi连接的所有节点的集合,常数d的值为0.85,S(Vj)为词语Vj的权重,Wji代表Vi与Vj之间的边的权重,每个文本摘要为一个窗口,窗口中包含k个词语,倘若两个词语都存在,称为共现,将词对间的共现次数作为连接它们的边权重,i,j为序号。该计算方法是本发明提出的改进的PageRank算法,使得改进后的PageRank算法适于计算节点权重的传播,且计算速度快,这是本发明的另一个重要发明点。
进一步参考图4,作为对上述图1所示方法的实现,本申请提供了基于用户画像的构建装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以包含于各种电子设备中。
图4示出了本发明的一种基于用户画像的构建装置,该装置包括:
登记单元401,用于登记用户的个人信息数据。在本发明的一个实施例中,所述个人信息数据包括用户ID、地域、IP地址、单位、电话号码和/或收藏记录等等。
记录单元402,用于记录用户的网页浏览记录和收藏的网页记录;在本发明的一个实施例中,所述网页浏览记录和收藏的网页记录包括网址、标题、时间和/或关键词。
初始兴趣标签生成单元403,对所述用户的搜索网页记录和收藏的网页记录进行处理得到初始兴趣标签。
最终兴趣标签生成单元404,用于以所述初始兴趣标签为起点关联用户的网页浏览记录,以生成最终兴趣标签。
构建单元405,基于用户的所述最终兴趣标签和个人信息数据为该用户构建用户画像。
在本发明的装置的实施例中,可以对每个用户构建用户画像,即在用户登录进入系统时,获取用户的相关信息及浏览记录、历史收藏记录等等信息。
如图5所示,在本发明的一个实施例中,所述初始兴趣标签生成单元403包括:
第一分析单元4031,获取用户网页浏览记录中的URL,分析URL是否为搜索URL,如果是,通过正则规则抽取出所搜索的关键词。该步骤中,使用正则规则(也称为正则表达式)从用户的抖索记录中的URL中提取用户的搜索关键词,一般来说,用户的搜索关键词体现了用户的偏好,适于构建用户画像。
第二分析单元4032,获取用户收藏的网页记录中的URL,使用爬虫获得URL的网页内容,对所述网页内容进行处理得到文本摘要,对摘要内容进行分词,并对分词后的结果进行过滤得到过滤后的关键词。
生成单元4033,将所述搜索的关键词和过滤后的关键词设为初始兴趣标签,并为每个关键词设置一个初始权重,初始权重统一设置为1。
在第二分析单元4032中,对网页内容采用本司申请的申请号为、发明名称为CN201711121022.3《关于特定主题类别的文本摘要提取装置、可读存储介质》中的技术进行生成文本摘要,本发明的过滤机制如下:过滤不需要的词语包括:停用词,代词、介词、连词、助词、叹词、语气词、标点符号。
如图6所示,在本发明的一个实施例中,所述最终兴趣标签生成单元404包括:
处理单元4041,获取当前用户所有浏览的URL,过滤搜索URL,通过爬虫对用户浏览的非搜索页面进行抓取,对抓取的网页内容生成文本摘要,对文本摘要进行分词处理,并过滤后生成一词语集合。
在处理单元4041中,对网页内容采用本司申请的申请号为CN201711121022.3、发明名称为《关于特定主题类别的文本摘要提取装置、可读存储介质》中的技术进行生成文本摘要,本发明中所使用的过滤机制如下:过滤不需要的词语包括:停用词,代词、介词、连词、助词、叹词、语气词、标点符号。
权重设置单元4042,以所述词语集合中的每个词语为一个节点,并为每个节点分配相应权重,如果该词语存在于初始兴趣标签中,其权重为1;如果该词语不存在于初始兴趣标签中,其权重为1/N,N为词语集合中的词语个数。
窗口设置单元4043,用于设置每个网页的文本摘要为一个窗口,每个窗口中任意两个词语节点存在无向无权边,基于所述词语集合构成图。
权重计算单元4044,迭代传播各个节点的权重,直至收敛。
获得单元4045,计算权重收敛后得到T个词语,在原始网页内容中进行标记,若形成相邻词组,则组合成多词关键词,返回权重超过预设阀值的关键词的集合为该用户的最终兴趣标签。
本发明中先生成初始兴趣标签,在基于初始兴趣标签及用户的浏览记录生成最终兴趣标签,且在权重计算时,如果该词语存在于初始兴趣标签中,其权重为1;如果该词语不存在于初始兴趣标签中,其权重为1/N,N为词语集合中的词语个数,从而减少了用户无意识浏览对用户兴趣标签的影响,减少广告网页对用户最终兴趣标签产生的不利影响,以及对未知兴趣标签属性的挖掘,使用户兴趣标签更加准确,进而使得构建的用户画像信息更为准确,这是本发明的重要发明点之一。
在本发明的一个实施例中,所述节点Vi的权重计算公式如下:
Figure BDA0001916312730000131
其中V为词语节点,E为边,其中E(Vi)表示与节点Vi连接的所有节点的集合,常数d的值为0.85,S(Vj)为词语Vj的权重,Wji代表Vi与Vj之间的边的权重,每个文本摘要为一个窗口,窗口中包含k个词语,倘若两个词语都存在,称为共现,将词对间的共现次数作为连接它们的边权重,i,j为序号。该计算装置是本发明提出的改进的PageRank算法,使得改进后的PageRank算法适于计算节点权重的传播,且计算速度快,这是本发明的另一个重要发明点。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于用户画像的构建方法,其特征在于,该方法包括:
登记步骤,用于登记用户的个人信息数据;
记录步骤,用于记录用户的网页浏览记录和收藏的网页记录;
初始兴趣标签生成步骤,对所述用户的搜索网页记录和收藏的网页记录进行处理得到初始兴趣标签;
最终兴趣标签生成步骤,用于以所述初始兴趣标签为起点关联用户的网页浏览记录,生成词语集合,以所述词语集合中的每个词语为一个节点,并为每个节点分配相应权重,如果该词语存在于初始兴趣标签中,其权重为1;如果该词语不存在于初始兴趣标签中,其权重为1/N,N为词语集合中的词语个数;迭代传播各个节点的权重,直至收敛;计算权重收敛后得到T个词语,在原始网页内容中进行标记,若形成相邻词组,则组合成多词关键词,返回权重超过预设阀值的关键词的集合为该用户的最终兴趣标签,以生成最终兴趣标签;
构建步骤,基于用户的所述最终兴趣标签和个人信息数据为该用户构建用户画像;
其中,节点Vi的权重计算公式如下:
Figure FDA0003538081660000011
其中V为词语节点,E为边,其中E(Vi)表示与节点Vi连接的所有节点的集合,常数d的值为0.85,S(Vj)为词语Vj的权重,Wji代表Vi与Vj之间的边的权重,每个文本摘要为一个窗口,窗口中包含k个词语,倘若两个词语都存在,称为共现,将词对间的共现次数作为连接它们的边权重,i,j为序号。
2.根据权利要求1所述的方法,其特征在于,所述个人信息数据包括用户ID、地域、IP地址、单位、电话号码和/或收藏记录。
3.根据权利要求1所述的方法,其特征在于,所述网页浏览记录和收藏的网页记录包括网址、标题、时间和/或关键词。
4.根据权利要求1所述的方法,其特征在于,所述初始兴趣标签生成步骤包括:
第一分析步骤,获取用户网页浏览记录中的URL,分析URL是否为搜索URL,如果是,通过正则规则抽取出所搜索的关键词;
第二分析步骤,获取用户收藏的网页记录中的URL,使用爬虫获得URL的网页内容,对所述网页内容进行处理得到文本摘要,对摘要内容进行分词,并对分词后的结果进行过滤得到过滤后的关键词;
生成步骤,将所述搜索的关键词和过滤后的关键词设为初始兴趣标签,并为每个关键词设置一个初始权重,初始权重统一设置为1。
5.根据权利要求4所述的方法,其特征在于,所述最终兴趣标签生成步骤包括:
处理步骤,获取当前用户所有浏览的URL,过滤搜索URL,通过爬虫对用户浏览的非搜索页面进行抓取,对抓取的网页内容生成文本摘要,对文本摘要进行分词处理,并过滤后生成一词语集合;
窗口设置步骤,用于设置每个网页的文本摘要为一个窗口,每个窗口中任意两个词语节点存在无向无权边,基于所述词语集合构成图。
6.一种基于用户画像的构建装置,其特征在于,该装置包括:
登记单元,用于登记用户的个人信息数据;
记录单元,用于记录用户的网页浏览记录和收藏的网页记录;
初始兴趣标签生成单元,对所述用户的搜索网页记录和收藏的网页记录进行处理得到初始兴趣标签;
最终兴趣标签生成单元,用于以所述初始兴趣标签为起点关联用户的网页浏览记录,以生成最终兴趣标签;
构建单元,基于用户的所述最终兴趣标签和个人信息数据为该用户构建用户画像;
其中,所述最终兴趣标签生成单元包括:
处理单元,获取当前用户所有浏览的URL,过滤搜索URL,通过爬虫对用户浏览的非搜索页面进行抓取,对抓取的网页内容生成文本摘要,对文本摘要进行分词处理,并过滤后生成一词语集合;
权重设置单元,以所述词语集合中的每个词语为一个节点,并为每个节点分配相应权重,如果该词语存在于初始兴趣标签中,其权重为1;如果该词语不存在于初始兴趣标签中,其权重为1/N,N为词语集合中的词语个数;
窗口设置单元,用于设置每个网页的文本摘要为一个窗口,每个窗口中任意两个词语节点存在无向无权边,基于所述词语集合构成图;
权重计算单元,迭代传播各个节点的权重,直至收敛;
获得单元,计算权重收敛后得到T个词语,在原始网页内容中进行标记,若形成相邻词组,则组合成多词关键词,返回权重超过预设阀值的关键词的集合为该用户的最终兴趣标签;
其中,节点Vi的权重计算公式如下:
Figure FDA0003538081660000021
其中V为词语节点,E为边,其中E(Vi)表示与节点Vi连接的所有节点的集合,常数d的值为0.85,S(Vj)为词语Vj的权重,Wji代表Vi与Vj之间的边的权重,每个文本摘要为一个窗口,窗口中包含k个词语,倘若两个词语都存在,称为共现,将词对间的共现次数作为连接它们的边权重,i,j为序号。
7.根据权利要求6所述的装置,其特征在于,所述个人信息数据包括用户ID、地域、IP地址、单位、电话号码和/或收藏记录。
8.根据权利要求7所述的装置,其特征在于,所述网页浏览记录和收藏的网页记录包括网址、标题、时间和/或关键词。
9.根据权利要求8所述的装置,其特征在于,所述初始兴趣标签生成单元包括:
第一分析单元,获取用户网页浏览记录中的URL,分析URL是否为搜索URL,如果是,通过正则规则抽取出所搜索的关键词;
第二分析单元,获取用户收藏的网页记录中的URL,使用爬虫获得URL的网页内容,对所述网页内容进行处理得到文本摘要,对摘要内容进行分词,并对分词后的结果进行过滤得到过滤后的关键词;
生成单元,将所述搜索的关键词和过滤后的关键词设为初始兴趣标签,并为每个关键词设置一个初始权重,初始权重统一设置为1。
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行权利要求1-5之任一的方法。
CN201811577206.5A 2018-12-21 2018-12-21 一种基于用户画像的构建方法、装置及存储介质 Active CN109815386B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811577206.5A CN109815386B (zh) 2018-12-21 2018-12-21 一种基于用户画像的构建方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811577206.5A CN109815386B (zh) 2018-12-21 2018-12-21 一种基于用户画像的构建方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN109815386A CN109815386A (zh) 2019-05-28
CN109815386B true CN109815386B (zh) 2022-04-29

Family

ID=66602293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811577206.5A Active CN109815386B (zh) 2018-12-21 2018-12-21 一种基于用户画像的构建方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN109815386B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111198960A (zh) * 2019-12-27 2020-05-26 五八有限公司 用户画像数据的确定方法、装置、电子设备及存储介质
CN111143689A (zh) * 2019-12-31 2020-05-12 青梧桐有限责任公司 根据用户需求和用户画像构建推荐引擎的方法
CN111582933A (zh) * 2020-05-07 2020-08-25 北京点众科技股份有限公司 基于购买电子书以完善用户画像的方法、终端和存储介质
CN112214556B (zh) * 2020-09-30 2024-02-23 招商局金融科技有限公司 标签生成方法、装置、电子设备及计算机可读存储介质
WO2022140900A1 (zh) * 2020-12-28 2022-07-07 华为技术有限公司 个人知识图谱构建方法、装置及相关设备
CN114219580A (zh) * 2021-12-31 2022-03-22 江苏玖益贰信息科技有限公司 一种消费者画像生成装置及画像分析方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657466A (zh) * 2015-02-11 2015-05-27 厦门美柚信息科技有限公司 一种基于论坛帖子特征的用户兴趣识别方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101470731B (zh) * 2007-12-26 2012-06-20 中国科学院自动化研究所 一种可个性化定制的网页过滤方法
CN102436511A (zh) * 2011-12-30 2012-05-02 北京百度网讯科技有限公司 一种用于为网络搜索获取引导提示信息的方法及设备
CN104090886B (zh) * 2013-12-09 2015-09-09 深圳市腾讯计算机系统有限公司 构建用户实时画像的方法及装置
CN105183803A (zh) * 2015-08-25 2015-12-23 天津大学 一种社交网络平台中的个性化搜索方法及其搜索装置
CN106503015A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的方法
US10136049B2 (en) * 2017-01-09 2018-11-20 International Business Machines Corporation System, method and computer program product for contextual focus/zoom of event celebrities
CN106874435B (zh) * 2017-01-25 2020-02-14 北京航空航天大学 用户画像构建方法和装置
CN109033180A (zh) * 2018-06-26 2018-12-18 深圳市爱的网络科技有限公司 一种信息推送方法、装置、计算机装置及计算机可读存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657466A (zh) * 2015-02-11 2015-05-27 厦门美柚信息科技有限公司 一种基于论坛帖子特征的用户兴趣识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于用户标注行为的相关性分析及重排序;李枫林等;《情报理论与实践》;20101030(第10期);61-66 *

Also Published As

Publication number Publication date
CN109815386A (zh) 2019-05-28

Similar Documents

Publication Publication Date Title
CN109815386B (zh) 一种基于用户画像的构建方法、装置及存储介质
US9436747B1 (en) Query generation using structural similarity between documents
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
US9183281B2 (en) Context-based document unit recommendation for sensemaking tasks
US7519588B2 (en) Keyword characterization and application
US11580181B1 (en) Query modification based on non-textual resource context
US8051080B2 (en) Contextual ranking of keywords using click data
US8655648B2 (en) Identifying topically-related phrases in a browsing sequence
WO2021120627A1 (zh) 数据搜索匹配方法、装置、计算机设备和存储介质
US20110072047A1 (en) Interest Learning from an Image Collection for Advertising
JP2017508214A (ja) 検索推奨の提供
EP2307951A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN104317867B (zh) 对搜索引擎返回的网页图片进行实体聚类的系统
WO2015084404A1 (en) Matching of an input document to documents in a document collection
CN111475725A (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN112989824A (zh) 信息推送方法及装置、电子设备及存储介质
CN106372232B (zh) 基于人工智能的信息挖掘方法和装置
JP2006318398A (ja) ベクトル生成方法及び装置及び情報分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体
Saravanan et al. Extraction of Core Web Content from Web Pages using Noise Elimination.
US11507593B2 (en) System and method for generating queryeable structured document from an unstructured document using machine learning
CN111680505B (zh) 一种Markdown特征感知的无监督关键词提取方法
JP2008102790A (ja) 検索システム
Gulati et al. A novel approach for extracting pertinent keywords for web image annotation using semantic distance and euclidean distance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant