CN110008391A - 用户兴趣画像的构建方法及装置、存储介质、计算机设备 - Google Patents

用户兴趣画像的构建方法及装置、存储介质、计算机设备 Download PDF

Info

Publication number
CN110008391A
CN110008391A CN201910152468.5A CN201910152468A CN110008391A CN 110008391 A CN110008391 A CN 110008391A CN 201910152468 A CN201910152468 A CN 201910152468A CN 110008391 A CN110008391 A CN 110008391A
Authority
CN
China
Prior art keywords
term vector
interest
similarity
user
default
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910152468.5A
Other languages
English (en)
Inventor
邓悦
金戈
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910152468.5A priority Critical patent/CN110008391A/zh
Publication of CN110008391A publication Critical patent/CN110008391A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种用户兴趣画像的构建方法及装置、存储介质、计算机设备,该方法包括:获取用户在预设网站对应的网页上浏览的文本信息;利用从文本信息中提取的文本特征词向量,构建文本特征词向量集合;根据文本特征词向量集合以及预设兴趣词向量,计算预设兴趣词向量与文本特征词向量集合之间的兴趣相似度;根据兴趣相似度,构建用户的兴趣画像。与现有的用户兴趣画像构建方式相比,本申请无需预先设置用户画像类别和制定特征数据标准,只需要预先设置特定的兴趣词,即可计算预设兴趣词向量与文本特征词向量集合之间的相似度确定用户画像,提高了用户画像的构建效率。

Description

用户兴趣画像的构建方法及装置、存储介质、计算机设备
技术领域
本申请涉及数据分析技术领域,尤其是涉及到一种用户兴趣画像的构建方法及装置、存储介质、计算机设备。
背景技术
随着网络技术的快速发展,互联网已成为广大用户常用的信息获取平台。对于商家来说利用用户的上网信息了解用户,从而为用户提供更适配的服务或产品是提高服务质量的重要手段。目前,常通过构建用户画像的方式来了解用户信息。其中,用户画像是真实用户的虚拟代表,其能够展示用户的属性信息。
现有的用户画像构建方法多采用有监督的分类方法,需要预设用户画像的类别,并给出每个类别用户画像相应的标准特征数据,从而比较目标用户的实际特征数据与标准特征数据的关系,确定目标用户的画像,然而在实际应用中标准特征数据是极难确定的,用户画像的构建效率和准确性都较低。因此,如何构建用户画像,成为了本领域技术人员一个亟待解决的问题。
发明内容
有鉴于此,本申请提供了一种用户兴趣画像的构建方法及装置、存储介质、计算机设备,有助于提高用户画像的构建效率。
根据本申请的一个方面,提供了一种用户兴趣画像的构建方法,包括:
获取所述用户在所述预设网站对应的网页上浏览的文本信息;
利用从所述文本信息中提取的文本特征词向量,构建文本特征词向量集合;
根据所述文本特征词向量集合以及预设兴趣词向量,计算所述预设兴趣词向量与所述文本特征词向量集合之间的兴趣相似度;
根据所述兴趣相似度,构建所述用户的兴趣画像。
根据本申请的另一方面,提供了一种用户兴趣画像的构建装置,其特征在于,包括:
文本信息获取模块,用于获取所述用户在所述预设网站对应的网页上浏览的文本信息;
词向量集合构建模块,用于利用从所述文本信息中提取的文本特征词向量,构建文本特征词向量集合;
兴趣相似度计算模块,用于根据所述文本特征词向量集合以及预设兴趣词向量,计算所述预设兴趣词向量与所述文本特征词向量集合之间的兴趣相似度;
兴趣画像构建模块,用于根据所述兴趣相似度,构建所述用户的兴趣画像。
依据本申请又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述用户兴趣画像的构建方法。
依据本申请再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述用户兴趣画像的构建方法。
借由上述技术方案,本申请提供的一种用户兴趣画像的构建方法及装置、存储介质、计算机设备,获取用户在预设网站对应的网页上所浏览的文本信息,并从中提取出文本特征词向量,建立能够反映用户兴趣偏好的文本特征词向量集合,从而计算预设兴趣词向量与文本特征词向量集合之间的兴趣相似度,得出用户对于预设兴趣词的兴趣程度,进而构建用户的兴趣画像。与现有的用户兴趣画像构建方式相比,本申请无需预先设置用户画像类别和制定特征数据标准,只需要预先设置特定的兴趣词,利用用户浏览的文本信息分析用户对特定兴趣词的兴趣偏好就可以实现构建用户画像,提高了用户画像的构建效率。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种用户兴趣画像的构建方法的流程示意图;
图2示出了本申请实施例提供的另一种用户兴趣画像的构建方法的流程示意图;
图3示出了本申请实施例提供的一种用户兴趣画像的构建装置的结构示意图;
图4示出了本申请实施例提供的另一种用户兴趣画像的构建装置的结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本实施例中提供了一种用户兴趣画像的构建方法,如图1所示,该方法包括:
步骤101,获取用户在预设网站对应的网页上浏览的文本信息。
通常用户访问某个网站说明用户对网站中的信息具备一定兴趣,想要对网站提供的信息进行了解,因此应对用户具体浏览的信息进行收集,以供利用用户浏览的信息分析用户的兴趣,从而绘制用户画像。因此,当用户访问企业网站时,应获取用户在网站相关网页上所浏览的文本信息,文本信息具体指网页上的文字内容。
步骤102,利用从文本信息中提取的文本特征词向量,构建文本特征词向量集合。
在本实施例中,首先可以对文本信息进行分词处理得到文本信息对应的特征词,然后将得到的特征词转换为词向量。
一般来说,文本的特征词多为名词词组,很少包含标点或者停用词。因此需要对文本信息进行一些预处理才能获取到特征词,预处理可以包括去标点,数字,停用词以及词性过滤等。具体地,可以先进行词法分析,识别出文本中的数字、标点符号、特殊符号以及词语。文本词法分析结束后,需要对停用词进行过滤,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词。例如,那么、比如、及其、最、中、或、很多……本领域技术人员可以参考现有的停用词表或根据实际应用场景建立新的停用词表,对于停用词的具体内容在此不做限定。
通过对初始文本信息的分词处理得到特征词后,利用特征词得到特征词对应的词向量。例如可以使用Word2Vec技术,将词语转换成为一个指定维度的向量,称为词向量,从而把对文本内容的处理简化为向量空间中的向量运算。本领域技术人员可以根据具体的应用场景选择不同的生成词向量的方法,在此不做限定。
得到每个特征词对应的词向量后,将与用户相关的全部的文本特征词向量放在同一个文本特征词向量集合中,则该集合中包含了该用户所浏览的全部的文本信息对应的文本特征词向量。从而可以根据这个集合分析用户的浏览偏好。
步骤103,根据文本特征词向量集合以及预设兴趣词向量,计算预设兴趣词向量与文本特征词向量集合之间的兴趣相似度。
为了能够清晰的描述出用户对企业提供的产品或服务所展示出的兴趣偏好,从而为向用户推荐产品或服务提供指导,或者生产出更符合用户兴趣偏好的产品、提供更符合用户兴趣偏好的服务,需要预先根据企业提供的产品或服务的特性设置对应的兴趣词。例如,对于销售保险产品的公司来说,公司提供的保险产品可以包括车险、寿险等等,根据这些产品设置的兴趣词可以包括车险、小型车、中型车、大型车、寿险、健康、肿瘤等等。
设置预设兴趣词后,可以采用与文本特征词相同的词向量生成方式,生成预设兴趣词对应的预设兴趣词向量,从而通过向量运算分析预设兴趣词向量与文本特征词向量集合之间的兴趣相似度,这里的兴趣相似度可以理解为用户对预设兴趣词的兴趣程度。
步骤104,根据兴趣相似度,构建用户的兴趣画像。
按照用户对预设兴趣词的兴趣程度,绘制用户的兴趣画像,则兴趣画像可以反应出该用户的兴趣分布情况,有助于企业通过兴趣画像了解用户从而向用户提供更匹配的产品或服务。
例如,某用户的兴趣画像显示该用户对于车险以及大型车的兴趣程度很高,那么就可以向该用户多推荐关于大型车车险的保险产品。
另外,例如,在绘制出兴趣画像的100名用户中,有80名用户都对肿瘤和寿险表现出了极大的兴趣,那么企业可以推出一些与肿瘤相关的寿险产品,以满足广大用户的保险购买需求。
通过应用本实施例的技术方案,获取用户在预设网站对应的网页上所浏览的文本信息,并从中提取出文本特征词向量,建立能够反映用户兴趣偏好的文本特征词向量集合,从而计算预设兴趣词向量与文本特征词向量集合之间的兴趣相似度,得出用户对于预设兴趣词的兴趣程度,进而构建用户的兴趣画像。与现有的用户兴趣画像构建方式相比,本申请无需预先设置用户画像类别和制定特征数据标准,只需要预先设置特定的兴趣词,利用用户浏览的文本信息分析用户对特定兴趣词的兴趣偏好就可以实现构建用户画像,提高了用户画像的构建效率。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了另一种用户兴趣画像的构建方法,如图2所示,该方法包括:
步骤201,获取用户在预设网站对应的网页上浏览的文本信息。
在本申请的实施例中,具体地,文本信息包括一个或多个网页上的文本信息。
当用户访问预设网站时,分别获取用户浏览的每个网页的文本信息。
步骤202,分别从每个网页上的文本信息中提取出与每个网页对应的文本特征词向量。
根据在每个网页上获取的文本信息,分别进行文本特征词向量的提取,得到每个网页对应的文本特征词向量。
步骤203,对每个网页对应的文本特征词向量进行去重处理。
由于一个网页上的内容大多都是相似或相关的,这就很可能导致在一个网页上提取出的文本特征词向量有一定的重复内容,而如果用户访问的某个网页对应有大量的重复性的文本特征词向量,但访问的其他网页对应的文本特征词向量重复的内容不多,这时如果把每个网页对应的文本特征词向量进行合并,重复不多的文本特征词向量会淹没在大量重复的文本特征词向量中,无法从文本特征词向量集合中真正分析出用户对不同内容的兴趣程度。例如,用户访问的一个关于“寿险”的网页A中出现了“寿险”20次,而用户访问的关于“车险”的网页B、C和D中分别出现了“车险”5次、3次、4次,那么若将网页中的所有特征词放入文本特征词向量集合中,就会得出用户对“寿险”的兴趣大于对“车险”的兴趣的结论,然而事实上用户只浏览了1个与“寿险”有关的网页,浏览了3个与“车险”有关的网页,对“车险”的兴趣是大于对“寿险”的兴趣的。因此,应对每个网页对应的文本特征词向量进行去重处理,同一个网页上的相同的特征词向量只保留一个即可。
步骤204,将去重处理后的每个网页对应的文本特征词向量进行合并,得到文本特征词向量集合。
每个网页对应的文本特征词向量进行去重处理后,放入同一个集合中构成文本特征词向量集合,以备用于分析用户的兴趣偏好。其中,文本特征词向量集合中的文本特征词向量中可以由重复的词向量。
需要说明的是,如果用户多次浏览同一个网页,文本特征词向量集合中也应多次保存去重处理后的该网页对应的文本特征词向量。例如,去重处理后的网页A对应的文本特征词向量为“寿险”词向量,用户浏览3次网页A,那么应在文本特征词向量集合中加入3次“寿险”词向量。
在本申请的实施例中,具体地,预设兴趣词向量包括一个或多个。
预设兴趣词的数量可以由技术人员根据实际需要确定。
步骤205,分别计算每个预设兴趣词向量与文本特征词向量集合中的每个文本特征词向量之间的词向量相似度。
逐个计算文本特征词向量集合中每一个文本特征词向量与预设兴趣词向量之间的词向量相似度,从而为分析每个预设兴趣词向量与文本特征词向量集合之间的兴趣相似度提供依据。
例如,预设兴趣词向量分别为“寿险”词向量和“车险”词向量,文本特征词向量集合中包括100个特征词向量,那么分别计算100个特征词向量与“寿险”词向量之间的相似度,再计算100个特征词向量与“车险”词向量之间的相似度。
在本申请的实施例中,具体地,按照词向量相似度计算公式,计算词向量相似度,词向量相似度计算公式为:
其中,预设兴趣词向量和文本特征词向量为n维,Ai表示任一预设兴趣词向量的第i维元素,Bi表示任一文本特征词向量的第i维元素,cosθ表示任一预设兴趣词向量与任一文本特征词向量之间的兴趣词向量个体相似度。
本申请可以采用余弦相似度计算法来计算词向量相似度,具体的公式如上述,通过计算两个向量的夹角余弦值来评估二者之间的相似度。
步骤206,根据每个预设兴趣词向量对应的词向量相似度,计算兴趣相似度。
作为步骤206的第一个具体实施例,步骤206具体可以包括:
步骤2061,分别将与每个预设兴趣词向量对应的大于或等于预设相似度阈值的词向量相似度进行求和处理;
步骤2062,分别计算每个求和结果与用户浏览的网页数量的商,得到每个预设兴趣词向量与文本特征词向量集合之间的兴趣相似度。
在上述实施例中,对于某各预设兴趣词向量,将与之匹配的大于或等于预设相似度阈值的词向量相似度进行累加求和,将求和值除以用户浏览的网页的数量,并将所得结果确定为该预设兴趣词向量与文本特征词向量集合之间的兴趣相似度,由于文本特征词向量集合能够反应用户的浏览兴趣,因而预设兴趣词向量与文本特征词向量集合之间的兴趣相似度可以反应出用户对于预设的兴趣词的兴趣程度。其中,通过设置预设相似度阈值,可以避免词向量相似度较小的特征词对分析用户的兴趣偏好造成干扰。
例如,预设相似度阈值为Q,对于“寿险”词向量,文本特征词向量集合包含的从20个网页分析得来的100个词向量中,有30个词向量与“寿险”词向量之间的词向量相似度达到了Q,则将这30个词向量相似度值进行累加,并将累加值除以20,所得结果看做“寿险”词向量与文本特征词向量集合之间的兴趣相似度。
作为步骤206的第二个具体实施例,若预设兴趣词向量包括多个,则步骤206具体可以包括:
步骤2063,分别将与每个预设兴趣词向量对应的词向量相似度进行求和处理;
步骤2064,分别计算每个预设兴趣词向量对应的求和结果占全部的预设兴趣词向量对应的求和结果之和的比重,得到每个预设兴趣词向量与文本特征词向量集合之间的兴趣相似度。
另外,本申请还提供了第二种确定每个预设兴趣词向量与文本特征词向量集合之间的兴趣相似度的方法。
对于某各预设兴趣词向量,将与之匹配的词向量相似度进行累加求和,对每个预设兴趣词向量对应的词向量相似度都进行求和后,计算每个预设兴趣词向量对应的求和结果,占全部的预设兴趣词向量对应的求和结果之和的比重,将某个预设兴趣词向量对应的求和结果所占的比重确定为该预设兴趣词向量与文本特征词向量集合之间的兴趣相似度。
例如,预设兴趣词有3个,分别为寿险、车险、意外险,与“寿险”词向量对应的词向量相似度之和为3.2,与“车险”词向量对应的词向量相似度之和为1.6,与“意外险”词向量对应的词向量相似度之和为4.8,那么寿险、车险、意外险对应的词向量相似度之和占比分别为1/3、1/6、1/2。
通过上述实施例二的方法确定兴趣相似度对于反映用户的兴趣分布情况更加清晰。
需要说明的是,为了避免词向量相似度较小的特征词对分析用户的兴趣偏好造成干扰,在对每个预设兴趣词向量对应的词向量相似度求和时,也可以只将与每个预设兴趣词向量对应的大于或等于预设相似度阈值的词向量相似度进行求和。
步骤207,根据兴趣相似度,构建用户的兴趣画像。
根据用户的兴趣相似度,构建用户的兴趣画像,其中,若采用步骤206中第一种实施例的方式计算兴趣相似度,用户的兴趣画像可以以表格或柱状图等形式进行展现,若采用步骤206中第二种实施例的方式计算兴趣相似度,用户的兴趣画像可以以饼状图等形式进行展现,便于查看。
通过应用本实施例的技术方案,分别获取用户在每个网页上浏览的文本信息,从中提取出文本特征词向量并进去去重处理,防止用户对应的某些特征词向量淹没在大量重复的词向量中,去重处理后将全部网页对应的文本特征词向量进行合并生成能够反应出用户浏览偏好的文本特征词向量集合,从而计算预设兴趣词向量与文本特征词向量集合之间的兴趣相似度,构建用户兴趣画像。其中,每个预设兴趣词对应的兴趣相似度可以通过计算每个预设兴趣词对应的词向量相似度之和与网页数量的商来确定,进而绘制列表或柱状图形式的用户兴趣画像,便于查看用户对不同的兴趣词的兴趣值;也可以通过计算每个预设兴趣词对应的词向量相似度之和占全部求和结果的比重来确定,进而绘制饼状图形式的用户兴趣画像,便于查看用户的兴趣分布情况。
进一步的,作为图1方法的具体实现,本申请实施例提供了一种用户兴趣画像的构建装置,如图3所示,该装置包括:文本信息获取模块31、词向量集合构建模块32、兴趣相似度计算模块33、兴趣画像构建模块34。
文本信息获取模块31,用于获取用户在预设网站对应的网页上浏览的文本信息;
词向量集合构建模块32,用于利用从文本信息中提取的文本特征词向量,构建文本特征词向量集合;
兴趣相似度计算模块33,用于根据文本特征词向量集合以及预设兴趣词向量,计算预设兴趣词向量与文本特征词向量集合之间的兴趣相似度;
兴趣画像构建模块34,用于根据兴趣相似度,构建用户的兴趣画像。
在具体的应用场景中,如图4所示,文本信息包括一个或多个网页上的文本信息;词向量集合构建模块32,具体包括:词向量提取单元321、去重单元322、词向量集合构建单元323。
词向量提取单元321,用于分别从每个网页上的文本信息中提取出与每个网页对应的文本特征词向量;
去重单元322,用于对每个网页对应的文本特征词向量进行去重处理;
词向量集合构建单元323,用于将去重处理后的每个网页对应的文本特征词向量进行合并,得到文本特征词向量集合。
在具体的应用场景中,如图4所示,预设兴趣词向量包括一个或多个;兴趣相似度计算模块33,具体包括:第一词向量相似度计算单元331、第一兴趣相似度计算单元332。
第一词向量相似度计算单元331,用于分别计算每个预设兴趣词向量与文本特征词向量集合中的每个文本特征词向量之间的词向量相似度;
第一兴趣相似度计算单元332,用于根据每个预设兴趣词向量对应的词向量相似度,计算兴趣相似度。
若预设兴趣词向量包括多个,则兴趣相似度计算模块33,具体还包括:第二词向量相似度计算单元333、第二兴趣相似度计算单元334。
第二词向量相似度计算单元333,用于分别将与每个预设兴趣词向量对应的词向量相似度进行求和处理;
第二兴趣相似度计算单元334,用于分别计算每个预设兴趣词向量对应的求和结果占全部的预设兴趣词向量对应的求和结果之和的比重,得到每个预设兴趣词向量与文本特征词向量集合之间的兴趣相似度。
在具体的应用场景中,如图4所示,兴趣画像构建模块34,具体用于根据兴趣相似度绘制饼状图作为用户的兴趣画像。
需要说明的是,本申请实施例提供的一种用户兴趣画像的构建装置所涉及各功能单元的其他相应描述,可以参考图1和图2中的对应描述,在此不再赘述。
基于上述如图1和图2所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1和图2所示的用户兴趣画像的构建方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1、图2所示的方法,以及图3、图4所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该计算机设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1和图2所示的用户兴趣画像的构建方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现获取用户在预设网站对应的网页上所浏览的文本信息,并从中提取出文本特征词向量,建立能够反映用户兴趣偏好的文本特征词向量集合,从而计算预设兴趣词向量与文本特征词向量集合之间的兴趣相似度,得出用户对于预设兴趣词的兴趣程度,进而构建用户的兴趣画像。与现有的用户兴趣画像构建方式相比,本申请无需预先设置用户画像类别和制定特征数据标准,只需要预先设置特定的兴趣词,利用用户浏览的文本信息分析用户对特定兴趣词的兴趣偏好就可以实现构建用户画像,提高了用户画像的构建效率。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种用户兴趣画像的构建方法,其特征在于,包括:
获取所述用户在所述预设网站对应的网页上浏览的文本信息;
利用从所述文本信息中提取的文本特征词向量,构建文本特征词向量集合;
根据所述文本特征词向量集合以及预设兴趣词向量,计算所述预设兴趣词向量与所述文本特征词向量集合之间的兴趣相似度;
根据所述兴趣相似度,构建所述用户的兴趣画像。
2.根据权利要求1所述的方法,其特征在于,
所述利用从所述文本信息中提取的文本特征词向量,构建文本特征词向量集合,具体包括:
分别从每个所述网页上的文本信息中提取出与每个所述网页对应的文本特征词向量;
对每个所述网页对应的文本特征词向量进行去重处理;
将去重处理后的每个所述网页对应的文本特征词向量进行合并,得到所述文本特征词向量集合。
3.根据权利要求2所述的方法,其特征在于,
所述根据所述文本特征词向量集合以及预设兴趣词向量,计算所述预设兴趣词向量与所述文本特征词向量集合之间的兴趣相似度,具体包括:
分别计算每个所述预设兴趣词向量与所述文本特征词向量集合中的每个所述文本特征词向量之间的词向量相似度;
根据每个所述预设兴趣词向量对应的所述词向量相似度,计算所述兴趣相似度。
4.根据权利要求3所述的方法,其特征在于,按照词向量相似度计算公式,计算所述词向量相似度,所述词向量相似度计算公式为:
其中,所述预设兴趣词向量和所述文本特征词向量为n维,Ai表示任一所述预设兴趣词向量的第i维元素,Bi表示任一所述文本特征词向量的第i维元素,cosθ表示任一所述预设兴趣词向量与任一所述文本特征词向量之间的兴趣词向量个体相似度。
5.根据权利要求3或4所述的方法,其特征在于,所述根据每个所述预设兴趣词向量对应的所述词向量相似度,计算所述兴趣相似度,具体包括:
分别将与每个所述预设兴趣词向量对应的大于或等于预设相似度阈值的所述词向量相似度进行求和处理;
分别计算每个求和结果与所述用户浏览的网页数量的商,得到每个所述预设兴趣词向量与所述文本特征词向量集合之间的兴趣相似度。
6.根据权利要求3或4所述的方法,其特征在于,若所述预设兴趣词向量包括多个,则所述根据每个所述预设兴趣词向量对应的所述词向量相似度,计算所述兴趣相似度,具体包括:
分别将与每个所述预设兴趣词向量对应的所述词向量相似度进行求和处理;
分别计算每个所述预设兴趣词向量对应的求和结果占全部的所述预设兴趣词向量对应的求和结果之和的比重,得到每个所述预设兴趣词向量与所述文本特征词向量集合之间的兴趣相似度。
7.根据权利要求6所述的方法,其特征在于,所述根据所述兴趣相似度,构建所述用户的兴趣画像,具体包括:
根据所述兴趣相似度绘制饼状图作为所述用户的兴趣画像。
8.一种用户兴趣画像的构建装置,其特征在于,包括:
文本信息获取模块,用于当用户访问预设网站时,获取所述用户在所述预设网站对应的网页上浏览的文本信息;
词向量集合构建模块,用于利用从所述文本信息中提取的文本特征词向量,构建文本特征词向量集合;
兴趣相似度计算模块,用于根据所述文本特征词向量集合以及预设兴趣词向量,计算所述预设兴趣词向量与所述文本特征词向量集合之间的兴趣相似度;
兴趣画像构建模块,用于根据所述兴趣相似度,构建所述用户的兴趣画像。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的用户兴趣画像的构建方法。
10.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的用户兴趣画像的构建方法。
CN201910152468.5A 2019-02-28 2019-02-28 用户兴趣画像的构建方法及装置、存储介质、计算机设备 Pending CN110008391A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910152468.5A CN110008391A (zh) 2019-02-28 2019-02-28 用户兴趣画像的构建方法及装置、存储介质、计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910152468.5A CN110008391A (zh) 2019-02-28 2019-02-28 用户兴趣画像的构建方法及装置、存储介质、计算机设备

Publications (1)

Publication Number Publication Date
CN110008391A true CN110008391A (zh) 2019-07-12

Family

ID=67166085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910152468.5A Pending CN110008391A (zh) 2019-02-28 2019-02-28 用户兴趣画像的构建方法及装置、存储介质、计算机设备

Country Status (1)

Country Link
CN (1) CN110008391A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179021A (zh) * 2019-12-09 2020-05-19 中国平安财产保险股份有限公司 基于家庭设备数据的产品推荐方法、系统和可读存储介质
CN111680218A (zh) * 2020-06-10 2020-09-18 网易传媒科技(北京)有限公司 用户兴趣识别方法、装置、电子设备及存储介质
CN111858716A (zh) * 2020-07-24 2020-10-30 厦门至恒融兴信息技术有限公司 海量金融支付数据的自动流程化处理技术

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014056397A1 (zh) * 2012-10-12 2014-04-17 腾讯科技(深圳)有限公司 兴趣标签推荐方法、系统及计算机可读介质
JP2014106661A (ja) * 2012-11-27 2014-06-09 Nippon Telegr & Teleph Corp <Ntt> ユーザ状態予測装置及び方法及びプログラム
CN108288229A (zh) * 2018-03-02 2018-07-17 北京邮电大学 一种用户画像构建方法
CN108920521A (zh) * 2018-06-04 2018-11-30 上海财经大学 基于伪本体的用户画像-项目推荐系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014056397A1 (zh) * 2012-10-12 2014-04-17 腾讯科技(深圳)有限公司 兴趣标签推荐方法、系统及计算机可读介质
JP2014106661A (ja) * 2012-11-27 2014-06-09 Nippon Telegr & Teleph Corp <Ntt> ユーザ状態予測装置及び方法及びプログラム
CN108288229A (zh) * 2018-03-02 2018-07-17 北京邮电大学 一种用户画像构建方法
CN108920521A (zh) * 2018-06-04 2018-11-30 上海财经大学 基于伪本体的用户画像-项目推荐系统及方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179021A (zh) * 2019-12-09 2020-05-19 中国平安财产保险股份有限公司 基于家庭设备数据的产品推荐方法、系统和可读存储介质
CN111179021B (zh) * 2019-12-09 2024-05-03 中国平安财产保险股份有限公司 基于家庭设备数据的产品推荐方法、系统和可读存储介质
CN111680218A (zh) * 2020-06-10 2020-09-18 网易传媒科技(北京)有限公司 用户兴趣识别方法、装置、电子设备及存储介质
CN111680218B (zh) * 2020-06-10 2023-08-11 网易传媒科技(北京)有限公司 用户兴趣识别方法、装置、电子设备及存储介质
CN111858716A (zh) * 2020-07-24 2020-10-30 厦门至恒融兴信息技术有限公司 海量金融支付数据的自动流程化处理技术
CN111858716B (zh) * 2020-07-24 2023-10-13 厦门至恒融兴信息技术有限公司 海量金融支付数据的自动流程化处理技术

Similar Documents

Publication Publication Date Title
US10521469B2 (en) Image Re-ranking method and apparatus
CN110008391A (zh) 用户兴趣画像的构建方法及装置、存储介质、计算机设备
CN111291765A (zh) 用于确定相似图片的方法和装置
CN110795572B (zh) 一种实体对齐方法、装置、设备及介质
CN107562884A (zh) 一种信息流展现方法、装置、服务器和存储介质
US20130138429A1 (en) Method and Apparatus for Information Searching
CN109190007A (zh) 数据分析方法及装置
US11669566B2 (en) Multi-resolution color-based image search
CN110147425A (zh) 一种关键词提取方法、装置、计算机设备及存储介质
CN108829854B (zh) 用于生成文章的方法、装置、设备和计算机可读存储介质
CN110941951B (zh) 文本相似度计算方法、装置、介质及电子设备
CN107766492A (zh) 一种图像搜索的方法和装置
CN110059156A (zh) 基于关联词的协同检索方法、装置、设备及可读存储介质
CN108932320A (zh) 文章搜索方法、装置及电子设备
CN111078842A (zh) 查询结果的确定方法、装置、服务器及存储介质
Zhang et al. Retargeting semantically-rich photos
CN111159431A (zh) 基于知识图谱的信息可视化方法、装置、设备及存储介质
CN109815390A (zh) 多语言信息的检索方法、装置、计算机设备及计算机存储介质
CN109241238B (zh) 文章搜索方法、装置及电子设备
KR102144352B1 (ko) 문서에 대한 읽기 예측 시간의 산출이 가능한 전자 단말 장치 및 그 동작 방법
CN110363206B (zh) 数据对象的聚类、数据处理及数据识别方法
TW201421267A (zh) 搜索系統及方法
CN107665222B (zh) 关键词的拓展方法和装置
US11379898B2 (en) Touch and pressure-based apparel image searching
CN110069753A (zh) 一种生成相似度信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination