CN109815381A - 用户画像构建方法、系统、计算机设备及存储介质 - Google Patents
用户画像构建方法、系统、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN109815381A CN109815381A CN201811574759.5A CN201811574759A CN109815381A CN 109815381 A CN109815381 A CN 109815381A CN 201811574759 A CN201811574759 A CN 201811574759A CN 109815381 A CN109815381 A CN 109815381A
- Authority
- CN
- China
- Prior art keywords
- user
- tag identifier
- interest
- web page
- page contents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种用户画像构建方法,所述方法包括:获取用户的日志信息;对所述日志信息进行过滤,以得到所述日志信息的关键字段;提取关键字段的标签标识和数据源标识;通过标签标识确定所述用户当前的全部兴趣类目;通过所述数据源标识爬取相应的网页内容;根据所述网页内容分析所述标签标识的影响力分数;根据所述标签标识的影响力分数,获取与所述每个兴趣类目相对应的用户兴趣度。本发明实施例量化标签标识所在各个网页的网页内容对用户的购买欲影响程度,得到标签标识的影响力分数,提高有效标签标识在评估兴趣类目中的决策权重,提升了向用户产品数据推送的准确性。
Description
技术领域
本发明实施例涉及计算机数据处理领域,尤其涉及一种用户画像构建方法、系统、计算机设备及计算机可读存储介质。
背景技术
随着网络技术的快速发展,互联网已成为广大用户进行信息分享的平台,因此,互联网中充斥着海量数据信息。在这种情况下,用户往往湮没在低价值的海量数据信息中。所以如何向用户推荐用户感兴趣的数据信息,成为了一个技术难题。向用户推荐数据信息时所采用的关键技术之一为建立用户画像,所谓的用户画像,是将用户的行为属性(例如浏览、购买某商品的行为记录)和基础属性(例如性别、年龄等)聚合分析(例如分析用户对不同商品类别的兴趣度),对用户进行建模,并基于用户画像为用户推荐数据信息。因此,如何构建用户画像,成为了本领域技术人员一个亟待解决的问题。
在构建用户画像的过程中,传统的实现方式是:根据日志信息中各种商品出现次数的多寡,从而评估用户的感兴趣类目。但是,事实上用户在浏览商品时,可能只是想了解其优劣,并不一定会产生购买欲望,甚至产生负面影响(如浏览负面评价的网页内容),因此,通过上述方式所构建的用户画像向用户推荐数据信息时精准度不高。
发明内容
有鉴于此,本发明实施例的目的是提供一种用户画像构建方法、系统、计算机设备及计算机可读存储介质,量化标签标识所在各个网页的网页内容对用户的购买欲影响程度,得到标签标识的影响力分数,提高有效标签标识在评估兴趣类目中的决策权重,提升了向用户产品数据推送的准确性。
为实现上述目的,本发明实施例提供了一种用户画像构建方法,包括以下步骤:
获取用户的日志信息;
对所述日志信息进行过滤,以得到所述日志信息的关键字段;
提取关键字段的标签标识和数据源标识;
通过标签标识确定所述用户当前的全部兴趣类目;
通过所述数据源标识爬取相应的网页内容;
根据所述网页内容分析所述标签标识的影响力分数;及
根据所述标签标识的影响力分数,获取与所述每个兴趣类目相对应的用户兴趣度。
优选的,所述影响力分数通过以下公式得到:
其中,Ascore为所述标签标识A对所述用户当前的影响力分数,δi为所述标签标识在第i个网页的网页内容中的被推荐系数,m为网页数量,γ为常量。
优选的,所述标签标识在第i个网页的网页内容中的被推荐系数的获取步骤包括:
预先定义所述被推荐系数,所述被推荐系数包括第一被推荐系数和第二被推荐系数;
统计所述第一被推荐系统关联的正面词汇或正面短语在所述网页内容中出现的第一频率,以及与所述第二被推荐系统关联的负面词汇或负面短语在所述网页内容中出现的第二频率;
根据所述第一频率和所述第二频率确定所述标签标识在所述网页内容中的被推荐系数。
优选的,所述标签标识在第i个网页的网页内容中的被推荐系数的获取步骤包括:
对所述网页内容进行分词操作,得到多个词元;
将每个词元映射为一个d维词向量,以得到n*d维词向量;
将所述n*d维词向量输入到第一神经网络模型中,以通过所述第一神经网络模型输出分类向量,所述分类向量用于表示各个被推荐系数的置信度;及
将置信度最高的被推荐系数确定为所述标签标识在所述网页内容中的被推荐系数。
优选的,根据所述标签标识的影响力分数,获取与所述每个兴趣类目相对应的用户兴趣度的步骤,包括:
根据所述标签标识的影响力分数和所述标签标识对于各个兴趣类目的预设权重系数,获取与所述每个兴趣类目相对应的用户兴趣度
优选的,根据所述标签标识的影响力分数,获取与所述每个兴趣类目相对应的用户兴趣度的步骤,包括:
根据所述标签标识的影响力分数定义输入向量,所述输入向量包括多个向量参数,每个向量参数对应一标签标识的影响力分数;
将所述输入向量输入到第二神经网络模型中,以通过所述第二神经网络模型输出分类向量,所述分类向量用于表示各个兴趣类目相对应的用户兴趣度。
优选的,根据所述标签标识的影响力分数,获取与所述每个兴趣类目相对应的用户兴趣度的步骤之后,包括:
根据所述每个兴趣类目相对应的用户兴趣度,向所述用户推送相应产品数据。
为实现上述目的,本发明实施例还提供了用户画像构建系统,包括:
日志信息获取模块,用于获取用户的日志信息;
过滤模块,用于对所述日志信息进行过滤,以得到所述日志信息的关键字段;
提取模块,用于提取关键字段的标签标识和数据源标识;
确定模块,用于通过标签标识确定所述用户当前的全部兴趣类目;
网页内容爬取模块,用于通过所述数据源标识爬取相应的网页内容;
网页内容分析模块,用于根据所述网页内容分析所述标签标识的影响力分数;及
用户兴趣度获取模块,用于根据所述标签标识的影响力分数,获取与所述每个兴趣类目相对应的用户兴趣度。
为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如上所述的用户画像构建方法的步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的用户画像构建方法的步骤。
本发明实施例提供的用户画像构建方法、系统、计算机设备及计算机可读存储介质,量化标签标识所在各个网页的网页内容对用户的购买欲影响程度,得到标签标识的影响力分数,提高有效标签标识在评估兴趣类目中的决策权重,提升了向用户产品数据推送的准确性。
附图说明
图1为本发明用户画像构建方法实施例一的流程图。
图2为本发明用户画像构建方法实施例二的流程图。
图3为本发明用户画像构建系统实施例三的程序模块示意图。
图4为本发明计算机设备实施例四的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
以下实施例将以计算机设备2为执行主体进行示例性描述。
实施例一
参阅图1,示出了本发明实施例一之用户画像构建方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下。
步骤S100,获取用户的日志信息。
所述日志信息用于记录用在客户端上的行为信息,如基于浏览器的使用日志信息、基于其他应用或轻应用(如小红书)的使用日志信息、用户客户端上记录的用户使用信息等。
步骤S102,对所述日志信息进行过滤,以得到所述日志信息的关键字段。
所述关键字段可以包括用户标识、日志信息的生成时间、日志信息的数据源标识及产品标识。用户标识用于说明该日志信息对应的用户。而由于用户在各个数据源对应的网页上执行诸如浏览产品操作、浏览产品相关网页(评论网页)、购买产品操作、关注产品操作或收藏产品操作时,均可触发日志信息的生成,所以关键字段中的日志信息的生成时间用于说明用户执行上述诸如浏览产品相关网页所对应的时间。数据源标识用于说明用户在浏览产品相关网页的网络链接地址;而关键字段中的产品标识用于说明用户浏览、购买、关注或收藏了何种产品。
对日志信息进行过滤的可以如下:判断该日志信息中是否包含脏字段;如果该日志信息中不包括脏字段,则对日志信息进行过滤,得到日志信息的关键字段;如果该日志信息中包括脏字段,则直接将该日志信息弃用,处理流程结束。
步骤S104,提取关键字段的标签标识和数据源标识。
标签标识用于说明产品标识对应的产品类别。以产品标识对应的产品为“毛衣”为例,则标签标识可为“上衣”或“服装”。以产品标识对应的产品为“洗衣液”为例,则标签标识可为“日化用品”。
步骤S106,通过标签标识确定所述用户当前的全部兴趣类目。
兴趣类目可有多种,兴趣类目包括但不限于电子产品、服装、母婴用品、日化用品、厨房用品、水果蔬菜等等。此外,每个兴趣类目又可对应多个标签标识。以兴趣类目为服装为例,则服装类兴趣类目对应的标签标识包括但不限于毛衣、裤子、羽绒服、内衣、风衣等等。
需要说明的是,一个标签标识可能对应多个兴趣类目。以某一标签标识为“苹果”为例,则其指代的既可能是移动终端设备,也可能是水果。因此,该标签标识对应两个兴趣类目。
此外,数据库会预先根据产品的类型设置各个兴趣类目,且设置各个兴趣类目所对应的全部标签标识,并将兴趣类目与标签标识的对应关系进行存储。所以,可直接根据标签标识在存储的兴趣类目与标签标识的对应关系中进行查找,从而确定用户当前的全部兴趣类目。
步骤S108,通过所述数据源标识爬取相应的网页内容。
根据所述数据源标识(如URL),爬取对应网页的网页内容,所述网页内容为文本内容。
步骤S110,根据所述网页内容分析所述标签标识的影响力分数。
所述网页内容的影响力分数通过以下公式得到:
其中,Ascore为所述标签标识A对所述用户当前的影响力分数,δi为所述标签标识在第i个网页的网页内容中的被推荐系数,m为网页数量,γ为常量。
所述标签标识在第i个网页的网页内容中的被推荐系数的获取步骤1.1~1.3:
步骤1.1,预先定义所述被推荐系数,所述被推荐系数包括第一被推荐系数和第二被推荐系数。
步骤1.2,统计所述第一被推荐系统关联的正面词汇或正面短语在所述网页内容中出现的第一频率,以及与所述第二被推荐系统关联的负面词汇或负面短语在所述网页内容中出现的第二频率。
步骤1.3,根据所述第一频率和所述第二频率确定所述标签标识在所述网页内容中的被推荐系数。
步骤S112,根据所述标签标识的影响力分数,获取与所述每个兴趣类目相对应的用户兴趣度。
具体的,根据所述标签标识的影响力分数和所述标签标识对于各个兴趣类目的预设权重系数,获取与所述每个兴趣类目相对应的用户兴趣度。
所述标签标识对于各个兴趣类目的预设权重系数可以人工设置。
例如:
“合成板”对应的兴趣类目有:合成板桌子、合成板木床、实木桌子、实木床等等。
“合成板”对应的“合成板桌子”的权重系数为0.6、“合成板”对应的“合成板木床”的权重系数为0.5、“合成板”对应的“实木床”的权重系数为0.1、“合成板”对应的“实木床”的权重系数为0.05。
“实木板”对应的兴趣类目有:合成板桌子、合成板木床、实木桌子、实木床等等。
“实木板”对应的“合成板桌子”的权重系数为0.1、“实木板”对应的“合成板木床”的权重系数为0.05、“实木板”对应的“实木床”的权重系数为0.6、“实木板”对应的“实木床”的权重系数为0.5。
“实木床”的用户兴趣度至少取决于“合成板”和“实木板”这两个标签标识。
“实木床”相对应的用户兴趣度Bscore可以计算如下:
Bscore=Ascore1*0.5+Ascore2*0.05
其中,Ascore1为“实木板”对用户的影响力分数,Ascore2为“合成板”对用户的影响力分数。
实施例二
参阅图2,示出了本发明实施例二之用户画像构建方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下。
步骤S200,获取用户的日志信息。
所述日志信息用于记录用在客户端上的行为信息,如基于浏览器的使用日志信息、基于其他应用或轻应用(如小红书)的使用日志信息、用户客户端上记录的用户使用信息等。
步骤S202,对所述日志信息进行过滤,以得到所述日志信息的关键字段。
所述关键字段可以包括用户标识、日志信息的生成时间、日志信息的数据源标识及产品标识。用户标识用于说明该日志信息对应的用户。数据源标识用于说明用户在浏览产品相关网页的网络链接地址。而关键字段中的产品标识用于说明用户浏览、购买、关注或收藏了何种产品。
步骤S204,提取关键字段的标签标识和数据源标识。
步骤S206,通过标签标识确定所述用户当前的全部兴趣类目。
步骤S208,通过所述数据源标识爬取相应的网页内容。
根据所述数据源标识(如URL),爬取对应网页的网页内容,所述网页内容为文本内容。
步骤S210,对所述网页内容进行分词操作,得到多个词元。
步骤S212,将每个词元映射为一个d维词向量,以得到n*d维词向量。
步骤S214,将所述n*d维词向量输入到第一神经网络模型中,以通过所述第一神经网络模型输出分类向量,所述分类向量用于表示各个被推荐系数的置信度。
所述第一神经网络模型可以采用卷积神经网络:通过卷积层对所述n*d维词向量矩阵执行卷积操作,得到若干个卷积特征图;将卷积输出的卷积特征图进入全连接层,进而通过分类函数输出所述分类向量。
步骤S216,将置信度最高的被推荐系数确定为所述标签标识在所述网页内容中的被推荐系数,例如第一被推荐系数(0),第二被推荐系数(0.5)和第三被推荐系数(1)。
步骤S218,根据所述被推荐系数定义所述标签标识的影响力分数。
所述网页内容的影响力分数通过以下公式得到:
其中,Ascore为所述标签标识A对所述用户当前的影响力分数,δi为所述标签标识在第i个网页的网页内容中的被推荐系数,m为网页数量,γ为常量,γ可以由用户定义,如定义为2。
步骤S220,根据所述标签标识的影响力分数,获取与所述每个兴趣类目相对应的用户兴趣度。
示例性的,所述步骤S220包括步骤S220a~S220b:
步骤S220a,根据所述标签标识的影响力分数定义输入向量,所述输入向量包括多个向量参数,每个向量参数对应一标签标识的影响力分数。
步骤S220b,将所述输入向量输入到第二神经网络模型中,以通过所述第二神经网络模型输出分类向量,所述分类向量用于表示各个兴趣类目相对应的用户兴趣度。
第二神经网络模块可以采用长短期记忆网络模型:
将所述输入向量输入到第二神经网络模型中,以通过所述第二神经网络模型输出分类向量的步骤如下:
(1)根据上一时刻的输出ht-1和当前输入xt来得到ft值,以决定是否让上一时刻学到的信息Ct-1通过或部分通过:
ft=σ(Wf[xt,ht-1]+bf),其中ft∈[0,1],表示t时刻的节点对t-1时刻细胞记忆的选择权重,Wf为遗忘门的权重矩阵,bf为遗忘门的偏置项,ht-1表示t-1节点的隐层状态信息,非线性函数σ(x)=1/(1+e-x);
(2)通过sigmoid来决定哪些值用来更新,并通过tanh层用来生成新的候选值qt,它作为当前层产生的候选值可能会添加到记忆单元状态中,把这两部分产生的值结合来进行更新:
it=σ(Wi[xt,ht-1]+bi),其中it∈[0,1]表示t时刻的节点对当前节点信息的选择权重,bi为输入门的偏置项,Wi为输入门的权重矩阵,非线性函数σ(x)=1/(1+e-x);
当前节点输入信息qt=tanh(Wq[ht-1,xt]+bq),其中bq为偏置项,Wq表示待更新信息的权重矩阵,tanh为双曲正切激活函数,xt表示t时刻LSTM神经网络节点的输入向量,ht-1表示t-1节点的隐层状态信息;
对旧的记忆单元状态进行更新,添加新信息:
当前输出记忆信息Ct=ft*Ct-1+it*qt),其中qt表示t-1节点的记忆信息,ft表示t时刻的节点对t-1时刻细胞记忆的选择权重,it表示t时刻的节点对当前节点信息的选择权重;
(3)LSTM模型输出;
ot=σ(Wo[xt,ht-1]+bo),其中ot∈[0,1]表示t时刻的节点细胞记忆信息的选择权重,bo为输出门的偏置,Wo为输出门的权重矩阵,表示向量xt和ht-1拼接后的向量,即|xt|+|ht-1|维的向量。
ht=ot·tanh(Ct)
xt表示t时刻LSTM神经网络节点的输入数据,即本实施例中的影响力分数;ht为t时刻LSTM神经网络节点的输出向量。
通过上述公式,所述LSTM模型的输出向量被输入到softmax层,通过所述softmax层输出分类向量。所述分类向量中的每个向量参数代表了对应兴趣类目的置信度,所述置信度可以作为用户兴趣度或者作为评估用户兴趣度的依据。
可选的,还包括步骤S222,根据所述每个兴趣类目相对应的用户兴趣度,向所述用户推送相应产品数据。
实施例三
请继续参阅图3,示出了本发明用户画像构建系统实施例三的程序模块示意图。在本实施例中,用户画像构建系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述用户画像构建方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述用户画像构建系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
日志信息获取模块200,用于获取用户的日志信息。
所述日志信息用于记录用在客户端上的行为信息,如基于浏览器的使用日志信息、基于其他应用或轻应用(如小红书)的使用日志信息、用户客户端上记录的用户使用信息等。
过滤模块202,用于对所述日志信息进行过滤,以得到所述日志信息的关键字段。
所述关键字段可以包括用户标识、日志信息的生成时间、日志信息的数据源标识及产品标识。用户标识用于说明该日志信息对应的用户。而由于用户在各个数据源对应的网页上执行诸如浏览产品操作、浏览产品相关网页(评论网页)、购买产品操作、关注产品操作或收藏产品操作时,均可触发日志信息的生成,所以关键字段中的日志信息的生成时间用于说明用户执行上述诸如浏览产品相关网页所对应的时间。数据源标识用于说明用户在浏览产品相关网页的网络链接地址;而关键字段中的产品标识用于说明用户浏览、购买、关注或收藏了何种产品。
对日志信息进行过滤的可以如下:判断该日志信息中是否包含脏字段;如果该日志信息中不包括脏字段,则对日志信息进行过滤,得到日志信息的关键字段;如果该日志信息中包括脏字段,则直接将该日志信息弃用,处理流程结束。
提取模块204,用于提取关键字段的标签标识和数据源标识。
标签标识用于说明产品标识对应的产品类别。以产品标识对应的产品为“毛衣”为例,则标签标识可为“上衣”或“服装”。以产品标识对应的产品为“洗衣液”为例,则标签标识可为“日化用品”。
确定模块206,用于通过标签标识确定所述用户当前的全部兴趣类目。
兴趣类目可有多种,兴趣类目包括但不限于电子产品、服装、母婴用品、日化用品、厨房用品、水果蔬菜等等。此外,每个兴趣类目又可对应多个标签标识。以兴趣类目为服装为例,则服装类兴趣类目对应的标签标识包括但不限于毛衣、裤子、羽绒服、内衣、风衣等等。
需要说明的是,一个标签标识可能对应多个兴趣类目。以某一标签标识为“苹果”为例,则其指代的既可能是移动终端设备,也可能是水果。因此,该标签标识对应两个兴趣类目。
此外,数据库会预先根据产品的类型设置各个兴趣类目,且设置各个兴趣类目所对应的全部标签标识,并将兴趣类目与标签标识的对应关系进行存储。所以,可直接根据标签标识在存储的兴趣类目与标签标识的对应关系中进行查找,从而确定用户当前的全部兴趣类目。
网页内容爬取模块208,用于通过所述数据源标识爬取相应的网页内容。
根据所述数据源标识(如URL),爬取对应网页的网页内容,所述网页内容为文本内容。
网页内容分析模块210,用于根据所述网页内容分析所述标签标识的影响力分数。
所述网页内容的影响力分数通过以下公式得到:
其中,Ascore为所述标签标识A对所述用户当前的影响力分数,δi为所述标签标识在第i个网页的网页内容中的被推荐系数,γ为常量。
在一具体实施过程中:
所述网页内容分析模块210还用于获取所述标签标识在第i个网页的网页内容中的被推荐系数,具体如下:预先定义所述被推荐系数,所述被推荐系数包括第一被推荐系数和第二被推荐系数;统计所述第一被推荐系统关联的正面词汇或正面短语在所述网页内容中出现的第一频率,以及与所述第二被推荐系统关联的负面词汇或负面短语在所述网页内容中出现的第二频率;根据所述第一频率和所述第二频率确定所述标签标识在所述网页内容中的被推荐系数。
在另一具体实施过程中:
所述网页内容分析模块210还用于获取所述标签标识在第i个网页的网页内容中的被推荐系数,具体如下:对所述网页内容进行分词操作,得到多个词元;将每个词元映射为一个d维词向量,以得到n*d维词向量;将所述n*d维词向量输入到第一神经网络模型中,以通过所述第一神经网络模型输出分类向量,所述分类向量用于表示各个被推荐系数的置信度,其中,所述第一神经网络模型可以采用卷积神经网络:通过卷积层对所述n*d维词向量矩阵执行卷积操作,得到若干个卷积特征图,将卷积输出的卷积特征图进入全连接层,进而通过分类函数输出所述分类向量;将置信度最高的被推荐系数确定为所述标签标识在所述网页内容中的被推荐系数。
用户兴趣度获取模块212,用于根据所述标签标识的影响力分数,获取与所述每个兴趣类目相对应的用户兴趣度。
在一具体实施过程中:
用户兴趣度获取模块212,用于:根据所述标签标识的影响力分数和所述标签标识对于各个兴趣类目的预设权重系数,获取与所述每个兴趣类目相对应的用户兴趣度。所述预设权重系数可以由用户更加经验设置。例如:
“合成板”对应的兴趣类目有:合成板桌子、合成板木床、实木桌子、实木床等等。
“合成板”对应的“合成板桌子”的权重系数为0.6、“合成板”对应的“合成板木床”的权重系数为0.5、“合成板”对应的“实木床”的权重系数为0.1、“合成板”对应的“实木床”的权重系数为0.05。
“实木板”对应的兴趣类目有:合成板桌子、合成板木床、实木桌子、实木床等等。
“实木板”对应的“合成板桌子”的权重系数为0.1、“实木板”对应的“合成板木床”的权重系数为0.05、“实木板”对应的“实木床”的权重系数为0.6、“实木板”对应的“实木床”的权重系数为0.5。
“实木床”的用户兴趣度至少取决于“合成板”和“实木板”这两个标签标识。
“实木床”相对应的用户兴趣度Bscore可以计算如下:
Bscore=Ascore1*0.5+Ascore2*0.05
其中,Ascore1为“实木板”对用户的影响力分数,Ascore2为“合成板”对用户的影响力分数。
在一具体实施过程中:
用户兴趣度获取模块212,用于:根据所述标签标识的影响力分数定义输入向量,所述输入向量包括多个向量参数,每个向量参数对应一标签标识的影响力分数;将所述输入向量输入到第二神经网络模型中,以通过所述第二神经网络模型输出分类向量,所述分类向量用于表示各个兴趣类目相对应的用户兴趣度。所述第二神经网络模型为经过训练后的长短期记忆网络模型。
实施例四
参阅图4,是本发明实施例四之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及用户画像构建系统20。其中:
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例三的用户画像构建系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行用户画像构建系统20,以实现实施例一或二的用户画像构建方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图4仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述用户画像构建系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
例如,图3示出了所述实现用户画像构建系统20实施例三的程序模块示意图,该实施例中,所述基于用户画像构建系统20可以被划分为日志信息获取模块200、过滤模块202、提取模块204、确定模块206、网页内容爬取模块208、网页内容分析模块210和用户兴趣度获取模块212。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述用户画像构建系统20在所述计算机设备2中的执行过程。所述程序模块200-212的具体功能在实施例三中已有详细描述,在此不再赘述。
实施例五
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储用户画像构建系统20,被处理器执行时实现实施例一或二的用户画像构建方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种用户画像构建方法,其特征在于,所述方法包括:
获取用户的日志信息;
对所述日志信息进行过滤,以得到所述日志信息的关键字段;
提取关键字段的标签标识和数据源标识;
通过标签标识确定所述用户当前的全部兴趣类目;
通过所述数据源标识爬取相应的网页内容;
根据所述网页内容分析所述标签标识的影响力分数;及
根据所述标签标识的影响力分数,获取与所述每个兴趣类目相对应的用户兴趣度。
2.根据权利要求1所述的用户画像构建方法,其特征在于,所述影响力分数通过以下公式得到:
其中,Ascore为所述标签标识A对所述用户当前的影响力分数,δi为所述标签标识在第i个网页的网页内容中的被推荐系数,m为网页数量,γ为常量。
3.根据权利要求2所述的用户画像构建方法,其特征在于,所述标签标识在第i个网页的网页内容中的被推荐系数的获取步骤包括:
预先定义所述被推荐系数,所述被推荐系数包括第一被推荐系数和第二被推荐系数;
统计所述第一被推荐系统关联的正面词汇或正面短语在所述网页内容中出现的第一频率,以及与所述第二被推荐系统关联的负面词汇或负面短语在所述网页内容中出现的第二频率;
根据所述第一频率和所述第二频率确定所述标签标识在所述网页内容中的被推荐系数。
4.根据权利要求2所述的用户画像构建方法,其特征在于,所述标签标识在第i个网页的网页内容中的被推荐系数的获取步骤包括:
对所述网页内容进行分词操作,得到多个词元;
将每个词元映射为一个d维词向量,以得到n*d维词向量;
将所述n*d维词向量输入到第一神经网络模型中,以通过所述第一神经网络模型输出分类向量,所述分类向量用于表示各个被推荐系数的置信度;及
将置信度最高的被推荐系数确定为所述标签标识在所述网页内容中的被推荐系数。
5.根据权利要求3或4所述的用户画像构建方法,其特征在于,根据所述标签标识的影响力分数,获取与所述每个兴趣类目相对应的用户兴趣度的步骤,包括:
根据所述标签标识的影响力分数和所述标签标识对于各个兴趣类目的预设权重系数,获取与所述每个兴趣类目相对应的用户兴趣度。
6.根据权利要求3或4所述的用户画像构建方法,其特征在于,根据所述标签标识的影响力分数,获取与所述每个兴趣类目相对应的用户兴趣度的步骤,包括:
根据所述标签标识的影响力分数定义输入向量,所述输入向量包括多个向量参数,每个向量参数对应一标签标识的影响力分数;
将所述输入向量输入到第二神经网络模型中,以通过所述第二神经网络模型输出分类向量,所述分类向量用于表示各个兴趣类目相对应的用户兴趣度。
7.根据权利要求6所述的用户画像构建方法,其特征在于,根据所述标签标识的影响力分数,获取与所述每个兴趣类目相对应的用户兴趣度的步骤之后,包括:
根据所述每个兴趣类目相对应的用户兴趣度,向所述用户推送相应产品数据。
8.一种用户画像构建系统,其特征在于,包括:
日志信息获取模块,用于获取用户的日志信息;
过滤模块,用于对所述日志信息进行过滤,以得到所述日志信息的关键字段;
提取模块,用于提取关键字段的标签标识和数据源标识;
确定模块,用于通过标签标识确定所述用户当前的全部兴趣类目;
网页内容爬取模块,用于通过所述数据源标识爬取相应的网页内容;
网页内容分析模块,用于根据所述网页内容分析所述标签标识的影响力分数;及
用户兴趣度获取模块,用于根据所述标签标识的影响力分数,获取与所述每个兴趣类目相对应的用户兴趣度。
9.一种计算机设备,所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的用户画像构建方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1至7中任一项所述的用户画像构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811574759.5A CN109815381A (zh) | 2018-12-21 | 2018-12-21 | 用户画像构建方法、系统、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811574759.5A CN109815381A (zh) | 2018-12-21 | 2018-12-21 | 用户画像构建方法、系统、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109815381A true CN109815381A (zh) | 2019-05-28 |
Family
ID=66602186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811574759.5A Pending CN109815381A (zh) | 2018-12-21 | 2018-12-21 | 用户画像构建方法、系统、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109815381A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598949A (zh) * | 2019-09-20 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种用户兴趣度分析方法、装置、电子设备及存储介质 |
CN110674391A (zh) * | 2019-08-15 | 2020-01-10 | 中国平安财产保险股份有限公司 | 基于大数据的产品数据推送方法、系统和计算机设备 |
CN111198960A (zh) * | 2019-12-27 | 2020-05-26 | 五八有限公司 | 用户画像数据的确定方法、装置、电子设备及存储介质 |
CN111400608A (zh) * | 2020-06-08 | 2020-07-10 | 北京搜狐新动力信息技术有限公司 | 数据处理方法及装置、存储介质及电子设备 |
CN111753199A (zh) * | 2020-06-22 | 2020-10-09 | 北京百度网讯科技有限公司 | 用户画像构建方法及设备、电子设备和介质 |
CN112396536A (zh) * | 2019-08-12 | 2021-02-23 | 北京国双科技有限公司 | 智能服务的实现方法及装置 |
CN112949288A (zh) * | 2019-12-11 | 2021-06-11 | 上海大学 | 一种基于字符序列的文本检错方法 |
CN118035859A (zh) * | 2024-04-15 | 2024-05-14 | 普益智慧云科技(成都)有限公司 | 一种用户画像构建方法、系统、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104090886A (zh) * | 2013-12-09 | 2014-10-08 | 深圳市腾讯计算机系统有限公司 | 构建用户实时画像的方法及装置 |
CN105740366A (zh) * | 2016-01-26 | 2016-07-06 | 哈尔滨工业大学深圳研究生院 | 微博用户兴趣推理方法及装置 |
CN107862553A (zh) * | 2017-11-15 | 2018-03-30 | 平安科技(深圳)有限公司 | 广告实时推荐方法、装置、终端设备及存储介质 |
CN108665355A (zh) * | 2018-05-18 | 2018-10-16 | 深圳壹账通智能科技有限公司 | 金融产品推荐方法、装置、设备和计算机存储介质 |
-
2018
- 2018-12-21 CN CN201811574759.5A patent/CN109815381A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104090886A (zh) * | 2013-12-09 | 2014-10-08 | 深圳市腾讯计算机系统有限公司 | 构建用户实时画像的方法及装置 |
CN105740366A (zh) * | 2016-01-26 | 2016-07-06 | 哈尔滨工业大学深圳研究生院 | 微博用户兴趣推理方法及装置 |
CN107862553A (zh) * | 2017-11-15 | 2018-03-30 | 平安科技(深圳)有限公司 | 广告实时推荐方法、装置、终端设备及存储介质 |
CN108665355A (zh) * | 2018-05-18 | 2018-10-16 | 深圳壹账通智能科技有限公司 | 金融产品推荐方法、装置、设备和计算机存储介质 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112396536A (zh) * | 2019-08-12 | 2021-02-23 | 北京国双科技有限公司 | 智能服务的实现方法及装置 |
CN110674391A (zh) * | 2019-08-15 | 2020-01-10 | 中国平安财产保险股份有限公司 | 基于大数据的产品数据推送方法、系统和计算机设备 |
CN110674391B (zh) * | 2019-08-15 | 2024-05-03 | 中国平安财产保险股份有限公司 | 基于大数据的产品数据推送方法、系统和计算机设备 |
CN110598949A (zh) * | 2019-09-20 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种用户兴趣度分析方法、装置、电子设备及存储介质 |
CN112949288A (zh) * | 2019-12-11 | 2021-06-11 | 上海大学 | 一种基于字符序列的文本检错方法 |
CN112949288B (zh) * | 2019-12-11 | 2022-11-11 | 上海大学 | 一种基于字符序列的文本检错方法 |
CN111198960A (zh) * | 2019-12-27 | 2020-05-26 | 五八有限公司 | 用户画像数据的确定方法、装置、电子设备及存储介质 |
CN111400608A (zh) * | 2020-06-08 | 2020-07-10 | 北京搜狐新动力信息技术有限公司 | 数据处理方法及装置、存储介质及电子设备 |
CN111753199A (zh) * | 2020-06-22 | 2020-10-09 | 北京百度网讯科技有限公司 | 用户画像构建方法及设备、电子设备和介质 |
CN111753199B (zh) * | 2020-06-22 | 2024-05-10 | 北京百度网讯科技有限公司 | 用户画像构建方法及设备、电子设备和介质 |
CN118035859A (zh) * | 2024-04-15 | 2024-05-14 | 普益智慧云科技(成都)有限公司 | 一种用户画像构建方法、系统、计算机设备和存储介质 |
CN118035859B (zh) * | 2024-04-15 | 2024-06-11 | 普益智慧云科技(成都)有限公司 | 一种用户画像构建方法、系统、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815381A (zh) | 用户画像构建方法、系统、计算机设备及存储介质 | |
US10007933B2 (en) | Systems and methods for integrating dynamic content into electronic media | |
CN104750789B (zh) | 标签的推荐方法及装置 | |
CN104899273B (zh) | 一种基于话题和相对熵的网页个性化推荐方法 | |
CN110502608A (zh) | 基于知识图谱的人机对话方法及人机对话装置 | |
CN107958016A (zh) | 功能页面定制方法及应用服务器 | |
CN106022800A (zh) | 一种用户特征数据的处理方法和装置 | |
CN105718184A (zh) | 一种数据处理方法和装置 | |
CN110827112B (zh) | 深度学习的商品推荐方法、装置、计算机设备及存储介质 | |
CN104239298A (zh) | 文本信息推荐方法、服务器、浏览器及系统 | |
CN110134845A (zh) | 项目舆情监控方法、装置、计算机设备及存储介质 | |
CN103020293A (zh) | 一种移动应用的本体库的构建方法及系统 | |
CN107911448A (zh) | 一种内容推送方法及装置 | |
CN108334508A (zh) | 网页信息的提取方法和装置 | |
CN112559896A (zh) | 信息推荐方法、装置、设备及计算机可读存储介质 | |
JP2011227721A (ja) | 関心抽出装置、関心抽出方法、及び関心抽出プログラム | |
CN103150667A (zh) | 一种基于本体结构的个性化推荐方法 | |
CN110134844A (zh) | 细分领域舆情监控方法、装置、计算机设备及存储介质 | |
CN112685648A (zh) | 一种资源推荐方法、电子设备及计算机可读存储介质 | |
CN104881447A (zh) | 搜索方法及装置 | |
CN116823410B (zh) | 数据处理方法、对象处理方法、推荐方法及计算设备 | |
CN116821516B (zh) | 资源推荐方法、装置、设备及存储介质 | |
CN104363261B (zh) | 信息推送方法、装置及服务器 | |
CN110851708B (zh) | 负样本的抽取方法、装置、计算机设备和存储介质 | |
CN110781497B (zh) | 网页链接的检测方法及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |