CN113626704A - 基于word2vec模型的推荐信息方法、装置及设备 - Google Patents

基于word2vec模型的推荐信息方法、装置及设备 Download PDF

Info

Publication number
CN113626704A
CN113626704A CN202110914414.5A CN202110914414A CN113626704A CN 113626704 A CN113626704 A CN 113626704A CN 202110914414 A CN202110914414 A CN 202110914414A CN 113626704 A CN113626704 A CN 113626704A
Authority
CN
China
Prior art keywords
user
information
data
word2vec model
target data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110914414.5A
Other languages
English (en)
Inventor
方俊波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202110914414.5A priority Critical patent/CN113626704A/zh
Publication of CN113626704A publication Critical patent/CN113626704A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请适用于人工智能技术领域,提供了基于word2vec模型的推荐信息的方法、装置、设备及存储介质。包括:获取个人门户网站上登录的用户的标识信息;根据标识信息提取用户的目标数据,目标数据包括用户行为数据以及个人信息;通过word2vec模型对目标数据与个人门户网站的多个资源数据进行分析,得到目标数据与每个资源数据之间的关联度;根据目标数据与每个资源数据之间的关联度,确定待推荐信息,并将待推荐信息推荐给用户。通过word2vec模型对用户的目标数据以及资源数据进行处理,使得到的目标数据与每个资源数据之间的关联度更加准确,进而根据关联度,确定出准确的推荐信息并推荐给用户,提升了信息推荐的准确性。

Description

基于word2vec模型的推荐信息方法、装置及设备
技术领域
本申请属于人工智能技术领域,尤其涉及基于word2vec模型的推荐信息的方法、装置、设备及存储介质。
背景技术
门户是一个应用框架,它将各种应用系统、数据资源和互联网资源集成到一个信息管理平台之上,并以统一的用户界面提供给用户。门户是用户接触网络的入口。门户网站,就是上网必经、必用的网站
个人门户具备门户的全部特征,同时能够实现个性化定制,实现内容、社区、应用的有机整合。个人门户网站就是以个人为中心的上网入口,还可以进一步延伸为个人信息中心。
现有技术中主要采用统计类的方法,或传统的协同过滤算法,实现在个人门户网站对用户进行信息推荐。这种推荐方法提取到的信息特征不准确,且计算量大、可扩展性差,最终导致推荐的信息不准确。
发明内容
有鉴于此,本申请实施例提供了基于word2vec模型的推荐信息的方法、装置、设备及存储介质,以解决传统的推荐方法提取到的信息特征不准确,且计算量大、可扩展性差,最终导致推荐的信息不准确的问题。
本申请实施例的第一方面提供了一种基于word2vec模型的推荐信息的方法,该方法包括:
获取个人门户网站上登录的用户的标识信息;
根据所述标识信息提取所述用户的目标数据,所述目标数据包括用户行为数据以及个人信息;
通过word2vec模型对所述目标数据与所述个人门户网站的多个资源数据进行分析,得到所述目标数据与每个资源数据之间的关联度;
根据所述目标数据与每个资源数据之间的关联度,确定待推荐信息,并将所述待推荐信息推荐给所述用户。
可选地,所述通过word2vec模型对所述目标数据与所述个人门户网站的多个资源数据进行分析,得到所述目标数据与每个资源数据之间的关联度,包括:
通过所述word2vec模型对所述目标数据进行处理,确定所述用户的用户画像;
通过所述word2vec模型对每个所述资源数据进行处理,确定每个所述资源数据对应的表征向量;
确定所述用户画像与每个所述表征向量之间的关联度。
可选地,所述用户行为数据包括所述用户对应的关注信息、输入记录信息、收藏信息、浏览信息,所述个人信息包括所述用户的姓名、年龄、账号信息以及爱好信息,所述通过所述word2vec模型对所述目标数据进行处理,确定所述用户的用户画像,包括:
通过所述word2vec模型,对所述用户行为数据和所述个人信息进行处理,得到至少两个维度的用户标签;
根据所述至少两个维度的用户标签构建所述用户画像。
可选地,所述通过所述word2vec模型对每个所述资源数据进行处理,确定每个所述资源数据对应的表征向量,包括:
通过所述word2vec模型,提取每个所述资源数据对应的关键词;
对每个所述关键字进行向量化处理,得到每个所述资源数据对应的表征向量。
可选地,所述确定所述用户画像与每个所述表征向量之间的关联度,包括:
计算所述用户画像与每个所述表征向量之间的欧式距离;
根据所述用户画像与每个所述表征向量之间的欧式距离,确定所述用户画像与每个所述表征向量之间的关联度。
可选地,所述根据所述标识信息提取所述用户的目标数据,包括:
根据所述标识信息提取所述用户的初始数据;
剔除所述初始数据中所述用户的随机行为数据,得到所述目标数据。
可选地,在所述通过word2vec模型对所述目标数据与所述个人门户网站的多个资源数据进行分析,得到所述目标数据与每个资源数据之间的关联度之前,所述方法还包括:
基于机器学习对样本数据进行学习,并根据机器学习的学习结果实时调整训练中的word2vec模型的参数;
当检测到训练中的word2vec模型对应的损失函数收敛时,得到已训练的word2vec模型。
本申请实施例的第二方面提供了一种基于word2vec模型的推荐信息的装置,包括:
获取单元,用于获取个人门户网站上登录的用户的标识信息;
提取单元,用于根据所述标识信息提取所述用户的目标数据,所述目标数据包括用户行为数据以及个人信息;
分析单元,用于通过word2vec模型对所述目标数据与所述个人门户网站的多个资源数据进行分析,得到所述目标数据与每个资源数据之间的关联度;
推荐单元,用于根据所述目标数据与每个资源数据之间的关联度,确定待推荐信息,并将所述待推荐信息推荐给所述用户。
本申请实施例的第三方面提供了一种基于word2vec模型的推荐信息的设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述第一方面所述的推荐信息的方法的步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的推荐信息的方法的步骤。
本申请实施例的第五方面提供了一种计算机程序产品,当计算机程序产品在推荐信息的设备上运行时,使得该设备执行上述第一方面所述的推荐信息的方法的步骤。
本申请实施例提供的基于word2vec模型的推荐信息的方法、装置、设备及存储介质,具有以下有益效果:
获取个人门户网站上登录的用户的标识信息;根据标识信息提取用户的目标数据,目标数据包括用户行为数据以及个人信息;通过word2vec模型对目标数据与个人门户网站的多个资源数据进行分析,得到目标数据与每个资源数据之间的关联度;根据目标数据与每个资源数据之间的关联度,确定待推荐信息,并将待推荐信息推荐给用户。上述方案中,通过word2vec模型对用户的目标数据以及资源数据进行处理,由于word2vec模型在对用户的目标数据以及资源数据进行处理时,会考虑到上下文联系,使提取到的目标数据以及资源数据各自对应的特征向量都语义丰富、表示准确,进而根据这些特征向量确定的目标数据与每个资源数据之间的关联度更加准确,再基于该关联度确定出准确的推荐信息并推荐给用户,提升了信息推荐的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一示例性实施例提供的基于word2vec模型的推荐信息的方法的示意性流程图;
图2是本申请一示例性实施例示出的一种基于word2vec模型的推荐信息的方法的步骤S103的具体流程图;
图3是本申请一示例性实施例示出的一种基于word2vec模型的推荐信息的方法的步骤S1031的具体流程图;
图4是本申请一示例性实施例示出的一种基于word2vec模型的推荐信息的方法的步骤S1032的具体流程图;
图5是本申请一示例性实施例示出的一种基于word2vec模型的推荐信息的方法的步骤S1033的具体流程图;
图6是本申请一实施例提供的一种基于word2vec模型的推荐信息的装置的示意图;
图7是本申请另一实施例提供的基于word2vec模型的推荐信息的设备的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
请参见图1,图1是本申请一示例性实施例提供的基于word2vec模型的推荐信息的方法的示意性流程图。本申请提供的推荐信息的方法的执行主体为推荐信息的设备,其中,该设备包括但不限于智能手机、平板电脑、计算机、个人数字助理(Personal DigitalAssistant,PDA)、台式电脑等移动终端,还可以包括各种类型的服务器。例如,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务。
如图1所示的基于word2vec模型的推荐信息的方法可包括:S101~S104,具体如下:
S101:获取个人门户网站上登录的用户的标识信息。
个人门户网站可以是任意类型的个人门户网站。例如,可以是购物类的个人门户网站、金融类的个人门户网站、学校的个人门户网站、新闻类的个人门户网站、旅游类的个人门户网站、娱乐类的个人门户网站、搜索引擎类的个人门户网站、地区性的个人门户网站等。
示例性地,获取个人门户网站上登录的用户的标识信息,该标识信息用于区别不同用户之间的身份,每个用户的标识信息指代唯一一个用户。
例如,标识信息可以是用户身份标识号(Identity Document,ID),每个用户ID指代唯一一个用户,不同的登录用户的用户ID也不同,通过获取个人门户网站上登录的用户的用户ID,便于后续提取该用户ID对应的数据,从而实现针对该用户的信息推荐。其中,用户ID可以包括身份证标识号、注册的账号、预先为每个用户设定的唯一编码、手机号等。此处仅为示例性说明,对此不做限定。
示例性地,当检测到用户登录个人门户网站时,获取当前登录的该用户的标识信息。
S102:根据该标识信息提取该用户的目标数据,该目标数据包括用户行为数据以及个人信息。
目标数据包括用户行为数据以及个人信息。其中,个人信息可包括该用户对应的姓名、年龄、性别、身高、联系方式、住址、身份证号、学历、工作、该用户在个人门户网站注册的账号信息、爱好等信息。用户行为数据包括该用户在目标个人门户网站对应的关注信息、输入记录信息、收藏信息、浏览信息、评论信息、浏览时长、屏蔽记录、搜索记录、分享记录等。
在个人门户网站的数据库中,存储有每个用户的标识信息,以及每个标识信息对应的个人信息和用户行为数据。当获取到用户的标识信息后,基于该用户的标识信息,在数据库中查找与该标识信息对应的个人信息和用户行为数据。
示例性地,用户根据某个个人门户网站的注册流程,填写登录账号(可作为该用户的用户ID)和密码,在个人门户网站进行注册,个人门户网站根据用户填写的登录账号和密码为该用户生成账号信息。还可提示该用户完善信息,以此收集到该用户的姓名、年龄、性别、身高、联系方式、住址、爱好等信息。将用户对应的账号信息以及其完善的这些信息归类为该用户对应的个人信息,将个人信息与该用户的用户ID关联,并将关联后的信息存储于个人门户网站对应的数据库中。
当用户登录个人门户网站,并在该个人门户网站中进行关注、收藏、搜索、浏览、屏蔽、删除、评论等操作时,记录该用户的这些操作行为,以及记录基于这些操作行为所产生的数据。将该用户的这些操作行为以及基于这些操作行为所产生的数据归类为该用户对应的用户行为数据,将用户行为数据与该用户的标识信息关联,并将关联后的信息存储于个人门户网站对应的数据库中。此处仅为示例性说明,对此不做限定。
当获取到用户的用户ID后,基于该用户的用户ID,在数据库中查找与该用户ID对应的个人信息和用户行为数据。
上述实施例中,通过获取个人门户网站的用户的用户ID,便于后续提取该用户的个人信息以及用户行为数据,从而有针对性地为该用户推荐准确的信息。
可选地,在一种可能的实现过程中,根据标识信息提取用户的初始数据;剔除初始数据中用户的随机行为数据,得到目标数据。
示例性地,初始数据中也包括用户行为数据以及该用户的个人信息。其中,初始数据中的用户行为数据与个人信息,与上述目标数据中包括的用户行为数据以及个人信息相同。确定初始数据中的用户行为数据中的随机行为数据,并剔除这些随机行为数据,得到目标数据。
随机行为数据是指,在一定条件下,突然出现的行为所产生的数据。例如,用户总是浏览时事新闻信息,突然某次浏览了明星八卦信息,之后也再没有浏览过明星八卦信息,可能是用户手滑不小心浏览到明星八卦信息。由于浏览明星八卦信息产生的数据,就是该用户的随机行为数据。
示例性地,可检测一定时间内,用户浏览不同类型信息的次数,若检测到浏览某种信息的次数小于预设次数,则将浏览该类型信息产生的行为数据标记为随机行为数据。
可选地,也可检测一定时间内,用户浏览不同类型信息的时长,若检测到浏览某种信息的时长小于预设时长,则将浏览该类型信息产生的行为数据标记为随机行为数据。此处仅为示例性说明,对此不做限定。
确定出用户行为数据中所有的随机行为数据,并剔除这些随机行为数据,得到目标数据。
上述实施方式中,剔除了用户行为数据中的随机行为数据,避免后续word2vec模型对目标数据进行处理时,随机行为数据带来干扰,使word2vec模型能够提取到目标数据对应的准确的特征向量,进而便于后续准确地计算目标数据与每个资源数据之间的关联度,从而基于关联度为用户推荐准确的信息。且提取剔除了随机行为数据,减少了word2vec模型的工作量,进而提升了word2vec模型的处理速度。
S103:通过word2vec模型对该目标数据与该个人门户网站的多个资源数据进行分析,得到该目标数据与每个资源数据之间的关联度。
在本实施例中,推荐信息的设备中预先存储有预先训练好的word2vec模型。该word2vec模型是使用机器学习算法,基于目标数据对初始word2vec网络训练得到。
可以理解的是,word2vec模型可以由推荐信息的设备预先训练好,也可以由其他设备预先训练好后将word2vec模型对应的文件移植至推荐信息的设备中。也就是说,训练该word2vec模型的执行主体与使用该word2vec模型的执行主体可以是相同的,也可以是不同的。例如,当采用其他设备训练初始word2vec网络时,其他设备对初始word2vec网络结束训练后,固定word2vec网络的参数,得到训练好的word2vec模型对应的文件。然后将该文件移植到推荐信息的设备中。
个人门户网站的多个资源数据是指,个人门户网站中所展示的各种不同类型的信息。例如,资源数据可以包括娱乐类信息、综艺类信息、购物类信息、游戏类信息、军事类信息、体育类信息、汽车类信息、财经类信息、旅游类信息、房产类信息等。
可选地,个人门户网站的多个资源数据可用卡片形式(版块)展现,一个资源数据对应一个卡片(版块)。例如,娱乐类信息对应一个卡片,综艺类信息对应一个卡片等。此处仅为示例性说明,对此不做限定。
S104:根据该目标数据与每个资源数据之间的关联度,确定待推荐信息,并将该待推荐信息推荐给用户。
根据该目标数据与每个资源数据之间的关联度,对所有资源数据进行排序,根据排序结果确定待推荐信息,并将该待推荐信息推荐给用户。示例性地,按照关联度从高到低的顺序对所有资源数据进行排序,将排序在前的一个或多个资源数据作为待推荐信息,并将该待推荐信息推荐给用户。也可以是,按照关联度从低到高的顺序对所有资源数据进行排序,将排序在后的一个或多个资源数据作为待推荐信息,并将该待推荐信息推荐给用户。此处仅为示例性说明,对此不做限定。
可选地,可通过卡片的形式将待推荐信息推荐给用户,即将待推荐的信息,以卡片的形式在个人门户网站醒目的位置进行显示。例如,将待推荐的信息,以卡片的形式在个人门户网站当前页面的中心位置进行显示。此处仅为示例性说明,对此不做限定。
上述方案中,获取个人门户网站上登录的用户的标识信息;根据标识信息提取用户的目标数据,目标数据包括用户行为数据以及个人信息;通过word2vec模型对目标数据与个人门户网站的多个资源数据进行分析,得到目标数据与每个资源数据之间的关联度;根据目标数据与每个资源数据之间的关联度,确定待推荐信息,并将待推荐信息推荐给用户。通过word2vec模型对用户的目标数据以及资源数据进行处理,由于word2vec模型在对用户的目标数据以及资源数据进行处理时,会考虑到上下文联系,使提取到的目标数据以及资源数据各自对应的特征向量都语义丰富、表示准确,进而根据这些特征向量确定的目标数据与每个资源数据之间的关联度更加准确,再基于该关联度确定出准确的推荐信息并推荐给用户,提升了信息推荐的准确性。
请参见图2,图2是本申请一示例性实施例示出的一种基于word2vec模型的推荐信息的方法的步骤S103的具体流程图;可选地,在本申请一些可能的实现方式中,上述S103可包括S1031~S1033,具体如下:
S1031:通过word2vec模型对目标数据进行处理,确定用户的用户画像。
可选地,在一种可能的实现方式中,可先对目标数据进行预处理,得到目标数据对应的预处理结果。其中,预处理指提取去除目标数据中的冗余信息。冗余信息是指目标数据中没有实际意义的信息。例如,冗余信息可以是待推送信息中的停用词、标点符号等。停用词通常为限定词、语气助词、副词、介词、连接词、英文字符、数字、数学字符等。其中,英文字符为单独存在的字母,且没有实际意义。若英文字符为字母组合且具有意义时,此时,该英文字符被认定为有效字符,不会被去除。例如,当英文字符为CPU、MAC等时,会作为有效字符保留下来,不会被去除。此处仅为示例性说明,对此不做限定。
将经过预处理后的目标数据输入到word2vec模型中进行处理,得到目标数据对应的标签,根据该标签构建用户的用户画像。
这种实现方式中,对目标数据进行了预处理,预先去除了目标数据中的冗余信息,使后续word2vec模型对这些经过预处理的目标数据进行处理时,少了冗余信息的干扰,加快了word2vec模型的处理速度,以及提升了处理结果的准确度。
可选地,在一种可能的实现方式中,可以是直接将目标数据输入到word2vec模型中进行处理,得到目标数据对应的标签,根据该标签构建用户的用户画像。
S1032:通过word2vec模型对每个资源数据进行处理,确定每个资源数据对应的表征向量。
通过word2vec模型对每个资源数据依次进行分句处理、分词处理、预测处理。分句处理是指将资源数据划分为短句,分词处理是指将短句中连续的字序列划分为多个词序列。示例性地,针对每个资源数据,对该资源数据的每个短句进行分词处理,得到多个词序列。
可选地,也可先对个人门户网站的多个资源数据进行预处理,在预处理的结果上进行分句处理以及分词处理。其中,对资源数据进行预处理的方式与对目标数据进行预处理的方式相同,此处不再赘述。
将多个词序列分别映射到向量空间,即将多个词序列分别转换为向量。示例性地,将每个词序列输入到word2vec模型中进行处理,得到多个词向量。词向量为对多个词序列进行处理后,预测出的词对应的向量。
比如有一个句子:“我喜欢中国的土地”,分词处理后得到“我”、“喜欢”、“中国”、“的”、“土地”这几个词序列。使用“我”、“喜欢”、“的”、“土地”来预测“中国”这个词。原理为将这4个词序列转化为4个词向量,通过word2vec模型中的sum函数对这4个词向量进行处理,将这4个词向量变为一个向量并输出。
将多个词向量进行组合得到句向量,确定句向量对应的表征向量。其中,表征向量用于表示该资源数据对应的句子的语意特征。
上述实现方式中,由于word2vec模型会考虑上下文关系,因此,通过word2vec模型可提取到语义丰富、表征准确的资源数据对应的表征向量,进而根据这些表征向量确定的目标数据与每个资源数据之间的关联度更加准确,再基于该关联度确定出准确的推荐信息并推荐给用户,提升了信息推荐的准确性。且由于word2vec模型维度更少,加快了其处理资源数据的速度。
S1033:确定该用户画像与每个表征向量之间的关联度。
示例性地,用户画像也是以向量的形式表现的,计算用户画像与每个表征向量之间的余弦相似度,该余弦相似度用于表示用户画像与表征向量之间的关联度。其中,余弦相似度越大,表示用户画像与表征向量之间的关联度越高;余弦相似度越小,表示用户画像与表征向量之间的关联度越低。
可选地,也可通过计算用户画像与每个表征向量之间的欧式距离,确定用户画像与每个表征向量之间的关联度。
上述实现方式中,通过word2vec模型对用户的目标数据以及资源数据进行处理,由于word2vec模型会考虑上下文关系,使提取到的资源数据对应的表征向量语义丰富、表征准确,能够精确地表达资源数据的语义。用户画像可以客观、准确地反应用户的行为特征和喜好,进而使根据用户画像和表征向量确定的关联度更加准确,再基于该关联度确定出准确的推荐信息并推荐给用户,提升了信息推荐的准确性。且由于word2vec模型维度更少,加快了其处理目标数据和资源数据的速度,进而提升了推荐信息的速度。
请参见图3,图3是本申请一示例性实施例示出的一种基于word2vec模型的推荐信息的方法的步骤S1031的具体流程图;可选地,在本申请一些可能的实现方式中,上述S1031可包括S10311~S10312,具体如下:
S10311:通过word2vec模型,对用户行为数据和个人信息进行处理,得到至少两个维度的用户标签。
通过word2vec模型提取用户行为数据对应的关键词,将提取的关键字进行向量化后拼接形成至少一个维度的用户标签。通过word2vec模型提取个人信息对应的关键词,将提取的个人信息对应的关键字进行向量化后拼接形成另一个维度的用户标签。
值得说明的是,对用户行为数据和个人信息进行处理的顺序不进行限定。示例性地,也可以是先通过word2vec模型提取个人信息对应的关键词,将提取的个人信息对应的关键字进行向量化后拼接形成另一个维度的用户标签。再通过word2vec模型提取用户行为数据对应的关键词,将提取的关键字进行向量化后拼接形成至少一个维度的用户标签。也可以是同时对用户行为数据和个人信息进行处理,此处仅为示例性说明,对此不做限定。
示例性地,从用户第一预设时间范围内(例如最近一个月内)的评论中提取关键词,将提取的关键词进行向量化后拼接形成评论这个维度的用户标签。从用户第二预设时间范围内(例如最近一个月内)的收藏中提取关键词(例如,从收藏的文章的标题中提取关键词),将提取的关键词进行向量化后拼接形成收藏这个维度的用户标签。通过这样的方式,得到多个维度的用户标签。从用户个人信息包括的爱好信息中提取关键词,将提取的关键词进行向量化后拼接形成爱好这个维度的用户标签。
S10312:根据至少两个维度的用户标签构建用户画像。
由于每个维度的用户标签都是以向量的形式表现,将各个维度的用户标签拼接,得到该用户的用户画像。
上述实现方式中,确定了用户在不同维度的用户标签,进而根据这些用户标签构建的用户画像更准确,更能反映用户的行为特征和用户的喜好。
请参见图4,图4是本申请一示例性实施例示出的一种基于word2vec模型的推荐信息的方法的步骤S1032的具体流程图;可选地,在本申请一些可能的实现方式中,上述S1032可包括S10321~S10322,具体如下:
S10321:通过word2vec模型,提取每个资源数据对应的关键词。
S10322:对每个关键字进行向量化处理,得到每个资源数据对应的表征向量。
示例性地,对资源数据进行分句处理,得到多个短句,对每个短句进行分词处理,得到多个词序列,即多个分词。例如,word2vec模型中的多个网络层对每个分词以及多个短句进行映射处理,将每个分词以及该分词对应的短句映射到公共语义空间,输出每个分词对应的词向量以及短句对应的语义向量。
通过word2vec模型计算每个分词对应的词向量与该自然查询语句对应的语义向量之间的余弦相似度。针对每个词向量,将该词向量与短句对应的语义向量输入余弦距离公式进行计算,得到该词向量对应的分词与短句之间的余弦相似度,即该分词与短句之间的相关程度。余弦距离公式如下:
Figure BDA0003204914230000121
上述公式(1)中,cosθ表示余弦相似度,cosθ的值越接近1,表明该词向量与语义向量越相关,即分词与短句相关程度高;A表示词向量,B表示语义向量;i表示词向量与语义向量各自对应的维度,即Ai中的i表示词向量对应的维度,Bi中的i表示语义向量对应的维度。
采用归一化指数函数对计算得到的每个余弦相似度进行归一化处理,得到归一化的概率分布值。该概率分布值越大,表示该分词越能代表短句表达的语义;该概率分布值越小,表示该分词越不能代表短句表达的语义。根据概率分布值从高到低的顺序对每个分词进行排序,选择排序在前的一个作为短句对应的关键词并输出。或者,根据概率分布值从低到高的顺序对每个分词进行排序,选择排序在后的一个作为短句对应的关键词并输出。
将每个短句对应的关键词进行向量化处理,得到每个资源数据对应的表征向量。示例性地,针对每个资源数据,将该资源数据的每个短句对应的关键词转换为特征向量,将这些关键词对应的特征向量进行拼接,得到该资源数据对应的表征向量。
上述实现方式中,由于word2vec模型会考虑上下文关系,使提取到的资源数据对应的表征向量语义丰富、表征准确,能够精确地表达资源数据的语义。
请参见图5,图5是本申请一示例性实施例示出的一种基于word2vec模型的推荐信息的方法的步骤S1033的具体流程图;可选地,在本申请一些可能的实现方式中,上述S1033可包括S10331~S10332,具体如下:
S10331:计算用户画像与每个表征向量之间的欧式距离。
S10332:根据该用户画像与每个表征向量之间的欧式距离,确定该用户画像与每个表征向量之间的关联度。
示例性地,可借助数据分析程序(例如matlab程序)计算用户画像与每个表征向量之间的欧式距离。例如,将用户画像与每个表征向量之间输入matlab程序,运行该matlab程序,输出用户画像与每个表征向量之间的欧式距离。
欧式距离用于表示用户画像与每个表征向量之间的关联度,欧式距离越大,表示用户画像与表征向量之间的关联度越高;欧式距离越小,表示用户画像与表征向量之间的关联度越低。
可选地,在本申请一些可能的实现方式中,在步骤S103之前,本申请提供的基于word2vec模型的推荐信息的方法还可包括:基于机器学习对样本数据进行学习,并根据机器学习的学习结果实时调整训练中的word2vec模型的参数;当检测到训练中的word2vec模型对应的损失函数收敛时,得到已训练的word2vec模型。
示例性地,为了给每个用户推荐更准确的信息,不同的用户对应的word2vec模型不完全相同。样本数据包括样本用户数据。具体地,样本用户数据包括该用户的个人信息,以及该用户刚开始登陆个人门户网站时,对该个人门户网站进行各种行为操作,所产生的样本行为数据。
将样本用户数据输入至初始word2vec网络中进行训练,刻画出该用户的用户画像,根据用户画像将个人门户网站的信息初步推荐给该用户。在训练过程中不断完善用户画像,检测推荐信息的准确度,根据准确度调整、更新以及修正训练中的word2vec模型的参数,直至推荐信息的准确度达到预设阈值,得到已训练的word2vec模型。
值得说明的是,该word2vec模型在使用过程中,根据用户的各种行为操作,也会不断地调整、更新以及修正word2vec模型的参数,以保证随时推荐给用户的信息都准确。对于不同的用户,训练不同的word2vec模型,保证给每个用户推荐准确的信息。
可选地,在训练word2vec模型的过程中,也可以是,检测训练中的word2vec模型对应的损失函数是否收敛。当检测到word2vec模型对应的损失函数未收敛时,继续通过样本用户数据训练word2vec模型,并不断调整训练中的word2vec模型的参数。当检测到训练中的word2vec模型对应的损失函数收敛时,停止训练,将此时word2vec模型的参数固化到此时的word2vec模型中,得到已训练的word2vec模型。其中,word2vec模型对应的损失函数是否收敛,是指word2vec模型对应的损失函数对应的值是否趋于稳定。
可选地,在训练过程中,为了使训练后的模型处理数据更准确,增加了训练时间,可通过使用层次softmax来加速,从而提高词向量的训练效率。其中,层次softmax的核心内容是哈夫曼树(Huffman Tree),树的核心概念是出现概率越高的符号使用较短的编码(层次越浅),出现概率低的符号则使用较长的编码(层次越深)。
和传统的神经网络语言模型相比,本申请提供的哈夫曼树的所有内部节点就类似之前神经网络隐藏层的神经元。其中,根节点的词向量对应投影后的词向量,而所有叶子节点就类似于之前神经网络softmax输出层的神经元,叶子节点的个数就是词汇表的大小。这种实现方式,使得word2vec模型只需关注树分支的参数,不用关注所有神经元,将大大减少最后分类需要的参数。
请参见图6,图6是本申请一实施例提供的一种基于word2vec模型的推荐信息的装置的示意图。该装置包括的各单元用于执行图1~图5对应的实施例中的各步骤。具体请参阅图1~图5各自对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图6,包括:
获取单元210,用于获取个人门户网站上登录的用户的标识信息;
提取单元220,用于根据所述标识信息提取所述用户的目标数据,所述目标数据包括用户行为数据以及个人信息;
分析单元230,用于通过word2vec模型对所述目标数据与所述个人门户网站的多个资源数据进行分析,得到所述目标数据与每个资源数据之间的关联度;
推荐单元240,用于根据所述目标数据与每个资源数据之间的关联度,确定待推荐信息,并将所述待推荐信息推荐给所述用户。
可选地,所述分析单元230包括:
第一处理单元,用于通过所述word2vec模型对所述目标数据进行处理,确定所述用户的用户画像;
第二处理单元,用于通过所述word2vec模型对每个所述资源数据进行处理,确定每个所述资源数据对应的表征向量;
确定单元,用于确定所述用户画像与每个所述表征向量之间的关联度。
可选地,所述用户行为数据包括所述用户对应的关注信息、输入记录信息、收藏信息、浏览信息,所述第一处理单元具体用于:
通过所述word2vec模型,对所述用户行为数据和所述个人信息进行处理,得到至少两个维度的用户标签;
根据所述至少两个维度的用户标签构建所述用户画像。
可选地,所述第二处理单元具体用于:
通过所述word2vec模型,提取每个所述资源数据对应的关键词;
对每个所述关键字进行向量化处理,得到每个所述资源数据对应的表征向量。
可选地,所述确定单元具体用于:
计算所述用户画像与每个所述表征向量之间的欧式距离;
根据所述用户画像与每个所述表征向量之间的欧式距离,确定所述用户画像与每个所述表征向量之间的关联度。
可选地,所述提取单元220具体用于:
根据所述标识信息提取所述用户的初始数据;
剔除所述初始数据中所述用户的随机行为数据,得到所述目标数据。
可选地,所述装置还包括训练单元,所述训练单元具体用于:
基于机器学习对样本数据进行学习,并根据机器学习的学习结果实时调整训练中的word2vec模型的参数;
当检测到训练中的word2vec模型对应的损失函数收敛时,得到已训练的word2vec模型。
请参见图7,图7是本申请另一实施例提供的基于word2vec模型的推荐信息的设备的示意图。如图6所示,该实施例的设备3包括:处理器30、存储器31以及存储在所述存储器31中并可在所述处理器30上运行的计算机程序32。所述处理器30执行所述计算机程序32时实现上述各个基于word2vec模型的推荐信息的方法实施例中的步骤,例如图1所示的S101至S104。或者,所述处理器30执行所述计算机程序32时实现上述各实施例中各单元的功能,例如图6所示单元210至240功能。
示例性地,所述计算机程序32可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器31中,并由所述处理器30执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机指令段,该指令段用于描述所述计算机程序32在所述设备3中的执行过程。例如,所述计算机程序32可以被分割为获取单元、提取单元、分析单元以及推荐单元,各单元具体功能如上所述。
所述设备可包括,但不仅限于,处理器30、存储器31。本领域技术人员可以理解,图7仅仅是设备3的示例,并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器30可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器31可以是所述设备的内部存储单元,例如设备的硬盘或内存。所述存储器31也可以是所述设备的外部存储终端,例如所述设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器31还可以既包括所述设备的内部存储单元也包括外部存储终端。所述存储器31用于存储所述计算机指令以及所述终端所需的其他程序和数据。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机存储介质,计算机存储介质可以是非易失性,也可以是易失性,该计算机存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述各个基于word2vec模型的推荐信息的方法实施例中的步骤。
本申请还提供了一种计算机程序产品,当计算机程序产品在设备上运行时,使得该设备执行上述各个基于word2vec模型的推荐信息的方法实施例中的步骤。
本申请实施例还提供了一种芯片或者集成电路,该芯片或者集成电路包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有该芯片或者集成电路的设备执行上述各个基于word2vec模型的推荐信息的方法实施例中的步骤。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于word2vec模型的推荐信息的方法,其特征在于,包括:
获取个人门户网站上登录的用户的标识信息;
根据所述标识信息提取所述用户的目标数据,所述目标数据包括用户行为数据以及个人信息;
通过word2vec模型对所述目标数据与所述个人门户网站的多个资源数据进行分析,得到所述目标数据与每个资源数据之间的关联度;
根据所述目标数据与每个资源数据之间的关联度,确定待推荐信息,并将所述待推荐信息推荐给所述用户。
2.如权利要求1所述的方法,其特征在于,所述通过word2vec模型对所述目标数据与所述个人门户网站的多个资源数据进行分析,得到所述目标数据与每个资源数据之间的关联度,包括:
通过所述word2vec模型对所述目标数据进行处理,确定所述用户的用户画像;
通过所述word2vec模型对每个所述资源数据进行处理,确定每个所述资源数据对应的表征向量;
确定所述用户画像与每个所述表征向量之间的关联度。
3.如权利要求2所述的方法,其特征在于,所述用户行为数据包括所述用户对应的关注信息、输入记录信息、收藏信息、浏览信息,所述个人信息包括所述用户的姓名、年龄、账号信息以及爱好信息,所述通过所述word2vec模型对所述目标数据进行处理,确定所述用户的用户画像,包括:
通过所述word2vec模型,对所述用户行为数据和所述个人信息进行处理,得到至少两个维度的用户标签;
根据所述至少两个维度的用户标签构建所述用户画像。
4.如权利要求2所述的方法,其特征在于,所述通过所述word2vec模型对每个所述资源数据进行处理,确定每个所述资源数据对应的表征向量,包括:
通过所述word2vec模型,提取每个所述资源数据对应的关键词;
对每个所述关键字进行向量化处理,得到每个所述资源数据对应的表征向量。
5.如权利要求2所述的方法,其特征在于,所述确定所述用户画像与每个所述表征向量之间的关联度,包括:
计算所述用户画像与每个所述表征向量之间的欧式距离;
根据所述用户画像与每个所述表征向量之间的欧式距离,确定所述用户画像与每个所述表征向量之间的关联度。
6.如权利要求1至5任一项所述的方法,其特征在于,所述根据所述标识信息提取所述用户的目标数据,包括:
根据所述标识信息提取所述用户的初始数据;
剔除所述初始数据中所述用户的随机行为数据,得到所述目标数据。
7.如权利要求1至5任一项所述的方法,其特征在于,在所述通过word2vec模型对所述目标数据与所述个人门户网站的多个资源数据进行分析,得到所述目标数据与每个资源数据之间的关联度之前,所述方法还包括:
基于机器学习对样本数据进行学习,并根据机器学习的学习结果实时调整训练中的word2vec模型的参数;
当检测到训练中的word2vec模型对应的损失函数收敛时,得到已训练的word2vec模型。
8.一种基于word2vec模型的推荐信息的装置,其特征在于,包括:
获取单元,用于获取个人门户网站上登录的用户的标识信息;
提取单元,用于根据所述标识信息提取所述用户的目标数据,所述目标数据包括用户行为数据以及个人信息;
分析单元,用于通过word2vec模型对所述目标数据与所述个人门户网站的多个资源数据进行分析,得到所述目标数据与每个资源数据之间的关联度;
推荐单元,用于根据所述目标数据与每个资源数据之间的关联度,确定待推荐信息,并将所述待推荐信息推荐给所述用户。
9.一种基于word2vec模型的推荐信息的设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
CN202110914414.5A 2021-08-10 2021-08-10 基于word2vec模型的推荐信息方法、装置及设备 Pending CN113626704A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110914414.5A CN113626704A (zh) 2021-08-10 2021-08-10 基于word2vec模型的推荐信息方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110914414.5A CN113626704A (zh) 2021-08-10 2021-08-10 基于word2vec模型的推荐信息方法、装置及设备

Publications (1)

Publication Number Publication Date
CN113626704A true CN113626704A (zh) 2021-11-09

Family

ID=78384045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110914414.5A Pending CN113626704A (zh) 2021-08-10 2021-08-10 基于word2vec模型的推荐信息方法、装置及设备

Country Status (1)

Country Link
CN (1) CN113626704A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114169418A (zh) * 2021-11-30 2022-03-11 北京百度网讯科技有限公司 标签推荐模型训练方法及装置、标签获取方法及装置
CN114936326A (zh) * 2022-07-20 2022-08-23 深圳格隆汇信息科技有限公司 基于人工智能的信息推荐方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106959966A (zh) * 2016-01-12 2017-07-18 腾讯科技(深圳)有限公司 一种信息推荐方法及系统
CN110457596A (zh) * 2019-08-01 2019-11-15 北京明略软件系统有限公司 一种资源推荐处理方法及装置
CN112148889A (zh) * 2020-09-23 2020-12-29 平安直通咨询有限公司上海分公司 一种推荐列表的生成方法及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106959966A (zh) * 2016-01-12 2017-07-18 腾讯科技(深圳)有限公司 一种信息推荐方法及系统
WO2017121244A1 (zh) * 2016-01-12 2017-07-20 腾讯科技(深圳)有限公司 信息推荐方法、系统以及存储介质
CN110457596A (zh) * 2019-08-01 2019-11-15 北京明略软件系统有限公司 一种资源推荐处理方法及装置
CN112148889A (zh) * 2020-09-23 2020-12-29 平安直通咨询有限公司上海分公司 一种推荐列表的生成方法及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
崔金栋;陈思远;: "融媒体信息推荐模型构建与信息推荐方法研究", 情报科学, no. 07, 1 July 2020 (2020-07-01), pages 54 - 60 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114169418A (zh) * 2021-11-30 2022-03-11 北京百度网讯科技有限公司 标签推荐模型训练方法及装置、标签获取方法及装置
CN114169418B (zh) * 2021-11-30 2023-12-01 北京百度网讯科技有限公司 标签推荐模型训练方法及装置、标签获取方法及装置
CN114936326A (zh) * 2022-07-20 2022-08-23 深圳格隆汇信息科技有限公司 基于人工智能的信息推荐方法、装置、设备及存储介质
CN114936326B (zh) * 2022-07-20 2022-11-29 陈守红 基于人工智能的信息推荐方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106874279B (zh) 生成应用类别标签的方法及装置
CN107463605B (zh) 低质新闻资源的识别方法及装置、计算机设备及可读介质
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
US8452772B1 (en) Methods, systems, and articles of manufacture for addressing popular topics in a socials sphere
US20130159277A1 (en) Target based indexing of micro-blog content
CN112214593A (zh) 问答处理方法、装置、电子设备及存储介质
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN113282711B (zh) 一种车联网文本匹配方法、装置、电子设备及存储介质
CN113626704A (zh) 基于word2vec模型的推荐信息方法、装置及设备
CN112132238A (zh) 一种识别隐私数据的方法、装置、设备和可读介质
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN115659008A (zh) 大数据信息反馈的信息推送系统、方法、电子设备及介质
CN114416998A (zh) 文本标签的识别方法、装置、电子设备及存储介质
CN113569118B (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN111291551A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN112818206A (zh) 一种数据分类方法、装置、终端及存储介质
US20090182759A1 (en) Extracting entities from a web page
US20230090601A1 (en) System and method for polarity analysis
CN113408282B (zh) 主题模型训练和主题预测方法、装置、设备及存储介质
CN113961813A (zh) 基于人工智能的信息推荐方法、装置、设备及存储介质
CN115098619A (zh) 资讯去重方法、装置、电子设备及计算机可读取存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination