CN115495662A - 基于多数据源的推荐方法、装置、电子设备及存储介质 - Google Patents
基于多数据源的推荐方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115495662A CN115495662A CN202211267705.0A CN202211267705A CN115495662A CN 115495662 A CN115495662 A CN 115495662A CN 202211267705 A CN202211267705 A CN 202211267705A CN 115495662 A CN115495662 A CN 115495662A
- Authority
- CN
- China
- Prior art keywords
- target
- recommendation
- data sources
- data source
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种基于多数据源的推荐方法、装置、电子设备及存储介质,涉及计算机技术领域,该方法包括:接收待推荐系统发送的推荐请求,推荐请求包括用户标识;根据用户标识在业务系统集合产生的对应数据源中确定至少两个目标数据源;确定用户标识在至少两个目标数据源中的目标特征向量;基于至少两个目标数据源生成目标推荐模型,并将目标特征向量输入至目标推荐模型获得推荐结果。本发明通过将与目标数据源相关的目标特征向量输入至目标推荐模型的方式,在解决“冷启动”问题的基础上,兼顾了用户兴趣的迁移变化,通过本实施例提供的推荐模型获得的推荐结果取到了提高推荐服务准确度的有益效果。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及基于多数据源的推荐方法、装置、电子设备及存储介质。
背景技术
随着科技的进步与发展,各行各业都是基于大数据进行数据分析,以使得基于数据分析的结果更精准的服务于用户,例如,为用户提供推荐服务。
在对用户进行推荐时,现有的推荐方案一般针对当前业务系统的单个数据源进行分析,以获得分析结果,从而进行推荐。然而,在基于单个数据源进行推荐时,对于业务系统内的新用户,往往存在“冷启动”问题(“冷启动”问题是指由于缺少关于新用户的数据量,很难为新用户提供准确的推荐服务);还有一些业务规模较大的公司可以基于系统内多个子系统获得的数据源为用户提供相应的推荐服务,可以一定程度解决上述“冷启动”问题。
但是,基于多个子系统获得的数据源进行推荐时,未考虑到随着时间的推移用户的兴趣会产生变化的情况,存在推荐服务的准确度不高的问题。
发明内容
本发明实施例提供一种基于多数据源的推荐方法、装置、电子设备及存储介质,能够改善现有的为用户进行推荐服务的方案。
第一方面,本发明实施例提供一种基于多数据源的推荐方法,包括:
接收待推荐系统发送的推荐请求,所述推荐请求包括用户标识;
根据所述用户标识在业务系统集合产生的对应数据源中确定至少两个目标数据源;
确定所述用户标识在至少两个所述目标数据源中的目标特征向量;
基于至少两个所述目标数据源生成目标推荐模型,并将所述目标特征向量输入至所述目标推荐模型获得推荐结果。
可选地,所述业务系统集合包括至少两个业务系统;
所述根据所述用户标识在业务系统集合产生的对应数据源中确定至少两个目标数据源,包括:
确定所述用户标识在每个所述业务系统产生的对应数据源中的活跃度;
将所述活跃度的数值大于或者等于预设数值的数据源确定为所述目标数据源。
可选地,所述确定所述用户标识在每个所述业务系统产生的对应数据源中的活跃度,包括:
获取所述用户标识在历史时间段对每个所述业务系统产生的访问信息;
根据所述访问信息确定所述用户标识在每个所述数据源中的活跃度。
可选地,所述确定所述用户标识在至少两个所述目标数据源中的目标特征向量,包括:
确定所述用户标识在每个所述目标数据源中的初始特征向量;
对所有所述初始特征向量进行特征融合,获得所述目标特征向量。
可选地,所述基于至少两个所述目标数据源生成目标推荐模型,包括:
获取基于预设分析算法训练的初始推荐模型;
根据每个所述目标数据源的所述活跃度的数值确定所述初始推荐模型中对应模型参数的权重信息;
根据所述权重信息调整所述模型参数获得所述目标推荐模型。
可选地,在接收待推荐系统发送的推荐请求之前,还包括:
对所述业务系统集合中每个业务系统产生的对应数据源进行标识,获得数据源标识;
相应地,在根据所述用户标识在业务系统集合产生的对应数据源中确定至少两个目标数据源之后,还包括:
获取至少两个所述目标数据源对应的数据源标识,并根据至少两个所述数据源标识获得至少两个所述目标数据源的组合标识。
可选地,在基于至少两个所述目标数据源生成目标推荐模型之后,还包括:
根据所述组合标识获得所述目标推荐模型的模型标识,并将所述模型标识与所述组合标识保存至标识映射表,在所述标识映射表中所述模型标识与所述组合标识一一对应。
第二方面,本发明实施例提供一种基于多数据源的推荐装置,所述装置包括:
推荐请求接收模块,用于接收待推荐系统发送的推荐请求,所述推荐请求包括用户标识;
数据源确定模块,用于根据所述用户标识在业务系统集合产生的对应数据源中确定至少两个目标数据源;
目标特征确定模块,用于确定所述用户标识在至少两个所述目标数据源中的目标特征向量;
目标模型生成模块,用于基于至少两个所述目标数据源生成目标推荐模型,并将所述目标特征向量输入至所述目标推荐模型获得推荐结果。
第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的基于多数据源的推荐方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的基于多数据源的推荐方法。
本发明实施例提供的基于多数据源的推荐方案,首先接收待推荐系统发送的推荐请求,推荐请求中包括用户标识;然后根据用户标识在业务系统集合产生的对应数据源中确定至少两个目标数据源,当前目标数据源为当前用户产生的所有数据源中活跃度较高的数据源;再确定用户标识在至少两个目标数据源中的目标特征向量;最后基于至少两个目标数据源生成目标推荐模型,并将目标特征向量输入至目标推荐模型获得推荐结果。本实施例提供的方案,通过确定至少两个目标数据源,并基于目标数据源生成目标推荐模型,以及将与目标数据源相关的目标特征向量输入至目标推荐模型的方式,在解决现有方案“冷启动”问题的基础上,兼顾了用户兴趣的迁移变化,通过本实施例提供的推荐模型获得的推荐结果取到了提高推荐服务准确度的有益效果。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明实施例的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例提供的基于多数据源的推荐方法的一个流程示意图;
图2是本发明实施例提供的基于多数据源的推荐方法的另一流程示意图;
图3是本发明实施例提供的基于多数据源的推荐装置的一个结构示意图;
图4是本发明实施例提供的电子设备的一个结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1为本发明实施例提供的基于多数据源的推荐方法的一个流程示意图,本实施例可适用于基于多数据源为用户提供推荐服务的情况,该方法可以由基于多数据源的推荐装置来执行,该基于多数据源的推荐装置可以采用硬件和/或软件的形式实现,该基于多数据源的推荐装置可配置于服务器等计算机设备中。参考图1,该方法具体可以包括如下步骤:
S110、接收待推荐系统发送的推荐请求,推荐请求包括用户标识。
待推荐系统可以为用户新注册的系统、也可以为用户已经注册完成的系统。当前待推荐系统可以以应用程序、小程序或者网页链接的形式集成在移动终端或客户端上,具体待推荐系统的类型以及存在形式在此不做限制。
推荐请求可以为用户在成功登录待推荐系统后产生的请求,也可以为用户登录待推荐系统后,手动点击相关“推荐”按钮产生的请求,具体推荐请求的产生方式在此不作限制。
上述用户标识为能够唯一标识用户身份的标识。示例性地,可以为用户的身份证号码、去中心化身份(Decentralized ID,简称DID)、国际移动设备识别码(InternationalMobile Equipment Identity,简称IMEI)或者社交网络账号等,具体用户标识在此不做限制。
当用户在待推荐系统进行登录时,可根据用户标识和密码的形式进行登录,在服务端接收到推荐系统发送的推荐请求时,相应地可根据请求中携带的用户标识确定当前用户的身份。
推荐系统可以根据接收的推荐请求向待推荐系统进行相关推荐服务。当前待推荐系统可以集成在服务器等计算机设备上。在推荐系统执行推荐服务时,可以根据用户历史时间段产生的数据源分析用户的兴趣特点和购买行为,从而为用户进行个性化推荐,向用户推荐出其可能感兴趣的业务、好友、商品、事件以及活动等,具体推荐系统的推荐功能在此不做限制。
S120、根据用户标识在业务系统集合产生的对应数据源中确定至少两个目标数据源。
业务系统集合中包括至少两个业务系统,当前至少两个业务系统可以理解为,根据用户标识注册的所有业务系统;若当前用户标识注册的业务系统数量较少,也可以包括该用户标识对应的社交软件或社交通讯录中相关好友注册的业务系统,具体业务系统集合中包括的业务系统的类型在此不做限制。
当用户标识每在一个业务系统进行注册后,便会在对应业务系统中产生相应访问信息,示例性地,可以为浏览内容、浏览时长、点赞或评论的作品,以及浏览作品类型、登录当前业务系统的次数、进行交互的次数以及进行点击的次数等,则针对访问信息产生的相关数据称为数据源,不同业务系统产生的数据源的类型以及数据源的内容均不相同。
推荐系统可以用户标识为主体,存储有用户标识在业务系统集合产生的所有数据源,进一步在所有数据源中确定出至少两个目标数据源。具体地,确定至少两个目标数据源的方式可以为,确定用户标识在每个业务系统产生的对应数据源中的活跃度,将活跃度的数值大于或者等于预设数值的数据源确定为目标数据源。
进一步地,可将预设数量的业务系统或者活跃度高于预设数值的业务系统确定为目标业务系统,具体确定目标业务系统的方式在此不做限制。
需要说明的是,本实施例提供的基于多数据源的推荐方案,其中的目标数据源包括至少两个,这样做的目的是,基于至少两个目标数据源进行融合分析,以解决推荐系统的“冷启动”问题;且目标数据源为用户在历史时间段产生的较为活跃的数据,可以兼顾到用户的兴趣变化,基于用户在历史时间段感兴趣的数据进行推荐,有助于后续步骤提高推荐结果的准确性。
可选地,由于推荐系统所在的计算机设备需要负责执行复杂庞大的算法运算,为了避免数据冗余,集成有推荐系统的计算机设备可不存储用户标识,则确定用户标识在每个业务系统产生的对应数据源中的活跃度的过程可以在每个业务系统所在的计算机设备上实现,集成有推荐系统的计算机设备只需获取每个业务系统产生的数据源对应的活跃度数值,进一步根据活跃度数值确定出至少两个目标数据源,以更充分利用各台计算机设备的性能,提高存储和计算的效率。具体每个计算机设备所执行的功能在此不做限制。
S130、确定用户标识在至少两个目标数据源中的目标特征向量。
根据用户标识确定当前用户在至少两个目标数据源中的目标特征向量的方式可以为,首先根据用户标识获取当前用户在每个目标数据源中的初始特征向量,再将所有初始特征向量进行特征融合,获得目标特征向量。
其中,上述特征向量可以为与当前用户有关的兴趣特征。该兴趣特征可以为:用户点击过的商品、视频、文章以及输入搜索词等。则获得初始特征向量的方式可以为,将每个目标数据源中对应的兴趣特征进行嵌入处理后可得到的多个初始特征向量;再对多个初始特征向量进行平均处理合并成一个目标特征向量,将目标特征向量作为用户兴趣的表示。也可以为对用户发表的文本、图像信息以及浏览内容等进行特征提取获得每个目标数据源的初始特征向量,进一步基于初始特征向量中的词典确定用户的兴趣向量,即目标特征向量等。具体获得初始特征向量和目标特征向量的方式在此限制。
S140、基于至少两个目标数据源生成目标推荐模型,并将目标特征向量输入至目标推荐模型获得推荐结果。
当前目标推荐模型是根据至少两个目标数据源生成的个性化的模型。则根据至少两个目标数据源生成目标推荐模型的方式可以为,根据推荐模型的共性训练出初始推荐模型,再结合至少两个目标数据源数据特性或者初始特征向量对初始推荐模型的相关模型参数进行调整,以后的目标推荐模型。这样做的好处在于,目标推荐模型是根据至少两个目标数据源的数据特性生成的,在将目标特征向量输入至目标推荐模型后获得的推荐结果更符合用户需求,以做到精准推荐。
本发明实施例提供的基于多数据源的推荐方法,首先接收待推荐系统发送的推荐请求,推荐请求中包括用户标识;然后根据用户标识在业务系统集合产生的对应数据源中确定至少两个目标数据源,当前目标数据源为当前用户产生的所有数据源中活跃度较高的数据源;再确定用户标识在至少两个目标数据源中的目标特征向量;最后基于至少两个目标数据源生成目标推荐模型,并将目标特征向量输入至目标推荐模型获得推荐结果。本实施例提供的方案,通过确定至少两个目标数据源,并基于目标数据源生成目标推荐模型,以及将与目标数据源相关的目标特征向量输入至目标推荐模型的方式,在解决现有方案“冷启动”问题的基础上,兼顾了用户兴趣的迁移变化,通过本实施例提供的推荐模型获得的推荐结果取到了提高推荐服务准确度的有益效果。
图2是本发明实施例提供的基于多数据源的推荐方法的另一流程示意图,本实施例与上述实施例之间的关系对上述实施例相应特征的进一步细化。如图2所示,该方法可以包括如下步骤:
S210、接收待推荐系统发送的推荐请求,推荐请求包括用户标识。
S220、确定用户标识在每个业务系统产生的对应数据源中的活跃度。
一种可选实施例,确定用户标识在每个业务系统产生的对应数据源中的活跃度,可以由如下方式实现:获取用户标识在历史时间段对每个业务系统产生的访问信息;根据访问信息确定用户标识在每个数据源中的活跃度。
当前历史时间段可以根据所需数据源的数据量来决定,示例性地,可以为一个月、三个月或者一年等,具体历史时间段的时长在此不作限制。
访问信息可以为用户标识在登录每个业务系统后产生的相关信息,当前访问信息可以包括:浏览内容、浏览时长、点赞或评论的作品、浏览作品类型、登录次数、交互次数、点击次数等,具体访问信息所包含的内容在此不作限制。
进一步根据提取的当前用户在每个业务系统的访问信息来决定当前用户在当前业务系统的活跃度。其中,活跃度数值越高,表明当前业务系统使用越频繁,用户越感兴趣。
如果用户在该业务系统内为产生对应数据源,则返回用户活跃度为0。
示例性地,用户的活跃度可以使用0-10之间的整数来表示,也可以使用0-1之间的小数来表示,数值越高则活跃度越大,具体活跃度的表示方式在此不作限制。
以业务系统集合包括8个业务系统产生的数据源,当前数据源分别为数据源1、数据源2,…,数据源8为例,用户A在每个业务系统产生的相应数据源1-8的活跃度分别可以为1,8,9,1,2,3,2,8。具体业务系统集合包括的业务系统的数量,以及每个业务系统产生用户标识对应数据源的活跃度在此不作限制。
S221、将活跃度的数值大于或者等于预设数值的数据源确定为目标数据源。
以当前预设数值为8为例,则在数据源1-8的活跃度分别为1,8,9,1,2,3,2,8时,则目标数据源为活跃度的数值分别为8,9,8对应的数据源2、数据源3和数据源8。
可选地,还可选取预设数量的数据源作为目标数据源,示例性地,选取活跃度的数值在由高到低排列前四的数据源作为目标数据源,则在数据源1-8的活跃度分别为1,8,9,1,2,3,2,8时,目标数据源为活跃度的数值分别为8,9,3,8分别对应的数据源2、数据源3、数据源6和数据源8,具体确定目标数据源的方式在此不作限制。
进一步地,在当前步骤中,获取的目标数据源为用户标识在历史时间段活跃度较高的数据源,这样选取的好处在于,能够兼顾用户在历史时间段的兴趣变化情况,以在后续基于目标数据源对用户进行推荐服务时,推荐的结果更符合用户的当前需求。
S230、确定用户标识在每个目标数据源中的初始特征向量。
初始特征向量可以表征当前用户在当前产生的目标数据源中的兴趣特征。示例性地,可以将用户点击过的商品、视频、文章以及输入搜索词相关的数据源进行嵌入处理,便可得到每个目标数据源中的初始特征向量。
S231、对所有初始特征向量进行特征融合,获得目标特征向量。
在目标数据源包含有多个时,对应的初始特征向量也有多个,在当前步骤中需对所有初始特征向量进行特征融合处理,示例性地,可以采用将所有初始特征向量拼接的方式进行特征融合,以获得目标特征向量;还可采用根据每个目标数据源的活跃度为每个初始特征向量分配对应的权重,再使用对所有初始特征向量进行加权求和的方式进行特征,以获得目标特征向量。具体对所有初始特征向量进行特征融合的方式在此不作限制。
S240、获取基于预设分析算法训练的初始推荐模型。
初始推荐模型可以基于预设分析算法以及推荐模型的共性训练出的模型。其中,当前预设分析算法可以为聚类算法或者分类算法,在聚类算法中可以使用K-均值聚类算法、层次聚类算法,通过聚类得到若干相似样本,基于相似度对推荐模型进行训练,获得初始推荐模型;在分类算法中可以使用神经网络算法、K最近邻(k-NearestNeighbor,简称KNN)算法,或者贝叶斯算法等基于用户特征对推荐模型进行训练,获得初始特征模型。具体训练初始推荐模型的算法在此不作限制。
S241、根据每个目标数据源的活跃度的数值确定初始推荐模型中对应模型参数的权重信息。
由于不同用户针对不同目标数据源的活跃度会有所区别,示例性地,针对用户A和用户B确定的目标数据源均为数据源2、数据源3和数据源8,但用户A对数据源2、数据源3和数据源8的对应活跃度分别为9,6,8;用户B对数据源2、数据源3和数据源8的对应活跃度分别为5,9,6;由此可知不同用户针对同一数据源的感兴趣情况可能不同。
则可基于每个目标数据源的活跃度的数值对初始推荐模型中对应模型参数进行调整,从而使得后续获得的目标推荐模型更适应于当前用户。
则在初始推荐模型中对应模型参数进行调整时,可根据每个目标数据源的活跃度的数值决定初始推荐模型中与影响用户兴趣有关的模型参数的权重信息,对模型参数进行权重调整,具体调整的模型参数在此不作限制。
S242、根据权重信息调整模型参数获得目标推荐模型。
根据权重信息对初始推荐模型的模型参数进行调整,获得目标推荐模型。则目标推荐模型为关于当前用户活跃度较高的数据源获得的定制化推荐模型,有助于为当前用户输出更符合用户需求的推荐结果。
在当前步骤中,服务器端针对不同的用户标识存储有多个推荐模型,且每当对应用户产生推荐请求时,为避免用户的兴趣产生变化,均会重复执行上述步骤S210~S242,虽然看起来推荐模型的数量增加了,但是对于每个推荐模型而言,由于样本被分散至对应的目标推荐模型中,对于某一次特定计算而言,其需要计算的样本数量却减少了。因此,对海量数据进行推荐计算时,其计算效率可以得到大幅度提高。
S250、将目标特征向量输入至目标推荐模型获得推荐结果。
一种可选方式,由于服务器端会接收到多个用户标识针对多个业务系统产生的多个数据源,数据量较为庞大,为便于对庞大数据源进行分析以及管理,可对每个数据源进行标识,以获得数据源标识。具体实现方式可以为:
对业务系统集合中每个业务系统产生的对应数据源进行标识,获得数据源标识。
由于每个业务系统所在的系统架构或者所处功能的不同,产生的数据源可以是同类型的数据源,也可以是不同类型的数据源。其中,当前类型可以为业务系统的业务类型,也可以为产生对应数据源的数据类型。示例性地,以银行领域为例,业务类型可以包括银行常规业务、银行社交业务、银行券商业务,以及银行电商购物业务等,具体业务类型在此不一一列举;数据类型可以包括关系型数据、键值型数据、列式数据、文档型数据、图数据以及半结构化数据等,具体数据类型在此不一一列举。
可选地,在服务器端可包含有以用户标识为核心的数据源关系映射表,在数据源关系映射表中可将每个数据源对应的数据源名称、业务类型以及数据类型进行映射存储。其中,数据源名称可以为产生当前数据源对应的业务系统名称。示例性地,如表1所示。
表1数据源关系映射表一
数据源名称 | 业务类型 | 数据类型 |
数据源1 | 银行1 | 关系型数据 |
数据源2 | 银行1 | 列式数据 |
数据源3 | 银行2 | 半结构化数据 |
数据源4 | 银行2 | 键值型数据 |
数据源5 | 银行2 | 图数据 |
数据源6 | 银行3 | 列式数据 |
数据源7 | 银行3 | 关系型数据 |
数据源8 | 银行4 | 关系型数据 |
数据源9 | 银行4 | 图数据 |
如上表所示,多个数据源可以是同类型的数据源,如数据源1-2同为银行业务系统的数据源、数据源3-5同为社交网络系统的数据源、数据源7-8同为关系型数据源。也可以是不同类型的数据源,例如,数据源1-2分别为关系型数据和列式数据,数据源2-3分别为银行业务系统的数据源与社交网络的数据源等。
在管理每个业务系统产生的对应数据源时,需要使用统一的标识规则对每个数据源进行相关预处理,从而将相同或不同类型的各种数据源进行统一管理,以提高管理效率。其中,上述预处理操作可以为数据清洗,或者数据格式转换等,具体对数据源进行预处理的方式在此不做限制。
具体地,可对预处理后的数据源进行标识,当前标识的方式可以为,根据数据源响应快慢、数据源类型等方式将所有数据源进行排序,并使用数字顺序或者字母表顺序为每个数据源分配相应数据源标识,具体数据源标识的类型在此不做限制。
将每个数据源对应的数据源标识存储至数据源关系映射表中,如表2所示。
表2数据源名称关系映射表二
数据源名称 | 业务类型 | 数据类型 | 数据源ID |
数据源1 | 银行1 | 关系型数据 | 1 |
数据源2 | 银行1 | 列式数据 | 2 |
数据源3 | 银行2 | 半结构化数据 | 3 |
数据源4 | 银行2 | 键值型数据 | 4 |
数据源5 | 银行2 | 图数据 | 5 |
数据源6 | 银行3 | 列式数据 | 6 |
数据源7 | 银行3 | 关系型数据 | 7 |
数据源8 | 银行4 | 关系型数据 | 8 |
数据源9 | 银行4 | 图数据 | 9 |
再一种可选方式,在上述实施例“获得数据源标识”基础上,在确定至少两个目标数据源之后,还可执行如下步骤:
获取至少两个目标数据源对应的数据源标识,并根据至少两个数据源标识获得至少两个目标数据源的组合标识。
以获得的目标数据源为数据源2、数据源3和数据源8为例,则在表2中数据源2、数据源3和数据源8分别对应的数据源标识为2、3和8,则在当前步骤中,根据至少两个数据源标识获得至少两个目标数据源的组合标识为“238”。
又一种可选方式,在上述实施例“获得至少两个目标数据源的组合标识”的基础上,在获得目标推荐模型之后,还可执行如下步骤:
根据组合标识获得目标推荐模型的模型标识,并将模型标识与组合标识保存至标识映射表,在标识映射表中模型标识与组合标识一一对应。当前步骤的好处在于,在后续步骤中需根据目标数据源训练对应的目标推荐模型,可将目标数据源的组合标识与相应的目标推荐模型的模型标识进行对应保存,从而在其余用户的目标数据源与当前用户的目标数据源相同时,可使用同一推荐模型为其余用户进行推荐服务,无需再训练新的推荐模型,节省服务器的数据存储,提高响应速率。
由于本发明中的推荐模型数量为多个,推荐计算的任务量可以分发至多个推荐模型,每个推荐模型的计算量较小,在实现时,可以采用分布式的方式,将每个推荐模型的训练和计算过程在多台计算机上实现,当整个推荐系统的请求量比较大、单台计算机出现故障时,本实施例提供的推荐方案仍能保持较快的响应速度。
本发明实施例提供的基于多数据源的推荐方法,通过对与用户标识有关的业务系统产生的多个数据源进行分析挖掘,可以解决推荐系统冷启动的问题,并且通过对每个业务系统产生的对应数据源进行标识,可以处理不同业务类型和数据类型的数据源,有效打破了异构数据源之间的数据壁垒;进一步将当前用户高活跃度的数据源作为目标数据源,兼顾用户兴趣的迁移变化,有助于准确筛选出能够表达用户的真实兴趣的数据,从而提高推荐的准确性;最后(通过构建与目标数据源组合一一对应的目标推荐模型,可将繁重的推荐计算任务进行拆分和分发,使得每个推荐模型的计算量较小,当整个推荐系统的请求量比较大或单台计算机出现故障时,本发明中的推荐系统仍能保持较快的响应速度。
图3是本发明实施例提供的基于多数据源的推荐装置的一个结构示意图,该装置适用于执行本发明实施例提供的基于多数据源的推荐方法。如图3所示,该装置具体可以包括:推荐请求接收模块310、数据源确定模块320、目标特征确定模块330和目标模型生成模块340,其中:
推荐请求接收模块310,用于接收待推荐系统发送的推荐请求,所述推荐请求包括用户标识;
数据源确定模块320,用于根据所述用户标识在业务系统集合产生的对应数据源中确定至少两个目标数据源;
目标特征确定模块330,用于确定所述用户标识在至少两个所述目标数据源中的目标特征向量;
目标模型生成模块340,用于基于至少两个所述目标数据源生成目标推荐模型,并将所述目标特征向量输入至所述目标推荐模型获得推荐结果。
本发明实施例提供的基于多数据源的推荐装置,首先接收待推荐系统发送的推荐请求,推荐请求中包括用户标识;然后根据用户标识在业务系统集合产生的对应数据源中确定至少两个目标数据源,当前目标数据源为当前用户产生的所有数据源中活跃度较高的数据源;再确定用户标识在至少两个目标数据源中的目标特征向量;最后基于至少两个目标数据源生成目标推荐模型,并将目标特征向量输入至目标推荐模型获得推荐结果。本实施例提供的方案,通过确定至少两个目标数据源,并基于目标数据源生成目标推荐模型,以及将与目标数据源相关的目标特征向量输入至目标推荐模型的方式,在解决现有方案“冷启动”问题的基础上,兼顾了用户兴趣的迁移变化,通过本实施例提供的推荐模型获得的推荐结果取到了提高推荐服务准确度的有益效果。
一实施例中,所述业务系统集合包括至少两个业务系统;
所述数据源确定模块320包括:活跃度确定单元和数据源确定单元,其中:
活跃度确定单元,用于确定所述用户标识在每个所述业务系统产生的对应数据源中的活跃度;
数据源确定单元,用于将所述活跃度的数值大于或者等于预设数值的数据源确定为所述目标数据源。
一实施例中,所述活跃度确定单元包括:信息获取子单元和活跃度确定子单元,其中:
信息获取子单元,用于获取所述用户标识在历史时间段对每个所述业务系统产生的访问信息;
活跃度确定子单元,用于根据所述访问信息确定所述用户标识在每个所述数据源中的活跃度。
一实施例中,所述目标特征确定模块330,包括:初始特征确定单元和目标特征确定单元,其中:
初始特征确定单元,用于确定所述用户标识在每个所述目标数据源中的初始特征向量;
目标特征确定单元,用于对所有所述初始特征向量进行特征融合,获得所述目标特征向量。
一实施例中,目标模型生成模块340包括:初始模型获取单元、权重信息确定单元和目标模型获得单元,其中:
初始模型获取单元,用于获取基于预设分析算法训练的初始推荐模型;
权重信息确定单元,用于根据每个所述目标数据源的所述活跃度的数值确定所述初始推荐模型中对应模型参数的权重信息;
目标模型获得单元,用于根据所述权重信息调整所述模型参数获得所述目标推荐模型。
一实施例中,所述装置还包括:数据源标识模块和组合标识获得模块,其中:
数据源标识模块,用于对所述业务系统集合中每个业务系统产生的对应数据源进行标识,获得数据源标识;
组合标识获得模块,用于获取至少两个所述目标数据源对应的数据源标识,并根据至少两个所述数据源标识获得至少两个所述目标数据源的组合标识。
一实施例中,所述装置还包括:模型标识获得模块,其中:
模型标识获得模块,用于根据所述组合标识获得所述目标推荐模型的模型标识,并将所述模型标识与所述组合标识保存至标识映射表,在所述标识映射表中所述模型标识与所述组合标识一一对应。
本领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述功能模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例还提供了一种电子设备,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的基于多数据源的推荐方法。
本发明实施例还提供了一种计算机可读介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的基于多数据源的推荐方法。
下面参考图4,其示出了适于用来实现本发明实施例的电子设备的计算机系统500的结构示意图。图4示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块和/或单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块和/或单元也可以设置在处理器中,例如,可以描述为:一种处理器包括推荐请求接收模块、数据源确定模块、目标特征确定模块和目标模型生成模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:接收待推荐系统发送的推荐请求,所述推荐请求包括用户标识;根据所述用户标识在业务系统集合产生的对应数据源中确定至少两个目标数据源;确定所述用户标识在至少两个所述目标数据源中的目标特征向量;基于至少两个所述目标数据源生成目标推荐模型,并将所述目标特征向量输入至所述目标推荐模型获得推荐结果。
根据本发明实施例的技术方案,通过确定至少两个目标数据源,并基于目标数据源生成目标推荐模型,以及将与目标数据源相关的目标特征向量输入至目标推荐模型的方式,在解决现有方案“冷启动”问题的基础上,兼顾了用户兴趣的迁移变化,通过本实施例提供的推荐模型获得的推荐结果取到了提高推荐服务准确度的有益效果。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种基于多数据源的推荐方法,其特征在于,所述方法包括:
接收待推荐系统发送的推荐请求,所述推荐请求包括用户标识;
根据所述用户标识在业务系统集合产生的对应数据源中确定至少两个目标数据源;
确定所述用户标识在至少两个所述目标数据源中的目标特征向量;
基于至少两个所述目标数据源生成目标推荐模型,并将所述目标特征向量输入至所述目标推荐模型获得推荐结果。
2.根据权利要求1所述的方法,其特征在于,所述业务系统集合包括至少两个业务系统;
所述根据所述用户标识在业务系统集合产生的对应数据源中确定至少两个目标数据源,包括:
确定所述用户标识在每个所述业务系统产生的对应数据源中的活跃度;
将所述活跃度的数值大于或者等于预设数值的数据源确定为所述目标数据源。
3.根据权利要求2所述的方法,其特征在于,所述确定所述用户标识在每个所述业务系统产生的对应数据源中的活跃度,包括:
获取所述用户标识在历史时间段对每个所述业务系统产生的访问信息;
根据所述访问信息确定所述用户标识在每个所述数据源中的活跃度。
4.根据权利要求1所述的方法,其特征在于,所述确定所述用户标识在至少两个所述目标数据源中的目标特征向量,包括:
确定所述用户标识在每个所述目标数据源中的初始特征向量;
对所有所述初始特征向量进行特征融合,获得所述目标特征向量。
5.根据权利要求2所述的方法,其特征在于,所述基于至少两个所述目标数据源生成目标推荐模型,包括:
获取基于预设分析算法训练的初始推荐模型;
根据每个所述目标数据源的所述活跃度的数值确定所述初始推荐模型中对应模型参数的权重信息;
根据所述权重信息调整所述模型参数获得所述目标推荐模型。
6.根据权利要求1所述的方法,其特征在于,在接收待推荐系统发送的推荐请求之前,还包括:
对所述业务系统集合中每个业务系统产生的对应数据源进行标识,获得数据源标识;
相应地,在根据所述用户标识在业务系统集合产生的对应数据源中确定至少两个目标数据源之后,还包括:
获取至少两个所述目标数据源对应的数据源标识,并根据至少两个所述数据源标识获得至少两个所述目标数据源的组合标识。
7.根据权利要求6所述的方法,其特征在于,在基于至少两个所述目标数据源生成目标推荐模型之后,还包括:
根据所述组合标识获得所述目标推荐模型的模型标识,并将所述模型标识与所述组合标识保存至标识映射表,在所述标识映射表中所述模型标识与所述组合标识一一对应。
8.一种基于多数据源的推荐装置,其特征在于,所述装置包括:
推荐请求接收模块,用于接收待推荐系统发送的推荐请求,所述推荐请求包括用户标识;
数据源确定模块,用于根据所述用户标识在业务系统集合产生的对应数据源中确定至少两个目标数据源;
目标特征确定模块,用于确定所述用户标识在至少两个所述目标数据源中的目标特征向量;
目标模型生成模块,用于基于至少两个所述目标数据源生成目标推荐模型,并将所述目标特征向量输入至所述目标推荐模型获得推荐结果。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的基于多数据源的推荐方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的基于多数据源的推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211267705.0A CN115495662A (zh) | 2022-10-17 | 2022-10-17 | 基于多数据源的推荐方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211267705.0A CN115495662A (zh) | 2022-10-17 | 2022-10-17 | 基于多数据源的推荐方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115495662A true CN115495662A (zh) | 2022-12-20 |
Family
ID=84473955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211267705.0A Pending CN115495662A (zh) | 2022-10-17 | 2022-10-17 | 基于多数据源的推荐方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115495662A (zh) |
-
2022
- 2022-10-17 CN CN202211267705.0A patent/CN115495662A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106296059B (zh) | 派送网点确定方法及设备 | |
CN107193974B (zh) | 基于人工智能的地域性信息确定方法和装置 | |
CN110020162B (zh) | 用户识别方法和装置 | |
CN110929136A (zh) | 一种个性化推荐方法和装置 | |
CN112686717B (zh) | 一种广告召回的数据处理方法及系统 | |
CN111400600A (zh) | 一种消息推送方法、装置、设备和存储介质 | |
CN110309142B (zh) | 规则管理的方法和装置 | |
CN113435859A (zh) | 信访件处理方法、装置、电子设备和计算机可读介质 | |
CN115168453A (zh) | 关于电子商务数据推送的兴趣分析方法及系统 | |
CN109409419B (zh) | 用于处理数据的方法和装置 | |
CN111179055A (zh) | 授信额度调整方法、装置和电子设备 | |
CN113590756A (zh) | 信息序列生成方法、装置、终端设备和计算机可读介质 | |
CN112163155A (zh) | 信息处理方法、装置、设备及存储介质 | |
CN113760521A (zh) | 一种虚拟资源的分配方法和装置 | |
CN115860872A (zh) | 一种目标物品确定方法、装置、电子设备及存储介质 | |
CN113051479B (zh) | 文件处理、推荐信息生成方法、装置、设备及存储介质 | |
CN115495662A (zh) | 基于多数据源的推荐方法、装置、电子设备及存储介质 | |
CN109885647B (zh) | 用户履历验证方法、装置、电子设备及存储介质 | |
CN113612777A (zh) | 训练方法、流量分级方法、装置、电子设备以及存储介质 | |
CN113052509A (zh) | 模型评估方法、模型评估装置、电子设备和存储介质 | |
CN112990311A (zh) | 一种准入客户的识别方法和装置 | |
CN112906723A (zh) | 一种特征选择的方法和装置 | |
CN111782776A (zh) | 一种通过填槽实现意图识别的方法和装置 | |
CN112528103A (zh) | 一种推荐对象的方法和装置 | |
CN113434432B (zh) | 一种推荐平台的性能测试方法、装置、设备、及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |