CN116501976B - 数据推荐、模型训练、相似用户分析方法、设备和介质 - Google Patents
数据推荐、模型训练、相似用户分析方法、设备和介质 Download PDFInfo
- Publication number
- CN116501976B CN116501976B CN202310746514.0A CN202310746514A CN116501976B CN 116501976 B CN116501976 B CN 116501976B CN 202310746514 A CN202310746514 A CN 202310746514A CN 116501976 B CN116501976 B CN 116501976B
- Authority
- CN
- China
- Prior art keywords
- user
- recall
- data
- domain
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 68
- 238000012549 training Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 71
- 238000012512 characterization method Methods 0.000 claims description 145
- 238000012545 processing Methods 0.000 claims description 21
- 238000003860 storage Methods 0.000 claims description 19
- 230000006399 behavior Effects 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 description 25
- 230000008569 process Effects 0.000 description 13
- 238000000586 desensitisation Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 238000013508 migration Methods 0.000 description 5
- 230000005012 migration Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000003542 behavioural effect Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000011282 treatment Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种数据推荐、模型训练、相似用户分析方法、设备和介质。所述方法包括:接收数据请求,所述数据请求包括用户标识;基于所述用户标识确定对应用户为查询用户,以所述查询用户所在数据域为目标数据域,确定所述目标数据域的召回用户池;基于所述查询用户、所述召回用户池中召回用户和源数据域中用户,确定所述查询用户对应的源查询用户,以及所述召回用户对应的源召回用户;结合所述源查询用户、源召回用户,确定与所述查询用户匹配的召回用户;基于所述匹配的召回用户的用户关联数据,确定所述查询用户的推荐信息;反馈所述推荐信息。能够准确的确定与查询用户同一数据域内的召回用户,进而提高推荐信息的准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种数据推荐方法、一种跨域分析模型的训练方法、一种相似用户分析方法、一种电子设备和一种存储介质。
背景技术
随着计算机技术的发展,越来越多的用户在网络上执行各种操作,例如购物、打游戏、浏览新闻等。各网站为了提供用户的体验,通常会分析用户的偏好以便进行推荐等。但是,当一个用户是新注册或者注册不久,通常个人行为比较少,难以分析其偏好。
针对上述情况,有些网站会随机给用户推荐信息,然而这些信息没有结合用户的偏好,通常不是用户需要的信息。还有一些网站仅基于该用户注册的基本信息,或者稀疏的行为数据进行分析,然而这些数据难以准确分析用户的偏好,导致推荐的信息也不是用户信息。
发明内容
本申请实施例提供了一种数据推荐方法,提高信息推荐的准确性。
相应的,本申请实施例还提供了一种跨域分析模型的训练方法、一种相似用户分析方法、一种电子设备和一种存储介质,用以保证上述系统的实现及应用。
为了解决上述问题,本申请实施例公开了一种数据推荐方法,所述方法包括:
接收数据请求,所述数据请求包括用户标识;
基于所述用户标识确定对应用户为查询用户,以所述查询用户所在数据域为目标数据域,确定所述目标数据域的召回用户池;
基于所述查询用户、所述召回用户池中召回用户和源数据域中用户,确定所述查询用户对应的源查询用户,以及所述召回用户对应的源召回用户;
结合所述源查询用户、源召回用户,确定与所述查询用户匹配的召回用户;
基于所述匹配的召回用户的用户关联数据,确定所述查询用户的推荐信息;
反馈所述推荐信息。
可选的,所述基于所述查询用户、所述召回用户池中召回用户和源数据域中用户,确定所述查询用户对应的源查询用户,以及所述召回用户对应的源召回用户,包括:
确定所述查询用户的匿名标识和所述召回用户的匿名标识;
获取源数据域中各用户的匿名标识;
将所述查询用户的匿名标识、所述召回用户的匿名标识,与所述源数据域中各用户的匿名标识进行对齐处理,确定查询用户对应的源查询用户,以及所述召回用户对应的源召回用户。
可选的,所述确定所述查询用户的匿名标识和所述召回用户的匿名标识,包括:
对所述查询用户的身份标识进行脱敏处理,确定对应的匿名标识;以及,
对所述召回用户的身份标识进行脱敏处理,确定对应的匿名标识。
可选的,所述将所述查询用户的匿名标识、所述召回用户的匿名标识,与所述源数据域中各用户的匿名标识进行对齐处理,确定查询用户对应的源查询用户,以及所述召回用户对应的源召回用户,包括:
基于所述查询用户的匿名标识,与所述源数据域中各用户的匿名标识的交集,确定查询用户对应的源查询用户;
基于所述召回用户的匿名标识,与所述源数据域中各用户的匿名标识的交集,确定召回用户对应的源召回用户。
可选的,所述结合所述源查询用户、源召回用户,确定与所述查询用户匹配的召回用户,包括:
获取所述源查询用户的第一加密特征数据、源召回用户的第二加密特征数据;
确定所述召回用户的第三加密特征数据;
将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域分析模型中,确定与所述查询用户匹配的召回用户。
可选的,所述将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域分析模型中,确定与所述查询用户匹配的召回用户,包括:
将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域表征模型中,确定查询用户和召回用户之间的相似度;
基于所述相似度筛选相似的召回用户,作为与所述查询用户匹配的召回用户。
可选的,所述跨域表征模型基于双塔召回模型构建,所述将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域表征模型中,确定查询用户和召回用户之间的相似度,包括以下步骤:
将所述第一加密特征数据输入到所述跨域表征模型的第一子模型中,确定查询用户表征;
对所述第二加密特征数据和第三加密特征数据进行拼接,确定拼接特征数据,将所述拼接特征数据输入到所述跨域表征模型的第二子模型中,确定召回用户表征;
确定所述查询用户表征和召回用户表征的相似度。
可选的,所述基于所述用户标识确定对应用户为查询用户,包括:
基于所述用户标识确定用户,以及所述用户的历史数据;
若所述用户的历史数据满足跨域匹配条件,则将所述用户作为查询用户。
可选的,还包括:
确定目标数据域的目标训练数据和源数据域的源训练数据;
基于所述目标训练数据和源训练数据对所述跨域分析模型进行训练。
本申请实施例还公开了一种跨域分析模型的训练方法,所述方法包括:
确定目标数据域的目标训练数据和源数据域的源训练数据。
将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域分析模型中,确定查询用户和召回用户之间的相似度。
基于所述目标训练数据和相似度计算损失函数,基于所述损失函数调整所述跨域分析模型,以基于所述跨域分析模型确定目标数据域中与查询用户相似的召回用户。
可选的,所述跨域分析模型包括跨域表征模型,所述跨域表征模型基于双塔召回模型构建,所述将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域分析模型中,确定查询用户和召回用户之间的相似度,包括以下步骤:
将所述第一加密特征数据输入到所述跨域表征模型的第一子模型中,确定查询用户表征;
对所述第二加密特征数据和第三加密特征数据进行拼接,确定拼接特征数据,将所述拼接特征数据输入到所述跨域表征模型的第二子模型中,确定召回用户表征;
确定所述查询用户表征和召回用户表征的相似度。
本申请实施例还公开了一种相似用户分析方法,其特征在于,所述方法包括:
若查询用户的用户关联数据满足稀疏行为条件,以所述查询用户所在数据域为目标数据域,确定所述目标数据域的召回用户池;
基于所述查询用户、所述召回用户池中召回用户和源数据域中用户,确定所述查询用户对应的源查询用户,以及所述召回用户对应的源召回用户;
结合所述源查询用户、源召回用户,确定与所述查询用户相似的召回用户。
本申请实施例还公开了一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现如本申请实施例所述的方法。
本申请实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如本申请实施例所述的方法。
与现有技术相比,本申请实施例包括以下优点:
本申请实施例中,接收携带用户标识的数据请求,基于所述用户标识确定对应用户为查询用户,则将查询用户所在数据域为目标数据域,确定所述目标数据域的召回用户池,然后结合源数据域为目标数据域提供数据支持,可以基于所述查询用户、所述召回用户池中召回用户和源数据域中用户,确定所述查询用户对应的源查询用户,以及所述召回用户对应的源召回用户,基于源数据域中的用户数据为目标数据域提供对应关系的匹配,因此可结合所述源查询用户、源召回用户,确定与所述查询用户匹配的召回用户,能够准确的确定与查询用户同一数据域内的召回用户,进而在目标数据域中基于匹配的召回用户的用户关联数据,确定所述查询用户的推荐信息并反馈,提高推荐信息的准确性,并提高用户体验。
附图说明
图1是本申请的一种数据推荐方法实施例的步骤流程图;
图2是本申请实施例的一种跨域分析模型的示例的示意图;
图3是本申请的一种跨域分析模型的训练方法实施例的步骤流程图;
图4是本申请的另一种数据推荐方法实施例的步骤流程图;
图5是本申请的一种相似用户分析方法实施例的步骤流程图;
图6是本申请一个实施例提供的示例性装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请实施例可以应用于相似用户的推荐等场景,针对数据稀疏的用户以及数据源,可以在保护数据隐私的情况下,结合跨域数据进行相似用户的分析,进而推荐信息。
在上述实施例的基础上,本申请实施例提供了一种数据推荐方法,能够结合跨域数据进行相似用户分析,其中,针对跨域数据的使用是去隐私数据且加密后的使用,能够保证各域数据的安全。
参照图1,示出了本申请的一种数据推荐方法实施例的步骤流程图。
步骤102,接收数据请求,所述数据请求包括用户标识。
用户通过网页、应用程序(Application,APP)浏览网站的页面,可以发送数据请求,该数据请求中携带用户标识。其中,数据请求可为各种请求,例如页面浏览请求等。以电子商务网站为例,该数据请求可以为首页访问请求、商品对象浏览请求、搜索请求、购物车页面浏览请求、商品对象详情页访问请求、订单生成请求、支付完成请求等各种数据请求。
用户在网站访问时,通常要注册为网站用户,相应会为该用户分配用户标识,作为识别该用户的唯一标识。
步骤104,基于所述用户标识确定对应用户为查询用户,以所述查询用户所在数据域为目标数据域,确定所述目标数据域的召回用户池。
基于该用户标识可以确定用户信息,若基于用户信息确定该用户为行为数据较少的用户,难以结合该用户自身的行为数据等历史数据分析偏好,因此可将该用户作为匹配相似用户的查询用户。其中,历史数据较少的用户通常是注册时间较短的用户,例如新注册用户,又如注册时间在一周内等,还有一些用户虽然注册久,但较长时间没有登录,也导致历史数据被清理或没有参考价值等。
一个可选实施例中,所述基于所述用户标识确定对应用户为查询用户,包括:基于所述用户标识确定用户,以及所述用户的历史数据;若所述用户的历史数据满足跨域匹配条件,则将所述用户作为查询用户。可以基于该用户标识确定访问的用户,然后查询该用户的历史数据,将历史数据与跨域匹配条件进行匹配。其中,跨域匹配条件为需要结合其他数据域的数据进行匹配的条件。跨域匹配条件可基于需求设置,例如跨域匹配条件为历史数据的数量小于第一数据阈值等。若所述用户的历史数据小于第一数据阈值,则确定满足跨域匹配条件,即该用户的历史数据不足,可以将该用户作为查询用户。本申请实施例中,历史数据可为预定时间内的历史数据,如三个月、半年、一年内的历史数据。该跨域匹配条件也可设置为指定时间内的历史数据的数量小于第二数据阈值等,如三个月的历史数据小于第二数据阈值等。在确定该用户的历史数据不足以确定用户偏好的情况下,可以将该用户作为查询用户,基于该查询用户召回相似用户。
其中,由于该查询用户本身就不足以确定偏好,相应直接基于该查询用户的历史数据也难以确定相似用户,因此本申请实施例将该查询用户所在的数据域作为目标数据域,确定一个数据量比较丰富的数据域作为源数据域,通过源数据域的数据给该查询用户提供支持来匹配相似用户。
本申请实施例中,对于目标数据域,其中有些用户的历史数据比较丰富,能够比较准确的分析用户偏好。因此可预先在目标数据域中筛选符合召回条件的用户作为召回用户,构建召回用户池。其中,召回条件指的是能够作为召回用户的条件。召回条件可基于需求设置,例如设置历史数据大于第三数据阈值等。并且该召回用户池中召回用户可动态调整,例如周期性调整召回用户池中召回用户,又如召回用户池中召回用户存储到一个队列中,但有新的用户满足召回条件可以作为召回用户,则最早加入的召回用户出队,该新召回用户入队等。
相对于目标域,可以确定数据丰富的数据域作为源数据域,该源数据域可基于相应的数据域筛选条件确定,也可通过其他方式确定,本申请实施例对此不做限制。在通过源数据域给目标数据域提供支持时,需要保证数据的安全。本申请实施例中,在对跨域的数据进行分析的过程中,需要保护数据的隐私,避免数据泄露。因此本申请实施例中针对数据都进行了数据脱敏以及加密等处理,从而保证数据的安全。
步骤106,基于所述查询用户、所述召回用户池中召回用户和源数据域中用户,确定所述查询用户对应的源查询用户,以及所述召回用户对应的源召回用户。
本申请实施例中,采用源数据域中的数据为目标数据域提供支持,因此在源数据域中用户可划分为源查询用户和源召回用户,也可基于匹配来确定。
本申请实施例中,对于目标数据域中用户的身份标识、源数据域中用户的身份标识分别进行脱敏处理,确定对应的匿名标识。其中,脱敏处理指的是在不影响数据分析结果的准确性的前提下,对原始数据中的敏感字段进行处理,从而降低数据敏感度和减少个人隐私风险的处理。其中,身份标识是能够体现用户身份的标识,通过脱敏处理可以将身份标识的敏感信息去除,得到对应的匿名标识,例如通过加密、随机函数等方式对身份标识进行处理,得到匿名标识。可以基于匿名标识对源数据域和目标数据域的用户进行对齐。其中,匿名化处理指的是个人信息经过处理,使其即使结合其他额外信息也无法识别特定自然人。
本申请实施例中,可对查询用户的身份标识进行脱敏处理,得到对应的匿名标识(如第一匿名标识),对召回用户的身份标识进行脱敏处理得到对应的匿名标识(如第二匿名标识)。在源数据域的服务端,其可以对自己用户集合中用户的身份标识进行脱敏处理,得到对应的匿名标识。通过脱敏处理可以去除掉敏感信息,从而保护用户的信息安全,在此基础上,需要将源数据域的用户和目标数据域的用户进行对齐,从而能够基于源数据域的数据给目标数据域提供支持。因此可以将所述查询用户的匿名标识、所述召回用户的匿名标识,与所述源数据域中各用户的匿名标识进行对齐处理,确定查询用户对应的源查询用户,以及所述召回用户对应的源召回用户。其中,对齐处理指的是将源数据域中的用户与目标数据域中的用户对齐,从而能够确定彼此对应的用户,进而基于脱敏后的用户数据进行分析。
一个可选实施例中,所述将所述查询用户的匿名标识、所述召回用户的匿名标识,与所述源数据域中各用户的匿名标识进行对齐处理,确定查询用户对应的源查询用户,以及所述召回用户对应的源召回用户,包括:基于所述查询用户的匿名标识,与所述源数据域中各用户的匿名标识的交集,确定查询用户对应的源查询用户;基于所述召回用户的匿名标识,与所述源数据域中各用户的匿名标识的交集,确定召回用户对应的源召回用户。
针对不同数据域的数据对齐,可通过隐私集合求交(Private Set Intersection)技术实现。PSI技术是指在双方不泄露额外信息的情况向下,得到双方持有数据的交集,该额外信息指的是双方只有数据之外的信息。PSI协议允许持有各自集合的两方共同计算两个集合的交集。因此可将目标数据域的查询用户的匿名ID和召回用户的匿名ID放入到一个用户集合中,也可分别设置查询用户集合和召回集合。对应的,源数据域可提供用户集合,该用户集合包括各用户的匿名ID。可以计算目标数据域的用户集合和源数据域的用户集合的交集,从而确定对齐的用户。其中,基于所述查询用户的匿名标识,与所述源数据域中各用户的匿名标识的交集,确定查询用户对应的源查询用户,基于所述召回用户的匿名标识,与所述源数据域中各用户的匿名标识的交集,确定召回用户对应的源召回用户。
从而能够确定在源数据域中与目标数据域的查询用户对应的源查询用户,以及与目标数据域的召回用户对应的源召回用户。
步骤108,结合所述源查询用户、源召回用户,确定与所述查询用户匹配的召回用户。
结合源数据域中丰富的用户数据,能够为查询用户匹配在目标数据域的召回用户。其中,对于源数据域中各用户的数据可基于脱敏、加密等技术去除敏感信息并进行加密,从而保证数据安全的同时能够使用该数据。
其中,针对用户的用户关联数据如行为数据等历史数据,可以通过脱敏数据去除敏感信息,再通过加密处理得到对应的加密特征数据。因此可以从源数据域获取源查询用户的第一加密特征数据、源召回用户的第二加密特征数据。获取召回用户的用户数据,通过脱敏处理、加密处理等得到对应的第三加密特征数据。
本申请实施例可以预先训练跨域分析模型,该跨域分析模型用于对不同数据域的数据进行分析。一个可选实施例中,所述跨域分析模型包括跨域表征模型,该跨域表征模型用于基于不同数据域的数据计算数据表征。本申请实施例中,跨域表征模型可就各种召回模型构建,例如语义模型等。所述将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域分析模型中,确定与所述查询用户匹配的召回用户,包括:将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域表征模型中,确定查询用户表征和召回用户表征;确定所述查询用户表征和召回用户表征的相似度,基于相似度筛选相似的召回用户表征;将相似的召回用户表征对应召回用户,作为与所述查询用户匹配的召回用户。将第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域表征模型中,通过跨域表征模型进行分析处理,可以确定查询用户表征和召回用户表征。其中,由于召回用户有多个,因此可以得到多个召回用户表征。然后将查询用户表征分别与召回用户表征计算相似度,然后基于相似度筛选相似的召回用户表征,例如可筛选前K个召回用户表征,K为正整数。将相似的召回用户表征在目标数据域的召回用户,作为与所述查询用户匹配的召回用户。本申请另外一些实施例中,所述跨域分析模型还包括相似分析模型,可以对跨域表征模型输出的表征计算相似度。然后可以基于相似度筛选相似的召回用户表征。其中,该查询用户表征为源查询用户的查询向量表征,由于源查询用户与目标查询用户是对齐的,因此可以作为目标查询用户的查询向量表征,因此基于相似度可以确定目标查询用户的目标召回用户。
在一个可选实施例中,该所述跨域表征模型可以确定查询用户和召回用户之间的相似度,从而筛选相似的召回用户。所述将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域分析模型中,确定与所述查询用户匹配的召回用户,包括:将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域表征模型中,确定查询用户和召回用户之间的相似度;基于所述相似度筛选相似的召回用户,作为与所述查询用户匹配的召回用户。
所述跨域表征模型基于双塔召回模型构建,则该双塔召回模型可在确定表征的基础上计算相似度。因此,所述将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域表征模型中,确定查询用户和召回用户之间的相似度,包括以下步骤:将所述第一加密特征数据输入到所述跨域表征模型的第一子模型中,确定查询用户表征;对所述第二加密特征数据和第三加密特征数据进行拼接,确定拼接特征数据,将所述拼接特征数据输入到所述跨域表征模型的第二子模型中,确定召回用户表征;确定所述查询用户表征和召回用户表征的相似度。本申请实施例中,相似度可基于各种方式计算,例如正弦相似度、余弦相似度等。
其中,基于双塔召回模型构建的跨域表征模型包括第一子模型和第二子模型,其中第一子模型和第二子模型可以理解为两个塔,并行处理数据。其中,第一子模型用于对查询用户的数据进行分析,第二子模型用于对召回用户的数据进行分析。其中,双塔召回模型的基本思想是将高维向量映射到低维向量空间中,例如通过深度神经网络(Deep NeuralNetwork,DNN)层进行降维处理。如图2所示的一种跨域表征模型示例中。第一子模型和第二子模型均至少包括一个深度神经网络层。对于第一子模型,可以将第一加密特征数据输入到第一子模型中,确定查询用户表征,其中,若第一加密特征数据是非向量表征,可以通过嵌入层得到对应的第一向量表征,之后输入到第一子模型中,确定查询用户表征(queryuser embedding)。对于第二子模型,可以将对齐的源召回用户的第二加密特征数据和召回用户的第三加密特征数据进行拼接,得拼接特征数据,若拼接特征数据不是向量形式的表征,可以通过嵌入层得到对应的拼接向量表征,然后输入到第二子模型中,得到对应的召回用户表征(doc user embedding)。然后计算查询用户表征和各召回用户表征的相似度。
本申请实施例中,可以利用向量索引技术,基于目标数据域中召回用户构建向量索引库,即确定各召回用户的向量表征构建索引库。通过计算查询用户标识和召回用户标识的余弦距离获取用户间相似度,对于给定查询用户,从召回用户池中找出相似程度最高的前K个召回用户。其中,向量索引库在查询时支持输入一个或多个向量来根据向量距离返回前K个近似结果。
从而能够基于相似度筛选与所述查询用户匹配的召回用户,可以反馈召回用户的匿名ID,从而保证数据安全。
步骤110,基于所述匹配的召回用户的用户关联数据,确定所述查询用户的推荐信息。
获取匹配的召回用户的用户关联数据,如历史数据等,然后基于该用户关联数据分析召回用户的偏好信息,基于偏好信息确定查询用户的推荐信息。其中,可以确定K个召回用户的偏好信息,综合各偏好信息预测查询用户的偏好信息,进而基于该偏好信息确定推荐信息。本申请一些可选实施例中,还可基于召回用户的用户关联数据进行推荐信息的分析,例如基于推荐系统分析该召回用户的推荐信息,从而基于召回用户的推荐信息确定查询用户的推荐信息。
本申请实施例中,推荐信息在不同的应用场景中可以不同,例如在电子商务场景额的商品对象推荐场景中,该推荐信息可以推荐的商品对象。又如在社交场景中推荐信息可为推荐的社交信息等。该推荐信息也可为运营信息,例如为用户推荐的活动信息、优惠信息等。
步骤112,反馈所述推荐信息。
可以将推荐信息反馈给用户的用户设备,从而用户在访问页面时可以提供推荐信息给用户,便于用户获知感兴趣的偏好信息。
综上,接收携带用户标识的数据请求,基于所述用户标识确定对应用户为查询用户,则将查询用户所在数据域为目标数据域,确定所述目标数据域的召回用户池,然后结合源数据域为目标数据域提供数据支持,可以基于所述查询用户、所述召回用户池中召回用户和源数据域中用户,确定所述查询用户对应的源查询用户,以及所述召回用户对应的源召回用户,基于源数据域中的用户数据为目标数据域提供对应关系的匹配,因此可结合所述源查询用户、源召回用户,确定与所述查询用户匹配的召回用户,能够准确的确定与查询用户同一数据域内的召回用户,进而在目标数据域中基于匹配的召回用户的用户关联数据,确定所述查询用户的推荐信息并反馈,提高推荐信息的准确性,并提高用户体验。
在上述实施例的基础上,本申请实施例还提供了一种跨域分析模型的训练方法,能够训练跨域分析模型,通过不同数据域的数据进行用户的相似分析。
参照图3,示出了本申请的一种跨域分析模型的训练方法实施例的步骤流程图。
步骤302,确定目标数据域的目标训练数据和源数据域的源训练数据。
训练数据中包括用户及其加密特征数据,其中,所述目标训练数据包括目标查询用户、目标召回用户及第三加密特征数据,所述源训练数据包括源查询用户及第一加密特征数据、源召回用户及第二加密特征数据。其中,目标查询用户与源查询用户对齐,目标召回用户与源召回用户对齐。
步骤304,将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域分析模型中,确定查询用户和召回用户之间的相似度。
针对某一目标查询用户,可以确定源查询用户,因此可以将源查询用户的第一加密特征数据,以及源数据域中源查询用户的第二加密特征数据和对齐的目标召回用户的第三加密特征数据,输入到跨域分析模型中。基于该跨域分析模型可以得到查询用户表征,以及召回用户表征,然后基于该查询用户表征和召回用户表征确定相似度。其中,该查询用户表征为源查询用户的查询向量表征,由于源查询用户与目标查询用户是对齐的,因此可以作为目标查询用户的查询向量表征,因此基于相似度可以确定目标查询用户的目标召回用户。一个可选实施例中,所述跨域分析模型包括跨域表征模型,该跨域表征模型用于基于不同数据域的数据计算数据表征。本申请实施例中,跨域表征模型可就各种召回模型构建,例如语义模型等。所述将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域分析模型中,确定查询用户和召回用户之间的相似度,包括:将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域表征模型中,确定查询用户表征和召回用户表征;确定所述查询用户表征和召回用户表征的相似度。
本申请实施例中,对于跨域表征模型的训练,不同于推荐场景有现成的用户反馈数据,可直接利用用户的点击,购买等行为构造正负样本进行模型训练。在跨域表征模型的训练中,两个用户是否相似并无现成标签,需要根据具体场景问题进行相似定义,再基于定义好的判别规则对用户对生成标签label,例如,label=1,表示相似,label=0,表示不相似,由此将用户跨域表征生成转化为一个相似判别的有监督问题。对于用户对样本构造,由于召回用户池一般规模较大,量级可能在百万级甚至千万级,模型训练过程不可能对每一个查询用户(query user)与召回用户池中的所有召回用户(doc user)构造用户对(pair),需要进行用户对采样,而为了满足召回推断过程中模型能够对任意一个查询用户,准确判别召回用户池中所有召回用户与该查询用户的相似程度,用户对的采样需要足够丰富,尽可能涵盖整体数据分布情况,使模型能够对相似程度越高的用户,学习出距离更相近的表征,对于相似程度低的用户对,拉大表征向量距离。
针对上述样本构造过程,本申请实施例可以基于强化学习中经验回放(experience replay)的思路,为召回用户维护一个长度固定的数据样本队列(doc replayqueue),将召回用户池中的召回用户以先入先出的规则进行队列样本更新,用户对构造时召回用户从队列随机采样。在模型更新过程中,读取查询用户数据,同时读取召回用户数据更新样本队列,再从召回用户队列中随机采样召回用户数据,通过交叉连接构造训练样本数据进行模型更新。当召回用户队列未满时,召回用户池中的召回用户直接存入召回用户队列,当队列样本数量达到容量时,最先存进去的召回用户退出队列,将新召回用户存入对应位置,通过这样缓慢更新召回用户队列,并从召回用户队列中采样召回用户构造样本对的方式,保证训练过程中用户对样本的一致性和采样效率。此外,对召回池用户构造用户对,如用户对为(doc uesr,doc user,label=1)的训练样本,使模型能够更好地学到用户行为在两个场景间的迁移映射。
所述跨域表征模型基于双塔召回模型构建,则该双塔召回模型可在确定表征的基础上计算相似度。因此,所述将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域表征模型中,确定查询用户和召回用户之间的相似度,包括以下步骤:将所述第一加密特征数据输入到所述跨域表征模型的第一子模型中,确定查询用户表征;对所述第二加密特征数据和第三加密特征数据进行拼接,确定拼接特征数据,将所述拼接特征数据输入到所述跨域表征模型的第二子模型中,确定召回用户表征;确定所述查询用户表征和召回用户表征的相似度。
其中,基于双塔召回模型构建的跨域表征模型包括第一子模型和第二子模型,其中第一子模型和第二子模型可以理解为两个塔,并行处理数据。其中,第一子模型用于对查询用户的数据进行分析,第二子模型用于对召回用户的数据进行分析。其中,双塔召回模型的基本思想是将高维向量映射到低维向量空间中,例如通过深度神经网络DNN层进行降维处理。如图2所示的一种跨域表征模型示例中。第一子模型和第二子模型均至少包括一个深度神经网络层。对于第一子模型,可以将第一加密特征数据输入到第一子模型中,确定查询用户表征,其中,若第一加密特征数据是非向量表征,可以通过嵌入层得到对应的第一向量表征,之后输入到第一子模型中,确定查询用户表征。对于第二子模型,可以将对齐的源召回用户的第二加密特征数据和召回用户的第三加密特征数据进行拼接,得拼接特征数据,若拼接特征数据不是向量形式的表征,可以通过嵌入层得到对应的拼接向量表征,然后输入到第二子模型中,得到对应的召回用户表征。然后计算查询用户表征和各召回用户表征的相似度。
步骤306,基于所述目标训练数据和相似度计算损失函数,基于所述损失函数调整所述跨域分析模型。
基于模型输出的相似度和目标训练数据中构造的样本对的相似度计算损失函数,如softmax函数、熵损失函数、交叉熵损失函数等,然后调整该跨域分析模型的网络参数。
综上,本申请实施例提出了跨域表征模型,使模型能够学习不同域数据分布之间的迁移映射,实现跨域知识迁移。
在上述实施例的基础上,本申请实施例还提供了一种数据推荐方法,对目标域数据稀疏用户,通过供给目标场景相似用户,实现跨域用户属性识别和画像供给。
参照图4,示出了本申请的另一种数据推荐方法实施例的步骤流程图。
步骤402,接收数据请求,所述数据请求包括用户标识。
步骤404,基于所述用户标识确定用户,以及所述用户的历史数据。
步骤406,判断所述用户的历史数据是否满足跨域匹配条件。
若是,则执行步骤408,若否,则结束该流程,基于该查询用户自身的行为数据等用户关联数据即可确定用户偏好,进而确定推荐信息。
步骤408,将所述用户作为查询用户。
若所述用户的历史数据满足跨域匹配条件,则将所述用户作为查询用户。
步骤410,以所述查询用户所在数据域为目标数据域,确定所述目标数据域的召回用户池。
步骤412,确定所述查询用户的匿名标识和所述召回用户的匿名标识。
其中,所述确定所述查询用户的匿名标识和所述召回用户的匿名标识,包括:对所述查询用户的身份标识进行脱敏处理,确定对应的匿名标识;以及,对所述召回用户的身份标识进行脱敏处理,确定对应的匿名标识。
步骤414,获取源数据域中各用户的匿名标识。
步骤416,基于所述查询用户的匿名标识,与所述源数据域中各用户的匿名标识的交集,确定查询用户对应的源查询用户。
步骤418,基于所述召回用户的匿名标识,与所述源数据域中各用户的匿名标识的交集,确定召回用户对应的源召回用户。
步骤420,获取所述源查询用户的第一加密特征数据、源召回用户的第二加密特征数据。
步骤422,确定所述召回用户的第三加密特征数据。
步骤424,将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域表征模型中,确定查询用户和召回用户之间的相似度。
其中,所述跨域表征模型基于双塔召回模型构建,所述将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域表征模型中,确定查询用户和召回用户之间的相似度,包括以下步骤:将所述第一加密特征数据输入到所述跨域表征模型的第一子模型中,确定查询用户表征;对所述第二加密特征数据和第三加密特征数据进行拼接,确定拼接特征数据,将所述拼接特征数据输入到所述跨域表征模型的第二子模型中,确定召回用户表征;确定所述查询用户表征和召回用户表征的相似度。
步骤426,基于所述相似度筛选相似的召回用户,作为与所述查询用户匹配的召回用户。
步骤428,基于所述匹配的召回用户的用户关联数据,确定所述查询用户的推荐信息。
步骤430,反馈所述推荐信息。
本申请实施例提供了基于跨域相似用户推荐的用户冷启动方案,对目标域数据稀疏用户,通过供给目标场景相似用户,实现跨域用户属性识别和画像供给,目标域可以利用供给相似用户数据构建冷启动用户画像,解决由于数据稀疏无法提供个性化推荐的问题。其中,用户冷启动指的是针对没有历史行为数据(或历史行为数据较少)的用户。
在上述实施例的基础上,本申请实施例还提供了一种相似用户分析方法,能够进行跨域相似用户的推荐,为行为稀疏的用户推荐相似用户。
参照图5,示出了本申请的一种相似用户分析方法实施例的步骤流程图。
步骤502,若查询用户的用户关联数据满足稀疏行为条件,以所述查询用户所在数据域为目标数据域,确定所述目标数据域的召回用户池。
针对查询用户获取用户关联数据,判断该用户关联数据是否满足稀疏行为条件。其中,行为稀疏条件与跨域匹配条件类似,可以为用户关联数据中历史行为数据的数量小于数量阈值等。
在确定查询用户的用户关联数据满足稀疏行为条件的情况下,以所述查询用户所在数据域为目标数据域,确定所述目标数据域的召回用户池。
步骤504,基于所述查询用户、所述召回用户池中召回用户源数据域中用户,确定所述查询用户对应的源查询用户,以及所述召回用户对应的源召回用户。
一个可选实施例中,所述基于所述查询用户、所述召回用户池中召回用户和源数据域中用户,确定所述查询用户对应的源查询用户,以及所述召回用户对应的源召回用户,包括:确定所述查询用户的匿名标识和所述召回用户的匿名标识;获取源数据域中各用户的匿名标识;将所述查询用户的匿名标识、所述召回用户的匿名标识,与所述源数据域中各用户的匿名标识进行对齐处理,确定查询用户对应的源查询用户,以及所述召回用户对应的源召回用户。
其中,所述确定所述查询用户的匿名标识和所述召回用户的匿名标识,包括:对所述查询用户的身份标识进行脱敏处理,确定对应的匿名标识;以及,对所述召回用户的身份标识进行脱敏处理,确定对应的匿名标识。
其中,所述将所述查询用户的匿名标识、所述召回用户的匿名标识,与所述源数据域中各用户的匿名标识进行对齐处理,确定查询用户对应的源查询用户,以及所述召回用户对应的源召回用户,包括:基于所述查询用户的匿名标识,与所述源数据域中各用户的匿名标识的交集,确定查询用户对应的源查询用户;基于所述召回用户的匿名标识,与所述源数据域中各用户的匿名标识的交集,确定召回用户对应的源召回用户。
步骤506,结合所述源查询用户、源召回用户,确定与所述查询用户相似的召回用户。
一个可选实施例中,结合所述源查询用户、源召回用户,确定与所述查询用户匹配的召回用户,包括:获取所述源查询用户的第一加密特征数据、源召回用户的第二加密特征数据;确定所述召回用户的第三加密特征数据;将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域分析模型中,确定与所述查询用户匹配的召回用户。
其中,所述将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域分析模型中,确定与所述查询用户匹配的召回用户,包括:将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域表征模型中,确定查询用户和召回用户之间的相似度;基于所述相似度筛选相似的召回用户,作为与所述查询用户匹配的召回用户。
所述跨域表征模型基于双塔召回模型构建,所述将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域表征模型中,确定查询用户和召回用户之间的相似度,包括以下步骤:将所述第一加密特征数据输入到所述跨域表征模型的第一子模型中,确定查询用户表征;对所述第二加密特征数据和第三加密特征数据进行拼接,确定拼接特征数据,将所述拼接特征数据输入到所述跨域表征模型的第二子模型中,确定召回用户表征;确定所述查询用户表征和召回用户表征的相似度。
与现有技术的跨域方案中,是基于不同数据域的原始数据进行建模和分析,然而,这样可能导致数据安全问题。本申请实施例能够利用隐私计算技术进行跨域ID匿名化以及用户对齐,针对不同数据域的数据进行脱敏和加密数据,实现数据的可用不可见。在此基础上构建跨域表征模型,通过该模型生成查询用户表征和召回用户表征,对于目标域冷启动用户,利用向量索引技术,计算获取召回用户池中召回用户表征与该查询用户表征的余弦相似度最高的K个用户,以相似用户推荐的形式实现跨域用户属性识别和画像供给。
需要说明的是,本申请实施例中可能会涉及到对用户数据的使用,在实际应用中,可以在符合所在国的适用法律法规要求的情况下(例如,用户明确同意,对用户切实通知,等),在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
在上述实施例的基础上,本实施例还提供了一种数据推荐装置,应用于服务端设备等电子设备中,所述装置包括:
接收模块,用于接收数据请求,所述数据请求包括用户标识;
用户确定模块,用于基于所述用户标识确定对应用户为查询用户,以所述查询用户所在数据域为目标数据域,确定所述目标数据域的召回用户池;
跨域用户确定模块,用于将所述查询用户和所述召回用户池中召回用户,与源数据域中用户进行用户对齐,确定所述查询用户对应的源查询用户,以及所述召回用户对应的源召回用户;
相似召回模块,用于结合所述源查询用户、源召回用户,确定与所述查询用户匹配的召回用户;
推荐信息确定模块,用于基于所述匹配的召回用户的用户关联数据,确定所述查询用户的推荐信息;
反馈模块,用于反馈所述推荐信息。
综上,接收携带用户标识的数据请求,基于所述用户标识确定对应用户为查询用户,则将查询用户所在数据域为目标数据域,确定所述目标数据域的召回用户池,然后结合源数据域为目标数据域提供数据支持,可以将所述查询用户和所述召回用户池中召回用户,与源数据域中用户进行用户对齐,确定所述查询用户对应的源查询用户,以及所述召回用户对应的源召回用户,基于源数据域中的用户数据为目标数据域提供对应关系的匹配,因此可结合所述源查询用户、源召回用户,确定与所述查询用户匹配的召回用户,能够准确的确定与查询用户同一数据域内的召回用户,进而在目标数据域中基于匹配的召回用户的用户关联数据,确定所述查询用户的推荐信息并反馈,提高推荐信息的准确性,并提高用户体验。
可选的,所述跨域用户确定模块,包括:
匿名标识确定子模块,用于确定所述查询用户的匿名标识和所述召回用户的匿名标识;获取源数据域中各用户的匿名标识;
用户对齐子模块,用于将所述查询用户的匿名标识、所述召回用户的匿名标识,与所述源数据域中各用户的匿名标识进行对齐处理,确定查询用户对应的源查询用户,以及所述召回用户对应的源召回用户。
可选的,所述匿名标识确定子模块,用于对所述查询用户的身份标识进行脱敏处理,确定对应的匿名标识;以及,对所述召回用户的身份标识进行脱敏处理,确定对应的匿名标识。
可选的,所述用户对齐子模块,用于基于所述查询用户的匿名标识,与所述源数据域中各用户的匿名标识的交集,确定查询用户对应的源查询用户;基于所述召回用户的匿名标识,与所述源数据域中各用户的匿名标识的交集,确定召回用户对应的源召回用户。
可选的,所述相似召回模块,包括:
加密数据确定子模块,用于获取所述源查询用户的第一加密特征数据、源召回用户的第二加密特征数据;确定所述召回用户的第三加密特征数据;
相似确定子模块,用于将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域分析模型中,确定与所述查询用户匹配的召回用户。
可选的,所述相似确定子模块,用于将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域表征模型中,确定查询用户和召回用户之间的相似度;基于所述相似度筛选相似的召回用户,作为与所述查询用户匹配的召回用户。
可选的,所述跨域表征模型基于双塔召回模型构建,所述相似确定子模块,用于将所述第一加密特征数据输入到所述跨域表征模型的第一子模型中,确定查询用户表征;对所述第二加密特征数据和第三加密特征数据进行拼接,确定拼接特征数据,将所述拼接特征数据输入到所述跨域表征模型的第二子模型中,确定召回用户表征;确定所述查询用户表征和召回用户表征的相似度。
可选的,所述用户确定模块,用于基于所述用户标识确定用户,以及所述用户的历史数据;若所述用户的历史数据满足跨域匹配条件,则将所述用户作为查询用户。
可选的,还包括:训练模块,用于确定目标数据域的目标训练数据和源数据域的源训练数据;基于所述目标训练数据和源训练数据对所述跨域分析模型进行训练。
在上述实施例的基础上,本实施例还提供了一种跨域分析模型的训练装置,应用于服务端设备等电子设备中,所述装置包括:
训练数据确定模块,用于确定目标数据域的目标训练数据和源数据域的源训练数据。
模型处理模块,用于将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域分析模型中,确定查询用户和召回用户之间的相似度。
模型调整模块,用于基于所述目标训练数据和相似度计算损失函数,基于所述损失函数调整所述跨域分析模型,以基于所述跨域分析模型确定目标数据域中与查询用户相似的召回用户。
可选的,所述跨域分析模型包括跨域表征模型,所述跨域表征模型基于双塔召回模型构建,所述模型处理模块,用于将所述第一加密特征数据输入到所述跨域表征模型的第一子模型中,确定查询用户表征;对所述第二加密特征数据和第三加密特征数据进行拼接,确定拼接特征数据,将所述拼接特征数据输入到所述跨域表征模型的第二子模型中,确定召回用户表征;确定所述查询用户表征和召回用户表征的相似度。
在上述实施例的基础上,本实施例还提供了一种相似用户分析装置,应用于服务端设备等电子设备中,所述装置包括:
本域用户确定模块,用于若查询用户的用户关联数据满足稀疏行为条件,以所述查询用户所在数据域为目标数据域,确定所述目标数据域的召回用户池;
跨域用户确定模块,用于基于所述查询用户、所述召回用户池中召回用户和源数据域中用户,确定所述查询用户对应的源查询用户,以及所述召回用户对应的源召回用户;
相似确定模块,用于结合所述源查询用户、源召回用户,确定与所述查询用户相似的召回用户。
与现有技术的跨域方案中,是基于不同数据域的原始数据进行建模和分析,然而,这样可能导致数据安全问题。本申请实施例能够利用隐私计算技术进行跨域ID匿名化以及yoghurt对齐,针对不同数据域的数据进行脱敏和加密数据,实现数据的可用不可见。在此基础上构建跨域表征模型,通过该模型生成查询用户表征和召回用户表征,对于目标域冷启动用户,利用向量索引技术,计算获取召回用户池中召回用户表征与该查询用户表征的余弦相似度最高的K个用户,以相似用户推荐的形式实现跨域用户属性识别和画像供给。
本申请实施例提供了基于跨域相似用户推荐的用户冷启动方案,对目标域数据稀疏用户,通过供给目标场景相似用户,实现跨域用户属性识别和画像供给,目标域可以利用供给相似用户数据构建冷启动用户画像,解决由于数据稀疏无法提供个性化推荐的问题。其中,用户冷启动指的是针对没有历史行为数据(或历史行为数据较少)的用户。
本申请实施例提出了跨域表征模型,使模型能够学习不同域数据分布之间的迁移映射,实现跨域知识迁移。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如本申请实施例所述的方法。
本申请实施例还提供了一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现如本申请实施例所述的方法。本申请实施例中,所述电子设备包括服务器、终端设备等设备。
本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的装置,该装置可包括服务器(集群)、终端等电子设备。图6示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置600。
对于一个实施例,图6示出了示例性装置600,该装置具有一个或多个处理器602、被耦合到(一个或多个)处理器602中的至少一个的控制模块(芯片组)604、被耦合到控制模块604的存储器606、被耦合到控制模块604的非易失性存储器(NVM)/存储设备608、被耦合到控制模块604的一个或多个输入/输出设备610,以及被耦合到控制模块604的网络接口612。
处理器602可包括一个或多个单核或多核处理器,处理器602可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,装置600能够作为本申请实施例中所述服务端、终端等设备。
在一些实施例中,装置600可包括具有指令614的一个或多个计算机可读介质(例如,存储器606或NVM/存储设备608)以及与该一个或多个计算机可读介质相合并被配置为执行指令614以实现模块从而执行本公开中所述的动作的一个或多个处理器602。
对于一个实施例,控制模块604可包括任意适当的接口控制器,以向(一个或多个)处理器602中的至少一个和/或与控制模块604通信的任意适当的设备或组件提供任意适当的接口。
控制模块604可包括存储器控制器模块,以向存储器606提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
存储器606可被用于例如为装置600加载和存储数据和/或指令614。对于一个实施例,存储器606可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,存储器606可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,控制模块604可包括一个或多个输入/输出控制器,以向NVM/存储设备608及(一个或多个)输入/输出设备610提供接口。
例如,NVM/存储设备608可被用于存储数据和/或指令614。NVM/存储设备608可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备608可包括作为装置600被安装在其上的设备的一部分的存储资源,或者其可被该设备访问可不必作为该设备的一部分。例如,NVM/存储设备608可通过网络经由(一个或多个)输入/输出设备610进行访问。
(一个或多个)输入/输出设备610可为装置600提供接口以与任意其他适当的设备通信,输入/输出设备610可以包括通信组件、音频组件、传感器组件等。网络接口612可为装置600提供接口以通过一个或多个网络通信,装置600可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如蓝牙、WiFi、2G、3G、4G、5G等,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器602中的至少一个可与控制模块604的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器602中的至少一个可与控制模块604的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器602中的至少一个可与控制模块604的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器602中的至少一个可与控制模块604的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,装置600可以但不限于是:服务器、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中,装置600可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,装置600包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
其中,检测装置中可采用主控芯片作为处理器或控制模块,传感器数据、位置信息等存储到存储器或NVM/存储设备中,传感器组可作为输入/输出设备,通信接口可包括网络接口。
本申请实施例还提供了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如本申请实施例中一个或多个所述的方法。本申请实施例中存储器中可存储各种数据,如目标文件、文件与应用关联数据等各种数据,还可包括用户行为数据等,从而为各种处理提供数据基础。
本申请实施例还提供了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如本申请实施例中一个或多个所述的方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种数据推荐方法、一种跨域分析模型的训练方法、一种相似用户分析方法、一种电子设备和一种存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (13)
1.一种数据推荐方法,其特征在于,所述方法包括:
接收数据请求,所述数据请求包括用户标识;
基于所述用户标识确定对应用户为查询用户,以所述查询用户所在数据域为目标数据域,确定所述目标数据域的召回用户池;
基于所述查询用户、所述召回用户池中召回用户和源数据域中用户,
确定所述查询用户对应的源查询用户,以及所述召回用户对应的源召回用户;
获取所述源查询用户的第一加密特征数据、源召回用户的第二加密特征数据;
确定所述召回用户的第三加密特征数据;
将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域分析模型中,确定与所述查询用户匹配的召回用户;
基于所述匹配的召回用户的用户关联数据,确定所述查询用户的推荐信息;
反馈所述推荐信息。
2.根据权利要求1所述的方法,其特征在于,所述基于所述查询用户、所述召回用户池中召回用户和源数据域中用户,确定所述查询用户对应的源查询用户,以及所述召回用户对应的源召回用户,包括:
确定所述查询用户的匿名标识和所述召回用户的匿名标识;
获取源数据域中各用户的匿名标识;
将所述查询用户的匿名标识、所述召回用户的匿名标识,与所述源数据域中各用户的匿名标识进行对齐处理,确定查询用户对应的源查询用户,以及所述召回用户对应的源召回用户。
3. 根据权利要求2所述的方法,其特征在于,所述确定所述查询用户的匿名标识和所述召回用户的匿名标识,包括:
对所述查询用户的身份标识进行脱敏处理,确定对应的匿名标识;以及
对所述召回用户的身份标识进行脱敏处理,确定对应的匿名标识。
4.根据权利要求2所述的方法,其特征在于,所述将所述查询用户的匿名标识、所述召回用户的匿名标识,与所述源数据域中各用户的匿名标识进行对齐处理,确定查询用户对应的源查询用户,以及所述召回用户对应的源召回用户,包括:
基于所述查询用户的匿名标识,与所述源数据域中各用户的匿名标识的交集,确定查询用户对应的源查询用户;
基于所述召回用户的匿名标识,与所述源数据域中各用户的匿名标识的交集,确定召回用户对应的源召回用户。
5.根据权利要求1所述的方法,其特征在于,所述将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域分析模型中,确定与所述查询用户匹配的召回用户,包括:
将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域表征模型中,确定查询用户和召回用户之间的相似度;
基于所述相似度筛选相似的召回用户,作为与所述查询用户匹配的召回用户。
6.根据权利要求5所述的方法,其特征在于,所述跨域表征模型基于双塔召回模型构建,所述将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域表征模型中,确定查询用户和召回用户之间的相似度,包括以下步骤:
将所述第一加密特征数据输入到所述跨域表征模型的第一子模型中,确定查询用户表征;
对所述第二加密特征数据和第三加密特征数据进行拼接,确定拼接特征数据,将所述拼接特征数据输入到所述跨域表征模型的第二子模型中,确定召回用户表征;
确定所述查询用户表征和召回用户表征的相似度。
7.根据权利要求1所述的方法,其特征在于,所述基于所述用户标识确定对应用户为查询用户,包括:
基于所述用户标识确定用户,以及所述用户的历史数据;
若所述用户的历史数据满足跨域匹配条件,则将所述用户作为查询用户。
8.根据权利要求1所述的方法,其特征在于,还包括:
确定目标数据域的目标训练数据和源数据域的源训练数据;
基于所述目标训练数据和源训练数据对所述跨域分析模型进行训练。
9.一种跨域分析模型的训练方法,其特征在于,所述方法包括:
确定目标数据域的目标训练数据和源数据域的源训练数据,所述目标训练数据包括目标召回用户的第三加密特征数据,所述源训练数据包括源查询用户的第一加密特征数据、源召回用户的第二加密特征数据;
将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域分析模型中,确定查询用户和召回用户之间的相似度;
基于所述目标训练数据和相似度计算损失函数,基于所述损失函数调整所述跨域分析模型,以基于所述跨域分析模型确定目标数据域中与查询用户相似的召回用户。
10.根据权利要求9所述的方法,其特征在于,所述跨域分析模型包括跨域表征模型,所述跨域表征模型基于双塔召回模型构建,所述将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域分析模型中,确定查询用户和召回用户之间的相似度,包括以下步骤:
将所述第一加密特征数据输入到所述跨域表征模型的第一子模型中,确定查询用户表征;
对所述第二加密特征数据和第三加密特征数据进行拼接,确定拼接特征数据,将所述拼接特征数据输入到所述跨域表征模型的第二子模型中,确定召回用户表征;
确定所述查询用户表征和召回用户表征的相似度。
11.一种相似用户分析方法,其特征在于,所述方法包括:
若查询用户的用户关联数据满足稀疏行为条件,以所述查询用户所在数据域为目标数据域,确定所述目标数据域的召回用户池;
基于所述查询用户、所述召回用户池中召回用户和源数据域中用户,确定所述查询用户对应的源查询用户,以及所述召回用户对应的源召回用户;
获取所述源查询用户的第一加密特征数据、源召回用户的第二加密特征数据;
确定所述召回用户的第三加密特征数据;
将所述第一加密特征数据、第二加密特征数据和第三加密特征数据输入跨域分析模型中,确定与所述查询用户匹配的召回用户。
12.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-11中任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310746514.0A CN116501976B (zh) | 2023-06-25 | 2023-06-25 | 数据推荐、模型训练、相似用户分析方法、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310746514.0A CN116501976B (zh) | 2023-06-25 | 2023-06-25 | 数据推荐、模型训练、相似用户分析方法、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116501976A CN116501976A (zh) | 2023-07-28 |
CN116501976B true CN116501976B (zh) | 2023-11-17 |
Family
ID=87326941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310746514.0A Active CN116501976B (zh) | 2023-06-25 | 2023-06-25 | 数据推荐、模型训练、相似用户分析方法、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116501976B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951547A (zh) * | 2017-03-27 | 2017-07-14 | 西安电子科技大学 | 一种基于交叉用户的跨域推荐方法 |
CN111241388A (zh) * | 2019-12-13 | 2020-06-05 | 北京三快在线科技有限公司 | 多策略召回方法、装置、电子设备及可读存储介质 |
CN112464097A (zh) * | 2020-12-07 | 2021-03-09 | 广东工业大学 | 一种多辅助域信息融合跨域推荐方法与系统 |
KR20210066674A (ko) * | 2019-11-28 | 2021-06-07 | 고려대학교 산학협력단 | 구성원 속성 및 피드백 데이터 기반의 협업 필터링을 통한 조합형 식단 추천 시스템 및 방법 |
CN113034186A (zh) * | 2021-03-25 | 2021-06-25 | 支付宝(杭州)信息技术有限公司 | 一种商家召回推荐方法、装置以及设备 |
CN113379474A (zh) * | 2021-07-13 | 2021-09-10 | 京东数科海益信息科技有限公司 | 匹配用户所属群体和信息推送的方法、装置、设备及介质 |
CN113742580A (zh) * | 2021-08-20 | 2021-12-03 | 杭州网易云音乐科技有限公司 | 目标类型数据的召回方法、装置、电子设备及存储介质 |
CN114154051A (zh) * | 2020-09-08 | 2022-03-08 | 北京鸿享技术服务有限公司 | 信息推荐方法、装置、设备及存储介质 |
CN114297505A (zh) * | 2021-12-31 | 2022-04-08 | 完美世界(北京)软件科技发展有限公司 | 推荐系统及推荐方法、设备、计算机可读介质 |
KR20230006601A (ko) * | 2022-01-30 | 2023-01-10 | 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 | 정렬 방법, 정렬 모델의 트레이닝 방법, 장치, 전자 기기 및 매체 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115363A (zh) * | 2020-09-22 | 2020-12-22 | 京东方科技集团股份有限公司 | 一种推荐方法、计算设备及存储介质 |
US11704374B2 (en) * | 2021-01-30 | 2023-07-18 | Walmart Apollo, Llc | Systems and methods for personalizing search engine recall and ranking using machine learning techniques |
-
2023
- 2023-06-25 CN CN202310746514.0A patent/CN116501976B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951547A (zh) * | 2017-03-27 | 2017-07-14 | 西安电子科技大学 | 一种基于交叉用户的跨域推荐方法 |
KR20210066674A (ko) * | 2019-11-28 | 2021-06-07 | 고려대학교 산학협력단 | 구성원 속성 및 피드백 데이터 기반의 협업 필터링을 통한 조합형 식단 추천 시스템 및 방법 |
CN111241388A (zh) * | 2019-12-13 | 2020-06-05 | 北京三快在线科技有限公司 | 多策略召回方法、装置、电子设备及可读存储介质 |
CN114154051A (zh) * | 2020-09-08 | 2022-03-08 | 北京鸿享技术服务有限公司 | 信息推荐方法、装置、设备及存储介质 |
CN112464097A (zh) * | 2020-12-07 | 2021-03-09 | 广东工业大学 | 一种多辅助域信息融合跨域推荐方法与系统 |
CN113034186A (zh) * | 2021-03-25 | 2021-06-25 | 支付宝(杭州)信息技术有限公司 | 一种商家召回推荐方法、装置以及设备 |
CN113379474A (zh) * | 2021-07-13 | 2021-09-10 | 京东数科海益信息科技有限公司 | 匹配用户所属群体和信息推送的方法、装置、设备及介质 |
CN113742580A (zh) * | 2021-08-20 | 2021-12-03 | 杭州网易云音乐科技有限公司 | 目标类型数据的召回方法、装置、电子设备及存储介质 |
CN114297505A (zh) * | 2021-12-31 | 2022-04-08 | 完美世界(北京)软件科技发展有限公司 | 推荐系统及推荐方法、设备、计算机可读介质 |
KR20230006601A (ko) * | 2022-01-30 | 2023-01-10 | 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 | 정렬 방법, 정렬 모델의 트레이닝 방법, 장치, 전자 기기 및 매체 |
Non-Patent Citations (4)
Title |
---|
A Top-N recommendation algorithm based on graph convolutional network that integrates basic user information;JinLing Xu etc.;《2021 2nd International Symposium on Computer Engineering and Intelligent Communications》;第230-235页 * |
Top-N Recommendation via Joint Cross-Domain User Clustering and Similarity Learning;Dimitrios Rafailidis etc.;《Machine Learning and Knowledge DIscovery in Databases》;第426-441页 * |
基于协同过滤的冷用户相似度算法;张战超;《中国优秀硕士学位论文全文数据库(信息科技辑)》;第I138-2755页 * |
融合用户属性与项目流行度的用户冷启动推荐模型;韩立锋 等;《计算机科学》;第114-120页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116501976A (zh) | 2023-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9619661B1 (en) | Personal information data manager | |
US9769143B2 (en) | Content-based association of device to user | |
US9552427B2 (en) | Suggesting media content based on an image capture | |
US20190199519A1 (en) | Detecting and treating unauthorized duplicate digital content | |
US20180020005A1 (en) | Providing selective access to resources | |
US20140250105A1 (en) | Reliable content recommendations | |
CN110855648B (zh) | 一种网络攻击的预警控制方法及装置 | |
CN112395390B (zh) | 意图识别模型的训练语料生成方法及其相关设备 | |
US20170140297A1 (en) | Generating efficient sampling strategy processing for business data relevance classification | |
CN107391535A (zh) | 在文档应用中搜索文档的方法及装置 | |
CN114896454A (zh) | 一种基于标签分析的短视频数据推荐方法及系统 | |
CN116361552A (zh) | 校园图书检索方法、装置、设备及可读存储介质 | |
CN114580008B (zh) | 基于文档组件布局的文档访问控制 | |
CN110929129B (zh) | 一种信息检测方法、设备及机器可读存储介质 | |
Umekwudo et al. | Blockchain technology for mobile applications recommendation systems | |
CN116501976B (zh) | 数据推荐、模型训练、相似用户分析方法、设备和介质 | |
CN105354506B (zh) | 隐藏文件的方法和装置 | |
CN109657153A (zh) | 一种用于确定用户的关联财经信息的方法与设备 | |
CN115378806A (zh) | 流量分配方法、装置、计算机设备及存储介质 | |
US10757216B1 (en) | Group profiles for group item recommendations | |
CN110555131B (zh) | 内容推荐方法、内容推荐装置和电子设备 | |
CN111581559B (zh) | 一种用于执行阅读反馈操作的方法与设备 | |
CN107103033B (zh) | 冷启动用户的偏好预测方法和装置 | |
CN111695159B (zh) | 数据的处理方法、装置及设备 | |
CN109561053B (zh) | 一种用户身份识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |