CN116361445B

CN116361445B - 藏汉双语用户兴趣标签的预测方法及装置

Info

Publication number: CN116361445B
Application number: CN202310530158.9A
Authority: CN
Inventors: 于满泉; 莫倩; 王升; 蔡锦森; 张传文; 贾承斌; 朱若曦; 姜吉发
Original assignee: Wiseweb Technology Group Co ltd; Beijing Wiseweb Big Data Technology Co ltd
Current assignee: Wiseweb Technology Group Co ltd; Beijing Wiseweb Big Data Technology Co ltd
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2023-08-08
Anticipated expiration: 2043-05-12
Also published as: CN116361445A

Abstract

本发明涉及一种藏汉双语用户兴趣标签的预测方法及装置，所述方法包括获取用户行为日志，通过用户行为日志确定用户的兴趣数据；其中，用户行为日志为藏汉双语行为日志；根据兴趣数据得到用户兴趣标签，将用户兴趣标签作为训练样本，并对训练样本进行处理，得到左边塔输入向量和右边塔输入向量；利用左边塔输入向量和右边塔输入向量对初始预测模型进行训练，得到用户兴趣标签预测模型；其中，初始预测模型为双塔深度神经网络结构，包括左边塔和右边塔。本发明直接使用模型中已有的兴趣点来预测用户可能感兴趣的潜在未知兴趣点，从来源上能够覆盖大部分的待探索兴趣点和待探索资源，从而能够取得更好的探索效果。

Description

藏汉双语用户兴趣标签的预测方法及装置

技术领域

本发明属于神经网络技术领域，具体涉及一种藏汉双语用户兴趣标签的预测方法及装置。

背景技术

相关技术中，多语言推荐系统的用户兴趣标签预测方面，已有的方法是在“内容模型”的内容理解层面采用机器翻译技术，将内容资源从多语言统一翻译成单语言，记录所翻译的内容资源对应的语种，然后在“用户模型”层面基于内容资源来进行探索，或融合知识图谱的知识点进行扩展。也有的方法使用相似人群的隐式向量进行相似人群探索扩散方法进行相似人群探索扩散。但是上述的基于探索与利用的方法，主要通过老兴趣点延伸到新兴趣点的点到点推荐，存在兴趣点之间探索距离过近，从而带来探索效率不足的问题。而基于相似人群探索扩散的方法，主要对代表性好且优质的资源能加快探索效率，对长尾资源或长尾兴趣点所起的作用不大。

因为将内容资源从多语言统一翻译成单语言再进行用户兴趣预测建模的方法，会将用户对不同语种的兴趣偏好进行混淆。比如藏族用户A喜好汉语的财经内容和藏语的佛教内容，但不喜好藏语的财经内容和汉语的佛教内容，这种建模方法就无法高效区分用户A对藏汉不同语种不同类别的这种兴趣偏好。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种藏汉双语用户兴趣标签的预测方法及装置，以解决现有技术中无法高效区分用户对藏汉不同语种不同类别的这种兴趣偏好的问题。

为实现以上目的，本发明采用如下技术方案：一种藏汉双语用户兴趣标签的预测方法，包括：

获取用户行为日志，通过所述用户行为日志确定用户的兴趣数据；其中，所述用户行为日志为藏汉双语行为日志；

根据所述兴趣数据得到用户兴趣标签，将所述用户兴趣标签作为训练样本，并对所述训练样本进行处理，得到左边塔输入向量和右边塔输入向量；

利用左边塔输入向量和右边塔输入向量对初始预测模型进行训练，得到用户兴趣标签预测模型；其中，所述初始预测模型为双塔深度神经网络结构，包括左边塔和右边塔。

进一步的，对所述训练样本进行处理，得到左边塔输入向量，包括：

随机隐藏预设比例的用户兴趣点的训练样本，将未隐藏用户兴趣点的训练样本作为左边塔输入样本；

确定所述左边塔训练样本的用户人口属性特征向量；所述用户人口属性包括年龄、性别、城市和职业；

用各个用户兴趣标签的一级分类的点击信号强度作为其位置编码特征向量；

基于所有左边塔输入样本特征向量、位置编码特征向量，得到一级分类向量；

将所有一级分类向量与用户人口属性特征向量进行拼接，得到左边塔输入向量。

进一步的，对所述训练样本进行处理，得到右边塔输入向量，包括：

随机隐藏预设比例的用户兴趣点的训练样本，作为正样本；

基于mini batch shuffle方法选择的训练样本，作为负样本；

将正样本和负样本分别向量化，得到右边塔输入向量。

进一步的，所述利用左边塔输入向量和右边塔输入向量对初始预测模型进行训练，得到用户兴趣标签预测模型，包括：

将所述左边塔输入向量输入至左边塔中，将所述右边塔输入所述右边塔中进行训练，得到用户兴趣标签预测模型。

进一步的，基所述用户兴趣标签预测模型用于从预设的推荐数据库中获取推荐数据，并预测新用户兴趣点；其中，所述推荐数据库采用二级分类各类目下预设排序下的点击资源的向量平均表示类目向量，计算资源与类目相似度，过滤相关性过低资源，再使用后验点击数排序，将同一一级分类的各二级类目资源汇聚在一起；

所述用户兴趣标签预测模型还用于过滤预测出的新用户兴趣标签中的已知兴趣标签以及过滤反馈过的非兴趣标签。

进一步的，所述左边塔和右边塔均为多层结构；

左边塔和右边塔的上方设有互操作层，用于左边塔和右边塔的信息交互。

进一步的，基于兴趣点和二级分类对所述待训练样本按照语义分桶处理，以映射到一级分类，包括：

采用一二级分类、兴趣点训练Word2Vec模型，计算二级分类、兴趣点与所有一级分类相似度，将二级分类、兴趣点放到与之相似度最大的一级分类中。

进一步的，确定用户兴趣标签后，将所述用户兴趣标签存储至POI存储数据库。

进一步的，以预设周期对所述用户兴趣标签预测模型进行训练更新。

本申请实施例提供一种藏汉双语用户兴趣标签的预测装置，包括：

获取模块，用于获取用户行为日志，通过所述用户行为日志确定用户的兴趣数据；其中，所述用户行为日志为藏汉双语行为日志；

确定模块，用于根据所述兴趣数据得到用户兴趣标签，将所述用户兴趣标签作为训练样本，并对所述训练样本进行处理，得到左边塔输入向量和右边塔输入向量；

输出模块，用于利用左边塔输入向量和右边塔输入向量对初始预测模型进行训练，得到用户兴趣标签预测模型；其中，所述初始预测模型为双塔深度神经网络结构，包括左边塔和右边塔。

本发明采用以上技术方案，能够达到的有益效果包括：

本发明提供一种藏汉双语用户兴趣标签的预测方法及装置，本申请首先获取到用户行为日志，通过用户行为日志确定用户的兴趣数据；根据兴趣数据得到用户兴趣标签，将所述用户兴趣标签作为训练样本，并对所述训练样本进行处理，得到左边塔输入向量和右边塔输入向量；利用训练样本对初始预测模型进行训练，得到用户兴趣标签预测模型。本申请提供的技术方案采用跨语言用户兴趣标签联合建模的方式来解决同类内容但不同语言的关联问题，改变了之前方法中将内容从多语言统一翻译成单语言的思路，在建模方法上更加契合藏汉双语推荐系统中用户在双语方面兴趣的真实场景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明藏汉双语用户兴趣标签的预测方法的步骤示意图；

图2为本发明提供的双塔深度神经网络结构示意图；

图3为本发明提供的用户兴趣标签预测模型的结构示意图；

图4为本发明提供的藏汉双语用户兴趣标签的预测方法的流程示意图；

图5为本发明藏汉双语用户兴趣标签的预测装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

从技术层面来看，推荐系统存在一种茧房问题，也就是说，用户在浏览推荐系统内容的时候，系统会自动根据用户的浏览记录获取用户的偏好，然后推送感兴趣的内容。久而久之，比如用户A是个体育迷，那么A获取的信息大多是跟体育相关的，很难获取音乐或者军事等其它相关的资讯，因为系统追求点击率，会一直推送A感兴趣的内容以获取高浏览量。时间长了，因为信息茧房的作用，会导致信息获取单一，A的推荐内容可能也会变的狭小。为了避免推荐系统中的茧房效应，需要为用户持续探索新的内容，以丰富和拓展用户兴趣，提升推荐系统的长期价值。

相关技术中，为了打破信息茧房，推荐系统往往使用多种手段去平衡所推荐资源的相关性和多样性。一个极端表现就是总是按照已知用户兴趣来推荐，会让用户觉得总是重复推荐类似的内容，没有惊喜感；而如果完全随意地给用户推荐各种内容，推荐的多样性是有了，但可能大部分资源是用户不喜欢的，让用户觉得推荐得不准确。可以看出，这两种极端的选择策略本身就是矛盾的。

目前已有的用户兴趣探索方法主要是基于内容资源来进行探索，也有些方法进一步融合了知识图谱的知识点进行扩展，主要思路是基于探索与利用(Exploration andExploitation)的方法，具体方法涉及到Bandit算法(含朴素Bandit、Epsilon-GreedyBandit、Thompson Sampling、UCB、LinUCB算法等)。

还有一类方法不是使用显示兴趣点，而是使用相似人群的隐式向量进行相似人群探索扩散。具体是引入look-alike算法来寻找用户的潜在兴趣，首先挖掘各个类目下代表性好且优质的资源，然后统计点击这些资源比较多的用户，也就是该类下比较有代表性的种子用户，取这批用户的隐式点击向量，进行拟合得到种子用户群的向量表示。通过用户与种子用户群的相似度来看用户是不是对该类目感兴趣，若相似度较高，则认为该类目可能转化为用户兴趣的概率比较大。

下面结合附图介绍本申请实施例中提供的一个具体的藏汉双语用户兴趣标签的预测方法及装置。

如图1所示，本申请实施例中提供的藏汉双语用户兴趣标签的预测方法，包括：

S101，获取用户行为日志，通过所述用户行为日志确定用户的兴趣数据；其中，所述用户行为日志为藏汉双语行为日志；

具体的，如图2所示，本申请中可以采用现有的方法获取用户行为日志，包括用户行为日志的记录、传输和兴趣标签计算及服务访问。

S102，根据所述兴趣数据得到用户兴趣标签，将所述用户兴趣标签作为训练样本，并对所述训练样本进行处理，得到左边塔输入向量和右边塔输入向量；

一些实施例中，确定用户兴趣标签后，将所述用户兴趣标签存储至POI存储数据库。需要说明的是，本申请提供的POI存储数据库采用key-value数据库。在得到用户的兴趣标签POI(兴趣点和二级分类)后，直接存储至数据库中。

对所述训练样本进行处理，得到左边塔输入向量，包括：

具体的，左边塔输入向量的获取，包括以下步骤：

(1)本申请中随机隐藏(mask)20％的用户兴趣POI，将没有被mask的剩余POI作为左边塔输入样本，然后采用Word2Vec方法根据左边塔输入样本得到输入样本特征向量；

可以理解的是，本申请中用户兴趣标签设有一级分类，一级分类由人工根据业务要求进行制定，并把藏汉语言分开单独制定。一级分类下包括二级分类和兴趣点，如表1所示。

表1分类表

(2)在确定左边塔训练样本，之后确定用户人口属性特征向量，包括：年龄、性别、城市、职业等。

(3)构建位置编码特征向量，本申请借鉴BERT预测模型中position Embedding(Position Embedding，也就是“位置向量”，将每个位置编号，然后每个编号对应一个向量，通过结合位置向量和词向量，就给每个词都引入了一定的位置信息。)的思想，用各个一级分类的点击信号强度作为其位置编码特征。(具体就是把用户一级分类按照点击数排序，排序为k的则放入位置编码PE_k)。可以理解的是，BERT(BERT，Bidirectional EnocederRepresentations from Transformers)是一种预训练语言模型，本申请借鉴BERT模型中采用的Masked LM(Masked language Model)的训练方法，即随机遮盖或替换一句话里面任意字或词，然后让模型通过上下文的理解预测那一个被遮盖或替换的部分，之后做Loss函数的时候只计算被遮盖部分的Loss。loss函数的作用就是描述模型的预测值与真实值之间的差距大小。

(4)将左边塔输入样本特征向量与位置编码特征向量相加，就可以得到一级分类向量；

(5)最后将所有一级分类向量与用户人口属性特征向量进行拼接，得到左边塔输入向量。

一些实施例中，对所述训练样本进行处理，得到右边塔输入向量，包括：

随机隐藏预设比例的用户兴趣点的训练样本，作为正样本；

基于mini batch shuffle方法选择的训练样本，作为负样本；

将正样本和负样本分别向量化，得到右边塔输入向量。

具体的，本申请中随机标记20％的用户POI，masked POI作为正样本，基于minibatch shuffle方法进行负采样。其中，mini batch是将所有用户POI数据分批，然后按顺序处理，每一批计算一次loss，更新参数，然后下一批；shuffle是将训练模型的POI数据集进行打乱操作，经过打乱之后的POI数据排列就会拥有一定的随机性，提升模型的健壮性，防止过拟合。同时，负样本中过滤掉与masked POI语义相近的POI，防止特征穿越现象。

S103，利用左边塔输入向量和右边塔输入向量对初始预测模型进行训练，得到用户兴趣标签预测模型；其中，所述初始预测模型为双塔深度神经网络结构，包括左边塔和右边塔。

如图2所示，本申请中采用业界通用的双塔DNN(深度神经网络)模型结构。”双塔“模型的结构组成，两侧的模型结构就像两个高塔一样，而最上面的互操作层则像两个塔尖搭建起的空中走廊，负责两侧信息的沟通。双塔结构中的左边塔通过左边塔输入向量，右边塔通过右边塔输入向量进行训练，左边塔和右边塔训练的同时再通过互操作层进行交互，最终分别生成最优的两边塔的神经网络参数，得到用户兴趣标签预测模型。

一些实施例中，以预设周期对所述用户兴趣标签预测模型进行训练更新。具体的，本申请中，每天对用户兴趣标签预测模型进行更新训练。

一些实施例中，所述利用左边塔输入向量和右边塔输入向量对初始预测模型进行训练，得到用户兴趣标签预测模型，包括：

本申请中，所述左边塔和右边塔均为多层结构；

如图3所示，用户感兴趣的二级分类/兴趣点：大学、风投、大数据、O2O。对应的一级分类教育、财经、/>科技。一级分类对应点击次数序为：3、2、1、4，模型将预测二级分类华语片。

在得到用户兴趣标签预测模型之后，所述用户兴趣标签预测模型用于从预设的推荐数据库中获取推荐数据，并预测新用户兴趣点；其中，所述推荐数据库采用二级分类各类目下预设排序下的点击资源的向量平均表示类目向量，计算资源与类目相似度，过滤相关性过低资源，再使用后验点击数排序，将同一一级分类的各二级类目资源汇聚在一起；

进一步的，用户兴趣标签预测模型在进行线上预测时，能够恢复被mask的POI，以达到基于当前所有POI来预测新POI的目的。

进行一级分类资源建库：使用二级分类各类目下top 100点击率的内容资源作为二级分类类目的代表性资源，使用业界通用的方法训练内容分类器，将藏汉双语可推荐内容资源都打上一级分类标签。

除此之外，如图4所示，本申请提供的用户兴趣标签预测模型，还具有探索召回队列的线上功能，主要包括：

(1)新增探索召回队列：使用模型预测用户的POI，在推荐数据库中新增一路基于新兴趣的探索召回队列，用于召回一级分类内容资源进行探索。

(2)探索队列召回源：探索队列中将模型预测的二级分类根据一级分类字典进行映射。

(3)增加新颖度：对于探索召回队列所召回的内容资源，过滤用户历史展现前60％分位的二级分类。

(4)结果退场策略:点击退场，即过去5分钟、1小时、1天内，点击次数大于1或者展现次数分别大于1、2、3的一级分类进行退场；概率退场，即根据过去一周展现次数，展现次数1、2、3对应退场概率分别为0.3、0.5、1。

本申请提供的用户兴趣标签预测模型，还对排序功能增加多样性，例如在推荐系统的排序环节，增加按内容资源一级分类的多样性打散策略，每个一级分类最多保留30％的内容资源展现给用户。

本申请提供的用户兴趣标签预测模型还能够将召回结果进行强插，从用户展现结果的第二屏刷新开始，每屏刷新最多强插一条探索资源。

本申请提供的藏汉双语用户兴趣标签的预测方法具有以下有益效果：

从宏观收益角度来看，本发明专利所采用的预测兴趣点的方法，能够使得所推荐结果的新鲜感、多样性提升，促进用户更加活跃，有效提升藏汉双语推荐系统的用户渗透率、次日留存用户率，从而带动大盘的DAU提升。

从探索效率角度来看，本发明专利所采用的方法，能够促进：

探索词本身合理、具有长期满足价值，适合作为探索点。经过系统抽样人工评估，本身合理的探索词比例相对提升5.91％。

用户到探索词的探索逻辑合理，且探索词对用户来说有新鲜感。经过系统抽样人工评估，探索逻辑合理且新颖的探索词比例相对提升47.6％。

探索资源代表性优质，内容能够很好的表征探索点。经过系统抽样人工评估，探索资源代表性优质比例相对提升9.7％。

带动探索队列分发量提升，多样性提升，探索效率提升，用户满意度提升。根据系统A/B test日志结果显示，探索队列展现量相对提升5.3％，点展比相对提升4.5％，大盘DAU相对提升0.24％。

如图5所示，本申请实施例提供一种藏汉双语用户兴趣标签的预测装置，包括：

获取模块201，用于获取用户行为日志，通过所述用户行为日志确定用户的兴趣数据；其中，所述用户行为日志为藏汉双语行为日志；

确定模块202，用于根据所述兴趣数据得到用户兴趣标签，将所述用户兴趣标签作为训练样本，并对所述训练样本进行处理，得到左边塔输入向量和右边塔输入向量；

输出模块203，用于利用左边塔输入向量和右边塔输入向量对初始预测模型进行训练，得到用户兴趣标签预测模型；其中，所述初始预测模型为双塔深度神经网络结构，包括左边塔和右边塔。

综上所述，本发明提供一种藏汉双语用户兴趣标签的预测方法及装置，本申请采用的技术方案直接使用用户模型中已有的兴趣点来预测用户可能感兴趣的潜在未知兴趣点，从来源上能够覆盖大部分的待探索兴趣点和待探索资源，从而能够取得更好的探索效果。能够使得所推荐结果的新鲜感、多样性提升，促进用户更加活跃，有效提升藏汉双语推荐系统的用户渗透率、次日留存用户率，从而带动大盘的DAU提升。

可以理解的是，上述提供的方法实施例与上述的装置实施例对应，相应的具体内容可以相互参考，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品，该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种藏汉双语用户兴趣标签的预测方法，其特征在于，包括：

利用左边塔输入向量和右边塔输入向量对初始预测模型进行训练，得到用户兴趣标签预测模型；其中，所述初始预测模型为双塔深度神经网络结构，包括左边塔和右边塔；

对所述训练样本进行处理，得到左边塔输入向量，包括：

将所有一级分类向量与用户人口属性特征向量进行拼接，得到左边塔输入向量；

对所述训练样本进行处理，得到右边塔输入向量，包括：

随机隐藏预设比例的用户兴趣点的训练样本，作为正样本；

基于mini batch shuffle方法选择的训练样本，作为负样本；

将正样本和负样本分别向量化，得到右边塔输入向量。

2.根据权利要求1所述的方法，其特征在于，所述利用左边塔输入向量和右边塔输入向量对初始预测模型进行训练，得到用户兴趣标签预测模型，包括：

3.根据权利要求1所述的方法，其特征在于，

所述用户兴趣标签预测模型用于从预设的推荐数据库中获取推荐数据，并预测新用户兴趣点；其中，所述推荐数据库采用二级分类各类目下预设排序下的点击资源的向量平均表示类目向量，计算资源与类目相似度，过滤相关性过低资源，再使用后验点击数排序，将同一一级分类的各二级类目资源汇聚在一起；

4.根据权利要求1所述的方法，其特征在于，

所述左边塔和右边塔均为多层结构；

5.根据权利要求3所述的方法，其特征在于，还包括：

确定用户兴趣标签后，将所述用户兴趣标签存储至POI存储数据库。

6.根据权利要求1所述的方法，其特征在于，

以预设周期对所述用户兴趣标签预测模型进行训练更新。

7.一种藏汉双语用户兴趣标签的预测装置，其特征在于，包括：

输出模块，用于利用左边塔输入向量和右边塔输入向量对初始预测模型进行训练，得到用户兴趣标签预测模型；其中，所述初始预测模型为双塔深度神经网络结构，包括左边塔和右边塔；

对所述训练样本进行处理，得到左边塔输入向量，包括：

对所述训练样本进行处理，得到右边塔输入向量，包括：

随机隐藏预设比例的用户兴趣点的训练样本，作为正样本；

基于mini batch shuffle方法选择的训练样本，作为负样本；

将正样本和负样本分别向量化，得到右边塔输入向量。