CN111010595A - 一种新节目推荐的方法及装置 - Google Patents

一种新节目推荐的方法及装置 Download PDF

Info

Publication number
CN111010595A
CN111010595A CN201911352533.5A CN201911352533A CN111010595A CN 111010595 A CN111010595 A CN 111010595A CN 201911352533 A CN201911352533 A CN 201911352533A CN 111010595 A CN111010595 A CN 111010595A
Authority
CN
China
Prior art keywords
user
program
vector
feature
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911352533.5A
Other languages
English (en)
Other versions
CN111010595B (zh
Inventor
朱玉婷
任娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huanlao Network Technology Co ltd
Original Assignee
Guangzhou Huanlao Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huanlao Network Technology Co ltd filed Critical Guangzhou Huanlao Network Technology Co ltd
Priority to CN201911352533.5A priority Critical patent/CN111010595B/zh
Publication of CN111010595A publication Critical patent/CN111010595A/zh
Application granted granted Critical
Publication of CN111010595B publication Critical patent/CN111010595B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4665Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms involving classification methods, e.g. Decision trees
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4666Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4667Processing of monitored end-user data, e.g. trend analysis based on the log file of viewer selections
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Computer Graphics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种新节目推荐的方法及装置,其中所述方法包括:获取用户列表中各用户的用户特征信息;将所述用户特征信息输入至已训练的分类模型中,获取所述分类模型输出的标签信息,所述标签信息包括当前用户喜好的节目的节目类型向量、场景类型向量以及特征词向量;根据所述节目类型向量、场景类型向量以及特征词向量,确定当前用户喜好的节目类型、场景类型以及特征词;根据所述分类模型确定新节目的节目特征信息,所述节目特征信息包括节目类型、场景类型以及特征词;将各用户喜好的节目类型、场景类型以及特征词,与所述新节目的节目特征信息进行匹配,以确定候选用户;将所述新节目推荐至所述候选用户中,以此保障新节目的推荐效果。

Description

一种新节目推荐的方法及装置
技术领域
本申请涉及数据推荐技术领域,尤其涉及一种新节目推荐的方法及装置。
背景技术
互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对获取信息和发布信息的需求,例如,如今出现了越来越多的音视频发布平台,很多用户倾向于在这些音视频发布平台上发布自己的音视频数据,对于音视频发布平台而言,如何将用户新产生的音视频数据分发给其他相关用户是该平台需要解决的核心问题之一。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的一种新节目推荐的方法及装置。
第一方面,本申请提供了一种新节目推荐的方法,所述方法包括:
获取用户列表中各用户的用户特征信息;
将所述用户特征信息输入至已训练的分类模型中,获取所述分类模型输出的标签信息,所述标签信息包括当前用户喜好的节目的节目类型向量、场景类型向量以及特征词向量;
根据所述节目类型向量、场景类型向量以及特征词向量,确定当前用户喜好的节目类型、场景类型以及特征词;
根据所述分类模型确定新节目的节目特征信息,所述节目特征信息包括节目类型、场景类型以及特征词;
将各用户喜好的节目类型、场景类型以及特征词,与所述新节目的节目特征信息进行匹配,以确定候选用户;
将所述新节目推荐至所述候选用户中。
可选地,所述将所述新节目推荐至所述候选用户中,包括:
从所述候选用户筛选出目标用户;
将所述新节目推荐至所述目标用户中,并检测所述目标用户针对所述新节目的反馈行为;
基于所述反馈行为,判断是否将所述新节目推荐至所述候选用户除所述目标用户以外的其他候选用户中。
可选地,所述节目类型向量以及所述场景类型向量均为独热编码向量;
所述根据所述节目类型向量、场景类型向量以及特征词向量,确定当前用户喜好的节目类型、场景类型以及特征词,包括:
确定所述节目类型向量或所述场景类型向量中数值1所在的位置,并确定最大位置;根据所述最大位置,生成最大值独热向量;根据所述最大值独热向量确定所述节目类型向量对应的节目类型,或者,确定所述场景类型向量对应的场景类型;
计算所述特征词向量与预设的特征词向量数据库中各特征词向量的距离,并获取距离最小的N个特征词向量对应的特征词,作为用户喜好的特征词。
可选地,所述方法还包括:
存储各用户喜好的节目类型、场景类型以及特征词。
可选地,所述分类模型采用如下方法训练生成:
获取所述用户列表中各用户的用户特征向量;
确定各用户特征向量对应的标签信息;
将所述用户特征向量以及对应的标签信息输入深度神经网络模型中进行训练,生成分类模型。
可选地,所述获取所述用户列表中各用户的用户特征向量,包括:
针对各用户,获取该用户的指定画像信息,并根据所述指定画像信息生成用户独热编码向量;
采用已训练的深度编码器对所述用户独热编码向量进行编码,生成用户深度特征向量;
获取该用户的历史行为数据,并从所述历史行为数据中提取满足指定条件的历史节目数据;
从所述历史节目数据中提取特征词向量,并基于该用户的所有特征词向量确定平均向量,所述特征词向量包括关键词词向量以及实体词词向量;
将所述用户深度特征向量以及所述平均向量拼接成用户特征向量。
可选地,所述确定各用户特征向量对应的标签信息,包括:
针对各用户特征向量,获取对应用户发生交互的历史节目数据;
获取所述历史节目数据的节目类型的独热编码向量;
获取所述历史节目数据的场景类型的独热编码向量;
获取所述历史节目数据的特征词向量;
将所述节目类型的独热编码向量、所述历史节目数据的特征词向量以及所述场景类型的独热编码向量组织成当前用户特征向量的标签信息。
第二方面,本申请还提供了一种新节目推荐的装置,所述装置包括:
用户特征信息获取模块,用于获取用户列表中各用户的用户特征信息;
用户标签信息获取模块,用于将所述用户特征信息输入至已训练的分类模型中,获取所述分类模型输出的标签信息,所述标签信息包括当前用户喜好的节目的节目类型向量、场景类型向量以及特征词向量;
用户喜好信息获取模块,用于根据所述节目类型向量、场景类型向量以及特征词向量,确定当前用户喜好的节目类型、场景类型以及特征词;
新节目特征信息获取模块,用于根据所述分类模型确定新节目的节目特征信息,所述节目特征信息包括节目类型、场景类型以及特征词;
候选用户确定模块,用于将各用户喜好的节目类型、场景类型以及特征词,与所述新节目的节目特征信息进行匹配,以确定候选用户;
新节目推荐模块,用于将所述新节目推荐至所述候选用户中。
第三方面,本申请还提供了一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上述的方法。
第四方面,本申请还提供了一种存储介质,当所述存储介质中的指令由所述设备的处理器执行时,使得所述电子设备能够执行如上述的方法。
本申请具有如下有益效果:
在本实施例中,在进行新节目推荐时,可以采用已训练的分类模型获取新节目的节目特征信息以及各用户的喜好信息,然后将各用户的喜好信息与新节目的节目特征信息进行匹配,根据匹配的结果确定候选用户,并将新节目推荐至候选用户中,通过分类模型以及节目的匹配,可以保障新节目的推荐效果,同时,由于平台只将新节目推荐至候选用户中,可以节省平台的传输流量。
附图说明
图1为本申请实施例的一种分类模型的生成方法实施例的步骤流程图;
图2为本申请实施例的一种新节目推荐的方法实施例的步骤流程图;
图3为本申请实施例的一种新节目推荐的装置实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1,示出了本申请实施例的一种分类模型的生成方法实施例的步骤流程图,分类模型可以采用如下步骤训练生成:
步骤101,获取用户列表中各用户的用户特征向量。
示例性地,用户列表中的用户可以是平台的全量用户,也可以是部分用户,例如,所有注册用户,或者,最近一段时间内有交互行为的用户,等等,本实施例对此不作限制。
在一种例子中,用户列表可以为从用户画像系统中提取的用户ID组成的列表。其中,用户画像系统可以用于存储音视频平台中各用户的画像信息,例如,其存储的画像信息的字段可以包括但不限于:用户ID、性别、年龄层、地址(如省份)、职业、婚姻情况、生育情况、是否是车主、对节目的喜爱行为(如点赞节目或收听节目等行为)等。则可以在用户画像系统中获取各用户ID,组成用户列表。
需要说明的是,用户画像系统可以为独立于音视频平台的系统,也可以是音视频平台的子系统,本实施例对此不作限制。
在一种实施方式中,步骤101可以包括如下子步骤:
子步骤S11,针对各用户,获取该用户的指定画像信息,并根据所述指定画像信息生成用户独热编码向量。
在一种实施方式中,可以从用户画像系统中获取各用户的指定画像信息,示例性地,该指定画像信息可以包括多个指定字段的字段值,其中,多个指定字段可以包括但不限于:用户ID、性别、年龄层、地址(如省份)、职业、婚姻情况、生育情况、是否是车主、点赞的节目的节目类别、收听时长超过预设时长的节目的节目类别等。
获得指定画像信息以后,则可以根据该指定画像信息生成用户独热编码向量user_onehot。
在一种实施方式中,上述根据指定画像信息生成用户独热编码向量的步骤,可以包括如下子步骤:
根据各指定字段的字段值确定该指定字段的独热编码向量;将所有指定字段的独热编码向量拼接成用户独热编码向量。
具体的,独热编码即One-Hot编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。可以这样理解,对于每一个特征,如果它有m个可能值,那么经过独热编码后,就变成了m个二元特征(如成绩这个特征有好、中、差变成one-hot就是100,010,001)。并且,这些特征互斥,每次只有一个激活。因此,数据会变成稀疏。
需要说明的是,如果某个字段的字段值无法获取,则该字段对应的独热编码为0向量。
在获得各指定字段的独热编码向量以后,可以按照预设的固定顺序将各指定字段的独热编码向量进行拼接,生成用户独热编码向量user_onehot。
例如,user_onehot=[x1,x2…,xn]。
其中,n为指定字段的数量。xi为第i个指定字段的one-hot编码特征向量。
子步骤S12,采用已训练的深度编码器对所述用户独热编码向量进行编码,生成用户深度特征向量。
在该步骤中,获得用户独热编码向量以后,可以采用已训练的深度编码器对用户独热编码向量进行编码,以提取深层特征,即用户深度特征向量。
在一种例子中,深度编码器可以是一种基于深度神经网络(Deep NeuralNetworks,简称DNN)的自动编码器,即Dnn_encoder。其中,深度编码器的层数和每层的节点数作为超参数可以根据需要的实际效果进行调整。
例如,深度编码器可以表示为:
al=sigmoid(Wlal-1+bl)
其中,al为DNN的第I层的向量,wl为第I层的特征,bl为第I层的偏置。
则,经过深度编码器编码后的用户深度特征向量为:
u=sigmoid(al)
在实现时,获得用户深度特征向量以后,可以使用欧式距离计算用户深度特征向量与用户独热编码向量的距离,并将该距离作为深度编码器的损失函数。同时,还可以使用梯度下降法来调整模型参数,例如,在进行深度编码器的迭代时,可以每月使用全量用户数据重新训练。
子步骤S13,获取该用户的历史行为数据,并从所述历史行为数据中提取满足指定条件的历史节目数据。
示例性地,用户的历史行为数据可以包括用户点赞、收藏、点击、转发、分享过的节目数据。满足指定条件的历史节目数据是指从历史行为数据中提取出的满足指定条件的节目数据。例如,从用户发生指定行为的所有节目数据中,提取出用户点赞、或者收听时长超过2分钟的节目的节目数据作为历史节目数据。
子步骤S14,从所述历史节目数据中提取特征词向量,并基于该用户的所有特征词向量确定平均向量。
示例性地,特征词向量可以包括关键词词向量以及实体词词向量。本实施例对提取特征词向量的具体方法不作限定,可以是基于统计的方法或基于语言模型来提取特征词向量,例如,可以采用Bert或Word2vec算法来提取特征词向量。
获取该用户的各历史节目数据的特征词向量以后,则可以计算所有特征词向量的平均向量。
子步骤S15,将所述用户深度特征向量以及所述平均向量拼接成用户特征向量。
在该步骤中,获得当前用户的用户深度特征向量以及平均向量以后,则可以将两者拼接起来,生成用户特征向量。
步骤102,确定各用户特征向量对应的标签信息。
在该步骤中,确定各用户的用户特征向量以后,则可以进一步确定各用户特征向量对应的标签信息label。
在一种实施方式中,步骤102可以包括如下子步骤:
子步骤S21,针对各用户特征向量,获取对应用户发生交互的历史节目数据。
在一种实施方式中,针对各用户特征向量对应的用户,可以从用户历史记录系统中查找该用户发生交互的历史节目数据。其中,用户历史记录系统可以为独立于音视频平台的系统,也可以是音视频平台的子系统,本实施例对此不作限制。
用户历史记录系统可以用于记录用户对节目的交互行为,例如,用户历史记录系统可以包括如下字段:用户ID、向该用户推荐的节目的节目类型、关键词及实体词,用户是否对该节目点赞或者收听超过一定时长(如2分钟)等。
在该步骤中,用户发生交互的历史节目数据可以包括用户点赞、转发、收藏、分享或者收听时长超过一定时长的历史节目数据,该历史节目数据可以包括一个节目或多个节目。
子步骤S22,获取所述历史节目数据的节目类型的独热编码向量。
在该步骤中,在确定当前用户发生交互的历史节目数据以后,可以进一步获取各历史节目数据的节目类型,然后对获取的各节目类型进行独热编码,并拼接各节目类型的独热编码向量,生成节目类型的独热编码向量onehot_category。
例如,onehot_category=[x1,x2…,xn];
其中,n为节目类型的独热编码向量的长度,即用户发生交互的历史节目数据对应的节目类型的数量。
子步骤S23,获取所述历史节目数据的场景类型的独热编码向量。
在该步骤中,在确定当前用户发生交互的历史节目数据以后,还可以进一步获取各历史节目数据的场景类型,然后对获取的各场景类型进行独热编码,并拼接各场景类型的独热编码向量,生成场景类型的独热编码向量Onehot_scene。
例如,onehot_scene=[x1,x2…,xk];
其中,k为场景类型的独热编码向量的长度,即用户发生交互的历史节目数据对应的场景类型的数量。
子步骤S24,获取所述历史节目数据的特征词向量。
在该步骤中,在确定当前用户发生交互的历史节目数据以后,还可以进一步获取各历史节目数据的特征词向量,例如,特征词向量可以包括关键词词向量以及实体词词向量。
例如,历史节目数据涉及的关键词词向量和实体词词向量可以表示为:
word_em=[x1,x2…,xm];
其中,word_em为特征词向量,m为词向量的特征长度。
子步骤S25,将所述节目类型的独热编码向量、所述历史节目数据的特征词向量以及所述场景类型的独热编码向量组织成当前用户特征向量的标签信息。
例如,标签信息label可以表示为:
Label=[onehot_category,word_em,onehot_scene]。
步骤103,将所述用户特征向量以及对应的标签信息输入深度神经网络模型中进行训练,生成分类模型。
在该步骤中,分类模型使用的训练模型可以为深度神经网络DNN模型,该模型的层数和每一层的节点数可以根据模型所需的效果来设计。
在分类模型中,可以使用softmax作为输出层。例如,DNN分类模型的输出层公式可以表示如下:
y′=softmax(al)
其中,al为DNN第l层的向量。
另外,该模型使用的损失函数可以为交叉熵损失,模型权重优化方法可以为反向传播梯度下降法,例如,每月使用用户历史记录系统中的新增数据对分类模型进行微调。
基于图1的分类模型,参照图2,示出了本申请实施例的一种新节目推荐的方法实施例的步骤流程图,本实施例可以应用于音视频平台中,用于向平台中的用户推广新节目。
本实施例可以包括如下步骤:
步骤201,获取用户列表中各用户的用户特征信息。
在该步骤中,用户列表可以为步骤101中的用户列表,也可以是当前音视频平台中的用户组成的用户列表,本实施例对此不作限制。而用户特征信息可以为步骤101中的画像信息。
步骤202,将所述用户特征信息输入至已训练的分类模型中,获取所述分类模型输出的标签信息,所述标签信息包括当前用户喜好的节目的节目类型向量、场景类型向量以及特征词向量。
在一种实施方式中,可以将用户特征信息直接输入分类模型中,在分类模型中根据该用户特征信息生成用户特征向量,并确定该用户特征向量的标签信息。
在其他实施方式中,也可以由平台根据该用户特征信息生成用户特征向量,然后将用户特征向量输入至分类模型中,有分类模型对用户特征向量进行处理,输出标签信息。
关于上述两种实施方式中根据用户特征信息生成用户特征向量的实现方式,可以参照步骤101中子步骤S11-子步骤S15的描述,此处不再赘述了。
在该步骤中,获得分类模型输出的标签信息以后,可以对该标签信息按预设顺序进行拆分,得到节目类型向量、场景类型向量以及特征词向量。
例如,若分类模型输出的标签信息表示为Label=[onehot_category 1,word_em1,onehot_scene 1],对其进行拆分后,可以得到节目类型向量onehot_category 1、特征词向量word_em 1以及场景类型向量onehot_scene 1。
步骤203,根据所述节目类型向量、场景类型向量以及特征词向量,确定当前用户喜好的节目类型、场景类型以及特征词。
在该步骤中,平台在得到用户喜好的节目类型向量、场景类型向量以及特征词向量以后,可以进一步分析出用户喜好的节目类型、场景类型以及特征词。
在一种实施方式中,步骤203可以包括如下子步骤:
子步骤S31,确定所述节目类型向量或所述场景类型向量中数值1所在的位置,并确定最大位置;根据所述最大位置,生成最大值独热向量;根据所述最大值独热向量确定所述节目类型向量对应的节目类型,或者,确定所述场景类型向量对应的场景类型。
例如,对节目类型向量或场景类型向量可以采用如下公式进行解析:
f(x)=onehot(position(max(x)));
其中,max函数返回x中最大的值,position函数返回此最大值第一次出现的位置。Onehot函数为生成一个onehot编码向量,函数输入为节目类型向量或场景类型向量中向量值为1的位置,该向量其他位置为0。
子步骤S32,计算所述特征词向量与预设的特征词向量数据库中各特征词向量的距离,并获取距离最小的N个特征词向量对应的特征词,作为用户喜好的特征词。
在该步骤中,可以预先生成特征词库,并计算特征词库中各特征词的特征词向量记录在特征词向量数据库中。需要说明的是,特征词库以及特征词向量数据库可以持续维护和丰富词汇量。
在获得当前用户喜好的特征词向量以后,则可以计算该喜好的特征词向量与特征词向量数据库中各特征词向量的距离,该距离例如可以为欧式距离,余弦距离等。然后从获得的多个距离中,选取最小的前N个距离对应的特征词向量,并从特征词与特征词向量的关联关系中获取该N个特征词向量对应的特征词。
需要说明的是,N可以为正整数,其可以根据实际需求设定,本实施例对此不作具体限定。
在一种实施方式中,本实施例还可以包括如下步骤:
存储各用户喜好的节目类型、场景类型以及特征词。
例如,可以将各用户喜好的节目类型、场景类型以及特征词存储在用户画像系统中。在用户画像系统中,各用户喜好的节目类型、场景类型以及特征词可以与该用户的画像信息关联存储,以便于后续可以快速获取用户的喜好信息。
步骤204,根据所述分类模型确定新节目的节目特征信息,所述节目特征信息包括节目类型、场景类型以及特征词。
示例性地,新节目可以包括音频数据或者视频数据。当平台制作新节目或者获得新上传的节目时,可以提取该新节目的节目特征信息。
在一种例子中,节目特征信息可以包括但不限于:节目类型(例如,艺术类型、音乐类型、相声类型等)、节目所对应的场景的场景类型(例如,通勤场景、晨练场景、睡前调频场景、工作或写作业场景等)以及特征词,其中,特征词可以包括但不限于关键词、实体词等。
在本实施例中,可以将新节目的节目数据作为已训练的分类模型的输入,由分类模型对该节目数据进行处理,输出对应的节目标签信息,该节目标签信息可以包括节目的节目类型向量、场景类型向量和特征词向量。通过对目的节目类型向量、场景类型向量和特征词向量的分析,可以得到该新节目的节目类型、场景类型和特征词。具体的分析方式可以参考步骤203的描述,此处不再赘述了。
步骤205,将各用户喜好的节目类型、场景类型以及特征词,与所述新节目的节目特征信息进行匹配,以确定候选用户。
在一种例子中,由于用户的喜好信息可以包括该用户可能喜欢的节目的节目类型、场景类型、关键词、实体词等,而新节目的节目特征信息也包括该节目的节目类型、节目所对应的场景的场景类型以及关键词、实体词等。则可以将用户的喜好信息与新节目的节目特征信息在上述各个维度上进行匹配,获得匹配结果。
其中,匹配结果可以包括匹配成功结果以及匹配失败结果。具体的,匹配成功结果可以为用户的喜好信息与新节目的节目特征信息在上述各个维度上匹配满足预设匹配条件的结果;匹配失败结果可以为用户的喜好信息与新节目的节目特征信息在上述各个维度上匹配不满足预设匹配条件的结果。预设匹配条件可以为:上述各维度完全匹配或超过一半的维度匹配成功(如匹配的维度达到三分之二等。)。例如,假设某个用户喜好的节目的节目类型、场景类型、关键词、实体词等均与新节目的节目类型、场景类型、关键词、实体词等匹配,则可以判定该匹配的匹配结果为匹配成功结果;或者,假设某个用户喜好的节目的节目类型、场景类型均与新节目的节目类型、场景类型匹配(关键词、实体词可以不匹配),也可以判定该匹配的匹配结果为匹配成功结果。
在一种实施方式中,在匹配完成以后,可以将匹配结果为匹配成功结果的用户确定为候选用户。
步骤206,将所述新节目推荐至所述候选用户中。
在该步骤中,当确定候选用户以后,则可以直接将新节目推荐至候选用户中。
在一种实施方式中,若候选用户的数量较多,为了保证推荐效果且节省平台流量,步骤104可以包括如下子步骤:
子步骤S41,从所述候选用户筛选出目标用户。
在一种实施方式中,可以从候选用户中随机选择一定数量的用户,作为目标用户。
需要说明的是,选取的目标用户的数量可以根据实际需求确定,本实施例对此不作限制,例如,可以是选取一半或三分之一的候选用户作为目标用户。
子步骤S42,将所述新节目推荐至所述目标用户中,并检测所述目标用户针对所述新节目的反馈行为。
在该步骤中,当确定目标用户以后,可以将新节目推荐至目标用户中,并检测目标用户对该新节目的反馈行为。
示例性地,该反馈行为可以包括点击行为、收藏行为、点赞行为、转发行为、分享行为(如分享至社交圈子)等。
子步骤S43,基于所述反馈行为,判断是否将所述新节目推荐至所述候选用户除所述目标用户以外的其他候选用户中。
在该步骤中,收集到各目标用户对于新节目的反馈行为以后,可以结合各目标用户的反馈行为,判断是否继续将新节目分发到其他候选用户中。
在一种实施方式中,如果各目标用户反馈比较好,例如,若发生反馈行为的目标用户的数量占所有目标用户的一半以上,则可以将新节目进行大规模分发至除目标用户以外的其他候选用户中。若发生反馈行为的目标用户的数量低于所有目标用户的一半以上,则表示用户反馈不好,则不再将新节目进行推荐,节省平台流量的同时,避免对用户体验造成影响。
在本实施例中,在进行新节目推荐时,可以采用已训练的分类模型获取新节目的节目特征信息以及各用户的喜好信息,然后将各用户的喜好信息与新节目的节目特征信息进行匹配,根据匹配的结果确定候选用户,并将新节目推荐至候选用户中,通过分类模型以及节目的匹配,可以保障新节目的推荐效果,同时,由于平台只将新节目推荐至候选用户中,可以节省平台的传输流量。
基于上述的新节目推荐的方法,参照图3,示出了本申请一种新节目推荐的装置实施例的结构框图,本实施例可以应用于音视频平台中,所述装置可以包括如下模块:
用户特征信息获取模块301,用于获取用户列表中各用户的用户特征信息;
用户标签信息获取模块302,用于将所述用户特征信息输入至已训练的分类模型中,获取所述分类模型输出的标签信息,所述标签信息包括当前用户喜好的节目的节目类型向量、场景类型向量以及特征词向量;
用户喜好信息获取模块303,用于根据所述节目类型向量、场景类型向量以及特征词向量,确定当前用户喜好的节目类型、场景类型以及特征词;
新节目特征信息获取模块304,用于根据所述分类模型确定新节目的节目特征信息,所述节目特征信息包括节目类型、场景类型以及特征词;
候选用户确定模块305,用于将各用户喜好的节目类型、场景类型以及特征词,与所述新节目的节目特征信息进行匹配,以确定候选用户;
新节目推荐模块306,用于将所述新节目推荐至所述候选用户中。
在一种实施方式中,所述新节目推荐模块306具体用于:
从所述候选用户筛选出目标用户;
将所述新节目推荐至所述目标用户中,并检测所述目标用户针对所述新节目的反馈行为;
基于所述反馈行为,判断是否将所述新节目推荐至所述候选用户除所述目标用户以外的其他候选用户中。
在一种实施方式中,所述节目类型向量以及所述场景类型向量均为独热编码向量;
所述用户喜好信息获取模块303包括:
类型分析子模块,用于确定所述节目类型向量或所述场景类型向量中数值1所在的位置,并确定最大位置;根据所述最大位置,生成最大值独热向量;根据所述最大值独热向量确定所述节目类型向量对应的节目类型,或者,确定所述场景类型向量对应的场景类型;
特征词分析子模块,用于计算所述特征词向量与预设的特征词向量数据库中各特征词向量的距离,并获取距离最小的N个特征词向量对应的特征词,作为用户喜好的特征词。
在一种实施方式中,所述装置还包括:
存储模块,用于存储各用户喜好的节目类型、场景类型以及特征词。
在一种实施方式中,所述装置还包括分类模型获取模块,所述分类模型获取模块包括:
用户特征向量获取子模块,用于获取所述用户列表中各用户的用户特征向量;
标签信息确定子模块,用于确定各用户特征向量对应的标签信息;
模型训练子模块,用于将所述用户特征向量以及对应的标签信息输入深度神经网络模型中进行训练,生成分类模型。
在一种实施方式中,所述用户特征向量获取子模块具体用于:
针对各用户,获取该用户的指定画像信息,并根据所述指定画像信息生成用户独热编码向量;
采用已训练的深度编码器对所述用户独热编码向量进行编码,生成用户深度特征向量;
获取该用户的历史行为数据,并从所述历史行为数据中提取满足指定条件的历史节目数据;
从所述历史节目数据中提取特征词向量,并基于该用户的所有特征词向量确定平均向量,所述特征词向量包括关键词词向量以及实体词词向量;
将所述用户深度特征向量以及所述平均向量拼接成用户特征向量。
在一种实施方式中,所述标签信息确定子模块具体用于:
针对各用户特征向量,获取对应用户发生交互的历史节目数据;
获取所述历史节目数据的节目类型的独热编码向量;
获取所述历史节目数据的场景类型的独热编码向量;
获取所述历史节目数据的特征词向量;
将所述节目类型的独热编码向量、所述历史节目数据的特征词向量以及所述场景类型的独热编码向量组织成当前用户特征向量的标签信息。
本申请实施例还公开了一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现上述的方法实施例。
本申请实施例还公开了一种存储介质,当所述存储介质中的指令由所述设备的处理器执行时,使得所述电子设备能够执行上述的方法实施例。
关于上述实施例中的装置、电子设备及存储介质,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (10)

1.一种新节目推荐的方法,其特征在于,所述方法包括:
获取用户列表中各用户的用户特征信息;
将所述用户特征信息输入至已训练的分类模型中,获取所述分类模型输出的标签信息,所述标签信息包括当前用户喜好的节目的节目类型向量、场景类型向量以及特征词向量;
根据所述节目类型向量、场景类型向量以及特征词向量,确定当前用户喜好的节目类型、场景类型以及特征词;
根据所述分类模型确定新节目的节目特征信息,所述节目特征信息包括节目类型、场景类型以及特征词;
将各用户喜好的节目类型、场景类型以及特征词,与所述新节目的节目特征信息进行匹配,以确定候选用户;
将所述新节目推荐至所述候选用户中。
2.根据权利要求1所述的方法,其特征在于,所述将所述新节目推荐至所述候选用户中,包括:
从所述候选用户筛选出目标用户;
将所述新节目推荐至所述目标用户中,并检测所述目标用户针对所述新节目的反馈行为;
基于所述反馈行为,判断是否将所述新节目推荐至所述候选用户除所述目标用户以外的其他候选用户中。
3.根据权利要求1或2所述的方法,其特征在于,所述节目类型向量以及所述场景类型向量均为独热编码向量;
所述根据所述节目类型向量、场景类型向量以及特征词向量,确定当前用户喜好的节目类型、场景类型以及特征词,包括:
确定所述节目类型向量或所述场景类型向量中数值1所在的位置,并确定最大位置;根据所述最大位置,生成最大值独热向量;根据所述最大值独热向量确定所述节目类型向量对应的节目类型,或者,确定所述场景类型向量对应的场景类型;
计算所述特征词向量与预设的特征词向量数据库中各特征词向量的距离,并获取距离最小的N个特征词向量对应的特征词,作为用户喜好的特征词。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
存储各用户喜好的节目类型、场景类型以及特征词。
5.根据权利要求1或2所述的方法,其特征在于,所述分类模型采用如下方法训练生成:
获取所述用户列表中各用户的用户特征向量;
确定各用户特征向量对应的标签信息;
将所述用户特征向量以及对应的标签信息输入深度神经网络模型中进行训练,生成分类模型。
6.根据权利要求5所述的方法,其特征在于,所述获取所述用户列表中各用户的用户特征向量,包括:
针对各用户,获取该用户的指定画像信息,并根据所述指定画像信息生成用户独热编码向量;
采用已训练的深度编码器对所述用户独热编码向量进行编码,生成用户深度特征向量;
获取该用户的历史行为数据,并从所述历史行为数据中提取满足指定条件的历史节目数据;
从所述历史节目数据中提取特征词向量,并基于该用户的所有特征词向量确定平均向量,所述特征词向量包括关键词词向量以及实体词词向量;
将所述用户深度特征向量以及所述平均向量拼接成用户特征向量。
7.根据权利要求5所述的方法,其特征在于,所述确定各用户特征向量对应的标签信息,包括:
针对各用户特征向量,获取对应用户发生交互的历史节目数据;
获取所述历史节目数据的节目类型的独热编码向量;
获取所述历史节目数据的场景类型的独热编码向量;
获取所述历史节目数据的特征词向量;
将所述节目类型的独热编码向量、所述历史节目数据的特征词向量以及所述场景类型的独热编码向量组织成当前用户特征向量的标签信息。
8.一种新节目推荐的装置,其特征在于,所述装置包括:
用户特征信息获取模块,用于获取用户列表中各用户的用户特征信息;
用户标签信息获取模块,用于将所述用户特征信息输入至已训练的分类模型中,获取所述分类模型输出的标签信息,所述标签信息包括当前用户喜好的节目的节目类型向量、场景类型向量以及特征词向量;
用户喜好信息获取模块,用于根据所述节目类型向量、场景类型向量以及特征词向量,确定当前用户喜好的节目类型、场景类型以及特征词;
新节目特征信息获取模块,用于根据所述分类模型确定新节目的节目特征信息,所述节目特征信息包括节目类型、场景类型以及特征词;
候选用户确定模块,用于将各用户喜好的节目类型、场景类型以及特征词,与所述新节目的节目特征信息进行匹配,以确定候选用户;
新节目推荐模块,用于将所述新节目推荐至所述候选用户中。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1-7任一项所述的方法。
10.一种存储介质,当所述存储介质中的指令由所述设备的处理器执行时,使得所述电子设备能够执行如权利要求1-7任一项所述的方法。
CN201911352533.5A 2019-12-25 2019-12-25 一种新节目推荐的方法及装置 Active CN111010595B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911352533.5A CN111010595B (zh) 2019-12-25 2019-12-25 一种新节目推荐的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911352533.5A CN111010595B (zh) 2019-12-25 2019-12-25 一种新节目推荐的方法及装置

Publications (2)

Publication Number Publication Date
CN111010595A true CN111010595A (zh) 2020-04-14
CN111010595B CN111010595B (zh) 2021-08-24

Family

ID=70117847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911352533.5A Active CN111010595B (zh) 2019-12-25 2019-12-25 一种新节目推荐的方法及装置

Country Status (1)

Country Link
CN (1) CN111010595B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069392A (zh) * 2020-07-28 2020-12-11 浙江警察学院 涉网犯罪防控方法、装置、计算机设备及存储介质
CN112637685A (zh) * 2020-12-11 2021-04-09 上海连尚网络科技有限公司 视频的处理方法和装置

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010129165A2 (en) * 2009-05-04 2010-11-11 Motorola, Inc. Method and system for recommendation of content items
US20120143907A1 (en) * 2007-03-21 2012-06-07 The Regents Of The University Of California Generating audio annotations for search and retrieval
JP2013105215A (ja) * 2011-11-10 2013-05-30 Ntt Docomo Inc レコメンド情報生成装置、レコメンド情報生成方法及びレコメンド情報生成プログラム
CN106339507A (zh) * 2016-10-31 2017-01-18 腾讯科技(深圳)有限公司 流媒体消息推送方法和装置
CN106355449A (zh) * 2016-08-31 2017-01-25 腾讯科技(深圳)有限公司 用户选取方法和装置
US20170185585A1 (en) * 2015-12-28 2017-06-29 Staples, Inc. Learning a Vector Representation for Unique Identification Codes
CN107729488A (zh) * 2017-10-17 2018-02-23 北京搜狐新媒体信息技术有限公司 一种信息推荐方法及装置
US20180341702A1 (en) * 2017-05-25 2018-11-29 J.W. Pepper & Son, Inc. Sheet Music Search and Discovery System
CN109684510A (zh) * 2018-10-31 2019-04-26 北京达佳互联信息技术有限公司 视频排序方法、装置、电子设备及存储介质
CN109829108A (zh) * 2019-01-28 2019-05-31 北京三快在线科技有限公司 信息推荐方法、装置、电子设备及可读存储介质
CN110162701A (zh) * 2019-05-10 2019-08-23 腾讯科技(深圳)有限公司 内容推送方法、装置、计算机设备和存储介质
CN110232152A (zh) * 2019-05-27 2019-09-13 腾讯科技(深圳)有限公司 内容推荐方法、装置、服务器以及存储介质
CN110263242A (zh) * 2019-01-04 2019-09-20 腾讯科技(深圳)有限公司 内容推荐方法、装置、计算机可读存储介质和计算机设备
CN110489639A (zh) * 2019-07-15 2019-11-22 北京奇艺世纪科技有限公司 一种内容推荐方法及装置
CN110489574A (zh) * 2019-08-05 2019-11-22 东软集团股份有限公司 一种多媒体信息推荐方法、装置和相关设备

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120143907A1 (en) * 2007-03-21 2012-06-07 The Regents Of The University Of California Generating audio annotations for search and retrieval
WO2010129165A2 (en) * 2009-05-04 2010-11-11 Motorola, Inc. Method and system for recommendation of content items
JP2013105215A (ja) * 2011-11-10 2013-05-30 Ntt Docomo Inc レコメンド情報生成装置、レコメンド情報生成方法及びレコメンド情報生成プログラム
US20170185585A1 (en) * 2015-12-28 2017-06-29 Staples, Inc. Learning a Vector Representation for Unique Identification Codes
CN106355449A (zh) * 2016-08-31 2017-01-25 腾讯科技(深圳)有限公司 用户选取方法和装置
CN106339507A (zh) * 2016-10-31 2017-01-18 腾讯科技(深圳)有限公司 流媒体消息推送方法和装置
US20180341702A1 (en) * 2017-05-25 2018-11-29 J.W. Pepper & Son, Inc. Sheet Music Search and Discovery System
CN107729488A (zh) * 2017-10-17 2018-02-23 北京搜狐新媒体信息技术有限公司 一种信息推荐方法及装置
CN109684510A (zh) * 2018-10-31 2019-04-26 北京达佳互联信息技术有限公司 视频排序方法、装置、电子设备及存储介质
CN110263242A (zh) * 2019-01-04 2019-09-20 腾讯科技(深圳)有限公司 内容推荐方法、装置、计算机可读存储介质和计算机设备
CN109829108A (zh) * 2019-01-28 2019-05-31 北京三快在线科技有限公司 信息推荐方法、装置、电子设备及可读存储介质
CN110162701A (zh) * 2019-05-10 2019-08-23 腾讯科技(深圳)有限公司 内容推送方法、装置、计算机设备和存储介质
CN110232152A (zh) * 2019-05-27 2019-09-13 腾讯科技(深圳)有限公司 内容推荐方法、装置、服务器以及存储介质
CN110489639A (zh) * 2019-07-15 2019-11-22 北京奇艺世纪科技有限公司 一种内容推荐方法及装置
CN110489574A (zh) * 2019-08-05 2019-11-22 东软集团股份有限公司 一种多媒体信息推荐方法、装置和相关设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
苏雪峰等: "基于层级嵌入学习的社交策展内容推荐", 《计算机工程与设计》 *
蔡国永等: ""基于标签和因子分析的协同推荐方法"", 《北京邮电大学学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069392A (zh) * 2020-07-28 2020-12-11 浙江警察学院 涉网犯罪防控方法、装置、计算机设备及存储介质
CN112069392B (zh) * 2020-07-28 2021-08-27 浙江警察学院 涉网犯罪防控方法、装置、计算机设备及存储介质
CN112637685A (zh) * 2020-12-11 2021-04-09 上海连尚网络科技有限公司 视频的处理方法和装置
CN112637685B (zh) * 2020-12-11 2024-01-30 上海连尚网络科技有限公司 视频的处理方法和装置

Also Published As

Publication number Publication date
CN111010595B (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN112231275B (zh) 多媒体文件分类、信息处理与模型训练方法、系统及设备
CN110555469B (zh) 处理交互序列数据的方法及装置
CN109857844B (zh) 基于点餐对话文本的意图识别方法、装置、电子设备
CN111506820B (zh) 推荐模型、方法、装置、设备及存储介质
WO2017106977A1 (en) End-to-end deep collaborative filtering
CN116171473A (zh) 用于视听事件定位的双模态关系网络
CN111837142A (zh) 用于表征视频内容的深度强化学习框架
CN111209477B (zh) 一种信息推荐的方法及装置、电子设备、存储介质
CN112231582B (zh) 一种基于变分自编码数据融合的网站推荐方法和设备
US20200035225A1 (en) Data collecting method and system
CN111010595B (zh) 一种新节目推荐的方法及装置
CN112733043B (zh) 评论推荐方法及装置
CN111444399B (zh) 回复内容的生成方法、装置、设备及可读存储介质
US20230237093A1 (en) Video recommender system by knowledge based multi-modal graph neural networks
CN111506821A (zh) 推荐模型、方法、装置、设备及存储介质
CN113704620A (zh) 基于人工智能的用户标签更新方法、装置、设备及介质
CN113742572A (zh) 一种数据的推荐方法、装置、电子设备及存储介质
CN110827078B (zh) 一种信息推荐方法、装置、设备及存储介质
CN114254205B (zh) 一种基于音乐多模态数据的用户长短期偏好推荐预测方法
CN112287239B (zh) 课程推荐方法、装置、电子设备及存储介质
CN115203557A (zh) 内容推荐模型的生成方法、装置、设备、存储介质及产品
CN110659962B (zh) 一种商品信息输出方法及相关装置
CN116911955B (zh) 目标推荐模型的训练方法及装置
Agrawal et al. A Meta-learning Based Generative Model with Graph Attention Network for Multi-Modal Recommender Systems
Vötter et al. Autoencoders for Next-Track-Recommendation.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant