CN113378045B - 数字内容分发方法、装置及存储介质 - Google Patents
数字内容分发方法、装置及存储介质 Download PDFInfo
- Publication number
- CN113378045B CN113378045B CN202110635885.2A CN202110635885A CN113378045B CN 113378045 B CN113378045 B CN 113378045B CN 202110635885 A CN202110635885 A CN 202110635885A CN 113378045 B CN113378045 B CN 113378045B
- Authority
- CN
- China
- Prior art keywords
- content
- digital content
- training
- sequence
- digital
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 80
- 239000013598 vector Substances 0.000 claims abstract description 55
- 230000003068 static effect Effects 0.000 claims abstract description 26
- 230000001960 triggered effect Effects 0.000 claims description 13
- 238000005295 random walk Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 2
- 230000006399 behavior Effects 0.000 description 34
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000001816 cooling Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 235000019580 granularity Nutrition 0.000 description 3
- 230000008713 feedback mechanism Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Animal Behavior & Ethology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数字内容分发方法、装置及存储介质,所述方法包括:根据用户群组触发数字内容的历史行为生成训练内容序列;将所生成的训练内容序列输入至预设模型中实施训练,以得到与所述数字内容相关联的特征向量;根据需要分发数字内容的当前目标用户触发数字内容的历史行为以及所述特征向量计算所述当前目标用户对候选内容集中每一数字内容的预估兴趣得分;以及根据所述预估兴趣得分对所述候选内容集中的每一数字内容排序并分发所述候选内容集中的数字内容。本发明通过在原始用户行为序列中引入数字内容的静态属性信息并对更新后的序列进行建模,从而获取数字内容的相似度信息,并得出用户可能最感兴趣的数字内容。
Description
技术领域
本发明涉及内容分发技术领域,具体涉及一种数字内容分发方法、装置及存储介质。
背景技术
当前,智能终端(例如智能电视)作为内容承载平台,往往会承接多个数字内容提供方,同时用户的兴趣也是多种多样的,例如,有的用户习惯在智能终端上使用某一应用观看动漫内容、而有的用户习惯使用另一应用观看综艺内容。内容的丰富性也为内容分发系统带来极大的挑战,主要包括稀疏性与应用冷启动问题。稀疏性的问题主要体现在:当智能终端用户趋向于只与一小部分内容提供方进行交互时,训练一个准确的内容分发模型预测用户的偏好是十分困难的;应用冷启动的问题主要体现在:新接入的内容提供方,由于缺少用户行为数据,很难准确预测用户对该内容提供方所提供的内容的偏好程度。
因此,在上述用户行为数据较少的场景下进行多应用内容的用户兴趣预测,并为用户分发其感兴趣的数字内容,具有很重要的意义。
发明内容
针对以上现有技术的问题,本发明提供了一种数字内容分发方法、装置及存储介质,通过在原始用户行为序列中引入数字内容的静态属性信息并对更新后的序列进行建模,从而获取数字内容的相似度信息,并得出用户可能最感兴趣的数字内容。
为实现上述目的,本发明的实施例提供了一种数字内容分发方法,所述方法包括:根据用户群组触发数字内容的历史行为生成训练内容序列,所述训练内容序列中的各个节点与用户触发过的数字内容一一对应;将所生成的训练内容序列输入至预设模型中实施训练,以得到与所述数字内容相关联的特征向量;根据需要分发数字内容的当前目标用户触发数字内容的历史行为以及所述特征向量计算所述当前目标用户对候选内容集中每一数字内容的预估兴趣得分;以及根据所述预估兴趣得分对所述候选内容集中的每一数字内容排序,并根据所述排序向所述当前目标用户分发所述候选内容集中的数字内容。
所述训练内容序列中的每个节点包括该节点对应的数字内容的标识信息和静态属性信息。
根据用户群组触发数字内容的历史行为生成训练内容序列包括:根据所述用户群组中的每个用户触发数字内容的历史行为生成对应的原始内容序列;根据预设规则切分每个原始内容序列以获得多个子内容序列;为每个子内容序列中的每一个节点对应的数字内容添加其静态属性信息以获得更新后的子内容序列;以及根据更新后的子内容序列中每一个节点对应的数字内容的相似性生成所述训练内容序列。
根据预设规则切分每个原始内容序列以获得多个子内容序列包括:根据用户行为时间点以及所播放数字内容的总时长切分每个原始内容序列以获得多个子内容序列。
根据更新后的子内容序列中每一个节点对应的数字内容的相似性生成所述训练内容序列包括:根据预设的随机游走方法生成所述训练内容序列。
所述静态属性信息至少包括数字内容所属的应用平台、标签信息、标题关键词、相关人员姓名。
将所生成的训练内容序列输入至预设模型中实施训练以得到与所述数字内容相关联的特征向量包括:将所生成的训练内容序列输入至基于词嵌入的神经网络模型中实施训练以得到与所述数字内容相关联的特征向量。
根据当前目标用户触发数字内容的历史行为以及所述特征向量计算所述当前目标用户对候选内容集中每一数字内容的预估兴趣得分包括:根据训练得到的所述特征向量计算当前目标用户历史触发的数字内容与所述候选内容集中每一数字内容的相似度得分,并根据所述相似度得分确定所述当前目标用户对所述候选内容集中每一数字内容的预估兴趣得分。
所述方法还包括:通过统计所述当前目标用户对已分发的数字内容的点击及评价情况更新所述候选内容集中的数字内容。
本发明的实施例还提供了一种数字内容分发装置,所述装置包括:生成模块,用于根据用户群组触发数字内容的历史行为生成训练内容序列,所述训练内容序列中的各个节点与用户触发过的数字内容一一对应;训练模块,用于将所生成的训练内容序列输入至预设模型中实施训练,以得到与所述数字内容相关联的特征向量;计算模块,用于根据需要分发数字内容的当前目标用户触发数字内容的历史行为以及所述特征向量计算所述当前目标用户对候选内容集中每一数字内容的预估兴趣得分;以及分发模块,用于根据所述预估兴趣得分对所述候选内容集中的每一数字内容排序,并根据所述排序向所述当前目标用户分发所述候选内容集中的数字内容。
本发明的实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现上述任一实施例所述的所述方法的步骤。
本发明的优点在于,通过收集用户在智能终端平台上的所有播放行为的数据,对该数据组成的用户行为序列进行建模,在传统图嵌入(Graph embedding)算法的基础上,对用户行为序列进行改造,引入了数字内容的静态属性信息,并在同一向量空间中训练改造后的序列,得到与每一个数字内容相关联的嵌入式特征向量,通过嵌入式特征向量的相似度计算,得出用户可能最感兴趣的数字内容。同时,通过建立负反馈机制,进一步调整为用户分发的数字内容,从而及时调整分发策略,使用户获得更好的用户体验。因此,本发明能够实现在用户行为数据较少的场景下进行多数字内容的用户兴趣预测,并为用户分发其感兴趣的数字内容。
附图说明
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其它有益效果显而易见。
图1示出了本发明实施例所提供的数字内容分发方法的流程示意图。
图2示出了本发明实施例所提供的数字内容分发方法的又一流程示意图。
图3示出了本发明实施例所提供的数字频内容分发方法的再一流程示意图。
图4示出了根据本发明实施例所提供的对候选内容集进行动态更新的方法的流程示意图。
图5示出了本发明实施例所提供的数字内容分发装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书以及附图中的术语“第一”“第二”“第三”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应当理解,这样描述的对象在适当情况下可以互换。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体地限定。此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排它的包含。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件电路或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接或可以相互通讯;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
为使本发明的目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1示出了本发明实施例所提供的数字内容分发方法的流程示意图。在本实施例中,数字内容是以数字形式存在的文本、图象、声音、视频等不同类型的内容,它可以存储在如光盘、硬盘、云盘等数字载体上,并通过网络等手段传播。在本实施例中,所述数字内容分发方法基于传统的图嵌入算法,在初始的用户行为序列中引入数字内容的静态属性信息,通过随机游走算法生成新的数字内容序列,再利用word2vec模型(基于词嵌入的神经网络模型),在同一向量空间中对包括数字内容的标识信息和静态属性信息的数字内容序列进行训练,获得与所述数字内容相关联的嵌入式特征向量矩阵,用于后续数字内容的相似度计算,从而获得用户对数字内容的预估兴趣得分。具体的,所述方法包括以下步骤:
步骤10,根据用户群组触发数字内容的历史行为生成训练内容序列,所述训练内容序列中的各个节点与用户触发过的数字内容一一对应;
步骤20,将所生成的训练内容序列输入至预设模型中实施训练,以得到与所述数字内容相关联的特征向量;
步骤30,根据需要分发数字内容的当前目标用户触发数字内容的历史行为以及所述特征向量计算所述当前目标用户对候选内容集中每一数字内容的预估兴趣得分;
步骤40,根据所述预估兴趣得分对所述候选内容集中的每一数字内容排序,并根据所述排序向所述当前目标用户分发所述候选内容集中的数字内容。
具体的,在步骤10中,根据用户群组触发数字内容的历史行为生成训练内容序列还具体包括如图2所示的子步骤11-14,具体包括:
步骤11,根据所述用户群组中的每个用户触发数字内容的历史行为生成对应的原始内容序列;
步骤12,根据预设规则切分每个原始内容序列以获得多个子内容序列;
步骤13,为每个子内容序列中的每一个节点对应的数字内容添加其静态属性信息以获得更新后的子内容序列;
步骤14,根据更新后的子内容序列中每一个节点对应的数字内容的相似性生成所述训练内容序列。
在步骤11中,收集用户群组在智能终端,例如智能电视上的所有场景下的播放行为数据。针对每个用户,形成单独的播放历史数字内容的行为序列,即数字内容的原始内容序列。在本实施例中,在进行数据收集时,是以一台电视设备对应一条内容序列为例。其中每一条内容序列中的各个节点与用户触发过的多个数字内容(item)一一对应,每一个数字内容至少包含标识信息(ID)、用户识别信息、播放开始时间、播放结束时间等内容。其中,每一次用户的播放行为会在内容序列中形成一个数字内容的节点;同时,用户在某一预设时间段内(例如一小时内)对同一个数字内容的播放行为,会合并成一个数字内容的节点。
在步骤12中,对步骤11中形成的用户的上述原始内容序列进行切分。由于电视是家庭场景下使用,可能会存在多个用户先后操作的情况,而每个用户有着独立的兴趣,因此,在一条内容序列里,越相邻的行为,越可能归属于同一个用户,兴趣相对更集中。因此,结合用户行为时间点以及所播放数字内容的总时长,把所述原始内容序列切分为多个连续的子内容序列,使得单条序列的数字内容的兴趣表示更加相似和集中,以缓解智能电视场景下家庭中多个人使用一台设备所带来的兴趣多变,兴趣难以捕捉这一问题。另外,对内容序列的切分规则可以被预先设置,以视频内容为例,当序列中前后两个视频内容不是同系列片、不是同一部片,并且结束上一个视频播放的时间,与开始播放下一个视频的时间,中间相差45分钟以上,则可以在内容序列的前一视频内容节点与后一视频内容节点之间进行切分,以形成两个连续的子内容序列。
在步骤13中,为所述子内容序列中的每一个节点对应的数字内容添加其静态属性信息以获得更新后的子内容序列,其中所述静态属性信息包括数字内容所属的应用平台、标签信息、标题关键词、相关人员姓名。其中以视频内容为例,其静态属性信息的相关人员姓名包括演员、导演等相关人员信息;其标签信息包括不同粒度的一级标签和二级标签;一级标签例如:喜剧、动作、爱情等粒度较粗的标签;二级标签如:留守儿童、父亲、稻草人、微电影、家庭等粒度更细的标签。当某一数字内容与用户交互较少或几乎没有交互时,在数字内容中添加静态属性信息能够更加准确地表征每一个数字内容。
在步骤14中,根据更新后的子内容序列中每一个节点对应的数字内容的相似性生成训练内容序列包括:根据预设的随机游走方法生成所述训练内容序列。其中,所述随机游走方法包括基于node2vec算法在更新后的子内容序列上进行游走,生成新的用于训练的数字内容序列,即根据随机游走方法随机选择起始点获取其近邻序列。
具体的,通过步骤13获取的子内容序列生成数字内容的关系图,其中,每一个数字内容对应于关系图中的节点,而数字内容的点播情况构成数字内容节点之间的联系(即,节点之间的边)。另外,利用引入的静态属性信息,也可以通过标签信息、标题关键词等静态属性信息的相似性建立数字内容之间的联系,从而生成基于数字内容的知识图谱。由此可以避免应用冷启动时缺少用户行为数据从而无法生成训练内容序列的问题。
node2vec算法是采用有偏的随机游走的方式获取知识图谱中起始节点的近邻序列,通过调整随机游走权重的方法使图嵌入的结果在同质性(homophily)和结构性(structural equivalence)中进行权衡,使得重新生成的随机游走序列可以反映深度优先和广度优先两种采样的特性。同质性相同的节点是指知识图谱中距离相近的节点,结构性相同的节点是指具有类似连接方式的节点。另外,在游走的过程中,使用LRU CATCH对游走的过程进行加速,能够解决原始的node2vec算法内存消耗大并且并行性较差的问题。
在步骤20,将根据步骤10随机游走生成的训练内容序列输入至预设模型中实施训练后获取所述数字内容相关联的特征向量,其中所述特征向量包括对应于训练内容序列中每一个数字内容的标识信息的特征向量以及每一个静态属性信息的特征向量。应当理解,具有同质性的距离相近的数字内容的特征向量应该近似,具有结构性的有类似连接方式的数字内容的特征向量也应该近似。
具体的,在本实施例中,通过使用在步骤10生成的随机游走得到的新的用于训练的数字内容序列,训练预设神经网络模型,例如word2vec模型,在同一向量空间内部,训练得到对应于数字内容的标识信息以及其静态属性信息的嵌入(embedding)特征向量矩阵,即,其将表征数字内容的特征以向量的方式进行表达,在一个向量空间内,一个数字内容的标识信息(例如,视频ID)对应于一个特征向量,同时不同的特征向量之间的距离反映了数字内容之间的相似性。
Word2vec是一种将单词转换为嵌入向量的嵌入方法,其基本假设为:分布相似的词语具有相似的语义,也意味着相似的词应具有相似的嵌入向量。word2vec主要包含两种模型,分别是CBOW模型(Continuous Bag-of-Words Model)和Skip-gram模型(ContinuousSkip-gram Model),两种模型均是具有一层隐藏层的神经网络模型(总共包括输入层、隐藏层和输出层三层)。本实施例中使用word2vec模型来确定数字内容之间的相似度,是基于用户点播数字内容的行为序列存在上下文关联的思想。用户点播数字内容的行为序列是存在“上下文”关系的,可以使用CBOW模型通过序列的前几个和后几个数字内容预测当前数字内容,同样可以使用Skip-gram模型通过当前数字内容预测前后播放的几个数字内容。基于word2vec训练学习每一个数字内容相关联的特征向量(隐藏层),进而实现对应于不同数字内容的特征向量之间的相似度的比较。
另外,为了解决当智能终端用户趋向于只与一小部分内容提供方进行交互时难以训练准确的模型的问题,在进行word2vec模型训练过程中引入了对数字内容的静态属性信息的训练,在同一向量空间内部,训练获得数字内容的标识信息和静态属性信息的特征向量矩阵,换句话说,数字内容的标识信息和静态属性信息的特征向量是通过word2vec模型一起训练得到的。在训练过程中引入了对静态属性信息的训练能够在缺少用户数据的情况下获得更准确的与数字内容的标识信息(例如,视频ID)相关联的特征向量。
步骤30,根据当前目标用户触发数字内容的历史行为以及上述步骤20获得的特征向量计算所述当前目标用户对候选内容集中每一数字内容的预估兴趣得分。其中,根据训练得到的所述特征向量计算当前目标用户历史触发的数字内容与所述候选内容集中每一数字内容的相似度得分,并根据所述相似度得分确定所述当前目标用户对所述候选内容集中每一数字内容的预估兴趣得分。具体的,所述步骤30还可以包括如图3所示的子步骤31-33,具体包括:
步骤31,设置候选内容集,在本实施例中,所述候选内容集可以是召回集。以视频内容为例,由于考虑到视频内容数量极为庞大,对所有视频内容进行相似度计算的计算量和计算难度大,因此在计算用户的兴趣得分之前,设置视频召回策略:其针对每个应用提供方,每天计算该应用提供方播放量最多的1000部视频,加入召回集。其中,所述召回集中记录了该1000部视频的视频ID。
步骤32,计算需要分发数字内容的当前目标用户对历史播放过的每一数字内容的感兴趣程度,并量化为分数,作为该用户的历史偏好得分。具体的,统计用户每天的总播放时长以及总播放次数;以及对每一数字内容的播放时长、次数。如此可以计算出每一数字内容在用户播放时长与次数的占比,以此量化当前目标用户对该数字内容的感兴趣分数。结合多天的数据,基于时间衰减后,得到用户对每一个历史播放数字内容的感兴趣得分。
步骤33,基于训练得到的特征向量矩阵,计算需要分发数字内容的当前目标用户历史点播过的数字内容与召回集中各数字内容的相似度得分,得到当前目标用户对召回集中的各个数字内容的预估兴趣得分。具体的,使用训练得到的数字内容的特征向量(例如,视频ID的特征向量)余弦距离量化两个数字内容(即用户历史点播过的数字内容与召回集中的数字内容)之间的相似度,将该相似度与步骤32中已计算得出的用户对该历史点播过的数字内容的感兴趣得分进行相乘,得到相似度得分。同时,通过步骤32中已计算得出的用户对该历史点播过的数字内容的感兴趣得分计算用户对召回集中的各个数字内容的预估兴趣得分。例如用户对历史播放过的视频A的感兴趣得分为0.7,召回集中的视频B、C、D与视频A的相似度得分分别为0.9,0.8,0.5,那么从视频A出发,用户对B、C、D的预估兴趣得分就是0.7*0.9,0.7*0.8,0.7*0.5。
步骤40,根据步骤30获得的预估兴趣得分对所述候选内容集中的每一数字内容排序,并根据所述排序分发所述候选内容集中的数字内容。
具体的,根据步骤30获得的预估兴趣得分对所述候选内容集中的数字内容进行排序。例如,以视频内容为例,候选内容集中的一个视频ID属于、并且只属于一个应用,则在获得用户对候选内容集中视频内容的预估兴趣得分的同时也能够获得用户对视频所提供的应用的预估兴趣得分。换句话说,在按照预估兴趣得分对候选内容集中的视频内容排序后,直接为用户进行视频内容推荐。因为视频ID和提供该视频的应用是对应的,因此,在获得视频内容推荐顺序的同时,也就得到了应用推荐顺序。
图4示出了根据本发明实施例所提供的一种对候选内容集进行动态更新的方法。所述方法包括以下步骤51-53:
在步骤51,统计预设时间段内用户对于候选内容集中各数字内容及提供所述数字内容的应用的点击与曝光情况。
在步骤52,对于用户曝光未点击的数字内容,加入内容黑名单,在未达到指定条件前,不再为该用户推荐该数字内容。对用户连续曝光却未点击或消费的提供数字内容的应用,加入应用冷却池,在未达到释放条件时,不再为用户推荐该应用。
在步骤53,对内容黑名单与应用冷却池中满足下列条件的内容,释放进入候选内容集:对于数字内容,如果进入黑名单七天及以上,或者用户播放了相似的数字内容,则可以移出黑名单;对于提供数字内容的应用,如果进入冷却池七天以上,或者用户近期使用了同类型的应用,则移出冷却池。
本发明实施例通过对候选内容集进行动态更新建立负反馈机制,进一步调整给用户分发及曝光的数字内容,从而及时调整分发策略,使用户获得更好的用户体验。
图5示出了本发明实施例所提供的数字内容分发装置600的结构框图。所述装置600包括:生成模块610,用于根据用户群组触发数字内容的历史行为生成训练内容序列,所述训练内容序列中的各个节点与用户触发过的数字内容一一对应;训练模块620,用于将所生成的训练内容序列输入至预设模型中实施训练,以得到与所述数字内容相关联的特征向量;计算模块630,用于根据需要分发数字内容的当前目标用户触发数字内容的历史行为以及所述特征向量计算所述当前目标用户对候选内容集中每一数字内容的预估兴趣得分;以及分发模块640,用于根据所述预估兴趣得分对所述候选内容集中的每一数字内容排序,并根据所述排序向所述当前目标用户分发所述候选内容集中的数字内容。
在另一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现以下数字内容分发方法的步骤:根据用户群组触发数字内容的历史行为生成训练内容序列,所述训练内容序列中的各个节点与用户触发过的数字内容一一对应;将所生成的训练内容序列输入至预设模型中实施训练,以得到与所述数字内容相关联的特征向量;根据需要分发数字内容的当前目标用户触发数字内容的历史行为以及所述特征向量计算所述当前目标用户对候选内容集中每一数字内容的预估兴趣得分;以及根据所述预估兴趣得分对所述候选内容集中的每一数字内容排序,并根据所述排序向所述当前目标用户分发所述候选内容集中的数字内容。
对上述步骤的具体限定和实现方式可以参看上述针对数字内容分发方法的实施例,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上对本发明实施例所提供的一种数字内容分发方法、装置及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想;本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例的技术方案的范围。
Claims (9)
1.一种数字内容分发方法,其特征在于,所述方法包括:
根据用户群组触发数字内容的历史行为生成训练内容序列,所述训练内容序列中的各个节点与用户触发过的数字内容一一对应;
将所生成的训练内容序列输入至预设模型中实施训练,以得到与所述数字内容相关联的特征向量;
根据需要分发数字内容的当前目标用户触发数字内容的历史行为以及所述特征向量计算所述当前目标用户对候选内容集中每一数字内容的预估兴趣得分;以及
根据所述预估兴趣得分对所述候选内容集中的每一数字内容排序,并根据所述排序向所述当前目标用户分发所述候选内容集中的数字内容;
所述根据用户群组触发数字内容的历史行为生成训练内容序列包括:根据所述用户群组中的每个用户触发数字内容的历史行为生成对应的原始内容序列;根据预设规则切分每个原始内容序列以获得多个子内容序列;为每个子内容序列中的每一个节点对应的数字内容添加其静态属性信息以获得更新后的子内容序列;以及根据更新后的子内容序列中每一个节点对应的数字内容的相似性生成所述训练内容序列;
所述根据更新后的子内容序列中每一个节点对应的数字内容的相似性生成所述训练内容序列包括:根据预设的随机游走方法生成所述训练内容序列。
2.如权利要求1所述的数字内容分发方法,其特征在于,所述训练内容序列中的每个节点包括该节点对应的数字内容的标识信息和静态属性信息。
3.如权利要求1所述的数字内容分发方法,其特征在于,根据预设规则切分每个原始内容序列以获得多个子内容序列包括:根据用户行为时间点以及所播放数字内容的总时长切分每个原始内容序列以获得多个子内容序列。
4.如权利要求2所述的数字内容分发方法,其特征在于,所述静态属性信息至少包括数字内容所属的应用平台、标签信息、标题关键词、相关人员姓名。
5.如权利要求1所述的数字内容分发方法,其特征在于,将所生成的训练内容序列输入至预设模型中实施训练以得到与所述数字内容相关联的特征向量包括:将所生成的训练内容序列输入至基于词嵌入的神经网络模型中实施训练以得到与所述数字内容相关联的特征向量。
6.如权利要求1所述的数字内容分发方法,其特征在于,根据当前目标用户触发数字内容的历史行为以及所述特征向量计算所述当前目标用户对候选内容集中每一数字内容的预估兴趣得分包括:
根据训练得到的所述特征向量计算当前目标用户历史触发的数字内容与所述候选内容集中每一数字内容的相似度得分,并根据所述相似度得分确定所述当前目标用户对所述候选内容集中每一数字内容的预估兴趣得分。
7.如权利要求1所述的数字内容分发方法,其特征在于,所述方法还包括:通过统计所述当前目标用户对已分发的数字内容的点击及评价情况更新所述候选内容集中的数字内容。
8.一种数字内容分发装置,其特征在于,所述装置包括:
生成模块,用于根据用户群组触发数字内容的历史行为生成训练内容序列,所述训练内容序列中的各个节点与用户触发过的数字内容一一对应;所述根据用户群组触发数字内容的历史行为生成训练内容序列包括:根据所述用户群组中的每个用户触发数字内容的历史行为生成对应的原始内容序列;根据预设规则切分每个原始内容序列以获得多个子内容序列;为每个子内容序列中的每一个节点对应的数字内容添加其静态属性信息以获得更新后的子内容序列;以及根据更新后的子内容序列中每一个节点对应的数字内容的相似性生成所述训练内容序列;所述根据更新后的子内容序列中每一个节点对应的数字内容的相似性生成所述训练内容序列包括:根据预设的随机游走方法生成所述训练内容序列;
训练模块,用于将所生成的训练内容序列输入至预设模型中实施训练,以得到与所述数字内容相关联的特征向量;
计算模块,用于根据需要分发数字内容的当前目标用户触发数字内容的历史行为以及所述特征向量计算所述当前目标用户对候选内容集中每一数字内容的预估兴趣得分;以及
分发模块,用于根据所述预估兴趣得分对所述候选内容集中的每一数字内容排序,并根据所述排序向所述当前目标用户分发所述候选内容集中的数字内容。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110635885.2A CN113378045B (zh) | 2021-06-08 | 2021-06-08 | 数字内容分发方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110635885.2A CN113378045B (zh) | 2021-06-08 | 2021-06-08 | 数字内容分发方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113378045A CN113378045A (zh) | 2021-09-10 |
CN113378045B true CN113378045B (zh) | 2024-02-09 |
Family
ID=77576423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110635885.2A Active CN113378045B (zh) | 2021-06-08 | 2021-06-08 | 数字内容分发方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113378045B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108574857A (zh) * | 2018-05-22 | 2018-09-25 | 深圳Tcl新技术有限公司 | 基于用户行为的节目推荐方法、智能电视及存储介质 |
CN108804619A (zh) * | 2018-05-31 | 2018-11-13 | 腾讯科技(深圳)有限公司 | 兴趣偏好预测方法、装置、计算机设备及存储介质 |
CN111026971A (zh) * | 2019-12-25 | 2020-04-17 | 腾讯科技(深圳)有限公司 | 内容的推送方法及装置、计算机存储介质 |
CN111177575A (zh) * | 2020-04-07 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 一种内容推荐方法、装置、电子设备和存储介质 |
CN106599226B (zh) * | 2016-12-19 | 2020-08-28 | 深圳大学 | 一种内容推荐方法及内容推荐系统 |
CN111680217A (zh) * | 2020-05-27 | 2020-09-18 | 腾讯科技(深圳)有限公司 | 内容推荐方法、装置、设备及存储介质 |
CN112333545A (zh) * | 2019-07-31 | 2021-02-05 | Tcl集团股份有限公司 | 一种电视内容推荐方法、系统、存储介质和智能电视 |
CN112528147A (zh) * | 2020-12-10 | 2021-03-19 | 北京百度网讯科技有限公司 | 内容推荐方法和装置、训练方法、计算设备和存储介质 |
CN112732936A (zh) * | 2021-01-11 | 2021-04-30 | 电子科技大学 | 一种基于知识图谱和用户微观行为的广电节目推荐方法 |
CN112905648A (zh) * | 2021-02-04 | 2021-06-04 | 北京邮电大学 | 一种基于多任务学习的多目标推荐方法及系统 |
-
2021
- 2021-06-08 CN CN202110635885.2A patent/CN113378045B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599226B (zh) * | 2016-12-19 | 2020-08-28 | 深圳大学 | 一种内容推荐方法及内容推荐系统 |
CN108574857A (zh) * | 2018-05-22 | 2018-09-25 | 深圳Tcl新技术有限公司 | 基于用户行为的节目推荐方法、智能电视及存储介质 |
CN108804619A (zh) * | 2018-05-31 | 2018-11-13 | 腾讯科技(深圳)有限公司 | 兴趣偏好预测方法、装置、计算机设备及存储介质 |
CN112333545A (zh) * | 2019-07-31 | 2021-02-05 | Tcl集团股份有限公司 | 一种电视内容推荐方法、系统、存储介质和智能电视 |
CN111026971A (zh) * | 2019-12-25 | 2020-04-17 | 腾讯科技(深圳)有限公司 | 内容的推送方法及装置、计算机存储介质 |
CN111177575A (zh) * | 2020-04-07 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 一种内容推荐方法、装置、电子设备和存储介质 |
CN111680217A (zh) * | 2020-05-27 | 2020-09-18 | 腾讯科技(深圳)有限公司 | 内容推荐方法、装置、设备及存储介质 |
CN112528147A (zh) * | 2020-12-10 | 2021-03-19 | 北京百度网讯科技有限公司 | 内容推荐方法和装置、训练方法、计算设备和存储介质 |
CN112732936A (zh) * | 2021-01-11 | 2021-04-30 | 电子科技大学 | 一种基于知识图谱和用户微观行为的广电节目推荐方法 |
CN112905648A (zh) * | 2021-02-04 | 2021-06-04 | 北京邮电大学 | 一种基于多任务学习的多目标推荐方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113378045A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11048752B2 (en) | Estimating social interest in time-based media | |
CN110162698B (zh) | 一种用户画像数据处理方法、装置及存储介质 | |
US9092829B2 (en) | Generating audience response metrics and ratings from social interest in time-based media | |
TW202007178A (zh) | 用戶特徵的生成方法、裝置、設備及儲存介質 | |
CN109511015B (zh) | 多媒体资源推荐方法、装置、存储介质及设备 | |
CN111858969B (zh) | 多媒体数据推荐方法、装置、计算机设备和存储介质 | |
CN112749330B (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN111625680A (zh) | 确定搜索结果的方法及装置 | |
CN112364184A (zh) | 多媒体数据的排序方法、装置、服务器及存储介质 | |
Fazelnia et al. | Variational user modeling with slow and fast features | |
Dong et al. | Improving sequential recommendation with attribute-augmented graph neural networks | |
CN112749333B (zh) | 资源搜索方法、装置、计算机设备和存储介质 | |
CN113378045B (zh) | 数字内容分发方法、装置及存储介质 | |
CN113010788B (zh) | 信息推送方法及装置、电子设备、计算机可读存储介质 | |
CN110019759A (zh) | 用户分群处理方法、装置、计算机设备和存储介质 | |
CN112785328A (zh) | 一种内容推送方法、装置及计算机存储介质 | |
Andrade et al. | Novel hybrid approach to content recommendation based on predicted profiles | |
CN113538030B (zh) | 一种内容推送方法、装置及计算机存储介质 | |
Hamzaoui et al. | Multi-criteria collaborative recommender | |
Wu et al. | Understanding Human Preferences: Towards More Personalized Video to Text Generation | |
Nixon et al. | AI and data-driven media analysis of TV content for optimised digital content marketing | |
Wang et al. | MARF: User-Item Mutual Aware Representation with Feedback | |
CN117009912A (zh) | 信息推荐方法、用于信息推荐的神经网络模型的训练方法 | |
Jambor | Goal-driven Collaborative Filtering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |