CN111160254A - 一种适用于短视频推荐打散的分类方法及系统 - Google Patents

一种适用于短视频推荐打散的分类方法及系统 Download PDF

Info

Publication number
CN111160254A
CN111160254A CN201911394269.1A CN201911394269A CN111160254A CN 111160254 A CN111160254 A CN 111160254A CN 201911394269 A CN201911394269 A CN 201911394269A CN 111160254 A CN111160254 A CN 111160254A
Authority
CN
China
Prior art keywords
short video
short
videos
video
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911394269.1A
Other languages
English (en)
Inventor
刘腾飞
范俊
李文杰
黄睿智
顾湘余
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Quwei Science & Technology Co ltd
Original Assignee
Hangzhou Quwei Science & Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Quwei Science & Technology Co ltd filed Critical Hangzhou Quwei Science & Technology Co ltd
Priority to CN201911394269.1A priority Critical patent/CN111160254A/zh
Publication of CN111160254A publication Critical patent/CN111160254A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种适用于短视频推荐打散的分类方法及系统,分类方法包括步骤:S1、基于用户的历史短视频点击数据构建短视频转移网络;S2、基于所述短视频转移图网络计算短视频间的转移概率;S3、基于所述短视频转移网络,根据计算的转移概率进行随机游走生成短视频转移序列;S4、根据所述短视频转移序列进行短视频的表示学习,生成短视频的低维度向量表示;S5、基于所述短视频的低维度向量表示、利用聚类算法为短视频分类。本发明充分考虑短视频间的转移关系,采用无监督学习方法生成符合短视频推荐打散的分类,提升了短视频打散的精度,进而提高了短视频推荐的有效性。

Description

一种适用于短视频推荐打散的分类方法及系统
技术领域
本发明涉及视频推荐领域,具体涉及一种适用于短视频推荐打散的分类方法及系统。
背景技术
在短视频推荐中,个性化推荐给用户的经常是同一类视频,比如,当用户点击了搞笑视频后,会推荐给用户大量搞笑视频;点击一个足球视频,会给用户展示大量足球视频。所以在推荐系统中,经常需要对输出结果按类别进行限制以及重排序。打散的作用是保证同一类目视频推荐的频率不会太高,避免用户在前端感觉内容的同质化,保证内容的多样性。
打散的关键在于视频的类别的正确性以及覆盖率。短视频的类别定义主要根据(1)人工定义分类;(2)基于人工标定的大量视频类别数据,运用有监督的分类方法进行分类;现有技术中通常是两种方法结合给短视频池进行分类打标签。
一般短视频的内容池有上亿条视频,并且每天会新产生十万级别的新视频,给庞大的短视频进行类别的定义按照(1)人工定义分类,需要庞大的打标人员才能应对,同时人员的分类标准也受到个人主观性的影响,所以人工打标通常只能覆盖小部分比例的视频;(2)运用有监督的分类方法进行分类,仍需要大量的标注数据,并且只能覆盖一定的类别,对于没有涉及的类别无法起到分类的作用。
针对上述人工定义分类方法覆盖率较低以及所需人力的问题、运用有监督分类所需的大量标注数据以及特定类别的打标签问题,公开号为CN 108154137 A的发明专利申请公开了一种视频特征学习方法,方法包括:获得待训练的视频样本;按照预设帧数对所述视频样本进行等间隔采样,由采样的视频帧组成视频分段;针对各视频分段,提取各视频分段的视觉特征,并计算各视觉特征对应的运动基元数量基于各视频分段的运动基元数量和预设约束条件对目标分类模型进行训练,得到训练后的目标分类模型,以实现对视频特征的学习。
上述基于无监督的聚类方法虽然无需相应的视频类别标注数据以及大量标注人员,但是其聚类的过程仅基于视频本身的视觉特征,完全不涉及视频间的关联关系,基于该聚类的结果不能实现很好的视频推荐效果。因此,如何针对短视频推荐的特征,实现适用于短视频推荐打散的分类是本领域亟待解决的问题。
发明内容
本发明的目的是针对现有技术的缺陷,提供了一种适用于短视频推荐打散的分类及系统。本发明充分考虑短视频间的转移关系,采用无监督学习方法生成符合短视频推荐打散的分类,提升了短视频打散的精度,进而提高了短视频推荐的有效性。
为了实现以上目的,本发明采用以下技术方案:
一种适用于短视频推荐打散的分类方法,包括步骤:
S1、基于用户的历史短视频点击数据构建短视频转移网络;
S2、基于所述短视频转移图网络计算短视频间的转移概率;
S3、基于所述短视频转移网络,根据计算的转移概率进行随机游走生成短视频转移序列;
S4、根据所述短视频转移序列进行短视频的表示学习,生成短视频的低维度向量表示;
S5、基于所述短视频的低维度向量表示、利用聚类算法为短视频分类。
进一步地,所述步骤S1包括:
S11、采集用户点击的短视频、相应的点击时间及观看时间,构建历史短视频点击行为序列;
S12、基于所述历史短视频点击行为序列生成短视频转移网络。
进一步地,所述短视频转移网络的节点表示短视频,节点间的边表示节点间的点击顺序,当两节点存在边时,代表这两个视频在用户的短视频点击行为序列中相邻,且边的起点为点击行为序列中的前序点,边的终点为序列中的后序点;视频间边的权重为两视频的转移频次。
进一步地,所述转移概率为:
Figure BDA0002345862220000031
其中,vi、vj分别表示短视频vi及vj,N+(vi)为短视频转移图网络中结点vi的相邻结点的集合,Mij为短视频转移图网络中节点vi到节点vj的有向边的权重,当Mij=0时,vi到vj的转移概率为0。
进一步地,利用短视频转移序列替代文本序列,采用Skip-Gram模型生成短视频的低维度向量表示。
进一步地,所述聚类算法为k-means,其最小化损失函数为:
Figure BDA0002345862220000032
其中,k为类别数,Ci为第i个类别,x为类Ci中的短视频节点,μi为类Ci的中心点:
Figure BDA0002345862220000033
本发明还提出一种适用于短视频推荐打散的分类系统,包括:
网络构建模块,用于基于用户的历史短视频点击数据构建短视频转移网络;
转移概率计算模块,用于基于所述短视频转移图网络计算短视频间的转移概率;
转移序列模块,用于基于所述短视频转移网络,根据计算的转移概率进行随机游走生成短视频转移序列;
特征表示模块,用于根据所述短视频转移序列进行短视频的表示学习,生成短视频的低维度向量表示;
聚类模块,用于基于所述短视频的低维度向量表示、利用聚类算法为短视频分类。
进一步地,所述网络构建模块包括:
第一生成模块,用于采集用户点击的短视频、相应的点击时间及观看时间,构建历史短视频点击行为序列;
第二生成模块,用于基于所述历史短视频点击行为序列生成短视频转移网络。
进一步地,所述短视频转移网络的节点表示短视频,节点间的边表示节点间的点击顺序,当两节点存在边时,代表这两个视频在用户的短视频点击行为序列中相邻,且边的起点为点击行为序列中的前序点,边的终点为序列中的后序点;视频间边的权重为两视频的转移频次。
进一步地,所述转移概率为:
Figure BDA0002345862220000041
其中,vi、vj分别表示短视频vi及vj,N+(vi)为短视频转移图网络中结点vi的相邻结点的集合,Mij为短视频转移图网络中节点vi到节点vj的有向边的权重,当Mij=0时,vi到vj的转移概率为0。
本发明与现有技术相比,具有如下效果:
(1)本发明充分考虑短视频间的转移关系,基于短视频的点击数据构建视频转移网络、计算转移概率、进行随机游走生成短视频转移序列并进行向量表示。生成的短视频向量表示充分体现短视频间的关联关系,更适用于短视频的推荐分类,提升了短视频打散的精度,进而提高了短视频推荐的有效性;
(2)本发明通过用户的点击视频行为序列,训练短视频的低维度向量,采用无监督的聚类方法进行打标签分类。通过无监督的聚类方法可以对海量短视频数据进行打标签,无需相应的视频类别标注数据以及大量标注人员,同时可以灵活定义最终视频的类别总数,以及通过聚类数目的调整,调控短视频推荐的的打散粒度和应对没有涉及到的一些视频类别的分类问题;
(3)本发明生成短视频的低维度向量表示,提高短视频的分类效率,降低短视频分类的数据处理量;充分利用已有的Skip-Gram模型,利用短视频转移序列替代文本序列,降低了模型处理的复杂度。
附图说明
图1是实施例一提供的一种适用于短视频推荐打散的分类方法流程图;
图2是短视频点击行为序列示例图;
图3是短视频转移网络示例图;
图4是短视频转移序列示例图;
图5是实施例二提供的一种适用于短视频推荐打散的分类系统结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
实施例一
如图1所示,本实施例提出了一种适用于短视频推荐打散的分类方法,包括:
S1、基于用户的历史短视频点击数据构建短视频转移网络;
短视频的转移网络代表用户感兴趣视频的关联关系,因此,本发明首先采集用户的历史短视频点击行为序列,再基于该点击行为序列构建短视频的转移网络。具体为:
S11、采集用户点击的短视频、相应的点击时间及观看时间,构建历史短视频点击行为序列;
短视频点击行为序列是指根据用户点击短视频的先后顺序组成的短视频序列。因此,本发明采集历史短视频点击数据,包括点击的短视频、相应的点击时间及观看时间构建短视频点击行为序列。在构建用户行为序列时,用户的点击历史过于庞大,不可能构建用户的所有的点击历史行为,因此,本发明采用构建窗口的方式,根据短视频的点击时间选取一定窗口内的用户点击行为,例如,采集1个小时内的短视频点击行为。此外,用户的短视频点击可能包括无效的点击,例如用户观看时长过短的视频很可能是用户误点击或者点击后不感兴趣的视频,因此,本发明利用观看时间对用户点击的短视频进行筛选。此外,还包括点击行为过于活跃的用户所点击的视频相关数据。因此,本发明对历史数据进行过滤,过滤掉一些不真实或者一些噪音数据。
如图2所示,根据用户的短视频历史点击记录,构建的用户1的视频序列为ADE,用户2的视频序列为BAF、CE,用户3的视频序列为EF、CB,A、B、C、D、E、F为短视频ID。
S12、基于所述历史短视频点击行为序列生成短视频转移网络。
本发明构建短视频转移网络,短视频转移网络表示短视频点击的关联关系。具体地,短视频转移网络为有向图,网络中的节点代表各短视频,节点间的边表示节点间的点击顺序。当两节点存在边时,代表这两个视频在用户的短视频点击行为序列中相邻,且边的起点为点击行为序列中的前序点,边的终点为序列中的后序点。因此,本发明在获得短视频点击序列后,两个短视频通过用户点击顺序连接,根据所有用户的短视频点击序列构建短视频转移网络。如图3所示,其是基于图2所示的短视频点击行为序列生成的短视频转移网络。由于用户1的序列为ADE,因此,视频A与D间存在一条有向边。由于用户2的序列包括BAF,因此,视频A与F间存在一条有向边。也就是说,点击A视频后,可以向视频D或者向视频F进行转移。
此外,多个用户都有相同的两视频点击顺序与单一用户采用该点击顺序也显然不同。因此,本发明为有向边赋予相应的权重,具体地,采用视频间的转移频次作为连接两视频有向边的权重。例如,当用户4的序列为CAD时,A与D间存在的有向边权重就增加至2,而A与F间存在的有向边权重为1。
S2、基于所述短视频转移图网络计算短视频间的转移概率;
本发明基于随机游走的方式生成短视频转移序列,随机游走的关键就是计算节点间的转移概率。因此,本发明在获得短视频转移网络后,根据所有的用户短视频点击行为计算相互短视频间的转移概率,具体为:
Figure BDA0002345862220000071
其中,vi、vj分别表示短视频vi及vj,N+(vi)为短视频转移图网络中结点vi的相邻结点的集合,Mij为短视频转移图网络中节点vi到节点vj的有向边的权重,当Mij=0,即节点vi与节点vj为不相邻的节点时,vi到vj的转移概率为0。
S3、基于所述短视频转移网络,根据计算的转移概率进行随机游走生成短视频转移序列;
获得短视频转移网络以及相应节点间的转移概率后,本发明使用随机游走方法,以每个结点为起点,按照计算的转移概率,在网络中随机游走可以产生一系列的短视频转移序列。如图4所示,其为基于图3所示的短视频转移网络及转移概率通过随机游走生成短视频转移序列。
S4、根据所述短视频转移序列进行短视频的表示学习,生成短视频的低维度向量表示;
为了提高短视频的分类效率,降低短视频分类的数据处理量,本发明生成短视频的低维度向量表示。具体地,本发明可以使用异构型的Skip-Gram模型(自然语言处理里word2vec一个模型)来学习得到的短视频转移序列,得到各短视频的低维表示。Word2vec算法是自然语言处理中基于语料库中的句子生成每个词语的低维度向量的一种算法,Word2vec模型最大化词语间的联合概率,最终生成每个词语的低维向量表示,通过低维向量,可以计算词语之间的相似性。Skip-Gram模型是给定中心词语来预测中心词的上下文词语的一种模型。
本发明采用Skip-Gram模型,利用短视频转移序列替代文本序列,作为Skip-Gram模型的输入,使用中间短视频来预测上下文短视频,最终生成短视频的低维度向量表示。例如,视频A用5维的向量表示为[-0.119938,0.042054504,-0.02282253,-0.10101332,0.080497965]。
S5、基于所述短视频的低维度向量表示、利用聚类算法为短视频分类。
本发明实现无监督短视频分类,以灵活定义最终短视频的类别总数。通过对视频的转移序列进行分析,无需获知视频的标签和分类信息就可以实现视频特征的无监督学习,进而可对海量视频自动分析分类息,同时降低资源和成本消耗,并且可以适应于广泛的视频场景。
具体地,获得短视频的低维度向量后,本发明使用聚类算法k-means计算短视频的类别标签。k-means是一种经常使用的比较快速、可以灵活定义聚类类别总数的一种无监督算法,可以将所有短视频聚为k个类,C=C1,C2,...,Ck。在聚类的过程中,根据预设损失函数计算该目标分类的loss值,直到所述loss值小于预设值时结束分类训练。当所述loss值小于预设值时,短视频分类满足预设约束条件。
具体地,本发明采用的最小化损失函数为:
Figure BDA0002345862220000081
其中,x为类Ci中的短视频节点,μi为类Ci的中心点:
Figure BDA0002345862220000082
本发明首先选择聚类中心点,以该聚类中心点为中心,逐个输入短视频,不断利用均值计算该类的中心点,在聚类过程中,以该中心点为新的聚类中心输入下一个短视频,直到所有的短视频被分类。无监督短视频分类过程中,使得所有短视频到其类内中心点的距离的和最小,最终为短视频聚类,生成所有短视频的类别。本发明生成短视频类别后,就能就视频类别用于短视频推荐打散,提高推荐的精度及有效性。
实施例二
如图5所示,本实施例提出了一种适用于短视频推荐打散的分类系统,包括:
网络构建模块,用于基于用户的历史短视频点击数据构建短视频转移网络;
短视频的转移网络代表用户感兴趣视频的关联关系,因此,本发明首先采集用户的历史短视频点击行为序列,再基于该点击行为序列构建短视频的转移网络。因此,网络构建模块包括:
第一生成模块,用于采集用户点击的短视频、相应的点击时间及观看时间,构建历史短视频点击行为序列;
短视频点击行为序列是指根据用户点击短视频的先后顺序组成的短视频序列。因此,本发明采集历史短视频点击数据,包括点击的短视频、相应的点击时间及观看时间构建短视频点击行为序列。在构建用户行为序列时,用户的点击历史过于庞大,不可能构建用户的所有的点击历史行为,因此,本发明采用构建窗口的方式,根据短视频的点击时间选取一定窗口内的用户点击行为,例如,采集1个小时内的短视频点击行为。此外,用户的短视频点击可能包括无效的点击,例如用户观看时长过短的视频很可能是用户误点击或者点击后不感兴趣的视频,因此,本发明利用观看时间对用户点击的短视频进行筛选。此外,还包括点击行为过于活跃的用户所点击的视频相关数据。因此,本发明对历史数据进行过滤,过滤掉一些不真实或者一些噪音数据。
第二生成模块,用于基于所述历史短视频点击行为序列生成短视频转移网络。
本发明构建短视频转移网络,短视频转移网络表示短视频点击的关联关系。具体地,短视频转移网络为有向图,网络中的节点代表各短视频,节点间的边表示节点间的点击顺序。当两节点存在边时,代表这两个视频在用户的短视频点击行为序列中相邻,且边的起点为点击行为序列中的前序点,边的终点为序列中的后序点。因此,本发明在获得短视频点击序列后,两个短视频通过用户点击顺序连接,根据所有用户的短视频点击序列构建短视频转移网络。
此外,多个用户都有相同的两视频点击顺序与单一用户采用该点击顺序也显然不同。因此,本发明为有向边赋予相应的权重,具体地,采用视频间的转移频次作为连接两视频有向边的权重。
转移概率计算模块,用于基于所述短视频转移图网络计算短视频间的转移概率;
本发明基于随机游走的方式生成短视频转移序列,随机游走的关键就是计算节点间的转移概率。因此,本发明在获得短视频转移网络后,根据所有的用户短视频点击行为计算相互短视频间的转移概率,具体为:
Figure BDA0002345862220000101
其中,vi、vj分别表示短视频vi及vj,N+(vi)为短视频转移图网络中结点vi的相邻结点的集合,Mij为短视频转移图网络中节点vi到节点vj的有向边的权重,当Mij=0,即节点vi与节点vj为不相邻的节点时,vi到vj的转移概率为0。
转移序列模块,用于基于所述短视频转移网络,根据计算的转移概率进行随机游走生成短视频转移序列;
获得短视频转移网络以及相应节点间的转移概率后,本发明使用随机游走方法,以每个结点为起点,按照计算的转移概率,在网络中随机游走可以产生一系列的短视频转移序列。
特征表示模块,用于根据所述短视频转移序列进行短视频的表示学习,生成短视频的低维度向量表示;
为了提高短视频的分类效率,降低短视频分类的数据处理量,本发明生成短视频的低维度向量表示。具体地,本发明可以使用异构型的Skip-Gram模型(自然语言处理里word2vec一个模型)来学习得到的短视频转移序列,得到各短视频的低维表示。Word2vec算法是自然语言处理中基于语料库中的句子生成每个词语的低维度向量的一种算法,Word2vec模型最大化词语间的联合概率,最终生成每个词语的低维向量表示,通过低维向量,可以计算词语之间的相似性。
本发明采用Skip-Gram模型,利用短视频转移序列替代文本序列,作为Skip-Gram模型的输入,使用中间短视频来预测上下文短视频,最终生成短视频的低维度向量表示。例如,视频A用5维的向量表示为[-0.119938,0.042054504,-0.02282253,-0.10101332,0.080497965]。
聚类模块,用于基于所述短视频的低维度向量表示、利用聚类算法为短视频分类。
本发明实现无监督短视频分类,以灵活定义最终短视频的类别总数。通过对视频的转移序列进行分析,无需获知视频的标签和分类信息就可以实现视频特征的无监督学习,进而可对海量视频自动分析分类息,同时降低资源和成本消耗,并且可以适应于广泛的视频场景。
具体地,获得短视频的低维度向量后,本发明使用聚类算法k-means计算短视频的类别标签。k-means是一种经常使用的比较快速、可以灵活定义聚类类别总数的一种无监督算法,可以将所有短视频聚为k个类,C=C1,C2,...,Ck。在聚类的过程中,根据预设损失函数计算该目标分类的loss值,直到所述loss值小于预设值时结束分类训练。当所述loss值小于预设值时,短视频分类满足预设约束条件。
具体地,本发明采用的最小化损失函数为:
Figure BDA0002345862220000111
其中,x为类Ci中的短视频节点,μi为类Ci的中心点:
Figure BDA0002345862220000112
本发明首先选择聚类中心点,以该聚类中心点为中心,逐个输入短视频,不断利用均值计算该类的中心点,在聚类过程中,以该中心点为新的聚类中心输入下一个短视频,直到所有的短视频被分类。无监督短视频分类过程中,使得所有短视频到其类内中心点的距离的和最小,最终为短视频聚类,生成所有短视频的类别。本发明生成短视频类别后,就能就视频类别用于短视频推荐打散,提高推荐的精度及有效性。
由此可知,本发明提出的适用于短视频推荐打散的分类方法及系统,充分考虑短视频间的转移关系,基于短视频的点击数据构建视频转移网络、计算转移概率、进行随机游走生成短视频转移序列并进行向量表示。生成的短视频向量表示充分体现短视频间的关联关系,更适用于短视频的推荐分类,提升了短视频打散的精度,进而提高了短视频推荐的有效性;通过用户的点击视频行为序列,训练短视频的低维度向量,采用无监督的聚类方法进行打标签分类。通过无监督的聚类方法可以对海量短视频数据进行打标签,无需相应的视频类别标注数据以及大量标注人员,同时可以灵活定义最终视频的类别总数,以及通过聚类数目的调整,调控短视频推荐的的打散粒度和应对没有涉及到的一些视频类别的分类问题;生成短视频的低维度向量表示,提高短视频的分类效率,降低短视频分类的数据处理量;充分利用已有的Skip-Gram模型,利用短视频转移序列替代文本序列,降低了模型处理的复杂度。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种适用于短视频推荐打散的分类方法,其特征在于,包括步骤:
S1、基于用户的历史短视频点击数据构建短视频转移网络;
S2、基于所述短视频转移图网络计算短视频间的转移概率;
S3、基于所述短视频转移网络,根据计算的转移概率进行随机游走生成短视频转移序列;
S4、根据所述短视频转移序列进行短视频的表示学习,生成短视频的低维度向量表示;
S5、基于所述短视频的低维度向量表示、利用聚类算法为短视频分类。
2.根据权利要求1所述的分类方法,其特征在于,所述步骤S1包括:
S11、采集用户点击的短视频、相应的点击时间及观看时间,构建历史短视频点击行为序列;
S12、基于所述历史短视频点击行为序列生成短视频转移网络。
3.根据权利要求2所述的分类方法,其特征在于,所述短视频转移网络的节点表示短视频,节点间的边表示节点间的点击顺序,当两节点存在边时,代表这两个视频在用户的短视频点击行为序列中相邻,且边的起点为点击行为序列中的前序点,边的终点为序列中的后序点;视频间边的权重为两视频的转移频次。
4.根据权利要求3所述的分类方法,其特征在于,所述转移概率为:
Figure FDA0002345862210000011
其中,vi、vj分别表示短视频vi及vj,N+(vi)为短视频转移图网络中结点vi的相邻结点的集合,Mij为短视频转移图网络中节点vi到节点vj的有向边的权重,当Mij=0时,vi到vj的转移概率为0。
5.根据权利要求1所述的分类方法,其特征在于,利用短视频转移序列替代文本序列,采用Skip-Gram模型生成短视频的低维度向量表示。
6.根据权利要求1所述的分类方法,其特征在于,所述聚类算法为k-means,其最小化损失函数为:
Figure FDA0002345862210000021
其中,k为类别数,Ci为第i个类别,x为类Ci中的短视频节点,μi为类Ci的中心点:
Figure FDA0002345862210000022
7.一种适用于短视频推荐打散的分类系统,其特征在于,包括:
网络构建模块,用于基于用户的历史短视频点击数据构建短视频转移网络;
转移概率计算模块,用于基于所述短视频转移图网络计算短视频间的转移概率;
转移序列模块,用于基于所述短视频转移网络,根据计算的转移概率进行随机游走生成短视频转移序列;
特征表示模块,用于根据所述短视频转移序列进行短视频的表示学习,生成短视频的低维度向量表示;
聚类模块,用于基于所述短视频的低维度向量表示、利用聚类算法为短视频分类。
8.根据权利要求7所述的分类系统,其特征在于,所述网络构建模块包括:
第一生成模块,用于采集用户点击的短视频、相应的点击时间及观看时间,构建历史短视频点击行为序列;
第二生成模块,用于基于所述历史短视频点击行为序列生成短视频转移网络。
9.根据权利要求8所述的分类系统,其特征在于,所述短视频转移网络的节点表示短视频,节点间的边表示节点间的点击顺序,当两节点存在边时,代表这两个视频在用户的短视频点击行为序列中相邻,且边的起点为点击行为序列中的前序点,边的终点为序列中的后序点;视频间边的权重为两视频的转移频次。
10.根据权利要求9所述的分类系统,其特征在于,所述转移概率为:
Figure FDA0002345862210000023
其中,vi、vj分别表示短视频vi及vj,N+(vi)为短视频转移图网络中结点vi的相邻结点的集合,Mij为短视频转移图网络中节点vi到节点vj的有向边的权重,当Mij=0时,vi到vj的转移概率为0。
CN201911394269.1A 2019-12-30 2019-12-30 一种适用于短视频推荐打散的分类方法及系统 Pending CN111160254A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911394269.1A CN111160254A (zh) 2019-12-30 2019-12-30 一种适用于短视频推荐打散的分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911394269.1A CN111160254A (zh) 2019-12-30 2019-12-30 一种适用于短视频推荐打散的分类方法及系统

Publications (1)

Publication Number Publication Date
CN111160254A true CN111160254A (zh) 2020-05-15

Family

ID=70559110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911394269.1A Pending CN111160254A (zh) 2019-12-30 2019-12-30 一种适用于短视频推荐打散的分类方法及系统

Country Status (1)

Country Link
CN (1) CN111160254A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112235603A (zh) * 2020-10-15 2021-01-15 脸萌有限公司 视频分发系统、方法、计算设备以及用户设备
WO2023082993A1 (zh) * 2021-11-11 2023-05-19 北京沃东天骏信息技术有限公司 信息推荐方法、装置和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617609A (zh) * 2013-10-24 2014-03-05 上海交通大学 基于图论的k-means非线性流形聚类与代表点选取方法
CN104918118A (zh) * 2012-10-24 2015-09-16 北京奇虎科技有限公司 基于历史信息的视频推荐方法和装置
CN108629671A (zh) * 2018-05-14 2018-10-09 浙江工业大学 一种融合用户行为信息的餐馆推荐方法
CN109102023A (zh) * 2018-08-14 2018-12-28 阿里巴巴集团控股有限公司 一种分类模型生成方法及装置、一种数据识别方法及装置
CN109783656A (zh) * 2018-12-06 2019-05-21 北京达佳互联信息技术有限公司 音视频数据的推荐方法、系统及服务器和存储介质
CN109902203A (zh) * 2019-01-25 2019-06-18 北京邮电大学 基于边的随机游走的网络表示学习方法和装置
CN110069663A (zh) * 2019-04-29 2019-07-30 厦门美图之家科技有限公司 视频推荐方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104918118A (zh) * 2012-10-24 2015-09-16 北京奇虎科技有限公司 基于历史信息的视频推荐方法和装置
CN103617609A (zh) * 2013-10-24 2014-03-05 上海交通大学 基于图论的k-means非线性流形聚类与代表点选取方法
CN108629671A (zh) * 2018-05-14 2018-10-09 浙江工业大学 一种融合用户行为信息的餐馆推荐方法
CN109102023A (zh) * 2018-08-14 2018-12-28 阿里巴巴集团控股有限公司 一种分类模型生成方法及装置、一种数据识别方法及装置
CN109783656A (zh) * 2018-12-06 2019-05-21 北京达佳互联信息技术有限公司 音视频数据的推荐方法、系统及服务器和存储介质
CN109902203A (zh) * 2019-01-25 2019-06-18 北京邮电大学 基于边的随机游走的网络表示学习方法和装置
CN110069663A (zh) * 2019-04-29 2019-07-30 厦门美图之家科技有限公司 视频推荐方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
尚松涛;石民勇;尚文倩;洪志国;: "基于大数据的微视频推荐算法研究", vol. 24, no. 02, pages 1 - 4 *
李贺;江登英;黄樟灿;王占占: "彩色图像颜色量化问题的求解方法", 计算机应用, no. 009, pages 2646 - 2651 *
贾鹂宇;张朝晖;赵小燕;闫晓炜;: "基于人工智能视频处理的课堂学生状态分析", 现代教育技术, no. 12, pages 83 - 89 *
郭卫东;周锦来;: "基于机器学习的众包业务动态定价", 技术经济, no. 08, pages 126 - 133 *
陈维政;张岩;李晓明;: "网络表示学习", no. 03, pages 1 - 16 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112235603A (zh) * 2020-10-15 2021-01-15 脸萌有限公司 视频分发系统、方法、计算设备以及用户设备
CN112235603B (zh) * 2020-10-15 2022-04-05 脸萌有限公司 视频分发系统、方法、计算设备、用户设备及视频播放方法
US11838576B2 (en) 2020-10-15 2023-12-05 Lemon Inc. Video distribution system, method, computing device and user equipment
WO2023082993A1 (zh) * 2021-11-11 2023-05-19 北京沃东天骏信息技术有限公司 信息推荐方法、装置和系统

Similar Documents

Publication Publication Date Title
CN111897908B (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN112581191B (zh) 行为预测模型的训练方法及装置
CN107491432B (zh) 基于人工智能的低质量文章识别方法及装置、设备及介质
US11521221B2 (en) Predictive modeling with entity representations computed from neural network models simultaneously trained on multiple tasks
CN105279495B (zh) 一种基于深度学习和文本总结的视频描述方法
CN110909205B (zh) 一种视频封面确定方法、装置、电子设备及可读存储介质
CN108416370A (zh) 基于半监督深度学习的图像分类方法、装置和存储介质
CN110134868B (zh) 一种基于用户偏好异构性分析的推荐方法
CN107808011A (zh) 信息的分类抽取方法、装置、计算机设备和存储介质
CN107273295B (zh) 一种基于文本混乱度的软件问题报告分类方法
CN112148881B (zh) 用于输出信息的方法和装置
CN104966105A (zh) 一种鲁棒机器错误检索方法与系统
CN110225001B (zh) 一种基于主题模型的动态自更新网络流量分类方法
CN113297936B (zh) 一种基于局部图卷积网络的排球群体行为识别方法
CN110399895A (zh) 图像识别的方法和装置
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN109686445B (zh) 一种基于自动标签和多模型融合的智能导诊算法
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN108804577B (zh) 一种资讯标签兴趣度的预估方法
CN113962294B (zh) 多类型事件预测模型
CN110704510A (zh) 一种结合用户画像的题目推荐方法及系统
CN112529638B (zh) 基于用户分类和深度学习的服务需求动态预测方法及系统
CN111160254A (zh) 一种适用于短视频推荐打散的分类方法及系统
CN111914159A (zh) 一种信息推荐方法及终端
CN112905897A (zh) 相似用户确定方法、向量转化模型、装置、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination