CN112131430A - 视频聚类方法、装置、存储介质和电子设备 - Google Patents

视频聚类方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN112131430A
CN112131430A CN202011016809.5A CN202011016809A CN112131430A CN 112131430 A CN112131430 A CN 112131430A CN 202011016809 A CN202011016809 A CN 202011016809A CN 112131430 A CN112131430 A CN 112131430A
Authority
CN
China
Prior art keywords
video
video title
title
category
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011016809.5A
Other languages
English (en)
Inventor
费志辉
马连洋
衡阵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011016809.5A priority Critical patent/CN112131430A/zh
Publication of CN112131430A publication Critical patent/CN112131430A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种视频聚类方法、装置、存储介质和电子设备,属于计算机技术领域,涉及人工智能和自然语言处理技术。其中,视频聚类方法包括:获取待聚类的视频数据集中每个视频的视频标题,根据每个视频标题的语义特征对应的特征向量,对视频进行聚类处理,得到多个视频集合。与相关技术中对视频中的多个图像帧进行处理相比,该方法对视频的视频标题进行处理,运算量小,处理速度快,效率高。而且,由于视频标题可以表征视频的内容信息,因此视频标题的特征向量可以准确地表达视频的内容特征,基于视频标题的特征向量,对视频进行聚类处理,可以提高聚类结果的准确度。

Description

视频聚类方法、装置、存储介质和电子设备
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种视频聚类方法、装置、存储介质和电子设备。
背景技术
随着人们精神文化需求的不断增加,各种视频资源不断丰富,例如,创作者每天通过互联网平台发布的短视频可达几十万条。用户在观看视频时,需要在海量的视频资源中查找感兴趣的视频,需要花费大量的时间。
为了便于对海量的视频进行管理,以及减少用户在查找感兴趣的视频时所用的时间,可以对视频进行聚类,为属于同一类别的视频设置相同的类别标签,例如,为一些美食类视频设置“美食”标签,为一些军事类视频设置“军事”标签等。
目前,在对视频进行聚类时,通常先从视频中的抽取关键图像帧,然后根据关键图像帧中的图像特征对视频进行聚类,得到聚类结果。该方法对视频中的多个图像帧进行处理,运算量大,处理过程复杂,效率低。而且在确定关键图像帧及关键图像帧中的图像特征时容易出现错误判定,影响聚类结果的准确度。
发明内容
为解决现有存在的技术问题,本申请实施例提供一种视频聚类方法、装置、存储介质和电子设备,可以提高视频聚类的效率和准确度。
为达到上述目的,本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供了一种视频聚类方法,所述方法包括:
获取待聚类的视频数据集中每个视频的视频标题;
对每个视频标题进行语义特征提取,得到每个视频标题的特征向量;
根据得到的每个视频标题的特征向量,对所述视频数据集中的每个视频进行聚类处理,得到多个视频集合;每个视频集合中的视频属于同一类别。
第二方面,本申请实施例还提供了一种视频聚类装置,所述装置包括:
标题获取单元,用于获取待聚类的视频数据集中每个视频的视频标题;
特征提取单元,用于对每个视频标题进行语义特征提取,得到每个视频标题的特征向量;
视频聚类单元,用于根据得到的每个视频标题的特征向量,对所述视频数据集中的每个视频进行聚类处理,得到多个视频集合;每个视频集合中的视频属于同一类别。
在一种可选的实施例中,所述特征提取单元,具体用于:
将每个视频标题分别输入已训练的语义特征提取模型,得到每个视频标题的特征向量;所述语义特征提取模型是采用已标注类别标签的视频标题样本作为训练数据进行训练得到的。
在一种可选的实施例中,所述装置还包括模型训练单元,用于:
获取训练数据集,所述训练数据集中包括多个视频标题样本,每个视频标题样本均具有对应的类别标签,所述类别标签用于标识所述视频标题样本对应的视频所属的类别;
从训练数据集中抽取视频标题样本;
将抽取的视频标题样本输入待训练的语义特征提取模型,得到视频标题样本的特征向量;
将视频标题样本的特征向量输入分类网络,得到所述分类网络输出的视频标题样本的类别预测结果;
根据视频标题样本的类别预测结果与视频标题样本的类别标签,确定损失值;
根据确定的损失值调整待训练的语义特征提取模型和分类网络的网络参数,直至所述损失值收敛为止,将调整网络参数后的语义特征提取模型作为已训练的语义特征提取模型。
在一种可选的实施例中,所述待训练的语义特征提取模型为经过预训练的BERT模型或Word2vec模型。
在一种可选的实施例中,每个视频标题样本具有多个类别标签,所述分类网络为多分类网络;所述模型训练单元,具体用于:
将视频标题样本的特征向量输入多分类网络,得到视频标题样本对应于每个预设类别的预测概率;
将大于或等于设定阈值的预测概率及对应的预设类别作为视频标题样本的类别预测结果。
在一种可选的实施例中,每个视频标题样本具有一个类别标签,所述分类网络为二分类网络;所述模型训练单元,具体用于:
将视频标题样本的特征向量输入二分类网络,得到视频标题样本对应于每个预设类别的预测概率;
将预测概率的最大值及对应的预设类别作为视频标题样本的类别预测结果。
第三方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现第一方面的视频聚类方法。
第四方面,本申请实施例还提供了一种电子设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现第一方面的视频聚类方法。
本申请实施例提供的视频聚类方法、装置、存储介质和电子设备,获取待聚类的视频数据集中每个视频的视频标题,根据每个视频标题的语义特征对应的特征向量,对视频进行聚类处理,得到多个视频集合。与相关技术中对视频中的多个图像帧进行处理相比,本申请实施例提供的方法对视频的视频标题进行处理,运算量小,处理速度快,效率高。而且,由于视频标题可以表征视频的内容信息,因此视频标题的特征向量可以准确地表达视频的内容特征,基于视频标题的特征向量,对视频进行聚类处理,可以提高聚类结果的准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种视频聚类方法的应用场景的示意图;
图2为本申请实施例提供的一种视频聚类方法的流程图;
图3为本申请实施例提供的一种语义特征提取模型的训练方法的流程图;
图4为本申请实施例提供的一种语义特征提取模型的结构示意图;
图5为本申请实施例提供的一种语义特征提取模型的内部结构示意图;
图6为本申请实施例提供的一种语义特征提取的过程示意图;
图7为本申请实施例提供的一种视频推荐的界面示意图;
图8为本申请实施例提供的一种视频聚类装置的结构示意图;
图9为本申请实施例提供的另一种视频聚类装置的结构示意图;
图10为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
需要说明的是,本申请的文件中涉及的术语“包括”和“具有”以及它们的变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
(1)短视频:是互联网内容传播方式的一种,指可以通过客户端播放的、适合在移动状态或短时休闲状态下观看的、高频推送的视频内容,由于内容较短,可以单独成片,也可以成为系列栏目。一般利用新媒体平台进行视频直播的主播,也会向该新媒体平台的服务器发送自己录制的短视频,分享给用户观看。
(2)BERT(Bidirectional Encoder Representations from Transformers,Transformer的双向编码器表示)模型:一种基于多层Transformer模型的自然语言处理模型,具有编码器-解码器的架构,可以用于文本生成、命名实体识别、自然语言推理、文本分类等多种自然语言处理任务。
(3)Word2vec模型:一种从大量文本语料中以无监督的方式学习语义知识的自然语言处理模型,通过学习文本来用词向量的方式表征词的语义信息,即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。
(4)K-means聚类:一种聚类算法,可以根据特征向量之间的距离、相似性或亲疏性,将相似度高、差异性小的特征向量聚成一个聚类,得到由不同特征向量汇聚成的多个聚类。同一个聚类内部的特征向量相似度高,不同聚类的特征向量之间的差异性高。每个聚类的聚类中心为属于该聚类的各个特征向量取平均得到的均值向量,因此,K-means聚类算法也称为K-平均聚类算法或者K-均值聚类算法。
下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
文中的术语“第一”、“第二”仅用于描述目的,而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征,在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本申请实施例涉及人工智能(Artificial Intelligence,AI)和机器学习技术,基于人工智能中的自然语言处理技术和机器学习(Machine Learning,ML)而设计。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。本申请实施例在视频标题的语义特征提取过程中,采用基于机器学习或深度学习的语义特征提取模型对具有类别标签的视频标题样本进行学习,从而可以提取输入的视频标题的语义特征的特征向量。
自然语言处理技术,是计算机科学领域与人工智能领域中的一个重要方向。其研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本生成、文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请实施例采用自然语言处理技术中的语义理解技术,对各个视频的视频标题进行语义理解,并基于得到的可以表征视频标题的语义特征的特征向量,对视频数据集中的每个视频进行聚类处理,得到多个视频集合。
为更好地理解本申请实施例提供的技术方案,下面对本申请实施例提供的技术方案适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
本申请实施例所提供的视频聚类方法可以应用于图1示出的一种应用场景中,参见图1所示,服务器100通过网络200与终端设备300进行通信连接,其中,网络200可以是但不限于局域网、城域网或广域网等,与服务器100连接的终端设备300的数量可以是多个。终端设备300可以通过网络200和服务器100相互传输通信数据和消息。终端设备300可以是便携设备(例如:手机、平板电脑、笔记本电脑等),也可以是计算机、智能屏或个人电脑(PC,Personal Computer)等。服务器100可以是一台服务器或由若干台服务器组成的服务器集群或云计算中心,或者是一个虚拟化平台,也可以是个人计算机、大中型计算机或计算机集群等。根据实现需要,本申请实施例中的应用场景中可以具有任意数目的终端设备和服务器。本申请对此不做特殊限定。
终端设备300通过摄像头拍摄视频,或者通过如网络下载等其它途径获取视频。例如,终端设备300上安装有视频发布客户端,该视频发布客户端对应的视频发布平台位于服务器100上。用户使用终端设备300拍摄视频后,终端设备300通过视频发布客户端将拍摄的视频发送至服务器100,服务器100可以将接收到的各个终端设备发送的视频发布到视频发布平台上,以使其他用户可以通过登录视频发布平台观看发布的视频。服务器100还可以对即将发布的视频或已经发布到视频发布平台的视频进行聚类处理,为各个视频设置类别标签。
由于视频是一种高度非结构化的数据,并且数量巨大,增速很快,仅靠人工很难完成为其设置类别标签的工作。
相关技术中,在对视频进行聚类处理时,通常是利用视频的内容特征,首先抽取视频中的关键图像帧,然后采用无监督训练得到的网络模型抽取关键图像帧的图像特征,根据关键图像帧中的图像特征对视频进行聚类,得到聚类结果。该方法对视频中的多个图像帧进行处理,运算量大,处理过程复杂,效率低。而且,由于采用无监督训练得到的网络模型抽取关键图像帧的图像特征,网络模型输出的图像特征过于抽象,最终得到的聚类结果往往并不准确,无法达到预期的视频分类效果。
为了提高视频聚类的效率和准确度,本申请实施例提供一种视频聚类方法,该方法对每个视频的视频标题进行语义特征提取,得到每个视频标题的特征向量,根据得到的每个视频标题的特征向量,对多个视频进行聚类处理,得到多个视频集合。与相关技术中对视频中的多个图像帧进行处理相比,本申请实施例提供的方法对视频的视频标题进行处理,运算量小,处理速度快,效率高。而且,由于视频标题可以表征视频的内容信息,因此视频标题的特征向量可以准确地表达视频的内容特征,基于视频标题的特征向量,对视频进行聚类处理,可以提高聚类结果的准确度。
需要说明的是,本申请实施例提供的视频聚类方法可以由服务器100执行,也可以由终端设备300和服务器100协作执行。
以下结合附图和具体实施方式详细介绍本申请实施例提供的视频聚类方法。需要说明的是,附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图2示出了本申请实施例提供的一种视频聚类方法的流程图,该方法可以由图1中的服务器100执行,也可以由终端设备或其它电子设备执行。示例性地,下文以用于视频聚类的服务器作为执行主体,说明本申请实施例的视频聚类方法的具体实现过程。其它设备执行的具体实施过程与服务器单独执行的过程类似,本文中不再赘述。
如图2所示,该视频聚类方法包括如下步骤:
步骤S201,获取待聚类的视频数据集中每个视频的视频标题。
其中,待聚类的视频数据集中可以包括即将发布到视频发布平台的视频,也可以包括已经发布到视频发布平台的视频。视频数据集中的视频可以是终端设备发送至服务器的,也可以是服务器从其它平台的服务器上获取的。视频数据集中的每个视频均具有视频标题。
例如,用户可以在终端设备中用相机拍摄短视频,然后将拍摄的短视频上传到服务器。用户可以在将短视频上传到服务器之前,为短视频设置视频标题。或者,可以在短视频上传到服务器之后,由工作人员为短视频设置视频标题。
可选地,服务器可以定期对发布到视频发布平台的视频进行聚类处理,这些视频可以是用户通过终端设备上传的短视频,也可以是其它视频发行者发布的系列视频,如电视剧或其它视频等。服务器将待聚类的视频组成视频数据集,并获取视频数据集中每个视频的视频标题。
步骤S202,对每个视频标题进行语义特征提取,得到每个视频标题的特征向量。
示例性地,可以将获取的每个视频标题分别输入到已训练的语义特征提取模型中,得到每个视频标题的特征向量。如图4所示,语义特征提取模型的网络结构可以包括输入层、隐藏层和输出层。对于任意一个视频标题,对该视频标题进行分词处理后,将得到的各个分词E1~En输入语义特征提取模型的输入层,通过隐藏层对各个分词进行处理,得到各个分词分别对应的词向量T1~Tn,输出层根据各个分词对应的词向量得到该视频标题对应的句向量,该句向量可以作为该视频标题的特征向量。
其中,语义特征提取模型是采用具有类别标签的视频标题样本作为训练数据进行训练得到的。语义特征提取模型的训练过程将在下文中详细介绍。
在一些实施例中,服务器可以采用BERT模型作为语义特征提取模型,对视频标题进行语义特征提取,得到视频标题的特征向量。
BERT模型的隐藏层可以包括一个或多个Transformer模型结构。Transformer模型结构可以如图5所示,包括加膜多头注意力层(Mask Multi-Head Attention)和前馈网络层(Feed Forward),Transformer模型可以使用某个分词的上文中的分词来预测该分词,加膜多头注意力层用于对该分词的下文中的分词进行遮挡,防止下文信息泄露。加膜多头注意力层和前馈网络层之后均连接有数据归一化层,用于对数据进行归一化处理,然后再输入到下一层网络。对每个网络层输出的数据进行归一化处理,有利于加快模型的训练速度并提高模型的训练效果。
例如,在一种实施例中,BERT模型由12层Transformer Encoder(Transformer编码器,或称为Transformer模型)组成。首先在视频标题的头部位置插入[CLS]标识符,然后将插入标识符后的视频标题输入到具有12层Transformer编码器的BERT模型中,得到视频标题的特征向量。
在另一些实施例中,服务器可以采用Word2vec模型作为语义特征提取模型,对视频标题进行语义特征提取,得到视频标题的特征向量。具体地说,Word2Vec模型可以基于分词所在的上下文语境确定对该分词进行向量化表示。可以采用Word2Vec模型确定视频标题中的各个分词的词向量,并基于各个分词的词向量确定视频标题的特征向量。
步骤S203,根据得到的每个视频标题的特征向量,对视频数据集中的每个视频进行聚类处理,得到多个视频集合。
在得到每个视频标题的特征向量后,可以对视频数据集中的每个视频进行聚类处理,得到聚类结果,即得到多个视频集合。每个视频集合中的视频属于同一类别。
本申请实施例提供的视频聚类方法,获取待聚类的视频数据集中每个视频的视频标题,根据每个视频标题的语义特征对应的特征向量,对视频进行聚类处理,得到多个视频集合。与相关技术中对视频中的多个图像帧进行处理相比,本申请实施例提供的方法对视频的视频标题进行处理,运算量小,处理速度快,效率高。
在上述实施例中,仅是将视频标题输入语义特征提取模型,采用视频标题的特征向量表征视频的内容信息,与将视频标题和视频已有的类别标签均输入语义特征提取模型,采用视频标题和视频已有的类别标签共同确定的特征向量表征视频的内容信息相比,基于视频标题的特征向量对视频进行聚类处理,依据该聚类结果为视频设置的类别标签与视频已有的类别标签的重复率较低,有利于挖掘出很多有价值的新类别。
例如,假设视频原有的分类已经包括“时事”、“美食”、“运动”、“旅游”等类别,即视频已有的类别标签中已包括上述几种类别。如果将每个视频的视频标题和视频已有的类别标签均输入语义特征提取模型,基于得到的由视频标题和视频已有的类别标签共同确定的特征向量,对视频进行聚类,得到的多个视频集合中,很有可能还是包括“时事”、“美食”、“运动”、“旅游”等几种类别,导致生成的聚类结果与视频已有的类别标签产生大面积重复,依据该聚类结果为视频设置的类别标签与视频已有的类别标签的重复率会较高,聚类结果可能不可用。
而采用本申请实施例提供的视频聚类方法,仅将每个视频的视频标题输入语义特征提取模型,基于得到的视频标题的特征向量,对视频进行聚类,得到的多个视频集合中,会包含更多的新类别,依据该聚类结果为视频设置的类别标签与视频已有的类别标签的重复率会较低,聚类结果会更加丰富。
在一些实施例中,上述步骤S203中,可以采用K-means聚类算法对视频标题的特征向量进行聚类,并依据特征向量的聚类结果对视频进行聚类。
示例性地,在得到每个视频标题的特征向量后,可以从各个视频标题的特征向量中,选取预设数量的特征向量作为初始聚类中心,并将每个视频标题的特征向量与距离最近的初始聚类中心划分至同一聚类,重复执行根据每个聚类中的特征向量确定每个聚类的聚类中心,以及将每个视频标题的特征向量与距离最近的聚类中心划分至同一聚类的步骤,直至得到的每个聚类中心的变化幅度在期望幅度内,得到多个聚类,然后将每个聚类中的视频标题的特征向量对应的视频划分至同一视频集合,从而得到多个视频集合。
具体地说,可以先确定视频数据集经过聚类处理后得到的视频集合的数量,例如,得到的视频集合的数量可以预设为K。从得到的所有视频标题的特征向量中选取K个特征向量作为初始聚类中心,分别计算每个视频标题的特征向量与各个初始聚类中心的距离,将每个视频标题的特征向量与距离最近的初始聚类中心划分至同一聚类,得到K个聚类。对于K个聚类中的每个聚类,计算聚类中的所有特征向量的均值向量,将得到的均值向量作为该聚类的新的聚类中心,如果得到的新的聚类中心与原聚类中心之间的距离小于或等于设定的距离值,结束聚类处理,得到多个聚类。将每个聚类中的视频标题的特征向量对应的视频划分至同一视频集合,得到多个视频集合。
在一些实施例中,在得到多个视频集合之后,可以基于得到的视频集合为每个视频设置类别标签。具体地说,可以根据接收到的针对多个视频集合中的指定视频集合输入的类别信息,为指定视频集合中的每个视频标注相同的类别标签。
例如,可以将视频的聚类结果展示给用户,用户观看某个视频集合中的部分或全部视频后,可以确定该视频集合对应的视频类别,输入针对该视频集合的类别信息,如某个视频集合中的全部视频均涉及军事,则用户可以确定该视频集合对应的视频类别为“军事”,在该视频集合的类别信息采集处填入“军事”。服务器根据接收到的针对该视频集合输入的类别信息“军事”,为该视频集合中的每个视频均标注类别标签“军事”。
在一些实施例中,在为视频标注好类别标签后,可以根据标注的类别标签为用户推荐视频。
具体地说,可以获取目标用户的特征信息,并根据目标用户的特征信息确定目标类别标签,选择标注有目标类别标签的视频,作为向目标用户推荐的目标视频。
在一种实施例中,目标用户的特征信息可以是目标用户观看的视频的相关信息,目标用户观看的视频的相关信息可以体现目标用户感兴趣的视频类型。例如,可以获取到目标用户正在观看的当前视频的信息,确定该当前视频所具有的类别标签,从待选视频中选取与该当前视频的类别标签相同的视频,将选取的视频推荐给目标用户。或者,可以获取到目标用户的历史播放记录中记录的历史视频的信息,根据在历史视频中出现次数最多的类别标签或曾出现过的类别标签,从待选视频中选取相应的视频,将选取的视频推荐给目标用户。
在一种实施例中,目标用户的特征信息可以是目标用户的年龄、性别等信息,根据目标用户的年龄、性别等信息可以确定目标用户所属的用户群组,根据记录的该用户群组的爱好确定目标类别标签,选取标注有目标类别标签的视频,将选取的视频推荐给目标用户。
例如,如图7所示,终端设备上安装有视频播放客户端,用户在通过视频播放客户端观看视频发布平台上的视频时,服务器可以根据用户的特征信息,基于视频对应的类别标签,向用户推荐视频,将所推荐的视频发送至用户的终端设备,终端设备可以在显示界面中视频播放区域的下方显示向用户推荐的视频。用户在对推荐的视频感兴趣时,可以直接点击推荐的视频进行观看。在部分实施例中,也可以在用户打开视频播放客户端时,在首页显示根据用户的特征信息为用户推荐的视频。
通过上述方法,可以将相似的视频推送给相同或者相似的用户,甚至构建用户兴趣图谱、根据兴趣图谱挖掘和探索用户的兴趣点,根据用户的兴趣点将用户感兴趣的视频推荐给用户,有利于提高用户观看视频的体验,增加用户观看视频的时长。
上述实施例所使用的语义特征提取模型的训练过程可以如图3所示,该语义特征提取模型的训练方法可以由服务器执行,也可以由终端设备执行。本实施例以服务器执行该训练方法为例进行说明。
如图3所示,该语义特征提取模型的训练方法,可以包括如下步骤:
步骤S301,获取训练数据集。
获取到的训练数据集中可以包括多个视频标题样本,每个视频标题样本均标注有对应的类别标签,该类别标签用于标识视频标题样本对应的视频所属的类别。其中,视频标题样本可以来自于已发布的视频,由于已发布的视频已具有类别标签,视频标题样本的类别标签可以根据其对应的视频所具有的类别标签确定,因此每个视频标题样本均标注有对应的类别标签。例如,一些视频标题样本标注有类别标签“美食”,一些视频标题样本标注有类别标签“运动”等。
步骤S302,从训练数据集中抽取视频标题样本。
可以预先获取训练数据集,对模型进行训练时,从训练数据集中抽取视频标题样本作为训练样本数据。
步骤S303,将抽取的视频标题样本输入到待训练的语义特征提取模型中,得到视频标题样本的特征向量。
在一些实施例中,待训练的语义特征提取模型可以是已经经过预训练的Word2vec模型或BERT模型。例如,可以采用大规模(样本数据量很大)的中文数据集对Word2vec模型或BERT模型进行预训练,得到预训练的Word2vec模型或BERT模型,经过预训练的Word2vec模型或BERT模型具有较强地提取句子语义信息的能力。再次基础上,仅需采用由视频样本数据组成的训练数据集对经过预训练的Word2vec模型或BERT模型的网络参数进行微调,即可使其能够应用于本申请实施例的视频聚类场景,准确地提取视频标题的语义特征。
将视频标题样本输入待训练的语义特征提取模型,得到待训练的语义特征提取模型输出的视频标题样本的特征向量。
步骤S304,将视频标题样本的特征向量输入分类网络,得到分类网络输出的视频标题样本的预测类别。
在本申请实施例中,以分类网络作为辅助对语义特征提取模型进行训练。在实际应用中,仅使用训练好的语义特征提取模型对输入的视频标题进行语义特征提取,不再使用分类网络。可选地,分类网络的结构可以包括池化层和全连接层。将视频标题样本的特征向量输入至池化层,池化层用于对输入的特征向量进行降维处理,并将降维后的特征向量输入全连接层。全连接层用于对输入的特征向量进行拼接,并根据拼接后的特征向量输出视频标题样本的预测类别。
在一些实施例中,每个视频标题样本可以具有一个类别标签,分类网络可以采用二分类网络,例如SVM分类器或Softmax分类器。将视频标题样本的特征向量输入二分类网络,得到视频标题样本对应于每个预设类别的预测概率,将预测概率的最大值及对应的预设类别作为视频标题样本的类别预测结果。
考虑到同一个视频可能会属于多个不同的类别,具有多个类别标签。在另一些实施例中,每个视频标题样本可以具有多个类别标签,分类网络可以采用多分类网络,如Softmax分类器。其中,Softmax分类器既可用于二分类,也可用于多分类。将视频标题样本的特征向量输入多分类网络,得到视频标题样本对应于每个预设类别的预测概率,将大于或等于设定阈值的预测概率及对应的预设类别作为视频标题样本的类别预测结果。
以待训练的语义特征提取模型为BERT模型为例,如图6所示,首先在抽取的视频标题样本的头部位置插入[CLS]标识符,如在视频标题“美食之旅来到XXXX,正宗XXXX真的很好吃”的头部位置插入[CLS]标识符,然后将插入标识符后的视频标题样本进行分词后输入到具有12层Transformer解码器的BERT模型中,BERT模型的最上层(第12层Transformer)输出视频标题样本的特征向量。通过分类网络将视频标题样本的特征向量进行多标签分类,得到“美食探店”、“美食文化”、“XXXX”等分类标签,作为类别预测结果。
步骤S305,根据视频标题样本的预测类别与视频标题样本的类别标签,确定损失值。
计算损失值时,可以采用预设的损失函数计算损失值,损失函数可以采用交叉熵损失函数,例如Sigmoid函数。使用的损失函数还可以是但不限于多分类交叉熵损失函数、与度量学习相关的对比损失函数(contrastive Loss)或三元组损失函数(triplet Loss)等。通常,损失值是判定实际的输出与期望的输出的接近程度。损失值越小,说明实际的输出越接近期望的输出。
步骤S306,确定损失值是否收敛至预设的目标值;如果否,执行步骤S307;如果是,执行步骤S308。
判断损失值是否收敛至预设的目标值,如果损失值小于或等于预设的目标值,或者,连续N次训练得到的损失值的变化幅度小于或等于预设的目标值时,认为损失值已收敛至预设的目标值,说明损失值收敛;否则,说明损失值尚未收敛。
步骤S307,根据确定的损失值对待训练的语义特征提取模型的参数进行调整。
如果损失值未收敛,则对模型参数进行调整,调整模型参数后,返回执行步骤S302,继续下一轮的训练过程。
步骤S308,结束训练得到已训练的语义特征提取模型。
如果损失值收敛,则将当前得到的语义特征提取模型作为已训练的语义特征提取模型。
在一种实施例中,在上述步骤S307中,调整模型参数时,可以将语义特征提取模型和分类网络的参数同时进行调整,即根据损失值对待训练的语义特征提取模型和分类网络的参数进行调整,直至损失值收敛至预设的目标值为止,将得到的语义特征提取模型作为已训练的语义特征提取模型。
使用分类网络作为辅助训练模型对语义特征提取模型进行训练时,也可以预先将分类网络训练好,在上述步骤S307中,调整模型参数时,可以只调整语义特征提取模型的参数,直至损失值收敛至预设的目标值为止,将得到的语义特征提取模型作为已训练的语义特征提取模型。
由于视频已有的类别标签少部分为工作人员根据视频内容人工标注,大部分为视频理解模型自动对视频内容进行标注,所以视频已有的类别标签能够在很大程度上表征视频的内容信息。上述训练过程中,使用视频已有的类别标签作为语义特征提取模型的训练目标,可以使语义特征提取模型在对视频标题样本进行学习时,可以学习到更多的视频内容特征。通过上述训练过程得到的语义特征提取模型,能够更好地表达视频内容特征,根据视频标题将视频向量化的结果更丰富,在进行聚类过程中较好地利用其丰富性,可以时得到的聚类结果更能符合预期。
同时,本申请实施例避免在实际应用中直接使用视频已有的类别标签,仅是在训练语义特征提取模型时采用视频已有的类别标签对模型的训练效果进行监督。在实际应用中,使用训练得到的语义特征提取模型提取视频标题的特征向量,采用视频标题的特征向量来表征视频,即从标题维度和内容维度均对视频信息进行了抽取。由于在视频聚类过程中并没有显式的利用视频已有的标签信息,所以聚类结果与显式利用视频标签信息的聚类结果具有明显差异,聚出的类别更加倾向于基于原始标题信息的聚类,所以聚类结果与现有标签体系(视频已有的类别标签)具有一个较好的差异性。基于本申请实施例提供的视频聚类方法得到的聚类结果,能够挖掘出更多的视频兴趣点、热门话题或者新的类别,促进信息流平台的视频分类和标签体系建设。
例如,在一种具体实施例中,服务器获取的待聚类的视频数据集中包括30000个短视频及其视频标题,其中的6个短视频分别为P1,P2,P3,P4,P5,P6。短视频P1的视频标题是“今天我们来到XX店,这家的XXXX特别好吃”,短视频P2的视频标题是“在XX赛事中,XXX在田径项目中取得第一名”,短视频P3的视频标题是“周末休息,来到了XXXX,XXXX的风景真美丽”,短视频P4的视频标题是“XXXXX店的XXX非常出名,今天也来尝尝”,短视频P5的视频标题是“今天跑了XX公里,消耗了XX卡路里”,短视频P6的视频标题是“在XXX这里,可以吹海风,晒日光浴”。服务器分别将每个短视频的视频标题输入语义特征提取模型,得到每个视频标题的特征向量,共得到30000个特征向量。根据30000个特征向量之间的距离,对30000个特征向量进行聚类处理,可以预先设定聚类的数量为10个,通过上文中记载的聚类方法,可以将30000个特征向量划分至10个聚类中。依据特征向量的聚类结果,将每个聚类中的特征向量对应的视频划分至同一视频集合,共得到10个视频集合。经过聚类处理后,可以得到,上述短视频P1和短视频P4被划分到同一视频集合中,其所属的视频集合的类别标签可以设置为“美食”,上述短视频P2和短视频P5被划分到同一视频集合中,其所属的视频集合的类别标签可以设置为“运动”,上述短视频P3和短视频P6被划分到同一视频集合中,其所属的视频集合的类别标签可以设置为“旅游”。
与图2所示的视频聚类方法基于同一发明构思,本申请实施例中还提供了一种视频聚类装置,该视频聚类装置可以布设在服务器或终端设备中。由于该装置是本申请视频聚类方法对应的装置,并且该装置解决问题的原理与该方法相似,因此该装置的实施可以参见上述方法的实施,重复之处不再赘述。
图8示出了本申请实施例提供的一种视频聚类装置的结构示意图,如图8所示,该视频聚类装置包括标题获取单元801、特征提取单元802和视频聚类单元803。
其中,标题获取单元801,用于获取待聚类的视频数据集中每个视频的视频标题;
特征提取单元802,用于对每个视频标题进行语义特征提取,得到每个视频标题的特征向量;
视频聚类单元803,用于根据得到的每个视频标题的特征向量,对视频数据集中的每个视频进行聚类处理,得到多个视频集合;每个视频集合中的视频属于同一类别。
在一种可选的实施例中,特征提取单元802,具体用于:
将每个视频标题分别输入已训练的语义特征提取模型,得到每个视频标题的特征向量。
在一种可选的实施例中,视频聚类单元803,具体用于:
从各个视频标题的特征向量中,选取预设数量的特征向量作为初始聚类中心,并将每个视频标题的特征向量与距离最近的初始聚类中心划分至同一聚类;
重复执行根据每个聚类中的特征向量确定每个聚类的聚类中心,以及将每个视频标题的特征向量与距离最近的聚类中心划分至同一聚类的步骤,直至得到的每个聚类中心的变化幅度在期望幅度内,得到多个聚类;
将每个聚类中的视频标题的特征向量对应的视频划分至同一视频集合,得到多个视频集合。
在一种可选的实施例中,如图9所示,上述视频聚类装置还可以包括模型训练单元901、标签标注单元902和视频推荐单元903。
其中,模型训练单元901,用于获取训练数据集,训练数据集中包括多个视频标题样本,每个视频标题样本均具有对应的类别标签,类别标签用于标识视频标题样本对应的视频所属的类别;从训练数据集中抽取视频标题样本;将抽取的视频标题样本输入待训练的语义特征提取模型,得到视频标题样本的特征向量;将视频标题样本的特征向量输入分类网络,得到分类网络输出的视频标题样本的类别预测结果;根据视频标题样本的类别预测结果与视频标题样本的类别标签,确定损失值;根据确定的损失值调整待训练的语义特征提取模型和分类网络的网络参数,直至损失值收敛为止,将调整网络参数后的语义特征提取模型作为已训练的语义特征提取模型;
标签标注单元902,用于根据接收到的针对多个视频集合中的指定视频集合输入的类别信息,为指定视频集合中的每个视频标注相同的类别标签;
视频推荐单元903,用于获取目标用户的特征信息,并根据目标用户的特征信息确定目标类别标签;选择标注有目标类别标签的视频,作为向目标用户推荐的目标视频。
在一种可选的实施例中,每个视频标题样本具有多个类别标签,所述分类网络为多分类网络;模型训练单元901,具体用于:
将视频标题样本的特征向量输入多分类网络,得到视频标题样本对应于每个预设类别的预测概率;
将大于或等于设定阈值的预测概率及对应的预设类别作为视频标题样本的类别预测结果。
在一种可选的实施例中,每个视频标题样本具有一个类别标签,分类网络为二分类网络;模型训练单元901,具体用于:
将视频标题样本的特征向量输入二分类网络,得到视频标题样本对应于每个预设类别的预测概率;
将预测概率的最大值及对应的预设类别作为视频标题样本的类别预测结果。
在一种可选的实施例中,待训练的语义特征提取模型为经过预训练的BERT模型或Word2vec模型。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种电子设备。该电子设备可以用于视频聚类。在一种实施例中,该电子设备可以是服务器,也可以是终端设备或其他电子设备。在该实施例中,电子设备的结构可以如图10所示,包括存储器101,通讯模块103以及一个或多个处理器102。
存储器101,用于存储处理器102执行的计算机程序。存储器101可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器101可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器101也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器101是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器101可以是上述存储器的组合。
处理器102,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器102,用于调用存储器101中存储的计算机程序时实现上述视频聚类方法。
通讯模块103用于与终端设备和其他电子设备进行通信。如果电子设备为服务器,则服务器可以通过通讯模块103接收终端设备发送的视频,或者通过通讯模块103从其他服务器拉取视频。
本申请实施例中不限定上述存储器101、通讯模块103和处理器102之间的具体连接介质。本公开实施例在图10中以存储器101和处理器102之间通过总线104连接,总线104在图10中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线104可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中的测试用例生成方法。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (15)

1.一种视频聚类方法,其特征在于,包括:
获取待聚类的视频数据集中每个视频的视频标题;
对每个视频标题进行语义特征提取,得到每个视频标题的特征向量;
根据得到的每个视频标题的特征向量,对所述视频数据集中的每个视频进行聚类处理,得到多个视频集合;每个视频集合中的视频属于同一类别。
2.根据权利要求1所述的方法,其特征在于,所述根据得到的每个视频标题的特征向量,对所述视频数据集中的每个视频进行聚类处理,得到多个视频集合之后,所述方法还包括:
根据接收到的针对所述多个视频集合中的指定视频集合输入的类别信息,为所述指定视频集合中的每个视频标注相同的类别标签。
3.根据权利要求2所述的方法,其特征在于,所述根据接收到的针对所述多个视频集合中的指定视频集合输入的类别信息,为所述指定视频集合中的每个视频标注相同的类别标签之后,所述方法还包括:
获取目标用户的特征信息,并根据所述目标用户的特征信息确定目标类别标签;
选择标注有所述目标类别标签的视频,作为向所述目标用户推荐的目标视频。
4.根据权利要求1所述的方法,其特征在于,对每个视频标题进行语义特征提取,得到每个视频标题的特征向量;包括:
将每个视频标题分别输入已训练的语义特征提取模型,得到每个视频标题的特征向量;所述语义特征提取模型是采用已标注类别标签的视频标题样本作为训练数据进行训练得到的。
5.根据权利要求4所述的方法,其特征在于,所述语义特征提取模型的训练过程包括:
获取训练数据集,所述训练数据集中包括多个视频标题样本,每个视频标题样本均具有对应的类别标签,所述类别标签用于标识所述视频标题样本对应的视频所属的类别;
从训练数据集中抽取视频标题样本;
将抽取的视频标题样本输入待训练的语义特征提取模型,得到视频标题样本的特征向量;
将视频标题样本的特征向量输入分类网络,得到所述分类网络输出的视频标题样本的类别预测结果;
根据视频标题样本的类别预测结果与视频标题样本的类别标签,确定损失值;
根据确定的损失值调整待训练的语义特征提取模型和分类网络的网络参数,直至所述损失值收敛为止,将调整网络参数后的语义特征提取模型作为已训练的语义特征提取模型。
6.根据权利要求5所述的方法,其特征在于,所述待训练的语义特征提取模型为经过预训练的BERT模型或Word2vec模型。
7.根据权利要求5所述的方法,其特征在于,每个视频标题样本具有多个类别标签,所述分类网络为多分类网络;所述将视频标题样本的特征向量输入分类网络,得到所述分类网络输出的视频标题样本的类别预测结果,包括:
将视频标题样本的特征向量输入多分类网络,得到视频标题样本对应于每个预设类别的预测概率;
将大于或等于设定阈值的预测概率及对应的预设类别作为视频标题样本的类别预测结果。
8.根据权利要求5所述的方法,其特征在于,每个视频标题样本具有一个类别标签,所述分类网络为二分类网络;所述将视频标题样本的特征向量输入分类网络,得到所述分类网络输出的视频标题样本的类别预测结果,包括:
将视频标题样本的特征向量输入二分类网络,得到视频标题样本对应于每个预设类别的预测概率;
将预测概率的最大值及对应的预设类别作为视频标题样本的类别预测结果。
9.根据权利要求1所述的方法,其特征在于,根据得到的每个视频标题的特征向量,对所述视频数据集中的每个视频进行聚类处理,得到多个视频集合,包括:
从各个视频标题的特征向量中,选取预设数量的特征向量作为初始聚类中心,并将每个视频标题的特征向量与距离最近的初始聚类中心划分至同一聚类;
重复执行根据每个聚类中的特征向量确定每个聚类的聚类中心,以及将每个视频标题的特征向量与距离最近的聚类中心划分至同一聚类的步骤,直至得到的每个聚类中心的变化幅度在期望幅度内,得到多个聚类;
将每个聚类中的视频标题的特征向量对应的视频划分至同一视频集合,得到多个视频集合。
10.一种视频聚类装置,其特征在于,包括:
标题获取单元,用于获取待聚类的视频数据集中每个视频的视频标题;
特征提取单元,用于对每个视频标题进行语义特征提取,得到每个视频标题的特征向量;
视频聚类单元,用于根据得到的每个视频标题的特征向量,对所述视频数据集中的每个视频进行聚类处理,得到多个视频集合;每个视频集合中的视频属于同一类别。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
标签标注单元,用于根据接收到的针对所述多个视频集合中的指定视频集合输入的类别信息,为所述指定视频集合中的每个视频标注相同的类别标签。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
视频推荐单元,用于获取目标用户的特征信息,并根据所述目标用户的特征信息确定目标类别标签;选择标注有所述目标类别标签的视频,作为向所述目标用户推荐的目标视频。
13.根据权利要求10所述的装置,其特征在于,所述特征提取单元,具体用于:
将每个视频标题分别输入已训练的语义特征提取模型,得到每个视频标题的特征向量;所述语义特征提取模型是采用已标注类别标签的视频标题样本作为训练数据进行训练得到的。
14.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,其特征在于:所述计算机程序被处理器执行时,实现权利要求1~9中任一项所述的方法。
15.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,实现权利要求1~9中任一项所述的方法。
CN202011016809.5A 2020-09-24 2020-09-24 视频聚类方法、装置、存储介质和电子设备 Pending CN112131430A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011016809.5A CN112131430A (zh) 2020-09-24 2020-09-24 视频聚类方法、装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011016809.5A CN112131430A (zh) 2020-09-24 2020-09-24 视频聚类方法、装置、存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN112131430A true CN112131430A (zh) 2020-12-25

Family

ID=73839728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011016809.5A Pending CN112131430A (zh) 2020-09-24 2020-09-24 视频聚类方法、装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN112131430A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113395594A (zh) * 2021-01-20 2021-09-14 腾讯科技(深圳)有限公司 一种视频处理方法、装置、设备以及介质
CN113762132A (zh) * 2021-09-01 2021-12-07 国网浙江省电力有限公司金华供电公司 一种无人机巡检图像自动归类与自动命名系统
CN113810737A (zh) * 2021-09-30 2021-12-17 深圳市雷鸟网络传媒有限公司 一种视频处理方法、装置、电子设备和存储介质
CN114363660A (zh) * 2021-12-24 2022-04-15 腾讯科技(武汉)有限公司 视频合集确定方法、装置、电子设备及存储介质
CN114926771A (zh) * 2022-06-01 2022-08-19 北京字节跳动网络技术有限公司 一种视频识别方法及装置
WO2023024670A1 (zh) * 2021-08-27 2023-03-02 深圳云天励飞技术股份有限公司 设备聚类方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657055A (zh) * 2018-11-09 2019-04-19 中山大学 基于层次混合网络的标题党文章检测方法及联邦学习策略
CN110046279A (zh) * 2019-04-18 2019-07-23 网易传媒科技(北京)有限公司 视频文件特征的预测方法、介质、装置和计算设备
CN110598046A (zh) * 2019-09-17 2019-12-20 腾讯科技(深圳)有限公司 一种基于人工智能的标题党识别方法和相关装置
CN111444878A (zh) * 2020-04-09 2020-07-24 Oppo广东移动通信有限公司 一种视频分类方法、装置及计算机可读存储介质
CN111666452A (zh) * 2020-07-09 2020-09-15 腾讯科技(深圳)有限公司 用于对视频进行聚类的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657055A (zh) * 2018-11-09 2019-04-19 中山大学 基于层次混合网络的标题党文章检测方法及联邦学习策略
CN110046279A (zh) * 2019-04-18 2019-07-23 网易传媒科技(北京)有限公司 视频文件特征的预测方法、介质、装置和计算设备
CN110598046A (zh) * 2019-09-17 2019-12-20 腾讯科技(深圳)有限公司 一种基于人工智能的标题党识别方法和相关装置
CN111444878A (zh) * 2020-04-09 2020-07-24 Oppo广东移动通信有限公司 一种视频分类方法、装置及计算机可读存储介质
CN111666452A (zh) * 2020-07-09 2020-09-15 腾讯科技(深圳)有限公司 用于对视频进行聚类的方法和装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113395594A (zh) * 2021-01-20 2021-09-14 腾讯科技(深圳)有限公司 一种视频处理方法、装置、设备以及介质
WO2023024670A1 (zh) * 2021-08-27 2023-03-02 深圳云天励飞技术股份有限公司 设备聚类方法、装置、计算机设备及存储介质
CN113762132A (zh) * 2021-09-01 2021-12-07 国网浙江省电力有限公司金华供电公司 一种无人机巡检图像自动归类与自动命名系统
CN113810737A (zh) * 2021-09-30 2021-12-17 深圳市雷鸟网络传媒有限公司 一种视频处理方法、装置、电子设备和存储介质
CN113810737B (zh) * 2021-09-30 2024-03-12 深圳市雷鸟网络传媒有限公司 一种视频处理方法、装置、电子设备和存储介质
CN114363660A (zh) * 2021-12-24 2022-04-15 腾讯科技(武汉)有限公司 视频合集确定方法、装置、电子设备及存储介质
CN114363660B (zh) * 2021-12-24 2023-09-08 腾讯科技(武汉)有限公司 视频合集确定方法、装置、电子设备及存储介质
CN114926771A (zh) * 2022-06-01 2022-08-19 北京字节跳动网络技术有限公司 一种视频识别方法及装置

Similar Documents

Publication Publication Date Title
CN112131430A (zh) 视频聚类方法、装置、存储介质和电子设备
US12001474B2 (en) Information determining method and apparatus, computer device, and storage medium
CN111460221B (zh) 评论信息处理方法、装置及电子设备
CN112307351A (zh) 用户行为的模型训练、推荐方法、装置和设备
CN111680217A (zh) 内容推荐方法、装置、设备及存储介质
CN111507097A (zh) 一种标题文本处理方法、装置、电子设备及存储介质
CN113705299A (zh) 一种视频识别的方法、装置及存储介质
CN112818251B (zh) 视频推荐方法、装置、电子设备以及存储介质
CN111625715B (zh) 信息提取方法、装置、电子设备及存储介质
US20230237093A1 (en) Video recommender system by knowledge based multi-modal graph neural networks
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
CN111563158A (zh) 文本排序方法、排序装置、服务器和计算机可读存储介质
CN112165639B (zh) 内容分发方法、装置、电子设备以及存储介质
CN114201516B (zh) 一种用户画像构建的方法、信息推荐的方法以及相关装置
CN111831924A (zh) 内容推荐方法、装置、设备及可读存储介质
CN112232086A (zh) 一种语义识别方法、装置、计算机设备及存储介质
CN112231554A (zh) 一种搜索推荐词生成方法、装置、存储介质和计算机设备
CN114281935A (zh) 搜索结果分类模型的训练方法、装置、介质及设备
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN115131052A (zh) 一种数据处理方法、计算机设备和存储介质
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN116956183A (zh) 多媒体资源推荐方法、模型训练方法、装置及存储介质
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
CN112579884B (zh) 一种用户偏好估计方法及装置
CN115130453A (zh) 互动信息生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40035427

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination