CN111666452A

CN111666452A - 用于对视频进行聚类的方法和装置

Info

Publication number: CN111666452A
Application number: CN202010657875.4A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-09-15

Abstract

公开了一种用于对视频进行聚类的方法和装置，所述方法包括：确定所述视频的标题文本；基于与所述视频相关联的搜索点击数据，确定用于所述标题文本的扩展文本；基于所述标题文本和所述扩展文本确定用于聚类所述视频的至少两个标签文本；对所述至少两个标签文本进行聚类，以得到用于所述视频的聚类结果。利用本申请提供的用于对视频进行聚类的方法，通过根据存储的搜索日志中的信息获得用于对视频进行聚类的更多文本，能够基于更丰富的语义信息实现更好的聚类效果。利用视频的聚类结果可以为用户提供更准确的推荐信息。

Description

用于对视频进行聚类的方法和装置

技术领域

本申请涉及视频搜索领域，更具体地涉及一种用于对视频进行聚类的方法和装置。

背景技术

随着短视频内容的兴起，用户每天可以在网络上上传数十万甚至上百万的短视频内容。可以根据事先制定的分类标签体系对短视频进行标注并训练分类模型，从而实现对视频的分类。然而，对于例如热点类视频(如新闻视频)来说，可能出现短时间上传大量视频内容的情况。事先制定的分类标签体系难以覆盖突发事件的信息，并且也来不及人工对数据进行标注。在对视频进行无监督的聚类时，由于视频标题的语义表征稀疏，直接利用视频标题进行聚类的效果不好。

发明内容

根据本申请的一方面，提出了一种用于对视频进行聚类的方法，包括：确定所述视频的标题文本；基于与所述视频相关联的搜索点击数据，确定用于所述标题文本的扩展文本；基于所述标题文本和所述扩展文本确定用于聚类所述视频的至少两个标签文本；对所述至少两个标签文本进行聚类，以得到用于所述视频的聚类结果。

在一些实施例中，所述扩展文本包括扩展查询串、扩展搜索文本和扩展标题文本中的至少一个，其中所述扩展查询串是用于搜索所述视频的，所述扩展搜索文本是利用所述扩展查询串进行文本搜索得到的，所述扩展标题文本是利用所述标题文本进行文本搜索得到的。

在一些实施例中，所述扩展文本包括扩展查询串，基于与所述视频相关联的搜索点击数据，确定用于所述标题文本的扩展文本包括：基于所述搜索点击数据确定至少一个候选查询串，其中在所述至少一个候选查询串中的每个候选查询串的搜索结果中包括所述视频，利用所述至少一个候选查询串中的至少一部分确定所述扩展查询串。

在一些实施例中，利用所述至少一个候选查询串中的至少一部分确定所述扩展查询串包括：对于所述至少一个候选查询串中的每个候选查询串，确定该候选查询串的搜索结果中所述视频的点击率；在所述视频的点击率大于第一点击率阈值的情况下，利用该候选查询串确定所述扩展查询串。

在一些实施例中，所述扩展文本包括扩展搜索文本，基于与所述视频相关联的搜索点击数据，确定用于所述标题文本的扩展文本还包括：基于所述扩展查询串的文本搜索结果确定至少一个候选扩展搜索文本；利用所述至少一个候选扩展搜索文本中的至少一部分确定所述扩展搜索文本。

在一些实施例中，利用所述至少一个候选扩展搜索文本中的至少一部分确定所述扩展搜索文本包括：针对所述至少一个候选扩展搜索文本中的每个候选扩展搜索文本，确定该候选扩展搜索文本的点击率，在所述候选扩展搜索文本的点击率大于第二点击率阈值的情况下，利用该候选扩展搜索文本确定所述扩展搜索文本。

在一些实施例中，利用该候选扩展搜索文本确定所述扩展搜索文本包括：利用所述候选扩展搜索文本的文本标题、文本摘要、文本正文中的至少一个确定所述扩展搜索文本。

在一些实施例中，所述扩展文本包括扩展标题文本，基于与所述视频相关联的搜索点击数据，确定用于所述标题文本的扩展文本包括：基于所述视频的标题文本的文本搜索结果确定至少一个候选扩展标题文本；利用所述至少一个候选扩展标题文本中的至少一部分确定所述扩展标题文本。

在一些实施例中，利用所述至少一个候选扩展标题文本中的至少一部分确定所述扩展标题文本包括：针对所述至少一个候选扩展标题文本中的每个候选扩展标题文本，确定该候选扩展标题文本与所述视频的标题文本之间的匹配度，在所述匹配度大于匹配度阈值的情况下，利用该候选扩展标题文本确定所述扩展标题文本。

在一些实施例中，对所述至少两个标签文本进行聚类，以得到用于所述视频的聚类结果包括：对所述至少两个标签文本进行数值化处理，以确定分别对应于所述标签文本的至少两个文本向量；对所述至少两个文本向量进行聚类，以得到用于所述至少两个标签文本的至少一个类别；基于所述至少一个类别确定用于所述视频的聚类结果。

在一些实施例中，对所述至少两个文本向量进行聚类，以得到用于所述至少两个标签文本的至少一个类别：基于所述至少两个文本向量中的文本向量之间的距离对所述至少两个文本向量进行聚类，以得到所述至少一个类别。

在一些实施例中，对所述至少两个标签文本进行聚类，以得到用于所述视频的聚类结果包括：对于所述至少两个标签文本中的每个标签文本，对该标签文本进行分词，以得到该标签文本中的至少两个标签词语；确定每个标签文本属于预定的类别的第一条件概率；确定每个类别包含该标签词语的第二条件概率；基于所述第一条件概率和所述第二条件概率确定每个标签文本属于预定的类别的概率；基于每个标签文本属于预定的类别的概率对所述标签文本进行聚类，以得到用于所述视频的聚类结果。

在一些实施例中，基于所述第一条件概率和所述第二条件概率确定每个标签文本属于预定的类别的概率包括：基于每个标签词语所属的文本类型确定该标签词语的置信度，所述文本类型包括标题文本、扩展查询串、扩展搜索文本和扩展标题文本中的至少一个；基于所述置信度调整所述第一条件概率和所述第二条件概率，以得到调整后的第一条件概率和调整后的第二条件概率；基于所述调整后的第一条件概率和所述调整后的第二条件概率确定每个标签文本属于预定的类别的概率。

根据本申请的另一方面，还提供了一种用于对视频进行聚类的装置，包括：标题文本确定单元，配置成确定所述视频的标题文本；扩展文本确定单元，配置成基于与所述视频相关联的搜索点击数据，确定用于所述标题文本的扩展文本；标签文本确定单元，配置成基于所述标题文本和所述扩展文本确定用于聚类所述视频的至少两个标签文本；聚类单元，配置成对所述至少两个标签文本进行聚类，以得到用于所述视频的聚类结果。

根据本申请的又一方面，还提供了一种用于对视频进行聚类的设备，所述设备包括存储器和处理器，其中所述存储器中存有指令，当利用所述处理器执行所述指令时，使得所述处理器执行如前所述的用于对视频进行聚类方法。

根据本申请的又一方面，还提供了一种计算机可读存储介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行如前所述的用于对视频进行聚类方法。

利用本申请提供的基于用于对视频聚类的方法和装置，可以利用视频的标题文本以及基于标题文本的搜索点击数据生成的扩展文本对视频进行聚类。基于标题文本的搜索点击数据生成的扩展文本中包括与视频相关的内容，因此可以弥补原视频的标题文本过短而导致的聚类效果不佳的问题，并实现更好地聚类结果。通过根据存储的搜索日志中的信息获得用于对视频进行聚类的更多文本，能够基于更丰富的语义信息实现更好的聚类效果。进一步地，利用视频的聚类结果可以为用户提供更准确的推荐信息。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员而言，在没有做出创造性劳动的前提下，还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制，重点在于示出本申请的主旨。

图1示出了根据本申请的用于对视频进行聚类的系统的示例性的场景图；

图2示出了根据本申请的原理的用于对视频进行聚类的方法的示意性的流程图；

图3示出了根据本申请的利用K均值聚类算法对标签文本进行聚类的过程；

图4示出了根据本申请的实施例的利用LDA聚类算法的过程的示意图；

图5示出了根据本申请的实施例的确定扩展查询串的示例性的过程；

图6示出了根据本申请的实施例的确定扩展搜索文本的示例性的过程；

图7示出了根据本申请的实施例的确定扩展标题文本的示例性的过程；

图8示出了根据本申请的实施例的用于对视频进行聚类的装置的示意性的框图；

图9A-图9C示出了根据本申请的实施例的确定扩展文本的示例；以及

图10示出了根据本申请的实施例的计算设备的架构。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述，显而易见地，所描述的实施例仅仅是本申请的部分实施例，而不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，也属于本申请保护的范围。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用，然而，任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的，并且所述系统和方法的不同方面可以使用不同模块。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，根据需要，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

图1示出了根据本申请的用于对视频进行聚类的系统的示例性的场景图。如图1所示，系统100可以包括用户终端110、网络120、服务器130以及数据库140。

用户终端110可以是例如图1中示出的电脑110-1、手机110-2。可以理解的是，事实上，用户终端可以是能够执行数据处理的任何其他类型的电子设备，其可以包括但不限于台式电脑、笔记本电脑、平板电脑、智能手机、智能家居设备、可穿戴设备等。

根据本申请提供的用户终端可以用于接收要聚类的视频。例如，用户终端可以通过用户终端上设置的图像采集设备(例如照相机、摄像机等)采集要聚类的视频。又例如，用户终端也可以从独立设置的图像采集设备(例如照相机、摄像机、扫描仪等)获取要聚类的视频。再例如，用户终端也可以经由网络从服务器或任何其他电子设备接收要聚类的视频。

网络120可以是单个网络，或至少两个不同网络的组合。例如，网络120可以包括但不限于局域网、广域网、公用网络、专用网络等中的一种或几种的组合。

服务器130可以是一个单独的服务器，或一个服务器群组，群组内的各个服务器通过有线的或无线的网络进行连接。一个服务器群组可以是集中式的，例如数据中心，也可以是分布式的。服务器130可以是本地的或远程的。服务器130还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。用户终端110以及服务器130可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。用户终端可以将要聚类的视频经由网络120发送至服务器130，并由服务器130执行本申请提供的对视频进行聚类的方法。在一些实现方式中，服务器130可以利用服务器内置的应用程序执行聚类。在另一些实现方式中，服务器130可以通过调用服务器外部存储的应用程序执行聚类。

数据库140可以泛指具有存储功能的设备。数据库140主要用于存储从用户终端110和服务器130工作中所利用、产生和输出的各种数据。例如，数据库140可以用于存储要聚类的视频和与视频相关联的各种搜索点击数据(如，搜索点击日志)。数据库140可以是本地的，或远程的。数据库140可以包括各种存储器、例如随机存取存储器(Random AccessMemory(RAM))、只读存储器(Read Only Memory(ROM))等。以上提及的存储设备只是列举了一些例子，该系统可以使用的存储设备并不局限于此。

数据库140可以经由网络120与服务器130或其一部分相互连接或通信，或直接与服务器130相互连接或通信，或是上述两种方式的结合。

在一些实施例中，数据库140可以是独立的设备。在另一些实施例中，数据库140也可以集成在用户终端110和服务器130中的至少一个中。例如，数据库140可以设置在用户终端110上，也可以设置在服务器130上。又例如，数据库140也可以是分布式的，其一部分设置在用户终端110上，另一部分设置在服务器130上。

在一些方法中，由于视频的标题文本可以包括能够指示视频内容的文本，因此，可以通过对视频的标题文本进行聚类可以相应地实现对于视频的聚类。然而，由于视频标题的长度较短，语义表征稀疏，因此，直接对标题文本使用聚类模型的效果不佳。

下文中将详细阐述本申请提供的用于对视频进行聚类的方法的流程。

在本申请提供的技术方案中，可以利用人工智能的方法对视频的标题文本以及基于标题文本确定的扩展文本进行处理，以实现对于视频的聚类。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请提供的方法涉及人工智能中的自然语言处理的技术，包括文本处理、语义理解等方面。下文中将结合本申请的实施例进行具体说明。

在一些实施例中，可以利用云技术实现本申请提供的用于对视频进行聚类的方法。云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术(Cloud technology)是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。通过整合网络中的大量资源和数据，能够获得本申请要实现的对视频聚类的方法中需要的数据。

图2示出了根据本申请的原理的用于对视频进行聚类的方法的示意性的流程图。

在步骤S202中，可以确定视频的标题文本。步骤S202中的视频可以包括预定时间段内被上传到网络平台的视频。这里所说的预定时间段可以是一小时、一天、一周或任何预定义的时间段。视频的标题文本可以包括能够指示视频内容的文本。

在一些实施例中，标题文本可以是与视频相关联地存储的文本。在一些实现方式中，标题文本可以是用户在上传视频时输入或选择的文本。在另一些实现方式中，标题文本可以是通过对视频内容中的音频进行语音识别生成的文本。

在步骤S204中，可以基于与视频相关联的搜索点击数据，确定用于标题文本的扩展文本。在视频聚类的过程中，可以利用大数据的内容获取与视频相关联的搜索点击数据(如搜索点击日志)。并可以通过挖掘大数据背后的海量信息来确定用于标题文本的扩展文本。

大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临，大数据也吸引了越来越多的关注，大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

在一些实施例中，与视频相关联的搜索点击数据可以包括与视频相关联的查询串和搜索结果之间的关联关系。例如，当用户在视频搜索引擎中搜索视频时，可以确定用户输入的查询串和视频搜索引擎生成的视频搜索结果之间的关联关系。又例如，当用户在文本搜索引擎中搜索视频时，可以确定用户输入的查询串和文本搜索引擎生成的视频搜索结果之间的关联关系。上述查询串和搜索结果之间的关联关系可以存储在数据库。此外，与视频相关联的搜索点击数据还可以包括搜索结果的点击数据，即指示用户是否点击搜索结果的数据。点击数据可以用于指示搜索结果与查询串之间的关联性。如果点击数据指示某个搜索结果的点击率越高，则可以认为该搜索结果和查询串之间的相关性越高。

在一些实施例中，扩展文本可以包括扩展查询串、扩展搜索文本和扩展标题文本中的至少一个。其中扩展查询串是用于搜索视频的，扩展搜索文本是利用扩展查询串进行文本搜索得到的，扩展标题文本是利用标题文本进行文本搜索得到的。

下文中将结合图5-图7分别描述确定扩展查询串、扩展搜索文本和扩展标题文本的过程，在此不再加以赘述。

在步骤S206中，可以基于步骤S202确定的标题文本和步骤S204中确定的扩展文本确定用于聚类视频的至少两个标签文本。

如前所述，步骤S204中确定的扩展文本是与视频和视频的标题文本相关联的文本。扩展文本可以至少在一定程度上指示视频的内容。因此，可以将标题文本和扩展文本同时用于本申请接下来要描述的聚类过程，以实现对于视频的聚类。

在一些实施例中，可以将标题文本和扩展文本直接组合成标签文本。在另一些实施例中，可以利用知识图谱对标题文本和扩展文本进行扩充。例如，可以利用知识图谱确定标签文本中的词语的上下文知识、同义词知识、近义词知识、联想实体等知识图谱扩充文本。然后，可以将标题文本、扩展文本和知识图谱扩充文本进行组合以形成标签文本。

在步骤S208中，可以对至少两个标签文本进行聚类，以得到用于视频的聚类结果。通过分别对应于要聚类的每个视频的至少两个标签文本应用聚类算法，可以得到标签文本的聚类结果。如前所述，对于要聚类的至少两个视频中的每个视频，可以基于步骤S202～S206确定该视频的标签文本。该视频的标签文本可以指示视频内容。因此，可以将标签文本的聚类结果确定为视频的聚类结果。

可以利用自然语言的处理方法对标签文本进行处理，以将标签文本转换成计算机能够处理的形式。例如，可以利用训练好的文本转换模型将标签文本进行转换，以得到计算机能够处理的数值型数据(如文本向量)。又例如，也可以利用训练好的分词模型对标签文本进行分词。上述诸如文本转换模型和分词模型的自然语言处理模型可以是利用任何预先建立的词库得到的。针对不同的应用场景可以分别建立不同的词库以得到更好的效果。例如，对于新闻类的视频聚类过程，可以利用基于新闻词汇建立的词库训练的自然语言处理模型对标签文本进行处理。又例如，对于法律类的视频聚类过程，可以利用基于法律词汇建立的词库训练的自然语言处理模型对标签文本进行处理。

可以利用任何聚类算法对标签文本进行处理以得到聚类结果。在本申请下文的描述中，将结合图3、图4分别以K均值(K-means)聚类算法和LDA(Latent DirichletAllocation，潜在狄利克雷分布)聚类算法为例描述本申请的原理。然而，可以理解的是，在不脱离本申请原理的情况下，本领域技术人员可以利用任何聚类算法实现本申请的方法。

利用本申请提供的用于对视频进行聚类的方法，可以对视频的标题文本内容进行扩展以得到扩展文本，其中扩展文本包括指示视频内容的文本。然后，可以基于标题文本和扩展文本两者进行聚类以得到视频的聚类结果。由于扩展文本中包括了更多与视频内容相关的文本，利用本申请提供的对视频聚类的方法可以得到更好地聚类效果。

图3示出了根据本申请的利用K均值聚类算法对标签文本进行聚类的过程。可以利用图3中示出的过程实现图2中的步骤S208。

在步骤S302中，可以对分别对应于要聚类的视频的至少两个标签文本进行数值化处理，以确定分别对应于每个标签文本的至少两个文本向量。在利用计算机对标签文本进行聚类时，由于计算机往往无法直接处理文本数据，因此在对标签文本进行处理时，需要先将标签文本转换为数值型数据。

在一些实施例中，可以利用训练好的doc2vec模型每个标签文本进行数值化处理。doc2vec模型可以用于从变长(即，不定长度)的文本(如句子、段落、文档等)生成固定长度的特征表示作为用于标签文本的文本向量。

在另一些实施例中，对于至少两个标签文本中的每个标签文本，可以对该标签文本进行分词，以得到该标签文本中的至少两个标签词语。然后，可以对每个标签词语进行数值化处理，以得到对应于每个标签词语的词语向量。例如，可以利用利用训练好的word2vec模型对每个标签词语进行数值化处理。word2vec模型可以用于从变长的词语生成固定长度的特征表示作为用于标签词语的文本向量。可以基于至少两个标签文本中的标签词语的词语向量确定对应于标签文本的至少两个文本向量。例如，可以通过组合标签文本的标签词语的词语向量以形成用于标签文本的文本向量。

在步骤S304中，可以对至少两个文本向量进行聚类，以得到用于对应的至少两个标签文本的至少一个类别。

在一些实施例中，可以基于至少两个文本向量中的文本向量之间的距离对至少两个文本向量进行聚类，以得到至少一个类别。

例如，在K均值聚类算法中，可以预先将要聚类的对象(本申请中的文本向量)分为K组，其中K是预设的正整数。可以随机选取K个对象作为初始的聚类中心。然后，可以计算要聚类的每个对象与各个聚类中心之间的距离，并把每个对象分配给距离最近的聚类中心。针对每个聚类，每分配一个对象，需要基于该类别中包括的对象之间的距离重新计算该聚类的聚类中心。上述过程将不断重复直到满足终止条件。在一些实现方式中，终止条件可以是没有(或小于最小数量的)对象被重新分配给不同的聚类，或没有(或小于最小数量的)聚类中心发生变化，或各聚类的误差平方和局部最小。

利用K均值聚类算法可以将至少两个文本向量聚类成K个不同的类别，其中每个类别中至少包括一个文本向量。可以将文本向量所属的类别确定为标签文本所属的类别。

在步骤S306中，可以基于步骤S304中确定的至少一个类别确定用于视频的聚类结果。如前所述，每个标签文本指示对应的一个视频中的视频内容。因此，可以将针对标签文本确定的至少一个类别确定为视频的聚类结果。

图4示出了根据本申请的实施例的利用LDA聚类算法的过程的示意图。

在步骤S402中，对于至少两个标签文本中的每个标签文本，可以对该标签文本进行分词，以得到该标签文本中的至少两个标签词语。

在步骤S404中，可以确定每个标签文本分别属于预定的k个类别(k为正整数)的第一条件概率。其中每个预定的类别由对应于该类别的至少两个类别词语构成。在一些实施例中，可以利用公式(1)确定标签文本属于第i个类别(i为正整数，并且1≤i≤k)的概率：

p_ti＝n_ti/n (1)

其中p_ti表示标签文本属于第i个类别的概率，n_ti表示标签文本中属于第i个类别的类别词语的词语数目，n表示标签文本中所有词语的数目。

在步骤S406中，针对步骤S402中确定的每个标签词语，可以确定每个类别包含该标签词语的第二条件概率。在一些实施例中，可以利用公式(2)确定第j个标签词语(j为正整数，其中1≤j≤Z，Z是标签词语的总数目)属于第i个类别的概率：

p_wj＝N_wj/N (2)

其中p_wj表示第j个标签词语属于第i个类别的概率，N_wj表示不同的标签文本中包含的第j个标签词语属于对应于第i个类别的类别词语的数目，N表示所有对应于第i个类别的类别词语的总数目。

在步骤S408中，可以基于第一条件概率和第二条件概率确定每个标签文本属于预定的类别的概率。

利用公式(1)、(2)可以计算得到每个标签词语对应于某个预定类别时，该标签词语属于标签文本的条件概率p(w|d)，其中p(w|d)＝p_ti*p_wj。

在LDA聚类过程中，可以首先随机地为所有标签文本和类别的p_ti和p_wj进行赋值，然后通过计算每个标签词语的条件概率p(w|d)更新每个标签词语所属的类别。不断迭代计算所有标签文本和类别的p_ti和p_wj并更新每个标签词语的条件概率p(w|d)，当经过预定数量的迭代过程或所得到的条件概率p(w|d)的结果满足收敛条件时，可以得到收敛后的条件概率p(w|d)以及利用前述方法计算各标签词语属于各个类别的概率，并可以基于条件概率的原理计算每个标签文本属于各个类别的概率。

在步骤S410中，可以基于每个标签文本属于预定的类别的概率对该标签文本进行聚类，以得到用于所述视频的聚类结果。

在一些实施例中，可以基于每个标签文本分别属于预定的k个类别的概率，并将标签文本分配给对应于最高概率的类别。由此，可以确定每个标签文本所属的类别，并实现标签文本的聚类。

在一些实施例中，可以基于每个标签词语所属的文本类型确定该标签词语的置信度。并基于置信度调整第一条件概率和第二条件概率，以得到调整后的第一条件概率和调整后的第二条件概率文本类型。然后，可以基于调整后的第一条件概率和调整后的第二条件概率确定每个标签文本属于预定的类别的概率。

文本类型可以包括标题文本、扩展查询串、扩展搜索文本和扩展标题文本中的至少一个。在一些实现方式中，当标签词语属于不同的文本类型时，可以为标签词语设置不同的置信度。例如，针对同一词语，当该词语属于标题文本时，其置信度可以被设置为1。当该词语属于扩展查询串时，其置信度可以被设置为0.8。当该词语属于扩展搜索文本时，其置信度可以被设置为0.7。当该词语属于扩展标题文本时，其置信度可以被设置为0.9。可以理解的是，本领域技术人员可以根据实际情况任意设置属于不同文本类型的词语的置信度。在此不对置信度的实际数值做出限定。当一个词语同时属于至少两个不同的文本类型时，可以对对应于不同文本类型的词语置信度进行加权平均，以得到该词语的置信度。

可以利用标签词语的置信度调整步骤S404和步骤S406中确定的第一条件概率和第二条件概率。例如，可以基于置信度调整公式(1)和公式(2)中的词语数目n_ti和N_wj。例如，在确定公式(1)和公式(2)中的词语数目n_ti和N_wj时，对于置信度为A的词语m，其数目可以被计算为A*M，其中M是统计词语数目n_ti或N_wj时词语m的真实统计词频。也就是说，可以基于置信度对LDA聚类算法中词语的统计词频进行调整。

可以基于调整后的第一条件概率和调整后的第二条件概率确定每个标签文本属于预定的类别的概率p(w|d)，其中p(w|d)＝p’_ti*p’_wj，其中p’_ti表示调整后的第一条件概率，p’_wj表示调整后的第二条件概率。

在步骤S410中，可以基于每个标签文本属于预定的类别的概率对标签文本进行聚类，以得到用于视频的聚类结果。在一些实施例中，当标签文本属于预定的类别的概率大于预定义的概率阈值时，可以确定该标签文本属于该预定的类别。

图5示出了根据本申请的实施例的确定扩展查询串的示例性的过程。

在步骤S502中，可以基于与要聚类的视频相关联的搜索点击数据确定至少一个候选查询串。

在一些实施例中，可以将其搜索结果中包括视频的查询串确定为候选查询串。

在另一些实施例中，可以将其搜索结果中包括点击了视频的点击数据的查询串确定为候选查询串。也就是说，在候选查询串下点击了要聚类的视频。

在步骤S504中，可以利用至少一个候选查询串中的至少一部分确定扩展查询串。

在一些实施例中，可以基于候选查询串的搜索结果中视频的点击率确定是否利用该候选查询串确定扩展查询串。

在一些实现方式中，针对至少一个候选查询串中的每个候选查询串，可以确定该候选查询串的搜索结果中的视频的点击率。在该视频的点击率大于第一点击率阈值的情况下，可以利用该候选查询串确定扩展查询串。其中该视频的点击率可以被定义为点击该视频的次数和该查询串被查询的次数的比值，即，该视频的点击率＝点击该视频的次数/该查询串被查询的次数。

例如，第一点击率阈值可以是70％。可以理解的是，本领域技术人员可以根据实际情况任意设置第一点击率阈值的数值。

在另一些实施例中，可以基于候选查询串的搜索结果中视频的点击数量确定是否利用该候选查询串确定扩展查询串。

在一些实现方式中，针对至少一个候选查询串中的每个候选查询串，可以确定该候选查询串的搜索结果中的视频的点击数量。在该视频的点击数量大于点击数量阈值的情况下，可以利用该候选查询串确定扩展查询串。例如，点击数量阈值可以是200。可以理解的是，本领域技术人员可以根据实际情况任意设置点击数量阈值的数值。

在另一些实施例中，可以基于候选查询串的搜索结果中视频的点击率或点击数量的排名确定是否利用该候选查询串确定扩展查询串。

在一些实现方式中，针对至少一个候选查询串中的每个候选查询串，可以确定该候选查询串的搜索结果中的视频的点击率或点击数量的排名。在该视频的点击率或点击数量的排名大于排名阈值的情况下，可以利用该候选查询串确定扩展查询串。例如，排名阈值可以20。也就是说，其搜索结果中视频的点击率或点击数量的排名位于前二十的查询串可以被确定为该视频的扩展查询串。可以理解的是，本领域技术人员可以根据实际情况任意设置排名阈值的数值。

图6示出了根据本申请的实施例的确定扩展搜索文本的示例性的过程。

在步骤S602中，可以基于扩展查询串的文本搜索结果确定至少一个候选扩展搜索文本。

在一些实施例中，可以在文本搜索引擎中输入利用图5中示出的过程确定的扩展查询串，以得到扩展查询串的文本搜索结果。可以将扩展查询串的文本搜索结果中包括的至少一个文本确定为候选扩展搜索文本。

在步骤S604中，可以利用至少一个候选扩展搜索文本中的至少一部分确定扩展搜索文本。

在一些实施例中，可以基于扩展查询串的文本搜索结果中候选扩展搜索文本的点击率确定是否利用该候选扩展搜索文本确定扩展搜索文本。

在一些实现方式中，针对至少一个候选扩展搜索文本中的每个候选扩展搜索文本，可以确定该候选扩展搜索文本的点击率。在该候选扩展搜索文本的点击率大于第二点击率阈值的情况下，可以利用该候选扩展搜索文本确定扩展搜索文本。其中候选扩展搜索文本的点击率可以被定义为点击该候选扩展搜索文本的次数和该候选查询串被查询的次数的比值，即，候选扩展搜索文本的点击率＝点击该候选扩展搜索文本的次数/该候选查询串被查询的次数。

例如，第二点击率阈值可以是70％。可以理解的是，本领域技术人员可以根据实际情况任意设置第二点击率阈值的数值。第二点击率阈值和第一点击率阈值可以是相同的，也可以是不同的。

在另一些实施例中，可以基于扩展查询串的文本搜索结果中候选扩展搜索文本的点击数量确定是否利用该候选扩展搜索文本确定扩展搜索文本。

在一些实现方式中，针对至少一个候选扩展搜索文本中的每个候选扩展搜索文本，可以确定该候选扩展搜索文本的点击数量。在该候选扩展搜索文本的点击数量大于点击数量阈值的情况下，可以将该候选扩展搜索文本确定为扩展查询串。例如，点击数量阈值可以是200。可以理解的是，本领域技术人员可以根据实际情况任意设置点击数量阈值的数值。

在另一些实施例中，可以基于扩展查询串的文本搜索结果中候选扩展搜索文本的点击率或点击数量的排名确定是否利用该候选扩展搜索文本确定扩展搜索文本。

在一些实现方式中，针对至少一个候选扩展搜索文本中的每个候选扩展搜索文本，可以确定该候选扩展搜索文本的点击率或点击数量的排名。在该候选扩展搜索文本的点击率或点击数量的排名大于排名阈值的情况下，可以利用该候选扩展搜索文本确定扩展搜索文本。也就是说，基于扩展查询串的文本搜索结果中候选扩展搜索文本的点击率或点击数量的排名位于前二十的查询串可以被确定为该视频的扩展查询串。可以理解的是，本领域技术人员可以根据实际情况任意设置排名阈值的数值。

图7示出了根据本申请的实施例的确定扩展标题文本的示例性的过程。

在步骤S702中，可以基于视频的标题文本的文本搜索结果确定至少一个候选扩展标题文本。在一些实施例中，可以在文本搜索引擎中输入视频的标题文本，以得到视频的标题文本的文本搜索结果。可以将标题文本的文本搜索结果中包括的至少一个文本确定为候选扩展标题文本。

在步骤S704中，可以利用至少一个候选扩展标题文本中的至少一部分确定扩展标题文本。

在一些实施例中，针对至少一个候选扩展标题文本中的每个候选扩展标题文本，确定该候选扩展标题文本与视频的标题文本之间的匹配度。例如，可以计算标题文本和候选扩展标题文本的哈希值，并基于标题文本和候选扩展标题文本的哈希值之间的相似度确定该候选扩展标题文本与视频的标题文本之间的匹配度。在一些实现方式中，在匹配度大于匹配度阈值的情况下，利用该候选扩展标题文本确定扩展标题文本。在另一些实现方式中，可以基于匹配对对候选扩展标题文本进行排序，并将其排名大于排名阈值的候选扩展标题文本确定为扩展标题文本。

图8示出了根据本申请的实施例的用于对视频进行聚类的装置的示意性的框图。如图8所示，装置800可以包括标题文本确定单元810、扩展文本确定单元820、标签文本确定单元830以及聚类单元840。

标题文本确定单元810可以配置成确定视频的标题文本。要聚类的视频可以包括预定时间段内被上传到网络平台的至少两个视频。这里所说的预定时间段可以是一小时、一天、一周或任何预定义的时间段。视频的标题文本可以包括能够指示视频内容的文本。

扩展文本确定单元820可以配置成基于与视频相关联的搜索点击数据，确定用于标题文本的扩展文本。

如图8所示，扩展文本确定单元820可以包括扩展查询串确定单元821、扩展搜索文本确定单元822以及扩展标题文本确定单元823。

扩展查询串确定单元821可以配置成基于与要聚类的视频相关联的搜索点击数据确定扩展查询串。

扩展查询串确定单元821可以配置成基于与要聚类的视频相关联的搜索点击数据确定至少一个候选查询串。

进一步地，扩展查询串确定单元821可以配置成利用至少一个候选查询串中的至少一部分确定扩展查询串。

扩展搜索文本确定单元822可以配置成基于与视频相关联的搜索点击数据，确定用于标题文本的扩展搜索文本。

扩展搜索文本确定单元822可以配置成基于扩展查询串的文本搜索结果确定至少一个候选扩展搜索文本。

进一步地，扩展搜索文本确定单元822可以配置成利用至少一个候选扩展搜索文本中的至少一部分确定扩展搜索文本。

扩展标题文本确定单元823可以配置成基于与要聚类的视频相关联的搜索点击数据确定扩展标题文本。

扩展标题文本确定单元823可以配置成基于视频的标题文本的文本搜索结果确定至少一个候选扩展标题文本。在一些实施例中，可以在文本搜索引擎中输入视频的标题文本，以得到视频的标题文本的文本搜索结果。可以将标题文本的文本搜索结果中包括的至少一个文本确定为候选扩展标题文本。

进一步地，扩展标题文本确定单元823还可以配置成利用至少一个候选扩展标题文本中的至少一部分确定扩展标题文本。

标签文本确定单元830可以配置成基于标题文本确定单元810确定的标题文本和扩展文本确定单元820确定的扩展文本确定用于聚类视频的至少两个标签文本。

如前所述，扩展文本确定单元820确定的扩展文本是与视频和视频的标题文本相关联的文本。扩展文本可以至少在一定程度上指示视频的内容。因此，可以将标题文本和扩展文本同时用于本申请接下来要描述的聚类过程，以实现对于视频的聚类。

聚类单元840可以配置成对至少两个标签文本进行聚类，以得到用于视频的聚类结果。通过分别对应于要聚类的每个视频的至少两个标签文本应用聚类算法，可以得到标签文本的聚类结果。该视频的标签文本中可以指示视频内容。因此，可以将标签文本的聚类结果确定为视频的聚类结果。

可以利用任何聚类算法对标签文本进行处理以得到聚类结果。在一些实施例中，聚类单元840可以配置成执行结合本申请图3或图4中描述的过程得到视频的聚类结果。

图9A-图9C示出了根据本申请的实施例的确定扩展文本的示例。

如图9A所示，针对“查询串1”901，其利用视频搜索引擎得到的搜索结果902中包括“视频1”903、“视频2”904、“视频3”905。可以基于各个视频被点击的次数和查询串1被查询的次数计算每个视频的点击率。以第一点击率阈值是70％为例，在“视频1”的点击率是20％，“视频2”的点击率是40％，“视频3”的点击率是80％的情况下，可以认为“查询串1”和“视频3”的相关性更高。因此，可以将“查询串1”确定为用于“视频3”的扩展查询串。

如图9B所示，可以利用图9A中确定的扩展查询串“查询串1”进行文本搜索，以得到用于“视频3”的扩展搜索文本。例如，可以利用文本搜索引擎对“查询串1”进行搜索，并得到“查询串1”的文本搜索结果。在图9B示出的示例中，“查询串1”的文本搜索结果中包括“文本1”905、“文本2”906、“文本3”907。以第二点击率阈值是70％为例，在“文本1”的点击率是75％，“文本2”的点击率是60％，“文本3”的点击率是15％的情况下，可以认为“文本1”和“查询串1”的相关性更高。因此，可以将“文本1”的确定为用于“视频3”的扩展搜索文本。

如图9C所示，可以利用“视频3”的标题文本“标题3”进行文本搜索，以得到用于“视频3”的扩展标题文本。在图9C示出的示例中，“标题3”的文本搜索结果中包括“文本4”、“文本5”、“文本6”。可以基于“文本4”、“文本5”、“文本6”和“标题3”的匹配度进行排序，并将排名前2名的“文本6”和“文本4”确定为“视频3”的扩展标题文本。

此外，根据本申请实施例的方法或装置也可以借助于图10所示的计算设备的架构来实现。图10示出了该计算设备的架构。如图10所示，计算设备1000可以包括总线1010、一个或至少两个CPU 1020、只读存储器(ROM)1030、随机存取存储器(RAM)1040、连接到网络的通信端口1050、输入/输出组件1060、硬盘1070等。计算设备1000中的存储设备，例如ROM1030或硬盘1070可以存储本申请提供的目标检测方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备1000还可以包括用户界面1080。当然，图10所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图10示出的计算设备中的一个或至少两个组件。

根据本申请的另一方面，还提供了一种非易失性的计算机可读存储介质，其上存储有计算机可读的指令，当利用计算机执行所述指令时可以执行如前所述的方法。

技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”，通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如，各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。

所有软件或其中的一部分有时可能会通过网络进行通信，如互联网或其他通信网络。此类通信可以将软件从一个计算机设备或处理器加载到另一个。例如：从视频目标检测设备的一个服务器或主机计算机加载至一个计算机环境的硬件平台，或其他实现系统的计算机环境，或与提供目标检测所需要的信息相关的类似功能的系统。因此，另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接，例如光波、电波、电磁波等，通过电缆、光缆或者空气等实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备，也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质，其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。

本申请使用了特定词语来描述本申请的实施例。如“第一/第二实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

上面是对本发明的说明，而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解，上面是对本发明的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

Claims

1.一种用于对视频进行聚类的方法，包括：

确定所述视频的标题文本；

基于与所述视频相关联的搜索点击数据，确定用于所述标题文本的扩展文本；

基于所述标题文本和所述扩展文本确定用于聚类所述视频的至少两个标签文本；

对所述至少两个标签文本进行聚类，以得到用于所述视频的聚类结果。

2.如权利要求1所述的方法，其中所述扩展文本包括扩展查询串、扩展搜索文本和扩展标题文本中的至少一个，

其中所述扩展查询串是用于搜索所述视频的，所述扩展搜索文本是利用所述扩展查询串进行文本搜索得到的，所述扩展标题文本是利用所述标题文本进行文本搜索得到的。

3.如权利要求2所述的方法，其中，所述扩展文本包括所述扩展查询串，

基于与所述视频相关联的搜索点击数据，确定用于所述标题文本的扩展文本包括：

基于所述搜索点击数据确定至少一个候选查询串，其中在所述至少一个候选查询串中的每个候选查询串的搜索结果中包括所述视频，

利用所述至少一个候选查询串中的至少一部分确定所述扩展查询串。

4.如权利要求3所述的方法，其中，利用所述至少一个候选查询串中的至少一部分确定所述扩展查询串包括：

对于所述至少一个候选查询串中的每个候选查询串，

确定该候选查询串的搜索结果中所述视频的点击率；

在所述视频的点击率大于第一点击率阈值的情况下，利用该候选查询串确定所述扩展查询串。

5.如权利要求2或3所述的方法，其中，所述扩展文本包括所述扩展搜索文本，

基于与所述视频相关联的搜索点击数据，确定用于所述标题文本的扩展文本还包括：

基于所述扩展查询串的文本搜索结果确定至少一个候选扩展搜索文本；

利用所述至少一个候选扩展搜索文本中的至少一部分确定所述扩展搜索文本。

6.如权利要求5所述的方法，其中，利用所述至少一个候选扩展搜索文本中的至少一部分确定所述扩展搜索文本包括：

针对所述至少一个候选扩展搜索文本中的每个候选扩展搜索文本，

确定该候选扩展搜索文本的点击率，

在所述候选扩展搜索文本的点击率大于第二点击率阈值的情况下，利用该候选扩展搜索文本确定所述扩展搜索文本。

7.如权利要求5所述的方法，其中，利用该候选扩展搜索文本确定所述扩展搜索文本包括：利用所述候选扩展搜索文本的文本标题、文本摘要、文本正文中的至少一个确定所述扩展搜索文本。

8.如权利要求2所述的方法，其中，所述扩展文本包括所述扩展标题文本，

基于所述视频的标题文本的文本搜索结果确定至少一个候选扩展标题文本；

利用所述至少一个候选扩展标题文本中的至少一部分确定所述扩展标题文本。

9.如权利要求8所述的方法，其中利用所述至少一个候选扩展标题文本中的至少一部分确定所述扩展标题文本包括：

针对所述至少一个候选扩展标题文本中的每个候选扩展标题文本，

确定该候选扩展标题文本与所述视频的标题文本之间的匹配度，

在所述匹配度大于匹配度阈值的情况下，利用该候选扩展标题文本确定所述扩展标题文本。

10.如权利要求1所述的方法，其中，对所述至少两个标签文本进行聚类，以得到用于所述视频的聚类结果包括：

对所述至少两个标签文本进行数值化处理，以确定分别对应于所述标签文本的至少两个文本向量；

基于所述至少两个文本向量中的文本向量之间的距离对所述至少两个文本向量进行聚类，以得到所述至少一个类别；

基于所述至少一个类别确定用于所述视频的聚类结果。

11.如权利要求1所述的方法，其中，对所述至少两个标签文本进行聚类，以得到用于所述视频的聚类结果包括：

对于所述至少两个标签文本中的每个标签文本，对该标签文本进行分词，以得到该标签文本中的至少两个标签词语；

确定每个标签文本属于预定的类别的第一条件概率；

确定每个类别包含该标签词语的第二条件概率；

基于所述第一条件概率和所述第二条件概率确定每个标签文本属于预定的类别的概率；

基于每个标签文本属于预定的类别的概率对所述标签文本进行聚类，以得到用于所述视频的聚类结果。

12.如权利要求11所述的方法，其中，基于所述第一条件概率和所述第二条件概率确定每个标签文本属于预定的类别的概率包括：

基于每个标签词语所属的文本类型确定该标签词语的置信度，所述文本类型包括标题文本、扩展查询串、扩展搜索文本和扩展标题文本中的至少一个；

基于所述置信度调整所述第一条件概率和所述第二条件概率，以得到调整后的第一条件概率和调整后的第二条件概率；

基于所述调整后的第一条件概率和所述调整后的第二条件概率确定每个标签文本属于预定的类别的概率。

13.一种用于对视频进行聚类的装置，包括：

标题文本确定单元，配置成确定所述视频的标题文本；

扩展文本确定单元，配置成基于与所述视频相关联的搜索点击数据，确定用于所述标题文本的扩展文本；

标签文本确定单元，配置成基于所述标题文本和所述扩展文本确定用于聚类所述视频的至少两个标签文本；

聚类单元，配置成对所述至少两个标签文本进行聚类，以得到用于所述视频的聚类结果。

14.一种用于对视频进行聚类的设备，所述设备包括存储器和处理器，其中所述存储器中存有指令，当利用所述处理器执行所述指令时，使得所述处理器执行如权利要求1-12中任一项所述的用于对视频进行聚类方法。

15.一种计算机可读存储介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行如权利要求1-12中任一项所述的用于对视频进行聚类方法。