CN111324771A

CN111324771A - 视频标签的确定方法、装置、电子设备及存储介质

Info

Publication number: CN111324771A
Application number: CN202010119212.7A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2020-06-23
Anticipated expiration: 2040-02-26
Also published as: CN111324771B

Abstract

本发明提供了一种视频标签的确定方法、装置、电子设备及存储介质；方法包括：获取对应目标视频的搜索数据集，所述搜索数据集包括至少两个搜索文本，所述搜索文本用于搜索得到所述目标视频、且所述目标视频被呈现后存在点击数据；分别对各所述搜索文本进行关键词提取，得到至少两个关键词；基于提取得到的至少两个关键词，生成所述目标视频的候选标签；分别获取以各所述候选标签作为搜索文本，进行视频搜索得到所述目标视频时，所述目标视频被点击的可能性；基于所述可能性的高低，对所述候选标签进行筛选，得到所述目标视频的目标标签，所述目标标签，用于所述目标视频的搜索、推荐中至少之一。通过本发明，能够确定更符合用户需求的标签。

Description

视频标签的确定方法、装置、电子设备及存储介质

技术领域

本发明涉及信息处理技术，尤其涉及一种视频标签的确定方法、装置、电子设备及存储介质。

背景技术

随着智能手机和4G网络的普及，视频成为重要的内容承载形式。在对视频进行搜索和推荐时，由于短视频标题往往较短，需要确定短视频的标签，来对短视频的内容进行补充表征。

相关技术中，在确定短视频的标签时，通常是通过制定分类体系，大概几十到上百个层级类别，以得到分类标签；然后人工标注训练样本的分类标签，以训练得到一个视频图像特征到分类标签的分类模型，通过训练得到的分类模型来确定短视频的分类标签。然而，由于分类标签是通过人工制定分类体系，不一定能够符合用户的需求；并且，当前视频图像特征抽取还有很多技术困难，导致短视频的标签确定不准确。

发明内容

本发明实施例提供一种视频标签的确定方法、装置、电子设备及存储介质，能够确定更符合用户需求的标签。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种视频标签的确定方法，包括：

获取对应目标视频的搜索数据集，所述搜索数据集包括至少两个搜索文本，所述搜索文本用于搜索得到所述目标视频、且所述目标视频被呈现后存在点击数据；

分别对各所述搜索文本进行关键词提取，得到至少两个关键词；

基于提取得到的至少两个关键词，生成所述目标视频的候选标签；

分别获取以各所述候选标签作为搜索文本，进行视频搜索得到所述目标视频时，所述目标视频被点击的可能性；

基于所述可能性的高低，对所述候选标签进行筛选，得到所述目标视频的目标标签，所述目标标签，用于所述目标视频的搜索、推荐中至少之一。

本发明实施例提供一种视频标签的确定装置，包括：

数据集获取模块，用于获取对应目标视频的搜索数据集，所述搜索数据集包括至少两个搜索文本，所述搜索文本用于搜索得到所述目标视频、且所述目标视频被呈现后存在点击数据；

关键词提取模块，用于分别对各所述搜索文本进行关键词提取，得到至少两个关键词；

标签生成模块，用于基于提取得到的至少两个关键词，生成所述目标视频的候选标签；

可能性获取模块，用于分别获取以各所述候选标签作为搜索文本，进行视频搜索得到所述目标视频时，所述目标视频被点击的可能性；

标签筛选模块，用于基于所述可能性的高低，对所述候选标签进行筛选，得到所述目标视频的目标标签，所述目标标签，用于所述目标视频的搜索、推荐中至少之一。

上述方案中，所述关键词提取模块，还用于获取各搜索文本对应的点击次数，所述点击次数为基于所述搜索文本搜索所述目标视频时，所述目标视频被点击的次数；

基于各所述搜索文本对应的点击次数，对搜索数据集中的搜索文本进行筛选，得到对应的所述点击次数达到第一次数阈值的搜索文本；

对所述筛选得到的搜索文本进行关键词提取。

上述方案中，所述关键词提取模块，还用于分别对所述至少两个搜索文本中各搜索文本进行分词处理，得到对应所述搜索文本的至少两个词；

分别从得到的各所述搜索文本对应的所述至少两个词中提取关键词。

上述方案中，所述关键词提取模块，还用于获取各所述搜索文本对应的所述至少两个词的词性；

从所述至少两个词中提取词性为名词的词作为相应搜索文本的关键词。

上述方案中，所述关键词提取模块，还用于对于各所述搜索文本对应的所述至少两个词中的每个词，分别获取包含所述个词的搜索文本的数量；

从得到的所述至少两个词中，提取所述数量达到数量阈值所对应的词为相应搜索文本的关键词。

上述方案中，所述关键词提取模块，还用于对各所述搜索文本对应的所述至少两个词进行命名实体识别；

从所述至少两个词中提取属于命名实体的词作为相应搜索文本的关键词。

上述方案中，所述标签生成模块，还用于基于提取的至少两个关键词，获取包含所述关键词的搜索文本的个数、及搜索文本的总数；

根据包含所述关键词的搜索文本的个数、及搜索文本的总数，确定所述关键词的逆向文件频率；

将所述逆向文件频率达到频率阈值的关键词作为所述目标视频的候选标签。

上述方案中，所述标签生成模块，还用于基于提取得到的至少两个关键词，对对应同一搜索文本的至少两个关键词进行组合，得到关键词组；

当包含所述关键词组的搜索文本的搜索次数达到第二次数阈值时，将所述关键词组作为所述目标视频的候选标签。

上述方案中，所述可能性获取模块，还用于分别获取以各所述候选标签作为搜索文本，进行视频搜索得到所述目标视频时，所述目标视频被点击的次数，以及包含所述候选标签的至少一个搜索文本的搜索次数；

确定所述被点击的次数与所述搜索次数的比值，所述比值用于表征以所述候选标签作为搜索文本，进行视频搜索得到所述目标视频时，所述目标视频被点击的可能性。

上述方案中，所述可能性获取模块，还用于获取共现搜索文本数量、共现词数量及最大词数量；

其中，所述共现搜索文本数量为包含所述候选标签的目标搜索文本的数量，所述共现词数量为各所述目标搜索文本中相同词的数量，所述最大词数量为包含词数量最多的目标搜索文本对应的词数量；

根据所述共现搜索文本数量、所述共现词数量及所述最大词数量，确定所述候选标签的共现权重；

所述共现权重用于表征以所述候选标签作为搜索文本，进行视频搜索得到所述目标视频时，所述目标视频被点击的可能性。

上述方案中，所述标签筛选模块，还用于获取用于表征所述目标视频被点击的可能性的至少两个参数；

对所述至少两个参数进行加权求和，得到所述候选标签的置信度；

根据所述候选标签的置信度，对所述候选标签进行筛选。

上述方案中，所述标签筛选模块，还用于所述基于所述可能性的高低，对所述候选标签进行排序，得到候选标签序列；

从所述候选标签序列中第一个候选标签开始，选取目标数量的候选标签作为目标标签。

本发明实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的视频标签的确定方法。

本发明实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的视频标签的确定方法。

本发明实施例具有以下有益效果：

本发明通过获取对应目标视频的搜索数据集，搜索数据集包括至少两个搜索文本；分别对各搜索文本进行关键词提取，得到至少两个关键词；基于提取得到的至少两个关键词，生成目标视频的候选标签；分别获取以各候选标签作为搜索文本，进行视频搜索得到目标视频时，目标视频被点击的可能性；基于可能性的高低，对候选标签进行筛选，得到目标视频的目标标签，目标标签；如此，一方面，由于目标标签是从对应目标视频的搜索数据集中的搜索文本挖掘得到的，得到的目标标签符合用户的搜索习惯，更能够满足用户的需求；另一方面，相对于训练分类模型来确定视频的标签，本发明的实现更加简单，节省了人力和时间的同时，提升了标签确定的准确性。

附图说明

图1是本发明实施例提供的视频标签的确定系统100的架构示意图；

图2是本发明实施例提供的电子设备的结构示意图；

图3是本发明实施例提供的视频标签的确定方法的流程示意图；

图4是本发明实施例提供的Bi-LSTM+CRF的网络结构示意图；

图5是本发明实施例提供的视频标签的确定方法的流程示意图；

图6是本发明实施例提供的调用NLTK工具的代码示意图；

图7是本发明实施例提供的调用StanfordNER工具的代码示意图；

图8是本发明实施例提供的命名实体识别的系统架构图；

图9是本发明实施例提供的视频标签的确定装置的组成结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)视频标签，用于对视频进行描述及分类，便于对视频进行搜索、推荐、分享等，是视频通过抽象、归纳、解析后得到的最有价值、最具代表性的信息。

2)分词，指将连续的字序列按照一定的规范重新组合成词序列的过程。

3)词性，是词汇基本的语法属性，通常也称为词性。

4)命名实体识别，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。

参见图1，图1是本发明实施例提供的视频标签的确定系统100的架构示意图，为实现支撑一个示例性应用，终端400(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

终端400，用于发送搜索数据；

服务器200，用于获取对应目标视频的搜索数据集，搜索数据集包括至少两个搜索文本，搜索文本用于搜索得到目标视频、且目标视频被呈现后存在点击数据；分别对各搜索文本进行关键词提取，得到至少两个关键词；基于提取得到的至少两个关键词，生成目标视频的候选标签；分别获取以各候选标签作为搜索文本，进行视频搜索得到目标视频时，目标视频被点击的可能性；基于可能性的高低，对候选标签进行筛选，得到目标视频的目标标签，目标标签，用于目标视频的搜索、推荐中至少之一。通过本发明，能够确定更符合用户需求的标签。

在实际应用中，服务器既可以为单独配置的支持各种业务的一个服务器，亦可以配置为一个服务器集群；终端可以为智能手机、平板电脑、笔记本电脑等各种类型的用户终端，还可以为可穿戴计算设备、个人数字助理(PDA)、台式计算机、蜂窝电话、媒体播放器、导航设备、游戏机、电视机、或者这些数据处理设备或其他数据处理设备中任意两个或多个的组合。

接下来对实施本发明实施例的视频标签的确定方法的电子设备进行说明。参见图2，图2是本发明实施例提供的电子设备的结构示意图，图2所示的电子设备包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。电子设备中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Mem ory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本发明实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiF i)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的装置可以采用软件方式实现，图2示出了存储在存储器450中的视频标签的确定装置455，其可以是程序和插件等形式的软件，包括以下软件模块：数据集获取模块4551、关键词提取模块4552、标签生成模块4553、可能性获取模块4554及标签筛选模块4555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。

将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的视频标签的确定装置可以采用硬件方式实现，作为示例，本发明实施例提供的视频标签的确定装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的视频标签的确定方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Pro grammable Gate Array)或其他电子元件。

将结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的视频标签的确定方法。

图3是本发明实施例提供的视频标签的确定方法的流程示意图，参见图3，本发明实施例提供的视频标签的确定方法包括：

步骤301：服务器获取对应目标视频的搜索数据集。

这里，搜索数据集包括至少两个搜索文本，搜索文本用于搜索得到目标视频、且目标视频被呈现后存在点击数据。其中，搜索数据集包括的至少两个搜索文本为不同的搜索文本；目标视频被呈现后存在点击数据，表征在终端呈现目标视频后，用户通过终端点击了目标视频。

在一些实施例中，服务器可以获取一段时间内的搜索日志，如可以获取近三个月的搜索日志；根据搜索日志，统计搜索得到目标视频、且目标视频被呈现后存在点击数据的搜索文本，进而根据统计得到的至少两个搜索文本，构建对应目标视频的搜索数据集。

在实际实施时，若根据历史搜索日志，确定用户通过某一搜索文本搜索得到包括目标视频的搜索结果，并通过终端点击了目标视频，那么，将该搜索文本作为搜索数据集中搜索文本。

步骤302：分别对各搜索文本进行关键词提取，得到至少两个关键词。

在实际实施时，服务器分别从各搜索文本中提取出具有实际意义的词作为关键词，如词性为名词的词、属于命名实体的词、出现次数较多的词等。而对于一些没有实际意义的词，如助词“的”、“了”、“啊”等，由于其仅仅是附加在词、短语、句子上起辅助作用，不能作为关键词。

在一些实施例中，服务器可以通过以下方式得到至少两个关键词：获取各搜索文本对应的点击次数，点击次数为基于搜索文本搜索目标视频时，目标视频被点击的次数；基于各搜索文本对应的点击次数，对搜索数据集中的搜索文本进行筛选，得到对应的点击次数达到第一次数阈值的搜索文本；对筛选得到的搜索文本进行关键词提取。

需要说明的是，点击次数是指在指定时间段内，基于搜索文本搜索得到目标视频时，目标视频被点击的总次数。也即，若在指定时间段内，多次基于该搜索文本搜索目标视频，将每一次基于搜索文本搜索到目标视频后，点击目标视频的次数进行叠加，得到该搜索文本对应的点击次数。

例如，基于“梁朝伟”进行了150次视频搜索，其中有100次用户在搜索结果中点击了目标视频，那么“梁朝伟”对应的点击次数为100。

在实际实施时，判断各搜索文本对应的点击次数是否达到第一次数阈值，若达到，则提取该搜索文本中的关键词；否则，剔除该搜索文本。例如，可以将次数阈值100，仅对对应的点击次数达到100的搜索文本进行关键词提取。

这里，搜索文本对应的点击次数越大，说明用户基于该搜索文本来搜索目标视频的可能性越大，本发明通过根据搜索文本对应的点击次数，对搜索文本进行筛选，过滤掉用于搜索目标视频的可能性较小的搜索文本，以避免影响目标标签确定的准确性。

在一些实施例中，服务器可以通过以下方式得到至少两个关键词：分别对至少两个搜索文本中各搜索文本进行分词处理，得到对应搜索文本的至少两个词；分别从得到的各搜索文本对应的至少两个词中提取关键词。

这里，分词指的是将连续的字序列按照一定的规范重新组合成词序列的过程，例如，搜索文本为“有关民国的电影”，分词得到“有关”、“民国”、“的”、“电影”。

在一些实施例中，服务器可以采用基于字符串匹配的分词方法对搜索文本进行分词，即将搜索文本中的字序列与机器词典中的词条进行匹配。在另一些实施例中，服务器可以采用基于理解的分词方法对搜索文本进行分词，即在分词的同时进行句法、及语义的分析，利用句法信息和语义信息来处理歧义现象。在另一些实施例中，服务器可以采用基于统计的分词方法对搜索文本进行分词，即利用大量已经分词的文本，通过统计机器学习模型学习词语切分的规律，从而实现对未知文本的切分。在实际实施时，可以利用已有的分词工具对文本互动信息进行分词，如jieba分词、SnowNLP、THULAC等。

在一些实施例中，若搜索文本仅包括一个词，则不需要对搜索文本进行分词，而是直接判断该词是否具有实际意义，若是，则将整个搜索文本作为关键词，否则，该搜索文本没有对应的关键词。

在一些实施例中，服务器可以通过以下方式提取关键词：获取各搜索文本对应的至少两个词的词性；从至少两个词中提取词性为名词的词作为相应搜索文本的关键词。

在实际实施时，根据搜索文本中各个词的含义和上下文内容对各个词进行词性标注，以得到搜索文本中各个词的词性。

在一些实施例中，可以通过机器学习算法实现词性标注。词性标注的机器学习算法主要为序列模型，包括隐马尔科夫模型(HMM，Hidden Markov Mo del)、最大熵马尔可夫模型(MEMM，Maximum Entropy Markov Model)、条件随机场(CRFs，Conditional randomfields)等广义上的马尔可夫模型成员，以及以循环神经网络(RNN，Recurrent NeuralNetwork)为代表的深度学习算法。

在实际实施时，可以通过开源工具实现词性标注，如宾夕法尼亚大学的N LTK工具。

在一些实施例中，服务器可以通过以下方式提取关键词：对于各搜索文本对应的至少两个词中的每个词，分别获取包含所述词的搜索文本的数量；从得到的至少两个词中，提取数量达到数量阈值所对应的词为相应搜索文本的关键词。

在实际实施时，对于搜索文本对应的每个词，服务器可以获取搜索数据集中包含该词的搜索文本的数量，这里，包含该词的搜索文本的数量越多，表示该词在搜索目标视频时的使用频率越高，越应该根据该词得到目标视频的目标标签。

例如，搜索数据集中的搜索文本包括：梁朝伟、花样年华、花样年华视频、有关民国的电影、有关上海的电影，“花样年华视频”对应“花样年华”和“视频”，包括“花样年华”的搜索文本的数量为2，包括“视频”的搜索文本的数量为1。假设提取数量达到2所对应的词为相应搜索文本的关键词，那么，将“花样年华”作为“花样年华视频”的关键词。

在一些实施例中，对于搜索文本对应的每个词，服务器可以根据点击次数对搜索数据集中的搜索文本进行筛选，仅获取相应的点击次数达到第一次数阈值、且包含该词的搜索文本的数量。

在一些实施例中，服务器可以通过以下方式提取关键词：对各搜索文本对应的至少两个词进行命名实体识别；从至少两个词中提取属于命名实体的词作为相应搜索文本的关键词。

在实际实施时，可以使用比较经典的双向长短时记忆+条件随机场(Bi-LS TM+CRF，Bi-directional Long-Short Term Memory+Conditional Random Fie lds)的网络结构对各搜索文本对应的至少两个词的实体类别进行预测，各实体标签可以采用BIO标注集，即B-PER、I-PER代表人名首字、人名非首字，B-LO C、I-LOC代表地名首字、地名非首字，B-ORG、I-ORG代表组织机构名首字、组织机构名非首字，O代表该字不属于命名实体的一部分；也可以采用BIOS标注集，如B-Person表示人名开始位置的词，I-Person表示人名中间位置的词，E-Person表示人名结束位置的词，S-Person表示单个词组成的人名。

图4为本发明实施例提供的Bi-LSTM+CRF的网络结构示意图，参见图4，Bi-LSTM+CRF的输入为搜索文本对应的至少两个词的词嵌入向量，通过Bi-L STM对至少两个词的词嵌入向量进行编码，然后通过CRF确定至少两个词的命名实体识别标签。

步骤303：基于提取得到的至少两个关键词，生成目标视频的候选标签。

在实际实施时，服务器可以直接将提取得到的至少两个关键词作为目标视频的候选标签，服务器也可以从得到的至少两个关键词中选取若干个关键词进行组合，将组合词作为目标视频的候选标签。

在一些实施例中，生成所述目标视频的候选标签，包括：基于提取的至少两个关键词，获取包含关键词的搜索文本的个数、及搜索文本的总数；根据包含关键词的搜索文本的个数、及搜索文本的总数，确定关键词的逆向文件频率；将逆向文件频率达到频率阈值的关键词作为目标视频的候选标签。

这里，逆向文件频率(IDF，Inverse Document Frequency)是一个词语普遍重要性的度量。某一关键词的IDF，可以由搜索文本总数除以包含该关键词的搜索文本的个数，再将得到的商取对数得到：

其中，|D|为搜索文本的总数，|{j:t_i∈d_j}|为包含关键词的搜索文本的个数。

需要说明的是，包含关键词的搜索文本的个数越少，该关键词的IDF越大，则说明该关键词具有很好的类别区分能力，能够很好的表征目标视频的特征；相反的，包含关键词的搜索文本的个数越多，该关键词的IDF越大，则说明该关键词不具有很好的类别区分能力。

例如，提取的关键词有梁朝伟、花样年华、民国、上海、电影、视频，其中，包含“电影”的搜索文本和包含“电影”的搜索文本很多，相应的IDF都小于频率阈值，因此，将“电影”和“视频”过滤掉，得到候选标签为：梁朝伟、花样年华、民国、上海。

在一些实施例中，生成所述目标视频的候选标签，包括：基于提取得到的至少两个关键词，对对应同一搜索文本的至少两个关键词进行组合，得到关键词组；当包含所述关键词组的搜索文本的搜索次数达到第二次数阈值时，将所述关键词组作为所述目标视频的候选标签。

在实际实施时，候选标签不仅可以是一个词，也可以是由多个词组成的词组，只要其具有实际意义，都可以被确定为候选标签。如，得到的目标视频的关键词组为“张曼玉穿旗袍”，虽然该关键词组整体不属于命名实体，但该关键词组比“张曼玉”或者“旗袍”更能够准确描述目标视频。

需要说明的是，当某一关键词组经常被搜索时，说明该关键词具有实际意义，那么可以将该关键词组作为目标视频的候选标签。

步骤304：分别获取以各候选标签作为搜索文本，进行视频搜索得到目标视频时，目标视频被点击的可能性。

这里，目标视频被点击的可能性越高，则相应的候选标签越适合作为目标标签，越能够满足用户对目标视频的搜索需求。

在一些实施例中，服务器可以通过以下方式获取目标视频被点击的可能性：分别获取以各候选标签作为搜索文本，进行视频搜索得到目标视频时，所述目标视频被点击的次数，以及包含所述候选标签的至少一个搜索文本的搜索次数；确定所述被点击的次数与所述搜索次数的比值，所述比值用于表征以所述候选标签作为搜索文本，进行视频搜索得到所述目标视频时，所述目标视频被点击的可能性。

需要说明的是，目标视频被点击的次数及搜索次数均可以通过搜索日志确定，其中，搜索次数是指根据包含候选标签的所有搜索文本的总的搜索次数，如包含候选标签的搜索文本共有三个，对应的搜索次数分别为100、130、170，那么，搜索次数为400。

以候选标签为花样年华为例，包括“花样年华”的搜索文本有“花样年华”、“花样年华视频”，其中，以“花样年华”为搜索文本进行了130次搜索，目标视频被点击了100次；以“花样年华视频”为搜索文本进行了110次搜索；那么，被点击的次数与搜索次数的比值为100/(110+130)＝0.42。

在一些实施例中，服务器可以通过以下方式获取目标视频被点击的可能性：获取共现搜索文本数量、共现词数量及最大词数量；根据所述共现搜索文本数量、所述共现词数量及所述最大词数量，确定所述候选标签的共现权重；所述共现权重用于表征以所述候选标签作为搜索文本，进行视频搜索得到所述目标视频时，所述目标视频被点击的可能性。

其中，所述共现搜索文本数量为包含所述候选标签的目标搜索文本的数量，所述共现词数量为各所述目标搜索文本中相同词的数量，所述最大词数量为包含词数量最多的目标搜索文本对应的词数量。

在实际实施时，服务器可以通过以下公式确定候选标签的共现权重：共现权重＝共现搜索文本数量*共现词数量/最大词数量。

以候选标签为花样年华为例，包括“花样年华”的搜索文本有“花样年华”、“花样年华视频”，那么，共现搜索文本数量为2，共现词数量为1，最大词数量为2，相应的，共现权重为2*1/2＝1。

步骤305：基于可能性的高低，对候选标签进行筛选，得到目标视频的目标标签。

其中，目标标签用于目标视频的搜索、推荐中至少之一。

在一些实施例中，服务器可以通过以下方式对候选标签进行筛选：获取用于表征所述目标视频被点击的可能性的至少两个参数；对所述至少两个参数进行加权求和，得到所述候选标签的置信度；根据所述候选标签的置信度，对所述候选标签进行筛选。

在实际实施时，获取候选标签的点击率及候选标签的共现权重，对候选标签的点击率及候选标签的共现权重进行加权求和，得到候选标签的置信度：sco re＝alpha*click_rate_additional+beta*curr_weight。

其中，score为候选标签的置信度，click_rate_additional候选标签的点击率，curr_weight为候选标签的共现权重，alpha、beta分别为候选标签的点击率及候选标签的共现权重对应的权重。

需要说明的是，候选标签的点击率，为以候选标签作为搜索文本进行视频搜索得到目标视频时目标视频被点击的次数，与包含候选标签的所有搜索文本的搜索次数的比值。

在一些实施例中，服务器可以通过以下方式对候选标签进行筛选：基于可能性的高低，对候选标签进行排序，得到候选标签序列；从候选标签序列中第一个候选标签开始，选取目标数量的候选标签作为目标标签。

在实际实施时，目标视频被点击的可能性越高，则相应的候选标签越适合作为目标标签，越能够满足用户对目标视频的搜索需求；因此，可目标视频被点击的可能性越高，则相应的候选标签排序越靠前。

在一些实施例中，当根据候选标签的置信度，对候选标签进行筛选时，服务器还可以设置一个置信度阈值，将相应的置信度大于该阈值的候选标签，作为目标视频的目标标签。

继续说明本发明的视频标签的确定方法，图5为本发明实施例提供的视频标签的确认方法的流程示意图，参见图5，本发明的视频标签的确定方法包括：

步骤501：服务器获取近三个月的搜索日志。

步骤502：根据搜索日志，获取目标视频的搜索数据集。

这里，搜索数据集包括至少两个搜索文本、及相应的点击次数和搜索次数。其中，搜索文本用于搜索得到目标视频、且目标视频被呈现后存在点击数据；点击次数表示三个月内，基于搜索文本搜索得到目标视频时，目标视频被点击的总次数；搜索次数表示三个月内，基于搜索文本进行视频搜索的次数。

步骤503：根据点击次数对搜索数据集中的搜索文本进行筛选，剔除点击次数少于次数阈值的搜索文本。

步骤504：分别对所述至少两个搜索文本中各搜索文本进行分词处理，得到对应所述搜索文本的至少两个词。

步骤505：分别从得到的各所述搜索文本对应的所述至少两个词中提取满足一下条件至少之一的词作为关键词：词性为名词、属于命名实体、共现次数达到数量阈值。

这里，可以使用开源的工具实现分词、词性标注及命名实体识别(NER，N amedEntity Recognition)，以判断是否词性为名词，以及是否属于命名实体。

步骤506：计算各个关键词的逆向文件频率。

这里，关键词的逆向文件频率，可以由搜索文本总数除以包含该关键词的搜索文本的个数，再将得到的商取对数得到。

步骤507：将逆向文件频率达到频率阈值的关键词作为候选标签。

步骤508：获取各候选标签的点击率及共现权重。

这里，点击率可以根据以下方式得到：候选标签的点击率＝候选标签的点击次数/包含候选标签的所有搜索文本的搜索次数。

共现权重可以通过以下方式得到：共现权重＝共现搜索文本数量*共现词数量/最大词数量。

步骤509：对点击率及共现权重进行加权求和，得到各候选标签的置信度。

这里，根据score＝alpha*click_rate_additional+beta*curr_weight，计算各候选标签的置信度。其中，score为候选标签的置信度，click_rate_additional候选标签的点击率，curr_weight为候选标签的共现权重，alpha、beta分别为候选标签的点击率及候选标签的共现权重对应的权重。

步骤510：根据各候选标签的置信度，对各候选标签进行排序，得到候选标签序列。

步骤511：从候选标签序列中第一个候选标签开始，选取目标数量的候选标签作为目标标签。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。

现有技术主要存在两方面问题，一方面，人工分类标签是固定的，且在搜索等场景下，用户真正搜索的搜索文本未必包含人工分类标签词，导致即使视频被打上了正确的人工标签，但用户不这么搜，该视频仍然不能召回。另一方面，由于当前视频图像特征抽取还有很多技术困难，虽然当前有很多如CNN这样的深度分类模型，但其同时也需要大量的标注样本，而现实中我们很难获取足够的人工标注样本，进而导致实际中的视频分类效果往往不尽如人意，尤其是当分类类别较多，达到几百，上千个的时候，分类器性能效果更会明显下降。

基于此，本发明提出一种视频标签的确定方法，基于用户搜索共点击行为的数据挖掘的方式来获得更符合用户真实搜索需求的标签。一方面，挖掘的标签具有更高的自由度和UGC性，另一方面，基于海量用户行为数据做挖掘的方法，也可以大大缓解现有技术中存在的需要靠人工标注训练机器学习模型带来的标签规模化生产和精度问题。

本发明的视频标签的确定方法包括三个部分：数据集的构建、候选标签挖掘和去噪、及候选标签的置信度计算。

首先，对数据集的构建进行说明。

在实际实施时，获取近三个月的搜索日志，根据搜索日志统计对应各个视频的中的搜索数据集，搜索数据集中包括多个搜索文本及相应的点击次数和搜索次数。

其中，针对某一目标视频，搜索文本用于搜索得到目标视频、且在呈现包括目标视频的搜索结果后目标视频被点击过；点击次数是指在三个月内，基于该搜索文本搜索得到目标视频时，目标视频被点击的总次数；搜索次数是指在三个月内，基于该搜索文本搜索得到目标视频的次数。

对于某一视频，其对应的搜索数据集可以表示为：视频ID，搜索文本1(点击次数/搜索次数)，搜索文本1(点击次数/搜索次数)，搜索文本1(点击次数/搜索次数)，…，搜索文本n(点击次数/搜索次数)。

例如，id1，梁朝伟(100/200)，花样年华(100/130)，花样年华视频(100/110)，有关民国的电影(100/500)，有关上海的电影(100/400)。

在统计得到数据集后，可以将搜索数据集中对应点击次数少于次数阈值的搜索文本过滤掉。

接着，对候选标签挖掘和去噪进行说明。

以某一视频为例进行说明，对对应该视频的搜索数据集中的搜索文本进行分词，得到对应各搜索文本的多个词。例如，以上述视频id1为例，对该搜索数据集中的搜索为本进行分词可得：

梁/朝伟

花样年华

花样年华/视频

有关/民国/的/电影

有关/上海/的/电影

在实际实施时，当分词得到的词满足以下条件至少之一，确定该词为相应搜索文本的关键词：

1)属于命名实体，如人名、地名、影视名等；

2)共现次数大于M(如M＝2)，也即包括该次的搜索文本的数量大于M；

3)词性为名词。

例如，可以确定关键词为：梁朝伟，花样年华，民国，上海，电影，视频。

这里，命名实体识别和词性识别可以使用开源的分词和NER工具，如宾夕法尼亚大学的NLTK工具，StanfordNER工具等。

图6为本发明实施例提供的调用NLTK工具的代码示意图，参见图6，通过如图6所示的代码可以调用NLTK工具实现搜索文本的分词、词性标注及命名实体识别。

图7为本发明实施例提供的调用StanfordNER工具的代码示意图，参见图7，通过如图7所示的代码可以调用StanfordNER工具实现搜索文本的分词、词性标注及命名实体识别。

下面对NER识别的模型结构进行说明，图8为本发明实施例提供的命名实体识别的系统架构图，参见图8，命名实体识别的系统包括Bi-LSTM+CRF模型和领域分类器，通过Bi-LSTM+CRF模型可以词进行命名实体识别，每个领域有对应的领域词库及相应的领域规则，根据相应的领域词库及相应的领域规则，可以判断命名实体的领域类型，如人名、地名等。

参见图4，Bi-LSTM+CRF的输入为搜索文本对应的至少两个词的词嵌入向量，通过Bi-LSTM对至少两个词的词嵌入向量进行编码，然后通过CRF确定至少两个词的命名实体识别标签，如，B-PER人名首字、I-PER代表人名非首字，O代表该字不属于命名实体的一部分，S-LOC表示单个词组成的地名。

在确定得到对应各搜索文本的关键词后，计算每个关键词的IDF，以根据IDF从关键词中确定出候选标签。

其中，D为搜索文本的总数，|{j:t_i∈d_j}|为包含关键词的搜索文本的个数。

最后，对候选标签的置信度计算进行说明。

这里，根据候选标签的点击率和候选标签的共现权重来确定候选标签的置信度：score＝alpha*click_rate_additional+beta*curr_weight。其中，score为候选标签的置信度，click_rate_additional候选标签的点击率，curr_weight为候选标签的共现权重，alpha、beta分别为候选标签的点击率及候选标签的共现权重对应的权重。

需要说明的是，候选标签的点击率为以候选标签作为搜索文本进行视频搜索得到目标视频时目标视频被点击的次数，与包含候选标签的所有搜索文本的搜索次数的比值。也即，候选标签的点击率＝候选标签的点击次数/包含候选标签的所有搜索文本的搜索次数。

服务器可以通过以下公式确定候选标签的共现权重：共现权重＝共现搜索文本数量*共现词数量/最大词数量。

在实际实施时，置信度越高，相应的候选标签越适合作为目标标签，那么，可以根据候选标签的置信度的高低，对候选标签进行排序，以从候选标签序列中第一个候选标签开始，选取目标数量的候选标签作为目标标签。或者，也可以是设置一个置信度阈值，将置信度高于置信度阈值的候选标签作为目标标签。

需要说明的是，还可以引入更宽泛的特征，如不限制标签一定为实体词或名词，而是只要有意义的词组(如频繁出现)都可以作为标签。如“张曼玉穿旗袍”，虽整体不是实体，但比“张曼玉”或者“旗袍”更能够准确描述视频。

下面继续说明本发明实施例提供的视频标签的确定装置455的实施为软件模块的示例性结构，图9是本发明实施例提供的视频标签的确定装置的组成结构示意图，参见图9，本发明的视频标签的确定装置包括：

数据集获取模块4551，用于获取对应目标视频的搜索数据集，所述搜索数据集包括至少两个搜索文本，所述搜索文本用于搜索得到所述目标视频、且所述目标视频被呈现后存在点击数据；

关键词提取模块4552，用于分别对各所述搜索文本进行关键词提取，得到至少两个关键词；

标签生成模块4553，用于基于提取得到的至少两个关键词，生成所述目标视频的候选标签；

可能性获取模块4554，用于分别获取以各所述候选标签作为搜索文本，进行视频搜索得到所述目标视频时，所述目标视频被点击的可能性；

标签筛选模块4555，用于基于所述可能性的高低，对所述候选标签进行筛选，得到所述目标视频的目标标签，所述目标标签，用于所述目标视频的搜索、推荐中至少之一。

在一些实施例中，所述关键词提取模块4552，还用于获取各搜索文本对应的点击次数，所述点击次数为基于所述搜索文本搜索所述目标视频时，所述目标视频被点击的次数；

对所述筛选得到的搜索文本进行关键词提取。

在一些实施例中，所述关键词提取模块4552，还用于分别对所述至少两个搜索文本中各搜索文本进行分词处理，得到对应所述搜索文本的至少两个词；

在一些实施例中，所述关键词提取模块4552，还用于获取各所述搜索文本对应的所述至少两个词的词性；

在一些实施例中，所述关键词提取模块4552，还用于对于各所述搜索文本对应的所述至少两个词，分别获取包含各个词的搜索文本的数量；

在一些实施例中，所述关键词提取模块4552，还用于对各所述搜索文本对应的所述至少两个词进行命名实体识别；

从所述至少两个词提取属于命名实体的词作为相应搜索文本的关键词。

在一些实施例中，所述标签生成模块4553，还用于基于提取的至少两个关键词，获取包含所述关键词的搜索文本的个数、及搜索文本的总数；

在一些实施例中，所述标签生成模块4553，还用于基于提取得到的至少两个关键词，对对应同一搜索文本的至少两个关键词进行组合，得到关键词组；

在一些实施例中，所述可能性获取模块4554，还用于分别获取以各所述候选标签作为搜索文本，进行视频搜索得到所述目标视频时，所述目标视频被点击的次数，以及包含所述候选标签的至少一个搜索文本的搜索次数；

在一些实施例中，所述可能性获取模块4554，还用于获取共现搜索文本数量、共现词数量及最大词数量；

在一些实施例中，所述标签筛选模块4555，还用于获取用于表征所述目标视频被点击的可能性的至少两个参数；

根据所述候选标签的置信度，对所述候选标签进行筛选。

在一些实施例中，所述标签筛选模块4555，还用于所述基于所述可能性的高低，对所述候选标签进行排序，得到候选标签序列；

本发明实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的方法，例如，如图3示出的方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEP ROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种视频标签的确定方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述分别对各所述搜索文本进行关键词提取，包括：

获取各搜索文本对应的点击次数，所述点击次数为基于所述搜索文本搜索所述目标视频时，所述目标视频被点击的次数；

对所述筛选得到的搜索文本进行关键词提取。

3.如权利要求1所述的方法，其特征在于，所述分别对各所述搜索文本进行关键词提取，包括：

分别对所述至少两个搜索文本中各搜索文本进行分词处理，得到对应所述搜索文本的至少两个词；

4.如权利要求3所述的方法，其特征在于，所述分别从得到的各所述搜索文本对应的所述至少两个词中提取关键词，包括：

获取各所述搜索文本对应的所述至少两个词的词性；

5.如权利要求3所述的方法，其特征在于，所述分别从得到的各所述搜索文本对应的所述至少两个词中提取关键词，包括：

对于各所述搜索文本对应的所述至少两个词中的每个词，分别获取包含所述词的搜索文本的数量；

6.如权利要求3所述的方法，其特征在于，所述分别从得到的各所述搜索文本对应的所述至少两个词中提取关键词，包括：

对各所述搜索文本对应的所述至少两个词进行命名实体识别；

7.如权利要求1所述的方法，其特征在于，所述基于提取得到的至少两个关键词，生成所述目标视频的候选标签，包括：

基于提取的至少两个关键词，获取包含所述关键词的搜索文本的个数、及搜索文本的总数；

8.如权利要求1所述的方法，其特征在于，所述基于提取得到的至少两个关键词，生成所述目标视频的候选标签，包括：

基于提取得到的至少两个关键词，对对应同一搜索文本的至少两个关键词进行组合，得到关键词组；

9.如权利要求1所述的方法，其特征在于，所述分别获取以各所述候选标签作为搜索文本，进行视频搜索得到所述目标视频时，所述目标视频被点击的可能性，包括：

分别获取以各所述候选标签作为搜索文本，进行视频搜索得到所述目标视频时，所述目标视频被点击的次数，以及包含所述候选标签的至少一个搜索文本的搜索次数；

10.如权利要求1所述的方法，其特征在于，所述分别获取以各所述候选标签为搜索文本，进行视频搜索得到所述目标视频时，所述目标视频被点击的可能性，包括：

获取共现搜索文本数量、共现词数量及最大词数量；

11.如权利要求1所述的方法，其特征在于，所述基于所述可能性的高低，对所述候选标签进行筛选，包括：

获取用于表征所述目标视频被点击的可能性的至少两个参数；

根据所述候选标签的置信度，对所述候选标签进行筛选。

12.如权利要求1所述的方法，其特征在于，所述基于所述可能性的高低，对所述候选标签进行筛选，包括：

所述基于所述可能性的高低，对所述候选标签进行排序，得到候选标签序列；

13.一种视频标签的确定装置，其特征在于，所述装置包括：

14.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的视频标签的确定方法。

15.一种存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至12任一项所述的视频标签的确定方法。