CN114329064A

CN114329064A - 视频处理方法、装置、计算机设备及存储介质

Info

Publication number: CN114329064A
Application number: CN202111439163.6A
Authority: CN
Inventors: 陈小帅
Original assignee: Tencent Technology Wuhan Co Ltd
Current assignee: Tencent Technology Wuhan Co Ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-04-12

Abstract

本发明实施例公开了视频处理方法、装置、计算机设备及存储介质，应用于计算机技术领域。该方法包括：对目标视频进行实体识别，确定该目标视频对应的至少一个实体标签；在该至少一个实体标签中确定存在多个候选实体的目标实体标签；获取发布该目标视频的对象的视频特征信息，该视频特征信息与该对象发布的历史视频的视频特征关联；基于该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体；将该至少一个实体标签中各个实体标签对应的目标实体确定为该目标视频的视频标签。通过本申请，可以增强实体消歧效果，提升视频标签设置的精确度。

Description

视频处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及视频处理方法、装置、计算机设备及存储介质。

背景技术

随着网络技术飞速发展，多媒体的推广应用，各种视频源源不断地产生，视频等媒体数据已经成为大数据的主体。为了便于大量视频的推荐分发，可以对视频添加与视频内容相关的视频标签，例如在用户界面中显示视频的标题或者摘要。

针对视频标签，大部分的视频标签为实体标签，但同一实体标签可能会存在多个候选实体，比如名称为“张飞”的实体标签对应多个候选实体，如历史人物、游戏角色。因此，在设置视频标签时，需要对多个候选实体进行消歧处理，才能准确为视频设置合理的标签。目前，传统的实体消歧方式依赖于视频内容的完备性，当视频内容不够明确、完备时，就不足以支撑实体消歧，从而降低视频标签设置的精确度。

发明内容

本发明实施例提供了视频处理方法、装置、计算机设备及存储介质，可以增强实体消歧效果，提升视频标签设置的精确度。

一方面，本发明实施例提供了一种视频处理方法，该方法包括：

对目标视频进行实体识别，确定该目标视频对应的至少一个实体标签；

在该至少一个实体标签中确定存在多个候选实体的目标实体标签；

获取发布该目标视频的对象的视频特征信息，该视频特征信息与该对象发布的历史视频的视频特征关联；

基于该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体，该目标实体包括该多个候选实体中的一个或者多个；

将该至少一个实体标签中各个实体标签对应的目标实体确定为该目标视频的视频标签。

一方面，本申请实施例提供一种视频处理装置，该装置包括：

识别单元，用于对目标视频进行实体识别，确定该目标视频对应的至少一个实体标签；

确定单元，用于在该至少一个实体标签中确定存在多个候选实体的目标实体标签；

获取单元，用于获取发布该目标视频的对象的视频特征信息，该视频特征信息与该对象发布的历史视频的视频特征关联；

消歧单元，用于基于该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体，该目标实体包括该多个候选实体中的一个或者多个；

该确定单元，还用于将该至少一个实体标签中各个实体标签对应的目标实体确定为该目标视频的视频标签。

一方面，本申请实施例提供一种计算机设备，该计算机设备包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述的视频处理方法。

一方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被计算机设备的处理器读取并执行时，使得计算机设备执行上述的视频处理方法。

一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的视频处理方法。

通过本申请实施例，对目标视频进行实体识别，确定该目标视频对应的至少一个实体标签；在该至少一个实体标签中确定存在多个候选实体的目标实体标签；获取发布该目标视频的对象的视频特征信息，该视频特征信息与该对象发布的历史视频的视频特征关联；基于该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体，该目标实体包括该多个候选实体中的一个或者多个；将该至少一个实体标签中各个实体标签对应的目标实体确定为该目标视频的视频标签。应当理解的，利用发布该目标视频的对象的视频特征信息进行实体消歧，使消歧后的候选实体与发布用户的历史视频的特征信息更加匹配，从而增强实体消歧效果，提升视频标签设置的精确度。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频处理系统的架构示意图；

图2是本发明实施例提供的一种视频处理方法的流程示意图；

图3是本发明实施例提供的一种目标视频以及对应的视频标签的示意图；

图4是本发明实施例提供的一种实体识别模型的结构示意图；

图5是本发明实施例提供的一种视频处理流程图；

图6是本发明实施例提供的另一种视频处理方法的流程示意图；

图7是本发明实施例提供的另一种视频处理方法的流程示意图；

图8是本发明实施例提供的一种深度匹配模型的结构示意图；

图9是本发明实施例提供的另一种视频处理方法的流程示意图；

图10是本发明实施例提供的另一种视频处理方法的流程示意图；

图11是本发明实施例提供的一种视频处理装置的结构示意图；

图12是本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本申请实施例中所涉及到的“第一”、“第二”等描述仅用于描述目的，而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因此，限定有“第一”、“第二”的技术特征可以明示或者隐含的包括至少一个该特征。

首先，对本申请实施例涉及的部分名词进行解释，以便于本领域技术人员的理解。

SPERT模型：SPERT模型是一种以变压器网络BERT为核心的联合实体和关系提取模型，采用分类的思想实现联合抽取，实体抽取和关系抽取模型均为分类模型，采用穷近的思想预测给定文本中所有可能的文本片段所属的实体类型。关系抽取依赖于出抽取出的实体，预测抽取实体的所有组合的关系类型，进行关系抽取会考虑实体间的文本特征信息。

BERT模型：全称为Bidirectional Encoder Representations fromTransformers，是一种由谷歌提出的新型的语言模型，通过联合调节所有层中的双向转换器(Transformer)来预训练双向深度表示(Embedding)。

Transformer模型：Transformer模型是一种自然语言处理(Nature Languageprocessing，NLP)经典模型，Transformer模型完全基于注意力来编码输入和计算输出，而不依赖于序列对齐的循环神经网络或卷积神经网络，Transformer模型使用自注意力(Self-Attention)机制，而不采用循环神经网络(Recurrent Neural Network，RNN)的顺序结构，使得模型可以并行化训练，而且能够拥有全局信息。Transformer模型的结构由编码器(Encoder)层和解码器(Decoder)层组成。

光学字符识别(Optical Character Recognition，OCR)技术：指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。亦即将图像中的文字进行识别，并以文本的形式返回。

自动语音识别(Automatic Speech Recognition，ASR)技术：一种将人的语音转换为文本的技术，通过语音信号处理和模式识别让机器自动识别和理解语音信号，并转变为相应的文本或命令。其中，主要流程包括：语音输入、编码(特征提取)、解码和文字输出。

自注意力(Self-Attention)模型：注意力模型模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。注意力模型可以快速提取稀疏数据的重要特征，因而被广泛用于自然语言处理任务，特别是机器翻译。而自注意力机制是注意力模型的改进，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。

本申请实施例提出的一种视频处理方法可以基于人工智能技术实现，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

目前，由于传统的实体消歧方式依赖于视频内容的完备性，当视频内容不够明确、完备时，就不足以支撑实体消歧，从而降低视频标签设置的精确度。本申请实施例考虑到发布目标视频的对象的视频特征信息，该视频特征信息用于指示该对象发布的历史视频的视频特征，例如历史视频的视频类型、历史视频的视频标签等。在一定程度上基于发布目标视频的对象的视频特征信息对候选实体进行消歧，可以增强实体消歧效果，提升视频标签设置的精确度。因此，本申请实施例提出了一种视频处理方案，具体是对目标视频进行实体识别，得到该目标视频的至少一个实体标签，针对存在多个候选实体的实体标签，基于视频特征信息对该实体标签对应的多个候选实体进行消歧处理，得到该实体标签对应的目标实体，进一步的，将该至少一个实体标签中各个实体标签对应的目标实体确定为目标视频的视频标签。

本申请提出的视频处理方法是由计算机设备执行的，计算机设备可以是终端设备，比如智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能车载等，但并不局限于此；计算机设备也可以是服务器，比如独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

或者可以由计算机设备和视频处理设备共同执行，比如计算机设备为终端设备，视频处理设备为服务器；又或者计算机设备为服务器，视频处理设备为终端设备。

举例来说，假设计算机设备为终端设备，视频处理设备为服务器，可以采用下述视频处理系统的架构实现本申请提出的视频处理方案。请参见图1，图1为本申请实施例的一种视频处理系统的架构示意图，如图1所示，该视频处理系统100可以包括一个或多个终端设备101和一个服务器102。当然视频处理系统100也可以包括一个或多个终端设备101和多个服务器102，本申请实施例不作限定。其中，终端设备101主要用于发送一个或多个目标视频至服务器102，以及接收服务器102发送的目标视频的视频标签；服务器102主要用于执行视频处理方法的相关步骤，得到目标视频的视频标签，并将目标视频的视频标签发送给终端设备101。终端设备101和服务器102可以实现通信连接，其连接方式可以包括有线连接和无线连接，在此不进行限定。

结合上述视频处理系统，本申请实施例的视频处理方法大致可以包括：

终端设备101将目标视频发送至服务器102，服务器102获取到终端设备101发送的目标视频后，对该目标视频进行实体识别，确定该目标视频对应的至少一个实体标签。针对存在多个候选实体的实体标签，服务器102进一步获取发布该目标视频的对象的视频特征信息，利用该视频特征信息对该多个候选实体进行消歧处理，将各个实体标签对应的目标实体确定为该目标视频的视频标签，再将该目标视频的视频标签发送至终端设备101。当然，终端设备101也可以对目标视频进行实体识别，得到该目标视频对应的至少一个实体标签后，将该至少一个实体标签发送至服务器102。通过该方法确定目标视频的视频标签，利用发布该目标视频的对象的视频特征信息进行实体消歧，使消歧后的候选实体与视频发布对象的视频特征信息更加匹配，从而增强实体消歧效果，提升视频标签设置的精确度。

在一个实施例中，实体标签对应的候选实体可能存在多个，也可能只存在一个。对于只存在一个候选实体的实体标签，无需进行实体消歧，即本申请可以直接将该候选实体确定为该实体标签对应的目标实体。例如，假设服务器102对目标视频进行实体识别，确定了该目标视频对应的三个实体标签，分别为实体标签1，实体标签2和实体标签3，其中实体标签1存在多个候选实体，实体标签2仅存在一个候选实体，实体标签3仅存在一个候选实体。那么服务器102可以基于上述视频特征信息对实体标签1对应的多个候选实体进行消歧处理，得到实体标签1对应的目标实体。服务器102还可以将实体标签2对应的候选实体确定为实体标签2对应的目标实体，以及将实体标签3对应的候选实体确定为实体标签3对应的目标实体。进而服务器102可以将实体标签1对应的目标实体、实体标签2对应的目标实体以及实体标签3对应的目标实体确定为目标视频的视频标签，并将该视频标签发送至终端设备101。后续实施例均以实体标签存在多个候选实体的场景进行描述，但不限定目标视频对应的实体标签仅包括存在多个候选实体的实体标签。

可以理解的是，本申请实施例描述的系统架构示意图是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

基于上述对视频处理系统架构的阐述，本申请实施例公开了一种视频处理方法，请参见图2，为本申请实施例公开的一种视频处理方法的流程示意图，该视频处理方法可以由计算机设备执行的，计算机设备具体可以是视频处理系统中的服务器102。该视频处理方法具体可以包括步骤S201～S205：

S201、对目标视频进行实体识别，确定该目标视频对应的至少一个实体标签。

在本申请实施例中，目标视频可以是用户发布的任意视频，在此不作限定。为了便于大量视频的推荐分发，可以对视频添加与视频内容相关的视频标签，例如在用户界面中显示视频的标题或者摘要。针对视频标签，大部分的视频标签包括实体标签。通过对目标视频进行实体识别，可以确定出该目标视频对应的至少一个实体标签。

如图3所示，图3是本申请实施例提供的一种目标视频以及对应的视频标签的示意图，其中，左侧视频的视频序号为843017，该视频对应的实体标签是“张飞”，该实体标签对应的实体类型是“文化-人名”，该实体标签对应的实体是“三国时期蜀汉名将”，该视频的视频标签是“三国演义：张飞勇武过人，是三国时期蜀汉的一位名将”。右侧视频的视频序号为55752408，该视频对应的实体标签是“张飞”，该实体标签对应的实体类型是“游戏-角色”，该实体标签对应的实体是“XX游戏中的角色”，该视频的视频标签是“XX游戏：张飞的攻击技能真强呀”。由此可见，左侧视频和右侧视频的实体标签都是“张飞”。

在一种可能的实现方式中，该对目标视频进行实体识别，确定该目标视频对应的至少一个候选实体标签，包括：获取目标视频对应的文本信息；调用实体识别模型对该文本信息进行识别处理，得到该文本信息对应的各个文本片段对应的中间结果信息，该中间结果信息包括实体区域信息、区间长度特征信息、区间上下文特征信息和全局上下文特征信息中的一种或多种；调用该实体识别模型对该中间结果信息包括的各个信息进行融合处理，得到该目标视频对应的至少一个候选实体标签。也就是说，可以将目标视频对应的文本信息分为多个文本片段进行识别处理，得到该各个文本片段的中间结果信息，进一步根据各个文本片段的中间结果信息包括的各个信息进行融合处理，从而确定出该目标视频对应的至少一个候选实体标签。这里的融合处理可以是对中间结果信息包括的各个信息进行平均池化操作，从而实现对实体标签的预测。另外，各个文本片段的长度可以预先设定，设定的数值在此不作限定。目标视频对应的文本信息可以通过对目标视频进行OCR识别、ASR识别，识别出目标视频中字幕文本、语音对白文本等，在此不作限定。

示例性的，预先设定文本片段的长度为10个字，目标视频对应的文本信息包括30个字，因此可以将该文本信息分为3个文本片段，调用实体识别模型对该文本信息对应的3个文本片段进行处理，得到3个文本片段的中间结果信息，进一步将这3文本片段的中间结果信息包括的各个信息进行融合处理，得到该目标视频对应的至少一个候选实体标签。

需要说明的是，多个特征信息的融合处理能够综合利用多种特征信息，实现多特征的优势互补，降低单特征局限性的影响，从而提高信息识别的准确率。多个特征信息融合处理的方式可以是基于贝叶斯理论的特征融合，也可以是基于稀疏表示理论的特征融合，也可以是基于深度学习理论的特征融合，在此不作限定。示例性的，对该中间结果信息包括的各个信息进行融合处理的方式可以是对各个信息进行拼接，即求和计算；也可以是对各个信息求最值或求平均计算；也可以采用网络层进行融合。

请参见图4，图4是本申请实施例提供的一种实体识别模型的结构示意图。如图4所示，实体识别模型包括由SPERT网络构成的SPERT层，将目标视频对应的文本信息输入实体识别模型中的SPERT层进行处理，输出该文本信息对应的各个文本片段对应的中间结果信息，该中间结果信息包括实体区域信息、区间长度特征信息、区间上下文特征信息和全局上下文特征信息。然后将该中间结果信息包括的各个信息进行融合处理，得到各个文本片段的实体预测结果，从而确定出该目标视频对应的至少一个候选实体标签。其中，实体区域信息用于指示文本片段的实体区域。

S202、在该至少一个实体标签中确定存在多个候选实体的目标实体标签。

在本申请实施例中，实体标签对应的候选实体可能只存在一个，也可能存在多个。示例性的，请再参见图3，图3中左侧视频的实体标签为“张飞”，对应的实体是“三国时期蜀汉名将”；右侧视频的实体标签也为“张飞”，对应的实体是“XX游戏中的角色”。由此可见，名称为“张飞”的实体标签对应多个候选实体，包括三国时期蜀汉名将、XX游戏中的角色，因此该实体标签为存在多个候选实体的实体标签。又示例性的，若实体标签为“氢气”，该实体标签只存在一个候选实体，即“气体”，因此该实体标签是只存在一个候选实体的实体标签。在该至少一个实体标签中确定存在多个候选实体的目标实体标签，后续对该目标实体标签进行实体消歧处理。

S203、获取发布该目标视频的对象的视频特征信息，该视频特征信息与该对象发布的历史视频的视频特征关联。

在本申请实施例中，发布该目标视频的对象可以是指发布该目标视频的用户，该视频特征信息用于指示该对象发布的历史视频的视频特征。该视频特征信息可以是自己对历史视频进行处理分析得到的，也可以是从其他设备直接获取的，在此不作限定。获取发布该目标视频的对象的视频特征信息的目的是便于后续利用该视频特征信息对目标实体标签对应的多个候选实体进行消歧处理。

在一种可能的实现方式中，该获取发布该目标视频的对象的视频特征信息，包括：获取该对象在预设时间段内发布的历史视频；对该历史视频进行分析处理，得到历史视频数据信息，该历史视频数据信息包括该历史视频的视频类型以及该历史视频的视频标签；将该历史视频数据信息确定为该对象的视频特征信息。应当理解的，该对象的视频特征信息包括该历史视频的视频类型以及该历史视频的视频标签，当然也可以包括其他数据信息，在此不作限定。

示例性的，请再参见图3，将图3中左侧视频视为发布该目标视频的对象发布的一个历史视频，该历史视频的视频类型是影视作品，对应的视频标签是“三国演义：张飞勇武过人，是三国时期蜀汉的一位名将”，该视频标签是根据实体“三国时期蜀汉名将”设置的。因此，该历史视频数据信息包括：该历史视频的视频类型是影视作品、该历史视频对应的视频标签是“三国演义：张飞勇武过人，是三国时期蜀汉的一位名将”。

S204、基于该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体，该目标实体包括该多个候选实体中的一个或者多个。

在本申请实施例中，消歧处理是指在多个候选实体中确定出一个与该目标实体标签最匹配的候选实体，即该目标实体标签对应的目标实体。基于对大量视频发布对象的历史发布视频的分析，发现视频发布对象发布的视频内容倾向趋于稳定，比如发布历史剧的创作者一般不会突然转向发布游戏类视频。因此，利用发布该目标视频的对象的视频特征信息进行实体消歧，使该目标实体标签对应的目标实体与发布用户的历史视频的特征信息更加匹配，从而增强实体消歧效果，提升视频标签设置的精确度。

S205、将该至少一个实体标签中各个实体标签对应的目标实体确定为该目标视频的视频标签。

在本申请实施例中，针对存在多个候选实体的目标实体标签，基于该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体。针对只存在一个候选实体的实体标签，直接将该候选实体确定为该实体标签对应的目标实体。进一步地，将该至少一个实体标签中各个实体标签对应的目标实体确定为该目标视频的视频标签。需要说明的是，视频标签可以包括各个实体标签对应的目标实体，视频标签也可以根据各个实体标签对应的目标实体的简介信息生成该目标视频的视频标签，在此不作限定。基于该方式，能够为目标视频构建出更加精准的视频标签，有利于后续目标视频的推荐与分发。

示例性的，目标视频的实体标签包括实体标签M和实体标签N，其中，实体标签M存在候选实体A和候选实体B，实体标签N存在一个候选实体C。基于该视频特征信息对实体标签M对应的2个候选实体进行消歧处理，得到实体标签M对应的目标实体为候选实体A；实体标签N对应的目标实体就为候选实体C。因此，将候选实体A和候选实体C确定为该目标视频的视频标签。

总的来说，可以将该视频处理方法归纳为三个步骤，分别是：对视频内容进行实体识别；通过发布者用户特征强化视频实体消歧；将消歧后的视频实体作为视频标签基础数据，用于视频分发。请参见图5，图5是本申请实施例提供的一种视频处理流程图，上述步骤S201的具体实现方式归纳为“对视频内容进行实体识别”，上述步骤S202～步骤S204的具体实现方式归纳为“通过发布者用户特征强化视频实体消歧”，上述步骤S205的具体实现方式归纳为“将消歧后的视频实体作为视频标签基础数据，用于视频分发”。其中，发布者用户特征对应于上述发布该目标视频的对象的视频特征信息，视频实体对应于上述候选实体，消歧后的视频实体对应于上述目标实体。

下面采用具体的例子对视频标签的确定进行说明：

请再参见图3，将图3中左侧视频看做是我们需要设置视频标签的目标视频。首先，我们对该目标视频进行实体识别，确定到该目标视频对应的实体标签为“张飞”，该实体标签为存在多个候选实体的目标实体标签，该多个候选实体包括三国时期蜀汉名将、XX游戏中的角色。接着，获取发布该目标视频的用户的视频特征信息，该视频特征信息用于指示该用户发布的历史视频的视频特征，即该历史视频的视频类型为影视类型，该历史视频的视频标签为三国演义。然后，基于该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体，该目标实体为“三国时期蜀汉名将”。最后，可以将该目标实体确定为该目标视频的视频标签，即该目标视频的视频标签确定为“张飞：三国时期蜀汉名将”，也可以根据该目标实体的简介信息生成该目标视频的视频标签，即该目标视频的视频标签确定为“三国演义：张飞勇武过人，是三国时期蜀汉的一位名将”。

综上所述，在本发明实施例中，对目标视频进行实体识别，确定该目标视频对应的至少一个实体标签；在该至少一个实体标签中确定存在多个候选实体的目标实体标签；获取发布该目标视频的对象的视频特征信息，该视频特征信息与该对象发布的历史视频的视频特征关联；基于该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体，该目标实体包括该多个候选实体中的一个或者多个；将该至少一个实体标签中各个实体标签对应的目标实体确定为该目标视频的视频标签。应当理解的，利用发布该目标视频的对象的视频特征信息进行实体消歧，使消歧后的候选实体与发布用户的历史视频的特征信息更加匹配，从而增强实体消歧效果，提升视频标签设置的精确度。

基于上述对视频处理系统架构的阐述，本申请实施例公开了一种视频处理方法，请参见图6，为本申请实施例公开的另一种视频处理方法的流程示意图，该视频处理方法可以由计算机设备执行的，计算机设备具体可以是视频处理系统中的服务器102。该视频处理方法具体可以包括步骤S601～S606。步骤S604和步骤S605是上述步骤S204的一种具体实现方式。其中：

S601、对目标视频进行实体识别，确定该目标视频对应的至少一个实体标签。

S602、在该至少一个实体标签中确定存在多个候选实体的目标实体标签。

S603、获取发布该目标视频的对象的视频特征信息，该视频特征信息与该对象发布的历史视频的视频特征关联。

其中，步骤S601～步骤S603的具体实现方式与上述步骤S201～步骤S203的具体实现方式相同，在此不作赘述。

S604、确定该多个候选实体中各个候选实体与该历史视频的视频标签之间的相关度。

在本申请实施例中，通过统计方式计算该多个候选实体中各个候选实体与该历史视频的视频标签之间的相关度。基于该方式，能够实现利用发布该目标视频的对象的视频特征信息对多个候选实体的消歧处理，增强实体消歧效果，提升视频标签设置的精确度。

在一种可能的实现方式中，该确定该多个候选实体中各个候选实体与该历史视频的视频标签之间的相关度，包括：获取该多个候选实体中各个候选实体对应的实体类型与该视频类型的第一匹配度，以及该各个候选实体与该历史视频的视频标签之间的第一关联度；基于该第一匹配度和该第一关联度确定该各个候选实体与该历史视频的视频标签之间的相关度。应当理解的，各个候选实体与该历史视频的视频标签之间的相关度利用各个候选实体对应的实体类型与该视频类型的第一匹配度以及各个候选实体与该历史视频的视频标签之间的第一关联度计算得到的。具体的，可以利用公式(1)计算得到，公式(1)如下所示：

Ps＝Ps_class*Ps_en_asso (1)

其中，Ps表示各个候选实体与该历史视频的视频标签之间的相关度，Ps_class表示各个候选实体对应的实体类型与该视频类型的第一匹配度，Ps_en_asso表示各个候选实体与该历史视频的视频标签之间的第一关联度。

需要说明的是，实体类型指的是实体属于的种类，视频类型指的是视频属于的种类。示例性的，针对“张飞”这个实体标签，该实体标签对应两个候选实体，其中，第一个候选实体是“三国时期蜀汉名将”，该候选实体对应的实体类型是“文化-人名”；第二个候选实体是“XX游戏中的角色”，该候选实体对应的实体类型是“游戏-角色”。假设某用户发布的历史视频的视频类型为“游戏类视频”，则第二个候选实体对应的实体类型与该历史视频的视频类型更加匹配。

在一种可能的实现方式中，该获取该多个候选实体中各个候选实体对应的实体类型与该视频类型的第一匹配度，包括：获取该历史视频中视频类型与该各个候选实体对应的实体类型匹配的视频的播放次数，以及该历史视频的播放总次数；基于该播放次数和该播放总次数确定该各个候选实体对应的实体类型符合该历史视频的视频标签对应的类型的第一匹配度。应当理解的，该多个候选实体中各个候选实体对应的实体类型与该视频类型的第一匹配度是利用该历史视频中视频类型与该各个候选实体对应的实体类型相同的视频的播放次数以及该历史视频的播放总次数计算得到。具体的，可以利用公式(2)计算得到，公式(2)如下所示：

其中，Ps_class表示各个候选实体对应的实体类型与该视频类型的第一匹配度，Ps_class_m表示该历史视频中视频类型与该各个候选实体对应的实体类型相同的视频的播放次数，Ps_class_n表示该历史视频的播放总次数。

示例性的，在发布目标视频的对象发布的历史视频中，与候选实体P对应的实体类型相同的视频的播放次数为80，该历史视频的播放总次数为100，则候选实体P对应的实体类型与该视频类型的第一匹配度为80％。

在一种可能的实现方式中，该获取该各个候选实体与该历史视频的视频标签之间的第一关联度，包括：获取该各个候选实体对应的实体标签与该历史视频的视频标签之间的第二关联度，以及该历史视频的视频标签的使用度；基于该二关联度和该使用度确定该各个候选实体与该历史视频的视频标签之间的第一关联度；其中，该历史视频的视频标签的使用度由该历史视频的视频标签被标记的次数确定。应当理解的，各个候选实体与该历史视频的视频标签之间的第一关联度是利用各个候选实体对应的实体标签与该历史视频的视频标签之间的第二关联度以及该历史视频的视频标签的使用度计算得到的。具体的，可以利用公式(3)计算得到，公式(3)如下所示：

Ps_en_asso＝sum_k(P_Use_k*Asso_kx) (3)

其中，Ps_en_asso表示各个候选实体与该历史视频的视频标签之间的第一关联度，k表示该历史视频的视频标签，x表示各个候选实体对应的实体标签，P_Use_k表示该历史视频的视频标签的使用度，Asso_kx表示各个候选实体对应的实体标签与该历史视频的视频标签之间的第二关联度，sum_k表示求和运算，由于历史视频的视频标签可能不止一个，所以需要对历史视频的所有视频标签对应的参数(这里的参数指：使用度与第二关联度的乘积)进行求和运算，才能得到各个候选实体与该历史视频的视频标签之间的第一关联度。

示例性的，历史视频的视频标签1的使用度为P_Use_1，历史视频的视频标签2的使用度为P_Use_2，候选实体a对应的实体标签与该历史视频的视频标签1之间的第二关联度为Asso_1a，候选实体a对应的实体标签与该历史视频的视频标签2之间的第二关联度为Asso_2a，候选实体b对应的实体标签与该历史视频的视频标签1之间的第二关联度为Asso_1b，候选实体b对应的实体标签与该历史视频的视频标签2之间的第二关联度为Asso_2b。因此，候选实体a与该历史视频的视频标签之间的第一关联度为P_Use_1与Asso_1a的乘积加上P_Use_2与Asso_2a的乘积，候选实体b与该历史视频的视频标签之间的第一关联度为P_Use_1与Asso_1b的乘积加上P_Use_2与Asso_2b的乘积。

在一种可能的实现方式中，该获取该各个候选实体对应的实体标签与该历史视频的视频标签之间的第二关联度，包括：获取该各个候选实体对应的实体标签与该历史视频的视频标签被标记在同一个视频上的第一标记次数，以及该各个候选实体对应的实体标签和该历史视频的视频标签被标记的第一标记总次数；基于该第一标记次数和该第一标记总次数确定该各个候选实体对应的实体标签与该历史视频的视频标签之间的第二关联度。应当理解的，各个候选实体对应的实体标签与该历史视频的视频标签之间的第二关联度是利用各个候选实体对应的实体标签与该历史视频的视频标签被标记在同一个视频上的第一标记次数以及各个候选实体对应的实体标签和该历史视频的视频标签被标记的第一标记总次数计算得到的。具体的，可以利用公式(4)计算得到，公式(4)如下所示：

其中，Asso_ij表示各个候选实体对应的实体标签与该历史视频的视频标签之间的第二关联度，i表示候选实体对应的实体标签，j表示该历史视频的视频标签，Asso_ij_m表示各个候选实体对应的实体标签与该历史视频的视频标签在同一个视频上被标记的第一标记次数，Asso_ij_n表示各个候选实体对应的实体标签和该历史视频的视频标签被标记的第一标记总次数。

示例性的，候选实体对应的实体标签i与该历史视频的视频标签j在同一个视频上被标记的第一标记次数为80次，候选实体对应的实体标签i被标记的次数为100次，历史视频的视频标签j被标记的次数为100次。因此，候选实体对应的实体标签i和该历史视频的视频标签j被标记的第一标记总次数为200次，根据公式(4)计算得到候选实体对应的实体标签i与该历史视频的视频标签j之间的第二关联度为40％。

在一种可能的实现方式中，该获取该历史视频的视频标签的使用度，包括：获取该历史视频的视频标签在该历史视频中被标记的第二标记次数，以及该历史视频的视频标签被标记的第二标记总次数；基于该第二标记次数和该第二标记总次数确定在该历史视频中该各个候选实体的使用度。应当理解的，历史视频的视频标签的使用度是利用历史视频的视频标签在所有历史视频中被标记的第二标记次数和所有历史视频的视频标签被标记的第二标记总次数计算得到的。具体的，可以利用公式(5)计算得到，公式(5)如下所示：

其中，P_Use_k表示历史视频的视频标签的使用度，P_Use_k_m表示历史视频的视频标签在历史视频中被标记的第二标记次数，P_Use_k_n表示历史视频的视频标签被标记的第二标记总次数，k表示历史视频的视频标签。

示例性的，历史视频的视频标签1在所有历史视频中被标记的第二标记次数为80次，所有历史视频的视频标签被标记的第二标记总次数为200次，因此，根据公式(5)计算得到历史视频的视频标签的使用度1的使用度为40％。

下面采用具体的例子对候选实体与该历史视频的视频标签之间的相关度的确定进行说明：

假设存在候选实体a、候选实体a对应的实体标签i、历史视频的视频标签j。

1、候选实体a对应的实体标签i与该历史视频的视频标签j之间的第二关联度的计算：

候选实体对应的实体标签i与该历史视频的视频标签j被标记在同一个视频上的第一标记次数为80次，候选实体对应的实体标签i被标记的次数为100次，历史视频的视频标签j被标记的次数为100次。因此，候选实体对应的实体标签i和该历史视频的视频标签j被标记的第一标记总次数为200次，根据公式(4)计算得到候选实体对应的实体标签i与该历史视频的视频标签j之间的第二关联度为40％。

2、历史视频的视频标签j的使用度的计算：

历史视频的视频标签j在所有历史视频中被标记的第二标记次数为80次，所有历史视频的视频标签被标记的第二标记总次数为200次，因此，根据公式(5)计算得到历史视频的视频标签的使用度j的使用度为40％。

3、候选实体a与历史视频的视频标签j之间的第一关联度的计算：

根据公式(3)，利用候选实体a对应的实体标签i与该历史视频的视频标签j之间的第二关联度以及该历史视频的视频标签j的使用度计算得到，候选实体a与历史视频的视频标签j之间的第一关联度为16％。

4、候选实体a对应的实体类型与该视频类型的第一匹配度的计算：

在发布目标视频的对象发布的历史视频中，与候选实体a对应的实体类型相同的视频的播放次数为80，该历史视频的播放总次数为100，则根据公式(2)计算得到候选实体a对应的实体类型与该视频类型的第一匹配度为80％。

5、候选实体a与该历史视频的视频标签j之间的相关度的计算：

根据公式(3)，利用候选实体a对应的实体类型与该视频类型的第一匹配度以及候选实体a与该历史视频的视频标签j之间的第一关联度计算得到，候选实体a与该历史视频的视频标签j之间的相关度为12.8％。

S605、基于各个候选实体的相关度对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体，该目标实体与该历史视频的视频标签之间的相关度大于该多个候选实体中除该目标实体以外的实体与该历史视频的视频标签之间的相关度。

在本申请实施例中，通过对各个候选实体与历史视频的视频标签之间的相关度的比较，相关度越高表明候选实体与发布用户的历史视频的特征信息越匹配。将相关度最高的候选实体作为目标实体标签对应的目标实体，实现对多个候选实体的消歧。

示例性的，目标实体标签对应2个候选实体，分别是候选实体a和候选实体b。其中，候选实体a与历史视频的视频标签之间的相关度为12.8％，候选实体b与历史视频的视频标签之间的相关度为30％，因此候选实体b与历史视频的视频标签之间的相关度最高，将候选实体b作为该目标实体标签对应的目标实体。

S606、将该至少一个实体标签中各个实体标签对应的目标实体确定为该目标视频的视频标签。

其中，步骤S606的具体实现方式与上述步骤S205的具体实现方式相同，在此不作赘述。

综上所述，在本发明实施例中，对目标视频进行实体识别，确定该目标视频对应的至少一个实体标签；在该至少一个实体标签中确定存在多个候选实体的目标实体标签；获取发布该目标视频的对象的视频特征信息，该视频特征信息与该对象发布的历史视频的视频特征关联；确定该多个候选实体中各个候选实体与该历史视频的视频标签之间的相关度；基于各个候选实体的相关度对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体，该目标实体与该历史视频的视频标签之间的相关度大于该多个候选实体中除该目标实体以外的实体与该历史视频的视频标签之间的相关度；将该至少一个实体标签中各个实体标签对应的目标实体确定为该目标视频的视频标签。应当理解的，基于统计的方式，利用发布该目标视频的对象的视频特征信息进行实体消歧，使消歧后的候选实体与发布用户的历史视频的特征信息更加匹配，从而增强实体消歧效果，提升视频标签设置的精确度。

基于上述对视频处理系统架构的阐述，本申请实施例公开了一种视频处理方法，请参见图7，为本申请实施例公开的另一种视频处理方法的流程示意图，该视频处理方法可以由计算机设备执行的，计算机设备具体可以是视频处理系统中的服务器102。该视频处理方法具体可以包括步骤S701～S707。步骤S704～步骤S706是上述步骤S204的另一种具体实现方式。其中：

S701、对目标视频进行实体识别，确定该目标视频对应的至少一个实体标签。

S702、在该至少一个实体标签中确定存在多个候选实体的目标实体标签。

S703、获取发布该目标视频的对象的视频特征信息，该视频特征信息与该对象发布的历史视频的视频特征关联。

其中，步骤S701～步骤S703的具体实现方式与上述步骤S201～S203的具体实现方式相同，在此不作赘述。

S704、获取该目标视频对应的文本信息。

在本申请实施例中，目标视频对应的文本信息可以通过对目标视频进行OCR识别、ASR识别，识别出目标视频中字幕文本、语音对白文本等，在此不作限定。获取目标视频对应的文本信息的目的是便于在后续的实体消歧过程中利用该目标视频对应的文本信息。

S705、获取该多个候选实体对应的第二实体信息，该第二实体信息包括该多个候选实体对应的实体类型、该多个候选实体对应的描述信息中的一个或者多个。

在本申请实施例中，候选实体对应的第二实体信息可以通过已有的知识库数据获取，也可以采取其他方式获取，在此不作限定。示例性的，已有的知识库数据中存有实体标签、该实体标签对应的候选实体、候选实体对应的实体信息，候选实体对应的实体信息包括候选实体对应的实体类型以及候选实体对应的描述信息，在知识库数据中，通过候选实体的名称即可查询到该候选实体对应的实体信息。如表1所示，表1中存储了实体标签“张飞”，该实体标签对应的候选实体包括“三国时期蜀汉名将”，对应的实体类型为“文化-人名”，对应的描述信息为“张飞勇武过人，是三国时期蜀汉的一位名将”；该实体标签对应的候选实体还包括“XX游戏中的角色”，对应的实体类型为“游戏-角色”，对应的描述信息为“张飞在XX游戏中的攻击技能很强”。

表1

S706、基于该文本信息、该多个候选实体对应的第二实体信息和该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体。

在本申请实施例中，基于该文本信息、该多个候选实体对应的第二实体信息和该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，不仅考虑到了候选实体与目标视频内容上下文的匹配度，同时考虑到了候选实体与视频发布对象的历史视频的特征信息，进一步增强了实体消歧效果，提升视频标签设置的精确度。

在一种可能的实现方式中，该基于该文本信息、该多个候选实体对应的第二实体信息和该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体，包括：调用深度匹配模型对该文本信息、该多个候选实体对应的第二实体信息和该视频特征信息进行处理，得到该文本信息的上下文特征向量、该多个候选实体对应的第二实体信息的特征向量和该视频特征信息的特征向量；对该文本信息的上下文特征向量、该多个候选实体对应的第二实体信息的特征向量和该视频特征信息的特征向量进行自注意力计算，得到该多个候选实体中各个候选实体与该历史视频的第二匹配度；基于各个候选实体的第二匹配度对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体，该目标实体与该历史视频的第二匹配度大于该多个候选实体中除目标实体以外的实体与该历史视频的第二匹配度。

应当理解的，基于深度匹配模型的实体消歧方式，采用对目标视频的文本信息、多个候选实体对应的第二实体信息、历史视频的视频特征信息进行深度建模，深度匹配模型在标注好实体标签数据上进行训练，能够输出候选实体与目标视频上下文以及目标视频发布对象的历史视频的视频特征信息的第二匹配度。多个候选实体对应的第二实体信息包括候选实体的类型、描述信息等文本特征，目标视频发布对象的历史视频的视频特征信息包括对象的类型、描述信息等文本特征，同时对该对象历史发布视频的视频标签对应的实体进行类型统计，将数量大的前k个实体的类型作为该对象的额外特征信息，增强目标视频发布对象的视频特征信息建模。对各个候选实体经过上述深度匹配模型后，选取匹配度最高的候选实体作为目标实体标签对应的目标实体。

请参见图8，图8是本申请实施例提供的一种深度匹配模型的结构示意图。如图8所示，深度匹配模型包括由SPERT网络构成的SPERT层、由BERT网络构成的BERT层以及自注意力层。将目标视频的文本信息输入SPERT层进行处理，将多个候选实体对应的第二实体信息输入BERT层进行处理，并将视频特征信息也输入BERT层进行处理，得到该文本信息的上下文特征向量(Tag-Context Attention)、该多个候选实体对应的第二实体信息的特征向量(Mention representation)和该视频特征信息的特征向量(Tag-User Attention)。然后利用自注意力层对该文本信息的上下文特征向量和该多个候选实体对应的第二实体信息的特征向量进行自注意力计算，同时对该多个候选实体对应的第二实体信息的特征向量和该视频特征信息的特征向量进行自注意力计算，得到该多个候选实体中各个候选实体与该历史视频的第二匹配度。需要说明的是，图8中“标签候选消歧概率”对应于上述“各个候选实体与该历史视频的第二匹配度”，“视频文本内容”对应于上述“目标视频的文本信息”，“实体候选内容(类型、简介)”对应于上述“多个候选实体对应的第二实体信息”，“用户-类型、简介、历史实体类型”对应于“视频特征信息”。

S707、将该至少一个实体标签中各个实体标签对应的目标实体确定为该目标视频的视频标签。

其中，步骤S707的具体实现方式与上述步骤S205的具体实现方式相同，在此不作赘述。

综上所述，在本发明实施例中，对目标视频进行实体识别，确定该目标视频对应的至少一个实体标签；在该至少一个实体标签中确定存在多个候选实体的目标实体标签；获取发布该目标视频的对象的视频特征信息，该视频特征信息与该对象发布的历史视频的视频特征关联；获取该目标视频对应的文本信息；获取该多个候选实体对应的第二实体信息，该第二实体信息包括该多个候选实体对应的实体类型、该多个候选实体对应的描述信息中的一个或者多个；基于该文本信息、该多个候选实体对应的第二实体信息和该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体；将该至少一个实体标签中各个实体标签对应的目标实体确定为该目标视频的视频标签。应当理解的，基于深度匹配模型，利用发布该目标视频的对象的视频特征信息、目标视频文本信息共同进行实体消歧，使消歧后的候选实体与发布用户的历史视频的特征信息、视频内容信息更加匹配，进一步增强实体消歧效果，提升视频标签设置的精确度。

基于上述对视频处理系统架构的阐述，本申请实施例公开了一种视频处理方法，请参见图9，为本申请实施例公开的另一种视频处理方法的流程示意图，该视频处理方法可以由计算机设备执行的，计算机设备具体可以是视频处理系统中的服务器102。该视频处理方法具体可以包括步骤S901～S908。步骤S904～步骤S907是上述步骤S204的另一种具体实现方式。其中：

S901、对目标视频进行实体识别，确定该目标视频对应的至少一个实体标签。

S902、在该至少一个实体标签中确定存在多个候选实体的目标实体标签。

S903、获取发布该目标视频的对象的视频特征信息，该视频特征信息与该对象发布的历史视频的视频特征关联。

S904、确定该多个候选实体中各个候选实体与该历史视频的视频标签之间的相关度。

S905、获取该目标视频对应的文本信息，以及该各个候选实体对应的第二实体信息，该第二实体信息包括该各个候选实体对应的实体类型、该各个候选实体对应的描述信息中的一个或者多个。

S906、基于该文本信息、该各个候选实体对应的第二实体信息和该视频特征信息确定该各个候选实体的第二匹配度。

其中，步骤S904的具体实现方式与上述步骤S604的具体实现方式相同；步骤S905的具体实现方式与上述步骤S704和步骤S705的具体实现方式相同；步骤S906的具体实现方式与上述步骤S706的具体实现方式相同，在此不作赘述。

S907、基于该各个候选实体的相关度和该各个候选实体的第二匹配度对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体。

在本申请实施例中，该多个候选实体中各个候选实体与该历史视频的视频标签之间的相关度是基于统计方式计算得到的，该各个候选实体与该历史视频的第二匹配度是基于深度匹配模型得到的，对两种方式结合使用，实现对多个候选实体的消歧，使消歧后的候选实体与发布对象的历史视频的特征信息、视频内容信息更加匹配，大大增强了实体消歧效果，提升视频标签设置的精确度。

需要说明的是，可以通过线性差值的方式将两部分数值(即各个相关度和各个匹配度)进行融合，也可以采用其他融合方式进行处理，在此不作限定。针对线性差值法的融合方式，关键是确定两部分数值对应的权重，这里的权重可以是根据相关技术人员的经验预先设定的权重，也可以是基于训练模型通过网络搜索、后延评估训练得到最佳的权重值，在此不作限定。

示例性的，目标实体标签对应的候选实体包括候选实体a和候选实体b，候选实体a与该历史视频的视频标签之间的相关度为12.8％，候选实体b与该历史视频的视频标签之间的相关度为30％，候选实体a与历史视频的第二匹配度为20％，候选实体b与历史视频的第二匹配度为35％，针对相关度的权重为0.4，针对匹配度的权重为0.6，通过权重相加，候选实体a对应的融合后的匹配度为17.12％，候选实体b对应的融合后的匹配度为33％，因此将融合后的匹配度最高的候选实体作为该目标实体标签对应的目标实体，即候选实体b为目标实体。

S908、将该至少一个实体标签中各个实体标签对应的目标实体确定为该目标视频的视频标签。

其中，步骤S908的具体实现方式与上述步骤S707的具体实现方式相同，在此不作赘述。

综上所述，在本发明实施例中，对目标视频进行实体识别，确定该目标视频对应的至少一个实体标签；在该至少一个实体标签中确定存在多个候选实体的目标实体标签；获取发布该目标视频的对象的视频特征信息，该视频特征信息与该对象发布的历史视频的视频特征关联；获取该目标视频对应的文本信息；获取该多个候选实体对应的第二实体信息，该第二实体信息包括该多个候选实体对应的实体类型、该多个候选实体对应的描述信息中的一个或者多个；调用深度匹配模型对该文本信息、该多个候选实体对应的第二实体信息和该视频特征信息进行处理，得到该文本信息的上下文特征向量、该多个候选实体对应的第二实体信息的特征向量和该视频特征信息的特征向量；对该文本信息的上下文特征向量、该多个候选实体对应的第二实体信息的特征向量和该视频特征信息的特征向量进行自注意力计算，得到该多个候选实体中各个候选实体与该历史视频的第二匹配度；确定该多个候选实体中各个候选实体与该历史视频的视频标签之间的相关度；基于各个候选实体的相关度和各个候选实体的第二匹配度对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体；将该至少一个实体标签中各个实体标签对应的目标实体确定为该目标视频的视频标签。应当理解的，将基于统计方式的实体消歧方案和基于深度匹配模型的实体消歧方案相结合，共同进行实体消歧，使消歧后的候选实体与发布用户的历史视频的特征信息、视频内容信息更加匹配，从而大大增强实体消歧效果，提升视频标签设置的精确度。

基于上述对视频处理系统架构的阐述，本申请实施例公开了一种视频处理方法，请参见图10，为本申请实施例公开的另一种视频处理方法的流程示意图，该视频处理方法可以由计算机设备执行的，计算机设备具体可以是视频处理系统中的服务器102。该视频处理方法具体可以包括步骤S1001～S1008。步骤S1004～步骤S1007是上述步骤S204的另一种具体实现方式。其中：

S1001、对目标视频进行实体识别，确定该目标视频对应的至少一个实体标签。

S1002、在该至少一个实体标签中确定存在多个候选实体的目标实体标签。

S1003、获取发布该目标视频的对象的视频特征信息，该视频特征信息与该对象发布的历史视频的视频特征关联。

S1004、确定该多个候选实体中各个候选实体与该历史视频的视频标签之间的相关度。

其中，步骤S1001～步骤S1004的具体实现方式与上述步骤S601～步骤S604的具体实现方式相同，在此不作赘述。

S1005、基于各个候选实体的相关度确定多个目标候选实体。

在本申请实施例中，基于统计的方式确定出多个候选实体中各个候选实体的相关度，根据各个候选实体的相关度选取出t个目标候选实体，其中t为大于1的正整数。示例性的，候选实体A的相关度为10％，候选实体B的相关度为20％，候选实体C的相关度为30％，对各个候选实体的相关度进行排序，选取出相关度从大到小排序的前2个候选实体作为目标候选实体，因此候选实体B和候选实体C为确定出的2个目标候选实体。

S1006、获取该目标视频对应的文本信息，以及该多个目标候选实体对应的第一实体信息，该第一实体信息包括该多个目标候选实体对应的实体类型、该多个目标候选实体对应的描述信息中的一个或者多个。

S1007、基于该文本信息、该多个目标候选实体对应的第一实体信息和该视频特征信息对该目标实体标签对应的多个目标候选实体进行消歧处理，得到该目标实体标签对应的目标实体。

在本申请实施例中，将获取到的目标视频对应的文本信息、该多个目标候选实体对应的第一实体信息和该视频特征信息进一步利用深度匹配模型的方式进行实体消歧，得到该目标实体标签对应的目标实体。应当理解的，本申请实施例首先是利用统计的方式进行处理，确定出多个相关度较高的目标候选实体，然后再利用深度匹配模型对该多个目标候选实体进一步消歧处理，从而增强实体消歧效果，提升视频标签设置的精确度。

S1008、将该至少一个实体标签中各个实体标签对应的目标实体确定为该目标视频的视频标签。

其中，步骤S1006的具体实现方式与上述步骤S905的具体实现方式相同；步骤S1007的具体实现方式与上述步骤S706的具体实现方式相同；步骤S1008的具体实现方式与上述步骤S707的具体实现方式相同，在此不作赘述。

综上所述，在本发明实施例中，对目标视频进行实体识别，确定该目标视频对应的至少一个实体标签；在该至少一个实体标签中确定存在多个候选实体的目标实体标签；获取发布该目标视频的对象的视频特征信息，该视频特征信息与该对象发布的历史视频的视频特征关联；确定该多个候选实体中各个候选实体与该历史视频的视频标签之间的相关度；基于各个候选实体的相关度确定多个目标候选实体；获取该目标视频对应的文本信息，以及该多个目标候选实体对应的第一实体信息，该第一实体信息包括该多个目标候选实体对应的实体类型、该多个目标候选实体对应的描述信息中的一个或者多个；基于该文本信息、该多个目标候选实体对应的第一实体信息和该视频特征信息对该目标实体标签对应的多个目标候选实体进行消歧处理，得到该目标实体标签对应的目标实体；将该至少一个实体标签中各个实体标签对应的目标实体确定为该目标视频的视频标签。应当理解的，先利用统计方式确定出多个目标候选实体，然后基于深度匹配模型进行实体消歧，使消歧后的候选实体与发布用户的历史视频的特征信息、视频内容信息更加匹配，从而大大增强实体消歧效果，提升视频标签设置的精确度。

基于上述的视频处理方法，本发明实施例提供了一种视频处理装置。请参见图11，是本发明实施例提供的一种视频处理装置的结构示意图，该视频处理装置1100可以运行如下单元：

识别单元1101，用于对目标视频进行实体识别，确定该目标视频对应的至少一个实体标签；

确定单元1102，用于在该至少一个实体标签中确定存在多个候选实体的目标实体标签；

获取单元1103，用于获取发布该目标视频的对象的视频特征信息，该视频特征信息与该对象发布的历史视频的视频特征关联；

消歧单元1104，用于基于该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体，该目标实体包括该多个候选实体中的一个或者多个；

该确定单元1102，还用于将该至少一个实体标签中各个实体标签对应的目标实体确定为该目标视频的视频标签。

在一个实施例中，消歧单元1104，在基于该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体时，具体用于：确定该多个候选实体中各个候选实体与该历史视频的视频标签之间的相关度；基于各个候选实体的相关度确定多个目标候选实体；获取该目标视频对应的文本信息，以及该多个目标候选实体对应的第一实体信息，该第一实体信息包括该多个目标候选实体对应的实体类型、该多个目标候选实体对应的描述信息中的一个或者多个；基于该文本信息、该多个目标候选实体对应的第一实体信息和该视频特征信息对该目标实体标签对应的多个目标候选实体进行消歧处理，得到该目标实体标签对应的目标实体。

在一个实施例中，消歧单元1104，在基于该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体时，具体用于：确定该多个候选实体中各个候选实体与该历史视频的视频标签之间的相关度；基于各个候选实体的相关度对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体，该目标实体与该历史视频的视频标签之间的相关度大于该多个候选实体中除该目标实体以外的实体与该历史视频的视频标签之间的相关度。

在一个实施例中，消歧单元1104，在确定该多个候选实体中各个候选实体与该历史视频的视频标签之间的相关度时，具体用于：获取该多个候选实体中各个候选实体对应的实体类型与该视频类型的第一匹配度，以及该各个候选实体与该历史视频的视频标签之间的第一关联度；基于该第一匹配度和该第一关联度确定该各个候选实体与该历史视频的视频标签之间的相关度。

在一个实施例中，消歧单元1104，在获取该多个候选实体中各个候选实体对应的实体类型与该视频类型的第一匹配度时，具体用于：获取该历史视频中视频类型与该各个候选实体对应的实体类型匹配的视频的播放次数，以及该历史视频的播放总次数；基于该播放次数和该播放总次数确定该各个候选实体对应的实体类型符合该历史视频的视频标签对应的类型的第一匹配度。

在一个实施例中，消歧单元1104，在获取该各个候选实体与该历史视频的视频标签之间的第一关联度时，具体用于：获取该各个候选实体对应的实体标签与该历史视频的视频标签之间的第二关联度，以及该历史视频的视频标签的使用度；其中，该历史视频的视频标签的使用度由该历史视频的视频标签被标记的次数确定；基于该二关联度和该使用度确定该各个候选实体与该历史视频的视频标签之间的第一关联度。

在一个实施例中，消歧单元1104，在获取该各个候选实体对应的实体标签与该历史视频的视频标签之间的第二关联度时，具体用于：获取该各个候选实体对应的实体标签与该历史视频的视频标签被标记在同一个视频上的第一标记次数，以及该各个候选实体对应的实体标签和该历史视频的视频标签被标记的第一标记总次数；基于该第一标记次数和该第一标记总次数确定该各个候选实体对应的实体标签与该历史视频的视频标签之间的第二关联度。

在一个实施例中，消歧单元1104，在获取该历史视频的视频标签的使用度时，具体用于：获取该历史视频的视频标签在该历史视频中被标记的第二标记次数，以及该历史视频的视频标签被标记的第二标记总次数；基于该第二标记次数和该第二标记总次数确定该历史视频的视频标签的使用度。

在一个实施例中，消歧单元1104，在基于该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体时，具体用于：获取该目标视频对应的文本信息；获取该多个候选实体对应的第二实体信息，该第二实体信息包括该多个候选实体对应的实体类型、该多个候选实体对应的描述信息中的一个或者多个；基于该文本信息、该多个候选实体对应的第二实体信息和该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体。

在一个实施例中，消歧单元1104，在基于该文本信息、该多个候选实体对应的第二实体信息和该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体时，具体用于：调用深度匹配模型对该文本信息、该多个候选实体对应的第二实体信息和该视频特征信息进行处理，得到该文本信息的上下文特征向量、该多个候选实体对应的第二实体信息的特征向量和该视频特征信息的特征向量；对该文本信息的上下文特征向量、该多个候选实体对应的第二实体信息的特征向量和该视频特征信息的特征向量进行自注意力计算，得到该多个候选实体中各个候选实体与该历史视频的第二匹配度；基于各个候选实体的第二匹配度对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体，该目标实体与该历史视频的第二匹配度大于该多个候选实体中除目标实体以外的实体与该历史视频的第二匹配度。

在一个实施例中，消歧单元1104，在基于该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体时，具体用于：确定该多个候选实体中各个候选实体与该历史视频的视频标签之间的相关度；获取该目标视频对应的文本信息，以及该各个候选实体对应的第二实体信息，该第二实体信息包括该各个候选实体对应的实体类型、该各个候选实体对应的描述信息中的一个或者多个；基于该文本信息、该各个候选实体对应的第二实体信息和该视频特征信息确定该各个候选实体的第二匹配度；基于该各个候选实体的相关度和该各个候选实体的第二匹配度对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体。

在一个实施例中，获取单元1103，在获取发布该目标视频的对象的视频特征信息时，具体用于：获取该对象在预设时间段内发布的历史视频；对该历史视频进行分析处理，得到历史视频数据信息，该历史视频数据信息包括该历史视频的视频类型以及该历史视频的视频标签；将该历史视频数据信息确定为该对象的视频特征信息。

综上所述，对目标视频进行实体识别，确定该目标视频对应的至少一个实体标签；在该至少一个实体标签中确定存在多个候选实体的目标实体标签；获取发布该目标视频的对象的视频特征信息，该视频特征信息与该对象发布的历史视频的视频特征关联；基于该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体，该目标实体包括该多个候选实体中的一个或者多个；将该至少一个实体标签中各个实体标签对应的目标实体确定为该目标视频的视频标签。应当理解的，利用发布该目标视频的对象的视频特征信息进行实体消歧，使消歧后的候选实体与发布用户的历史视频的特征信息更加匹配，从而增强实体消歧效果，提升视频标签设置的精确度。

基于上述视频处理方法以及视频处理装置的实施例，本发明实施例提供了一种计算机设备，此处所述的计算机设备对应前述的服务器。请参见图12，是本发明实施例提供的一种计算机设备的结构示意图，该计算机设备1200至少可包括：处理器1201、通信接口1202以及计算机存储介质1203。其中，处理器1201、通信接口1202以及计算机存储介质1203可通过总线或其他方式连接。

计算机存储介质1203可以存储在计算机设备1200的存储器1204中，所述计算机存储介质1203用于存储计算机程序，所述计算机程序包括程序指令，所述处理器1201用于执行所述计算机存储介质1203存储的程序指令。处理器1201(或称CPU(Central ProcessingUnit，中央处理器))是计算机设备1200的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行：

对目标视频进行实体识别，确定该目标视频对应的至少一个实体标签；在该至少一个实体标签中确定存在多个候选实体的目标实体标签；获取发布该目标视频的对象的视频特征信息，该视频特征信息与该对象发布的历史视频的视频特征关联；基于该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体，该目标实体包括该多个候选实体中的一个或者多个；将该至少一个实体标签中各个实体标签对应的目标实体确定为该目标视频的视频标签。

在一个实施例中，处理器1201，在基于该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体时，具体用于：确定该多个候选实体中各个候选实体与该历史视频的视频标签之间的相关度；基于各个候选实体的相关度确定多个目标候选实体；获取该目标视频对应的文本信息，以及该多个目标候选实体对应的第一实体信息，该第一实体信息包括该多个目标候选实体对应的实体类型、该多个目标候选实体对应的描述信息中的一个或者多个；基于该文本信息、该多个目标候选实体对应的第一实体信息和该视频特征信息对该目标实体标签对应的多个目标候选实体进行消歧处理，得到该目标实体标签对应的目标实体。

在一个实施例中，处理器1201，在基于该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体时，具体用于：确定该多个候选实体中各个候选实体与该历史视频的视频标签之间的相关度；基于各个候选实体的相关度对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体，该目标实体与该历史视频的视频标签之间的相关度大于该多个候选实体中除该目标实体以外的实体与该历史视频的视频标签之间的相关度。

在一个实施例中，处理器1201，在确定该多个候选实体中各个候选实体与该历史视频的视频标签之间的相关度时，具体用于：获取该多个候选实体中各个候选实体对应的实体类型与该视频类型的第一匹配度，以及该各个候选实体与该历史视频的视频标签之间的第一关联度；基于该第一匹配度和该第一关联度确定该各个候选实体与该历史视频的视频标签之间的相关度。

在一个实施例中，处理器1201，在获取该多个候选实体中各个候选实体对应的实体类型与该视频类型的第一匹配度时，具体用于：获取该历史视频中视频类型与该各个候选实体对应的实体类型匹配的视频的播放次数，以及该历史视频的播放总次数；基于该播放次数和该播放总次数确定该各个候选实体对应的实体类型符合该历史视频的视频标签对应的类型的第一匹配度。

在一个实施例中，处理器1201，在获取该各个候选实体与该历史视频的视频标签之间的第一关联度时，具体用于：获取该各个候选实体对应的实体标签与该历史视频的视频标签之间的第二关联度，以及该历史视频的视频标签的使用度；其中，该历史视频的视频标签的使用度由该历史视频的视频标签被标记的次数确定；基于该二关联度和该使用度确定该各个候选实体与该历史视频的视频标签之间的第一关联度。

在一个实施例中，处理器1201，在获取该各个候选实体对应的实体标签与该历史视频的视频标签之间的第二关联度时，具体用于：获取该各个候选实体对应的实体标签与该历史视频的视频标签被标记在同一个视频上的第一标记次数，以及该各个候选实体对应的实体标签和该历史视频的视频标签被标记的第一标记总次数；基于该第一标记次数和该第一标记总次数确定该各个候选实体对应的实体标签与该历史视频的视频标签之间的第二关联度。

在一个实施例中，处理器1201，在获取该历史视频的视频标签的使用度时，具体用于：获取该历史视频的视频标签在该历史视频中被标记的第二标记次数，以及该历史视频的视频标签被标记的第二标记总次数；基于该第二标记次数和该第二标记总次数确定该历史视频的视频标签的使用度。

在一个实施例中，处理器1201，在基于该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体时，具体用于：获取该目标视频对应的文本信息；获取该多个候选实体对应的第二实体信息，该第二实体信息包括该多个候选实体对应的实体类型、该多个候选实体对应的描述信息中的一个或者多个；基于该文本信息、该多个候选实体对应的第二实体信息和该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体。

在一个实施例中，处理器1201，在基于该文本信息、该多个候选实体对应的第二实体信息和该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体时，具体用于：调用深度匹配模型对该文本信息、该多个候选实体对应的第二实体信息和该视频特征信息进行处理，得到该文本信息的上下文特征向量、该多个候选实体对应的第二实体信息的特征向量和该视频特征信息的特征向量；对该文本信息的上下文特征向量、该多个候选实体对应的第二实体信息的特征向量和该视频特征信息的特征向量进行自注意力计算，得到该多个候选实体中各个候选实体与该历史视频的第二匹配度；基于各个候选实体的第二匹配度对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体，该目标实体与该历史视频的第二匹配度大于该多个候选实体中除目标实体以外的实体与该历史视频的第二匹配度。

在一个实施例中，处理器1201，在基于该视频特征信息对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体时，具体用于：确定该多个候选实体中各个候选实体与该历史视频的视频标签之间的相关度；获取该目标视频对应的文本信息，以及该各个候选实体对应的第二实体信息，该第二实体信息包括该各个候选实体对应的实体类型、该各个候选实体对应的描述信息中的一个或者多个；基于该文本信息、该各个候选实体对应的第二实体信息和该视频特征信息确定该各个候选实体的第二匹配度；基于该各个候选实体的相关度和该各个候选实体的第二匹配度对该目标实体标签对应的多个候选实体进行消歧处理，得到该目标实体标签对应的目标实体。

在一个实施例中，处理器1201，在获取发布该目标视频的对象的视频特征信息时，具体用于：获取该对象在预设时间段内发布的历史视频；对该历史视频进行分析处理，得到历史视频数据信息，该历史视频数据信息包括该历史视频的视频类型以及该历史视频的视频标签；将该历史视频数据信息确定为该对象的视频特征信息。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本申请各个实施例上述方法的全部或部分步骤。其中，而前述的存储介质可包括：U盘、移动硬盘、磁碟、光盘、只读存储器(英文：Read-Only Memory，缩写：ROM)或者随机存取存储器(英文：Random AccessMemory，缩写：RAM)等各种可以存储程序代码的介质。

本领域普通技术人员可以意识到，结合本申请中所公开的实施例描述的各示例的单元及步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用，使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程设备。计算机指令可以存储在计算机存储介质中，或者通过计算机存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如，同轴电缆、光纤、数字用户线(DSL))或无线(例如，红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘(Solid State Disk，SSD))等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视频处理方法，其特征在于，包括：

对目标视频进行实体识别，确定所述目标视频对应的至少一个实体标签；

在所述至少一个实体标签中确定存在多个候选实体的目标实体标签；

获取发布所述目标视频的对象的视频特征信息，所述视频特征信息与所述对象发布的历史视频的视频特征关联；

基于所述视频特征信息对所述目标实体标签对应的多个候选实体进行消歧处理，得到所述目标实体标签对应的目标实体，所述目标实体包括所述多个候选实体中的一个或者多个；

将所述至少一个实体标签中各个实体标签对应的目标实体确定为所述目标视频的视频标签。

2.根据权利要求1所述的方法，其特征在于，所述基于所述视频特征信息对所述目标实体标签对应的多个候选实体进行消歧处理，得到所述目标实体标签对应的目标实体，包括：

确定所述多个候选实体中各个候选实体与所述历史视频的视频标签之间的相关度；

基于各个候选实体的相关度确定多个目标候选实体；

获取所述目标视频对应的文本信息，以及所述多个目标候选实体对应的第一实体信息，所述第一实体信息包括所述多个目标候选实体对应的实体类型、所述多个目标候选实体对应的描述信息中的一个或者多个；

基于所述文本信息、所述多个目标候选实体对应的第一实体信息和所述视频特征信息对所述目标实体标签对应的多个目标候选实体进行消歧处理，得到所述目标实体标签对应的目标实体。

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述视频特征信息对所述目标实体标签对应的多个候选实体进行消歧处理，得到所述目标实体标签对应的目标实体，包括：

基于各个候选实体的相关度对所述目标实体标签对应的多个候选实体进行消歧处理，得到所述目标实体标签对应的目标实体，所述目标实体与所述历史视频的视频标签之间的相关度大于所述多个候选实体中除所述目标实体以外的实体与所述历史视频的视频标签之间的相关度。

4.根据权利要求3所述的方法，其特征在于，所述确定所述多个候选实体中各个候选实体与所述历史视频的视频标签之间的相关度，包括：

获取所述多个候选实体中各个候选实体对应的实体类型与所述视频类型的第一匹配度，以及所述各个候选实体与所述历史视频的视频标签之间的第一关联度；

基于所述第一匹配度和所述第一关联度，确定所述各个候选实体与所述历史视频的视频标签之间的相关度。

5.根据权利要求4所述的方法，其特征在于，所述获取所述多个候选实体中各个候选实体对应的实体类型与所述视频类型的第一匹配度，包括：

获取所述历史视频中视频类型与所述各个候选实体对应的实体类型匹配的视频的播放次数，以及所述历史视频的播放总次数；

基于所述播放次数和所述播放总次数，确定所述多个候选实体中各个候选实体对应的实体类型与所述视频类型的第一匹配度。

6.根据权利要求4所述的方法，其特征在于，所述获取所述各个候选实体与所述历史视频的视频标签之间的第一关联度，包括：

获取所述各个候选实体对应的实体标签与所述历史视频的视频标签之间的第二关联度，以及所述历史视频的视频标签的使用度；其中，所述历史视频的视频标签的使用度由所述历史视频的视频标签被标记的次数确定；

基于所述第二关联度和所述使用度确定所述各个候选实体与所述历史视频的视频标签之间的第一关联度。

7.根据权利要求6所述的方法，其特征在于，所述获取所述各个候选实体对应的实体标签与所述历史视频的视频标签之间的第二关联度，包括：

获取所述各个候选实体对应的实体标签与所述历史视频的视频标签被标记在同一个视频上的第一标记次数，以及所述各个候选实体对应的实体标签和所述历史视频的视频标签被标记的第一标记总次数；

基于所述第一标记次数和所述第一标记总次数确定所述各个候选实体对应的实体标签与所述历史视频的视频标签之间的第二关联度。

8.根据权利要求6所述的方法，其特征在于，所述获取所述历史视频的视频标签的使用度，包括：

获取所述历史视频的视频标签在所述历史视频中被标记的第二标记次数，以及所述历史视频的视频标签被标记的第二标记总次数；

基于所述第二标记次数和所述第二标记总次数确定所述历史视频的视频标签的使用度。

9.根据权利要求1或2所述的方法，其特征在于，所述基于所述视频特征信息对所述目标实体标签对应的多个候选实体进行消歧处理，得到所述目标实体标签对应的目标实体，包括：

获取所述目标视频对应的文本信息；

获取所述多个候选实体对应的第二实体信息，所述第二实体信息包括所述多个候选实体对应的实体类型、所述多个候选实体对应的描述信息中的一个或者多个；

基于所述文本信息、所述多个候选实体对应的第二实体信息和所述视频特征信息对所述目标实体标签对应的多个候选实体进行消歧处理，得到所述目标实体标签对应的目标实体。

10.根据权利要求9所述的方法，其特征在于，所述基于所述文本信息、所述多个候选实体对应的第二实体信息和所述视频特征信息对所述目标实体标签对应的多个候选实体进行消歧处理，得到所述目标实体标签对应的目标实体，包括：

调用深度匹配模型对所述文本信息、所述多个候选实体对应的第二实体信息和所述视频特征信息进行处理，得到所述文本信息的上下文特征向量、所述多个候选实体对应的第二实体信息的特征向量和所述视频特征信息的特征向量；

对所述文本信息的上下文特征向量、所述多个候选实体对应的第二实体信息的特征向量和所述视频特征信息的特征向量进行自注意力计算，得到所述多个候选实体中各个候选实体与所述历史视频的第二匹配度；

基于各个候选实体的第二匹配度对所述目标实体标签对应的多个候选实体进行消歧处理，得到所述目标实体标签对应的目标实体，所述目标实体与所述历史视频的第二匹配度大于所述多个候选实体中除目标实体以外的实体与所述历史视频的第二匹配度。

11.根据权利要求1或2所述的方法，其特征在于，所述基于所述视频特征信息对所述目标实体标签对应的多个候选实体进行消歧处理，得到所述目标实体标签对应的目标实体，包括：

获取所述目标视频对应的文本信息，以及所述各个候选实体对应的第二实体信息，所述第二实体信息包括所述各个候选实体对应的实体类型、所述各个候选实体对应的描述信息中的一个或者多个；

基于所述文本信息、所述各个候选实体对应的第二实体信息和所述视频特征信息确定所述各个候选实体的第二匹配度；

基于所述各个候选实体的相关度和所述各个候选实体的第二匹配度对所述目标实体标签对应的多个候选实体进行消歧处理，得到所述目标实体标签对应的目标实体。

12.根据权利要求1或2所述的方法，其特征在于，所述获取发布所述目标视频的对象的视频特征信息，包括：

获取所述对象在预设时间段内发布的历史视频；

对所述历史视频进行分析处理，得到历史视频数据信息，所述历史视频数据信息包括所述历史视频的视频类型以及所述历史视频的视频标签；

将所述历史视频数据信息确定为所述对象的视频特征信息。

13.一种视频处理装置，其特征在于，所述装置包括：

识别单元，用于对目标视频进行实体识别，确定所述目标视频对应的至少一个实体标签；

确定单元，用于在所述至少一个实体标签中确定存在多个候选实体的目标实体标签；

获取单元，用于获取发布所述目标视频的对象的视频特征信息，所述视频特征信息与所述对象发布的历史视频的视频特征关联；

消歧单元，用于基于所述视频特征信息对所述目标实体标签对应的多个候选实体进行消歧处理，得到所述目标实体标签对应的目标实体，所述目标实体包括所述多个候选实体中的一个或者多个；

所述确定单元，还用于将所述至少一个实体标签中各个实体标签对应的目标实体确定为所述目标视频的视频标签。

14.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1～12任一项所述的视频处理方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由处理器加载并执行如权利要求1～12任一项所述的视频处理方法。