CN110245259B

CN110245259B - 基于知识图谱的视频打标签方法及装置、计算机可读介质

Info

Publication number: CN110245259B
Application number: CN201910423105.0A
Authority: CN
Inventors: 张晓寒; 任可欣; 王述; 冯知凡; 张扬; 朱勇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2021-09-21
Anticipated expiration: 2039-05-21
Also published as: CN110245259A

Abstract

本发明提供一种基于知识图谱的视频打标签方法及装置、计算机可读介质。其方法包括：基于知识图谱的实体链指技术，根据已知的知识图谱，从目标视频中提取多个备选实体；基于预建立的视频结构化体系、所述知识图谱以及所述多个备选实体，获取所述目标视频对应的目标主实体和/或目标子实体；所述视频结构化体系中限定有主实体和相关子实体的垂类关系；基于所述主实体和/或所述目标子实体，为所述目标视频打标签。本发明的技术方案，可以扩充从视频本身中提取不到的标签，丰富视频的标签，使得视频包含更加全面的标签，从而能够有效地增加视频的召回率，提高基于标签进行视频推荐以及视频搜索的效率。

Description

基于知识图谱的视频打标签方法及装置、计算机可读介质

【技术领域】

本发明涉及计算机应用技术领域，尤其涉及一种基于知识图谱的视频打标签方法及装置、计算机可读介质。

【背景技术】

随着互联网上视频资源增多，有越来越多视频相关的产品，例如视频推荐以及视频搜索等等。

在现有的视频搜索或者视频推荐中，通常都是通过视频打标签技术，给视频资源打上对应的标签，然后用于基于标签对视频进行推荐，或者基于标签建立索引，实现视频的搜索。现有的为视频打标签的方法包括图像技术、自然语言处理(Natural LanguageProcess；NLP)技术以及NLP与多媒体的结合技术。具体地，对于图像技术，可以包括指纹技术、人脸识别技术等等。其中指纹技术为一种视频相似度技术，用于判断短视频来源于原始视频的短视频，将短视频与原始视频中的相应部分进行比对，可以根据该原始视频为该短视频打标签。人脸识别主要用于对视频中的人脸进行识别，以便于根据识别的结果为视频打标签。NLP技术主要用于从文本中提取关键词，作为视频的标签。NLP与多媒体的结合技术中，可以利用光学字符识别(Optical Character Recognition；OCR)技术提取文本，还可以利用自动语音识别(Auto Speech Recognition；ASR)技术提取文本，并进一步从文本中提取关键词，作为视频的标签。

但是，上述现有技术为视频打的标签，都是基于已有信息所打的标签，导致所打的标签不够全面，会造成标签召回不全，基于标签进行视频推荐以及视频搜索的效率较低。

【发明内容】

本发明提供了一种基于知识图谱的视频打标签方法及装置、计算机设备及可读介质，用于丰富视频的标签，提高基于标签召回视频时的召回率。

本发明提供一种基于知识图谱的视频打标签方法，所述方法包括：

基于知识图谱的实体链指技术，根据已知的知识图谱，从目标视频中提取多个备选实体；

基于预建立的视频结构化体系、所述知识图谱以及所述多个备选实体，获取所述目标视频对应的目标主实体和/或目标子实体；所述视频结构化体系中限定有主实体和相关子实体的垂类关系；

基于所述主实体和/或所述目标子实体，为所述目标视频打标签。

本发明提供一种基于知识图谱的视频打标签装置，所述装置包括：

提取模块，用于基于知识图谱的实体链指技术，根据已知的知识图谱，从目标视频中提取多个备选实体；

获取模块，用于基于预建立的视频结构化体系、所述知识图谱以及所述多个备选实体，获取所述目标视频对应的目标主实体和/或目标子实体；所述视频结构化体系中限定有主实体和相关子实体的垂类关系；

打标签模块，用于基于所述主实体和/或所述目标子实体，为所述目标视频打标签。

本发明还提供一种计算机设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的基于知识图谱的视频打标签方法。

本发明还提供一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的基于知识图谱的视频打标签方法。

本发明的基于知识图谱的视频打标签方法及装置、计算机可读介质，通过基于知识图谱获取到目标视频的主实体和/或目标子实体，并将获取到的主实体和/或目标子实体，作为目标视频的标签。相对于现有技术，本发明的技术方案，可以扩充从视频本身中提取不到的标签，丰富视频的标签，使得视频包含更加全面的标签，从而能够有效地增加视频的召回率，提高基于标签进行视频推荐以及视频搜索的效率。

【附图说明】

图1为本发明的基于知识图谱的视频打标签方法实施例一的流程图。

图2为本发明的基于知识图谱的视频打标签方法实施例二的流程图。

图3为本发明的基于知识图谱的视频打标签方法实施例三的流程图。

图4为本发明的基于知识图谱的视频打标签装置实施例一的结构图。

图5为本发明的基于知识图谱的视频打标签装置实施例二的结构图。

图6为本发明的计算机设备实施例的结构图。

图7为本发明提供的一种计算机设备的示例图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

图1为本发明的基于知识图谱的视频打标签方法实施例一的流程图。如图1所示，本实施例的基于知识图谱的视频打标签方法，具体可以包括如下步骤：

S100、基于知识图谱的实体链指技术，根据已知的知识图谱，从目标视频中提取多个备选实体；

本实施例的基于知识图谱的视频打标签方法的执行主体为基于知识图谱的视频打标签装置，该基于知识图谱的视频打标签装置可以为一个电子实体，或者也可以采用软件集成的应用。使用时，将目标视频输入至该基于知识图谱的视频打标签装置中，该基于知识图谱的视频打标签装置，可以采用本实施例的基于知识图谱的视频打标签方法，为该目标视频打上标签。

本实施例的已知的知识图谱可以为现有技术中的知识图谱。该知识图谱中包括很多的实体，且其中某些实体之间还存在连接边。但是，在已知的知识图谱中，未定义哪些实体为主实体，哪些实体为子实体。

本实施例的步骤S100是基于知识图谱的实体链指技术，根据已知的知识图谱，从目标视频中提取可以作为知识图谱中的实体的多个备选实体。例如，该步骤S100具体实现时，可以包括如下至少一种操作：

第一种、基于文本识别提取实体的方式，该种方式中，利用知识图谱的实体链指技术，从视频标题、对台词语音识别后得到的文本以及视频中的文字中，提取目标视频的备选实体；

本实施例的目标视频中可以包括文字、声音等信息，对于目标视频中每一帧图像中的文字如视频标题、字幕以及介绍信息等等，可以采用OCR提取其中的文本。对于目标视频中的声音如台词，可以采用ASR识别为文本。然后对得到的所有文本分词，去除没有意义的词，提取其中的关键词。然后采用知识图谱的实体链指技术，判断每个关键词是否能够链指到知识图谱中的一个实体上，若能链指到，将该关键词作为目标视频的备选实体。在该链指过程中，可以判断每一个关键词与知识图谱中的每一个实体的实体相似度，当实体相似度大于或者等于预设相似度阈值时，可以认为该关键词能够链指到知识图谱中的该实体上。

第二种、基于人脸识别提取实体的方式，该种方式中，对目标视频进行人脸识别，并将能够链指到知识图谱中的实体上的识别结果，作为目标视频的备选实体；以及

在该种实现方式中，可以预先建立有数个人脸识别模板，然后采用数个人脸识别模块识别该目标视频，判断该目标视频中是否包括该人物的人脸，若能识别到，判断识别到的人脸的人物是否能够链指到知识图谱中的一个人物实体上，若能链指到，将该识别到的人脸的人物作为目标视频的备选实体。在判断识别到的人脸的人物是否能够链指到知识图谱中的一个人物实体上的过程中，具体可以判断识别到人脸的人物与知识图谱中的人物实体的实体相似度，是否大于或者等于预设相似度阈值时，若是，可以认为该识别到人脸的人物能够链指到知识图谱中的该人物实体上。

或者人脸识别时，也可以采用预先训练的人脸识别模型来实现，该人脸识别模型可以采用知识图谱中涉及到的已知人物实体的人脸视频来训练。人脸识别时，将目标视频输入至人脸识别模型中，该人脸识别模型可以输出该视频为某个已知人物实体的概率，该概率即相当于实体相似度，若该概率大于或者等于预设相似度阈值时，若是，可以认为概率对应的人物能够链指到知识图谱中的该人物实体上。

第三种、基于指纹识别提取实体的方式，该种方式中，利用预设的视频库识别目标视频所属的作品名称，并将能够链指到知识图谱中的实体上的识别结果作为目标视频的备选实体。

本实施例的指纹识别，是针对于目标视频为某个视频中的一段视频的情况。具体地，可以提前预设一个视频库，该视频库中可以包括无数的完整的源视频，且视频库中标识有每一个源视频的作品名称。具体识别时，将目标视频与每个源视频进行匹配，判断属于源视频的概率，是否大于或者等于预设概率阈值，若是，确定该目标视频属于该源视频。然后判断将该源视频的作品名称是否能够链指到知识图谱中的某个实体上，若能，将该源视频的作品名称作为目标视频的备选实体。具体链指过程中，可以判断源视频的作品名称与知识图谱中的作品实体的实体相似度，是否大于或者等于预设相似度阈值时，若是，可以认为该源视频的作品名称能够链指到知识图谱中的该作品实体上。

实际应用中，除了包括上述三种实体提取方式外，还可以包括基于作者自建的标签来提取实体。例如作者可以为视频打上一些标签，然后采用知识图谱链指技术，判断该标签是否能够链指到某个实体上，若能，提取该标签作为目标视频的备选实体。具体地，还可以包括其他更多方式的实体提取方式，在此不再一一举例赘述。

S101、基于预建立的视频结构化体系、知识图谱以及多个备选实体，获取目标视频对应的目标主实体和/或目标子实体；该视频结构化体系中限定有主实体和相关子实体的垂类关系；

本实施例的预建立的视频结构化体系，是利用视频分类技术，将视频进行垂类划分，例如可以包括影视剧、综艺、动漫、音乐、体育、游戏等各个领域的视频的结构化体系。每种视频结构化体系中也可以对应一种视频分类。在每个领域的视频结构化体系中限定有主实体和相关子实体的垂类关系。

对于每个垂类设置标签的结构化体系，可以举例如下：

影视剧垂类：影视剧名，演员，角色；其中影视剧名为主实体，演员和角色为主实体的相关子实体。

音乐垂类：音乐名，原唱者，翻唱者，伴奏者；其中音乐名为主实体，其他为子实体。

动漫垂类：动漫名，角色名；其中动漫名为主实体，角色名为主实体的相关子实体。

获得视频标签的结构化体系后，将语义化后的实体标签放到对应的体系中。例如视频判断为影视剧，那么语义化标签中，类型为人物/明星的是演员，类型为虚拟人物的是角色，类型为作品/电影/电视剧的是影视剧；其他类型丢弃

本实施例中，基于知识图谱提取的目标视频的可信度较高的标签可能仅有目标视频对应的目标主实体，也可能仅有目标视频对应的目标子实体，或者也可以两者都有。且知识图谱中还记录有不同实体之间的映射关系，例如演员和角色之间存在演员扮演角色的映射关系。

对于目标视频对应的目标主实体可以为目标视频的名称，通常的技术中，有些视频中可能未包含视频的名称，按照现有的提取视频标签的方式，可能提取不到视频的名称，因此，无法获取到目标视频的主实体，会造成该视频的召回率过低。而采用本实施例的技术方案，即使原始的目标视频中未包括视频的名称，基于知识图谱来提取视频标签的方式，也有很大可能能够提取到目标视频的主实体。

同理，本实施例中，可以基于预建立的视频结构化体系和知识图谱，获取目标视频对应的目标子实体，与现有的提取视频标签的方式相比，按照该步骤提取的目标视频的目标子实体，会包括从视频本身中提取不到的目标子实体，因此，也能够丰富目标子实体的种类和数量。

S102、基于主实体和/或目标子实体，为目标视频打标签。

最后，将基于知识图谱获取到的目标视频的目标主实体和/或目标子实体，作为目标视频的标签，为目标视频打上。

本实施例的基于知识图谱的视频打标签方法，基于知识图谱获取到目标视频的主实体和/或目标子实体，并将获取到的主实体和/或目标子实体，作为目标视频的标签。相对于现有技术，本实施例的技术方案，可以扩充从视频本身中提取不到的标签，丰富视频的标签，使得视频包含更加全面的标签，从而能够有效地增加视频的召回率，提高基于标签进行视频推荐以及视频搜索的效率。

图2为本发明的基于知识图谱的视频打标签方法实施例二的流程图。在图2所示实施例中，具体描述了上述图1所示实施例中的“基于预建立的视频结构化体系、知识图谱以及多个备选实体，获取目标视频对应的目标主实体”的实现过程，具体可以包括如下步骤：

S200、基于视频结构化体系和多个备选实体，构建目标视频的候选主实体集合；

例如，构建目标视频的候选主实体集合可以从以下两个方面来构建：

第一方面、判断每个备选实体是否为视频结构化体系中限定的主实体；若是，将对应的备选实体作为候选主实体，存入创建的候选主实体集合中。

第二方面、判断每个备选实体是否为视频结构化体系中限定的相关子实体，若是，利用知识图谱拉取与相关子实体有连接边的连接实体、且连接实体为视频结构化体系中限定的主实体，将连接实体作为候选主实体，存入候选主实体集合中。

S201、计算候选主实体集合中每个候选主实体的置信度分数；

例如，该步骤S201具体实现时，可以先获取候选主实体集合中每个候选主实体的特征信息；然后根据预先训练的置信度打分模型和每个候选主实体的特征信息，预估每个候选主实体的置信度分数。

其中，获取候选主实体集合中每个候选主实体的特征信息，可以包括如下至少一种：

(1)利用预先配置的每种实体获取方式的置信度，获取对应的候选主实体的获取方式的置信度；

例如，上述图1的三种提取实体的方式中，经过统计发现人脸识别整体效果较好，则可以设置相应的提取方式的置信度较高；而基于作者自建的标签提取实体可能由于作者不同导致整体质量不一，则该种提取方式的置信度可以较低。

(2)获取对应的候选主实体在采用知识图谱的实体链指技术提取时的实体相似度分值；

例如，具体可以为候选主实体在实体提取时，按照上述图1所示实施例中的任一种提取方式计算的实体相似度分值。

(3)根据对应的候选主实体为视频结构化体系中的主实体还是根据知识图谱拉取的主实体，获取对应的候选主实体的跳转特征；

例如，若候选主实体就是视频结构化体系中的主实体，此时无跳转，跳转特征对应的置信度分值可以最高。而若候选主实体为视频结构化体系中的相关子实体，通过知识图谱拉取的主实体，此时跳转且有明确边关系，跳转特征对应的置信度分值可以次高。实际应用中，还可以存在其他的跳转，例如，也没有边关系，而是利用名字匹配等方式拉取候选主实体，此时可以认为有跳转但没有边关系，此时跳转特征对应的置信度分值可以最低。

(4)获取对应的候选主实体被添加至候选主实体集合中的次数；

例如，人脸识别到3个演员，他们都共同出演过电视剧A，那么候选主实体中会有电视剧A，并且频次特征＝3。对于采用其他实体识别的方式，也可以统计到候选主实体被添加至候选主实体集合中的次数，在此不再赘述。

(5)通过计算对应的候选主实体的词频-逆文档频率(Term Frequency-InverseDocument Frequency；TF-IDF)以及

每个候选主实体可以采用现有方式计算其TF-IDF的数值，在此不再赘述。

该TF-IDF在一定程度上还表征了候选主实体的语义是否过泛，越泛则越分数越低。例如鉴宝类综艺中，标签结果中出现鉴宝和天下寻宝两个综艺名，但是由于鉴宝的名字较泛，因此得分低于天下寻宝。对应地，鉴宝的TF-IDF值低于天下寻宝的TF-IDF值。

(6)获取对应的候选主实体在知识图谱中的类别与对应的视频结构化体系的类别的相似度。

例如，知识图谱中《天龙八部》的类别是武侠片，而视频结构化体系对应的视频分类结果也是武侠片，那么相似度很高；反之如果视频分类的结果是现代剧，那么相似度降低。

实际应用中，可以选取上面至少一种特征，拼接构成候选主实体的特征信息，拼接后的候选主实体的特征信息可以为一个一维向量。

然后将一维向量表征的候选主实体的特征信息输入至预先训练的置信度打分模型，该置信度打分模型可以预估出该候选主实体的置信度分数。

该置信度打分模型的训练过程与使用过程类似，具体地，训练时采用的特征信息与使用时的特征信息一致。区别仅在于：训练时，不仅要采集训练的主实体的特征信息，还需要已知训练的主实体的置信度分数。训练过程参考相关神经网路模型的训练方式，在此不再赘述。

S202、根据候选主实体集合中各候选主实体的置信度分数，获取目标视频对应的目标主实体。

例如，该步骤S202可以包括如下两种情况：

第一种情况中，直接从候选主实体集合中选取置信度分数最高的候选主实体；将该候选主实体作为目标视频对应的目标主实体。

第二种情况中，可以包括如下步骤：

(a)将候选主实体集合中的各候选主实体按照置信度分数由高到低排序，得到候选主实体序列；

(b)从候选主实体序列的第1个开始，依次判断候选主实体序列中第N个候选主实体与第N+1个候选主实体的置信度分数的差值是否大于预设差值；若是，执行步骤(c)；否则继续判断；如首先从第1个开始判断，若第1个候选主实体与第2个候选主实体的的置信度分数的差值不是大于预设差值，此时继续判断第2个候选主实体与第3个候选主实体的的置信度分数的差值是否大于预设差值，以此类推，直到找到候选主实体序列中候选主实体序列中的与第N+1个候选主实体的置信度分数的差值大于预设差值的第N个候选主实体。

具体地，由于候选主实体序列中可能会出现topN的主实体分数非常接近，且均有可能是正确结果。此时保留topN的主实体，而去除与第N个的置信度分数的差值较大的第N+1个候选主实体之后的所有候选主实体。

例如，演员：蒋欣，角色：樊胜美，top结果是欢乐颂第一季和欢乐颂第二季，则应该保留top2的结果。所以，可以通过设置预设差值，如果第N个和第N+1个候选主实体的置信度分数相差在这范围内，则都保留；如果相差较远，则丢弃第N个以后的候选主实体。

(c)取候选主实体集合中的前N个候选主实体；

(d)判断N是否大于1；若N大于1，执行步骤(e)；否则N＝1，取该候选主实体作为目标视频对应的目标主实体，结束。

(e)将N个候选主实体进行聚类；执行步骤(f)；

(f)、判断是否聚类成功；若聚类成功，将聚类后的主实体作为目标视频对应的目标主实体；否则，若聚类不成功，确定对于目标视频，暂时没有可信的目标主实体。

本实施例的步骤(e)将N个候选主实体进行聚类时，具体可以通过如下方式进行聚类：

例如，可以通过名字聚类：这里指知识图谱中同名的实体，例如多版本天龙八部；如果召回多个，则可以通过名字合并为一个目标主实体，作为目标视频的一个标签。

还可以通过系列名泛化聚类，例如欢乐颂第一季和欢乐颂第二季，通过系列名泛化得到欢乐颂和欢乐颂，聚类后得到欢乐颂，此时以欢乐颂作为目标主实体。

实际应用中，也存在聚类失败的情况，若聚类失败，则暂时认为没有可信的目标主实体；但是会先保留前N个候选主实体，后续获取目标实体的目标子实体时还会使用。本实施例的技术方案，在输入的目标视频未知主实体时(例如未知综艺名)，可以通过知识图谱的扩展出包含正确主实体的候选，并且通过特征和模型计算，最终聚类出正确的主实体，作为目标视频的标签，可以增加视频的基于标签的召回。

本实施例的基于知识图谱的视频打标签方法，基于知识图谱获取到目标视频的主实体，并将获取到的主实体，作为目标视频的标签。相对于现有技术，本实施例的技术方案，可以扩充从视频本身中提取不到的标签，丰富视频的标签，使得视频包含更加全面的标签，从而能够有效地增加视频的召回率，提高基于标签进行视频推荐以及视频搜索的效率。

图3为本发明的基于知识图谱的视频打标签方法实施例三的流程图。在图3所示实施例中，具体描述了上述图1所示实施例中的“基于预建立的视频结构化体系、知识图谱和多个备选实体，获取目标视频对应的目标子实体”的实现过程，具体可以包括如下步骤：

S300、判断每个备选实体是否为视频结构化体系中的相关子实体；若是执行步骤S301，若不是，丢弃该备选实体；

S301、将对应的备选实体作为候选相关子实体，存入候选相关子实体集合中；执行步骤S302；

S302、利用知识图谱拉取与N个候选主实体中每个候选主实体有连接边的相关子实体，构成相应的置信度相关子实体集合；执行步骤S303；

由于知识图谱中不仅记录有多个实体，还记录有不同实体的映射关系，如演员和角色的映射关系等等，根据影视剧名的主实体拉取具有连接边的演员子实体、角色子实体等的时候，得到的每个置信度相关子实体集合中可以包括有演员子实体和角色子实体。同时，本实施例中，还可以参考知识图谱中各子实体与主实体的连接边的关系，推导出子实体间的映射关系，如演员子实体和影视剧主实体之间的关系是演员和作品的映射关系，角色子实体和影视剧主实体之间的关系是角色归属作品的映射关系。这样，可以得到演员子实体和角色子实体为演员扮演角色的映射关系。并在置信度相关子实体集合中记录相应的子实体间的映射关系。或者也可以不在置信度相关子实体集合存储子实体间的映射关系，需要时，从知识图谱中查询并推导即可。

S303、取得到的N个置信度相关子实体集合的交集，作为高置信度相关子实体集合；执行步骤S304；

本实施例中，以上述图2所示实施例中的N不等于1的情况为例来说明，实际应用中，若N＝1，则该候选主实体的置信度相关子实体集合即为高置信度相关子实体集合。例如，对于具有多季的影视剧，每一季都有演员和角色的对应关系，如果每一季的某个演员都没有发生变化，则对应的演员和角色子实体也没有变化，则该演员和角色最终会保留在高置信度相关子实体集合中。

S304、将候选相关子实体集合与高置信度相关子实体集合相交得到的相关子实体，作为目标视频的目标子实体。

本实施例中，通过相关子实体+主实体拉取的高置信度相关子实体集合的补充，同样可以补充相关子实体实体的结果，丰富目标视频的标签，增加视频的基于标签的召回。

进一步可选地，本实施例的视频结构化体系中还限定有不同相关子实体的映射关系，此时，本实施例的基于知识图谱的视频打标签方法，还包括：

参考上述实施例的记载，根据知识图谱可以获取到子实体间的映射关系，这样，根据知识图谱，可以判断每个目标子实体是否存在具有映射关系的相关子实体；例如，可以先根据知识图谱获取所有具有映射关系的子实体对，然后判断每个目标子实体是否存在具有映射关系的相关子实体；若存在，将目标子实体的具有映射关系的相关子实体，补充为目标视频的目标子实体。这样，可以丰富目标视频的目标子实体的数量，后续可以根据目标视频的目标子实体为目标视频打标签，从而可以在视频搜索或者推荐时，提高目标视频的召回率。

进一步可选地，本实施例中，若获取的目标视频的目标子实体的数量包括至少两个，此时本实施例的基于知识图谱的视频打标签方法，还可以包括：利用知识图谱，判断目标视频的至少两个目标子实体之间是否存在映射关系；根据存在的映射关系，为目标视频打标签。

例如，映射关系的两端对应着两个目标子实体，如演员和角色可以作为影视剧分类的视频结构化体系中两个相关子实体，且这两个相关子实体之间存在这演员扮演角色的映射关系。同理，音乐分类的视频结构化体系中的演唱者和原唱两个相关子实体之间也存在着演唱者翻唱原唱的歌的映射关系。

本实施例中，根据知识图谱中的映射关系，可以挖掘出目标视频的至少两个目标子实体之间是否存在映射关系；若存在，为目标视频打上挖掘出的映射关系的标签。通过该方案，可以将目标子实体的映射关系也作为目标视频的标签，进一步丰富了视频的标签种类和数量，有效地提高了视频推荐和/视频搜索过程中，视频的召回率。

本实施例的基于知识图谱的视频打标签方法，基于知识图谱获取到目标视频的目标子实体，并将获取到的目标子实体，作为目标视频的标签。相对于现有技术，本实施例的技术方案，可以扩充从视频本身中提取不到的标签，丰富视频的标签，使得视频包含更加全面的标签，从而能够有效地增加视频的召回率，提高基于标签进行视频推荐以及视频搜索的效率。

例如，采用本实施例的上述技术方案对一段位置剧名的视频打标签，具体地，该视频中包括作者自建标签：“胡高峰”、“战争片”、“法西斯”、“火风”、“川岛芳子”、“单薇”；

通过对视频进行人脸识别，并利用知识图谱的实体链指技术，可以链指到的演员实体有：“单薇”、“胡高峰”；

通过对标题(title)的文本进行识别，并采用知识图谱的实体链指技术，无可以链指到的实体；

通过指纹识别和知识图谱的实体链指技术，也无可以链指到的实体；

通过上述采集到的实体，拉取对应影视剧，并经过置信度打分排序，得分最高的是：末代皇帝传奇，即该末代皇帝传奇为该段视频的剧名，为主实体。

采用上述实施例的技术方案，基于每个召回的实体的来源进行特征计算：如：胡高峰，人脸识别+用户自建标签；川岛芳子，用户自建标签；单薇，人脸识别+用户自建标签。

通过知识图谱中的该影视剧的演员表拉取高置信度映射关系：演员和角色，进而如下信息调整：

1、补充胡高峰、单薇饰演的角色；

2、补充川岛芳子的饰演者；

3、过滤掉错误的角色、演员：火风；

最终得到的主实体和相关子实体的结果，可以为：

剧名：末代皇帝传奇；

角色：川岛芳子、土肥原贤二；

演员：单薇、胡高峰

采用上述主实体和相关子实体对该视频打标签，能够丰富视频的标签，使得视频包含更加全面的标签，从而能够有效地增加视频的召回率，提高基于标签进行视频推荐以及视频搜索的效率。

图4为本发明的基于知识图谱的视频打标签装置实施例一的结构图。如图4所示，本实施例的基于知识图谱的视频打标签装置，具体可以包括：

提取模块10用于基于知识图谱的实体链指技术，根据已知的知识图谱，从目标视频中提取多个备选实体；

获取模块11用于基于预建立的视频结构化体系、知识图谱以及提取模块10提取的多个备选实体，获取目标视频对应的目标主实体和/或目标子实体；视频结构化体系中限定有主实体和相关子实体的垂类关系；

打标签模块12用于基于获取模块11获取的主实体和/或目标子实体，为目标视频打标签。

本实施例的基于知识图谱的视频打标签装置，通过采用上述模块实现基于知识图谱的视频打标签的实现原理以及技术效果与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图5为本发明的基于知识图谱的视频打标签装置实施例二的结构图。如图5所示，本实施例的基于知识图谱的视频打标签装置，在上述图4所示实施例的技术方案的基础上，进一步更加详细地介绍本发明的技术方案。

本实施例的基于知识图谱的视频打标签装置中，提取模块10用于执行如下至少一种操作：

利用知识图谱的实体链指技术，从视频标题、对台词语音识别后得到的文本以及视频中的文字中，提取目标视频的备选实体；

对目标视频进行人脸识别，并将能够链指到知识图谱中的实体上的识别结果，作为目标视频的备选实体；以及

利用预设的视频库识别目标视频所属的作品名称，并将能够链指到知识图谱中的实体上的识别结果作为目标视频的备选实体。

如图5所示，本实施例的基于知识图谱的视频打标签装置中，获取模块11，包括：

构建单元111用于基于视频结构化体系和提取模块10提取的多个备选实体，构建目标视频的候选主实体集合；

计算单元112用于计算构建单元111得到的候选主实体集合中每个候选主实体的置信度分数；

获取单元113用于根据计算单元112计算得到的候选主实体集合中各候选主实体的置信度分数，获取目标视频对应的目标主实体。

进一步可选地，获取单元113具体用于：

从候选主实体集合中选取置信度分数最高的候选主实体；

将候选主实体作为目标视频对应的目标主实体。

或者进一步可选地，获取单元113具体用于：

将候选主实体集合中的各候选主实体按照置信度分数由高到低排序，得到候选主实体序列；

从候选主实体序列的第2个开始，依次判断候选主实体序列中第N个候选主实体与第N+1个候选主实体的置信度分数的差值是否大于预设差值；

若是，取候选主实体集合中的前N个候选主实体；

判断N是否大于1；

若N大于1，将N个候选主实体进行聚类；

若聚类成功，将聚类后的主实体作为目标视频对应的目标主实体；

装置还包括：

确定模块，用于若聚类不成功，确定对于目标视频，暂时没有可信的目标主实体。

进一步可选地，构建单元111用于：

判断每个备选实体是否为视频结构化体系中限定的主实体；

若是，将对应的备选实体作为候选主实体，存入创建的候选主实体集合中。

进一步可选地，构建单元111还用于：：

判断每个备选实体是否为视频结构化体系中限定的相关子实体；

若是，利用知识图谱拉取与相关子实体有连接边的连接实体、且连接实体为视频结构化体系中限定的主实体，将连接实体作为候选主实体，存入候选主实体集合中。

进一步可选地，计算单元112用于：

获取候选主实体集合中每个候选主实体的特征信息；

根据预先训练的置信度打分模型和每个候选主实体的特征信息，预估每个候选主实体的置信度分数。

进一步可选地，计算单元112用于执行如下至少一种：

利用预先配置的每种实体获取方式的置信度，获取对应的候选主实体的获取方式的置信度；

获取对应的候选主实体在采用知识图谱的实体链指技术提取时的实体相似度分值；

根据对应的候选主实体为视频结构化体系中的主实体还是根据知识图谱拉取的主实体，获取对应的候选主实体的跳转特征；

获取对应的候选主实体被添加至候选主实体集合中的次数；

通过计算对应的候选主实体的词频-逆文档频率；以及

获取对应的候选主实体在知识图谱中的类别与对应的视频结构化体系的类别的相似度。

进一步可选地，如图5所示，本实施例的基于知识图谱的视频打标签装置中，获取模块11还包括：

判断单元114用于判断提取模块10提取的多个备选实体中每个备选实体是否为视频结构化体系中的相关子实体；

存储单元115用于若判断单元114判断并确定对应的备选实体是视频结构化体系中的相关子实体，将对应的备选实体作为候选相关子实体，存入候选相关子实体集合中；

拉取单元116用于利用知识图谱拉取与获取单元113获取的N个候选主实体中每个候选主实体有连接边的相关子实体，构成相应的置信度相关子实体集合；

相交单元117用于将拉取单元116取得到的N个置信度相关子实体集合的交集，作为高置信度相关子实体集合；将存储单元115存储的候选相关子实体集合与高置信度相关子实体集合相交得到的相关子实体，作为目标视频的目标子实体。

进一步可选地，如图5所示，本实施例的基于知识图谱的视频打标签装置中，还包括：

判断模块13用于根据知识图谱，判断相交单元117得到的每个目标子实体是否存在具有映射关系的相关子实体；

补充模块14用于若判断模块13确定每个目标子实体存在具有映射关系的相关子实体，将目标子实体的具有映射关系的相关子实体，补充为目标视频的目标子实体。

进一步可选地，判断模块13还用于若获取的目标视频的目标子实体的数量包括至少两个，利用知识图谱，判断目标视频的至少两个目标子实体之间是否存在映射关系；

打标签模块12用于根据判断模块13判断并确定存在的映射关系，为目标视频打标签。

图6为本发明的计算机设备实施例的结构图。如图6所示，本实施例的计算机设备，包括：一个或多个处理器30，以及存储器40，存储器40用于存储一个或多个程序，当存储器40中存储的一个或多个程序被一个或多个处理器30执行，使得一个或多个处理器30实现如上图1-图3所示实施例的基于知识图谱的视频打标签方法。图6所示实施例中以包括多个处理器30为例。

例如，图7为本发明提供的一种计算机设备的示例图。图7示出了适于用来实现本发明实施方式的示例性计算机设备12a的框图。图7显示的计算机设备12a仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算机设备12a以通用计算设备的形式表现。计算机设备12a的组件可以包括但不限于：一个或者多个处理器16a，系统存储器28a，连接不同系统组件(包括系统存储器28a和处理器16a)的总线18a。

总线18a表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12a典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12a访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28a可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30a和/或高速缓存存储器32a。计算机设备12a可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34a可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18a相连。系统存储器28a可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明上述图1-图5各实施例的功能。

具有一组(至少一个)程序模块42a的程序/实用工具40a，可以存储在例如系统存储器28a中，这样的程序模块42a包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42a通常执行本发明所描述的上述图1-图5各实施例中的功能和/或方法。

计算机设备12a也可以与一个或多个外部设备14a(例如键盘、指向设备、显示器24a等)通信，还可与一个或者多个使得用户能与该计算机设备12a交互的设备通信，和/或与使得该计算机设备12a能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22a进行。并且，计算机设备12a还可以通过网络适配器20a与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20a通过总线18a与计算机设备12a的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12a使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器16a通过运行存储在系统存储器28a中的程序，从而执行各种功能应用以及数据处理，例如实现上述实施例所示的基于知识图谱的视频打标签方法。

本发明还提供一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例所示的基于知识图谱的视频打标签方法。

本实施例的计算机可读介质可以包括上述图7所示实施例中的系统存储器28a中的RAM30a、和/或高速缓存存储器32a、和/或存储系统34a。

随着科技的发展，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载，或者采用其他方式获取。因此，本实施例中的计算机可读介质不仅可以包括有形的介质，还可以包括无形的介质。

本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于知识图谱的视频打标签方法，其特征在于，所述方法包括：

其中，基于所述视频结构化体系和所述多个备选实体构建所述目标视频的候选主实体集合，以根据所述候选主实体集合获取所述目标视频对应的目标主实体；

基于所述目标主实体和/或所述目标子实体，为所述目标视频打标签。

2.根据权利要求1所述的方法，其特征在于，基于知识图谱的实体链指技术，根据已知的知识图谱，从目标视频中提取多个备选实体，包括如下至少一种操作：

利用知识图谱的实体链指技术，从视频标题、对台词语音识别后得到的文本以及视频中的文字中，提取所述目标视频的备选实体；

对所述目标视频进行人脸识别，并将能够链指到知识图谱中的实体上的识别结果，作为所述目标视频的备选实体；以及

利用预设的视频库识别所述目标视频所属的作品名称，并将能够链指到知识图谱中的实体上的识别结果作为所述目标视频的备选实体。

3.根据权利要求1所述的方法，其特征在于，基于预建立的视频结构化体系、所述知识图谱以及所述多个备选实体，获取所述目标视频对应的目标主实体，包括：

基于所述视频结构化体系和所述多个备选实体，构建所述目标视频的候选主实体集合；

计算所述候选主实体集合中每个所述候选主实体的置信度分数；

根据所述候选主实体集合中各所述候选主实体的置信度分数，获取所述目标视频对应的目标主实体。

4.根据权利要求3所述的方法，其特征在于，根据所述候选主实体集合中各所述候选主实体的置信度分数，获取所述目标视频对应的目标主实体，包括：

从所述候选主实体集合中选取所述置信度分数最高的所述候选主实体；

将所述候选主实体作为所述目标视频对应的目标主实体。

5.根据权利要求3所述的方法，其特征在于，根据所述候选主实体集合中各所述候选主实体的置信度分数，获取所述目标视频对应的目标主实体，包括：

将所述候选主实体集合中的各所述候选主实体按照所述置信度分数由高到低排序，得到候选主实体序列；

从所述候选主实体序列的第2个开始，依次判断所述候选主实体序列中第N个候选主实体与第N+1个候选主实体的置信度分数的差值是否大于预设差值；

若是，取所述候选主实体集合中的前N个候选主实体；

判断N是否大于1；

若N大于1，将所述N个候选主实体进行聚类；

若聚类成功，将聚类后的所述主实体作为所述目标视频对应的目标主实体；

所述方法还包括：

若聚类不成功，确定对于所述目标视频，暂时没有可信的目标主实体。

6.根据权利要求3所述的方法，其特征在于，基于所述视频结构化体系和所述多个备选实体，构建所述目标视频的候选主实体集合，包括：

判断每个所述备选实体是否为所述视频结构化体系中限定的主实体；

若是，将对应的所述备选实体作为候选主实体，存入创建的候选主实体集合中。

7.根据权利要求6所述的方法，其特征在于，基于所述视频结构化体系和所述多个备选实体，构建所述目标视频的候选主实体集合，包括：

判断每个所述备选实体是否为所述视频结构化体系中限定的相关子实体；

若是，利用所述知识图谱拉取与所述相关子实体有连接边的连接实体、且所述连接实体为所述视频结构化体系中限定的主实体，将所述连接实体作为所述候选主实体，存入所述候选主实体集合中。

8.根据权利要求3所述的方法，其特征在于，计算所述候选主实体集合中每个所述候选主实体的置信度分数，包括：

获取所述候选主实体集合中每个所述候选主实体的特征信息；

根据预先训练的置信度打分模型和每个所述候选主实体的特征信息，预估每个所述候选主实体的置信度分数。

9.根据权利要求8所述的方法，其特征在于，获取所述候选主实体集合中每个所述候选主实体的特征信息，包括如下至少一种：

获取对应的所述候选主实体在采用知识图谱的实体链指技术提取时的实体相似度分值；

根据对应的所述候选主实体为所述视频结构化体系中的主实体还是根据所述知识图谱拉取的主实体，获取对应的所述候选主实体的跳转特征；

获取对应的所述候选主实体被添加至所述候选主实体集合中的次数；

通过计算对应的所述候选主实体的词频-逆文档频率；以及

获取对应的所述候选主实体在所述知识图谱中的类别与对应的所述视频结构化体系的类别的相似度。

10.根据权利要求4-9任一所述的方法，其特征在于，基于预建立的视频结构化体系、所述知识图谱和所述多个备选实体，获取所述目标视频对应的目标子实体，包括：

判断每个所述备选实体是否为所述视频结构化体系中的相关子实体；

若是，将对应的所述备选实体作为候选相关子实体，存入候选相关子实体集合中；

利用所述知识图谱拉取与N个所述候选主实体中每个所述候选主实体有连接边的相关子实体，构成相应的置信度相关子实体集合；

取得到的N个所述置信度相关子实体集合的交集，作为高置信度相关子实体集合；

将所述候选相关子实体集合与所述高置信度相关子实体集合相交得到的相关子实体，作为所述目标视频的目标子实体。

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

根据所述知识图谱，判断每个所述目标子实体是否存在具有映射关系的相关子实体；若存在，将所述目标子实体的具有映射关系的所述相关子实体，补充为所述目标视频的所述目标子实体。

12.根据权利要求11所述的方法，其特征在于，若获取的所述目标视频的目标子实体的数量包括至少两个，所述方法还包括：

利用所述知识图谱，判断所述目标视频的至少两个所述目标子实体之间是否存在映射关系；

根据存在的所述映射关系，为所述目标视频打标签。

13.一种基于知识图谱的视频打标签装置，其特征在于，所述装置包括：

其中，所述获取模块，还用于基于所述视频结构化体系和所述多个备选实体构建所述目标视频的候选主实体集合，以根据所述候选主实体集合获取所述目标视频对应的目标主实体；

打标签模块，用于基于所述目标主实体和/或所述目标子实体，为所述目标视频打标签。

14.根据权利要求13所述的装置，其特征在于，所述提取模块，用于执行如下至少一种操作：

15.根据权利要求13所述的装置，其特征在于，所述获取模块，包括：

构建单元，用于基于所述视频结构化体系和所述多个备选实体，构建所述目标视频的候选主实体集合；

计算单元，用于计算所述候选主实体集合中每个所述候选主实体的置信度分数；

获取单元，用于根据所述候选主实体集合中各所述候选主实体的置信度分数，获取所述目标视频对应的目标主实体。

16.根据权利要求15所述的装置，其特征在于，所述获取单元，用于：

将所述候选主实体作为所述目标视频对应的目标主实体。

17.根据权利要求15所述的装置，其特征在于，所述获取单元，用于：

若是，取所述候选主实体集合中的前N个候选主实体；

判断N是否大于1；

若N大于1，将所述N个候选主实体进行聚类；

所述装置还包括：

确定模块，用于若聚类不成功，确定对于所述目标视频，暂时没有可信的目标主实体。

18.根据权利要求15所述的装置，其特征在于，所述构建单元，用于：

19.根据权利要求18所述的装置，其特征在于，所述构建单元，还用于：

20.根据权利要求15所述的装置，其特征在于，所述计算单元，用于：

21.根据权利要求20所述的装置，其特征在于，所述计算单元，用于执行如下至少一种：

通过计算对应的所述候选主实体的词频-逆文档频率；以及

22.根据权利要求16-21任一所述的装置，其特征在于，所述获取模块，还包括：

判断单元，用于判断每个所述备选实体是否为所述视频结构化体系中的相关子实体；

存储单元，用于若对应的所述备选实体是所述视频结构化体系中的相关子实体，将对应的所述备选实体作为候选相关子实体，存入候选相关子实体集合中；

拉取单元，用于利用所述知识图谱拉取与N个所述候选主实体中每个所述候选主实体有连接边的相关子实体，构成相应的置信度相关子实体集合；

相交单元，用于取得到的N个所述置信度相关子实体集合的交集，作为高置信度相关子实体集合；将所述候选相关子实体集合与所述高置信度相关子实体集合相交得到的相关子实体，作为所述目标视频的目标子实体。

23.根据权利要求22所述的装置，其特征在于，所述装置还包括：

判断模块，用于根据所述知识图谱，判断每个所述目标子实体是否存在具有映射关系的相关子实体；

补充模块，用于若存在，将所述目标子实体的具有映射关系的所述相关子实体，补充为所述目标视频的所述目标子实体。

24.根据权利要求23所述的装置，其特征在于：

所述判断模块，还用于若获取的所述目标视频的目标子实体的数量包括至少两个，利用所述知识图谱，判断所述目标视频的至少两个所述目标子实体之间是否存在映射关系；

所述打标签模块，用于根据存在的所述映射关系，为所述目标视频打标签。

25.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-12中任一所述的方法。

26.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-12中任一所述的方法。