CN116521938A

CN116521938A - 视频数据检索方法、装置、计算机设备及计算机存储介质

Info

Publication number: CN116521938A
Application number: CN202310249103.0A
Authority: CN
Inventors: 郑喜民; 朱雪娟; 舒畅; 陈又新
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-03-08
Filing date: 2023-03-08
Publication date: 2023-08-01

Abstract

本发明涉及人工智能技术领域，提供了一种视频数据检索方法、装置、计算机设备及计算机存储介质，其中，方法包括：通过获取到目标人物的检索信息，并生成标签以获取视频数据库，并通过对视频数据库中的视频数据进行解析，来达到精准获取目标视频数据，应用于电子商务。本发明的有益效果：实现了无需技术人员为各个视频数据手动录入标签，节省了大量的人工成本，另外，自动从各个视频网站中获取视频数据，并基于获取的视频数据进行标签的赋予，从而使用户的检索时间大大减少，提高了视频的检索效率。

Description

视频数据检索方法、装置、计算机设备及计算机存储介质

技术领域

本发明涉及人工智能领域，特别涉及一种视频数据检索方法、装置、计算机设备及计算机存储介质。

背景技术

近几年，互联网和多媒体技术飞速发展，数码设备的应用也日渐普及，这使得互联网上充斥着海量的视频数据。用户在面对海量视频数据时，如何快速精准地检索出所需要的视频是一个很关键的问题。在很多应用场景中，如网络购物中，人们更加关注某些特定人物相关的视频，比如说明星、爱豆和卡通角色代言的产品等。在这种情况下，人物作为用户十分关注的一个重要点，所以基于人物的视频检索技术就显得尤为重要。目前，视频检索主要依赖相关的技术人员提前为各个视频数据设置好对应的标签，然而设定标签需要花费大量的人工成本，且效率较慢。

发明内容

本发明的主要目的为提供一种视频数据检索方法、装置、计算机设备及计算机存储介质，旨在解决因视频检索主要依赖相关的技术人员提前为各个视频数据设置好对应的标签，导致人工成本较大的问题。

本发明提供了一种视频数据检索方法，包括：

获取所述目标人物的检索信息；

根据所述检索信息生成对应的检索标签；

基于所述检索标签获取视频数据库；其中，所述视频数据库中包括多个视频数据；

通过预设的解析方法对所述视频数据库中的视频数据进行解析，得到各个视频数据的解析结果；

根据各个视频数据的解析结果对视频数据设置视频标签；

计算所述检索标签和所述视频数据的视频标签的相似度；

根据所述相似度反馈所述检索信息的目标视频数据，其中所述视频数据包括目标视频数据，所述目标视频数据包括一个或者多个。

进一步地，所述通过预设的解析方法对所述视频数据库中的视频数据进行解析，得到各个视频数据的解析结果的步骤之前，还包括：

获取目标人物的人脸信息特征；

从视频数据中按照预设的规则抽取多个视频帧，并保留各个视频帧在视频数据中的时间标签；

通过预设的人脸识别网络识别所述视频帧中是否具有人脸信息特征；

将具有人脸信息特征的视频帧记为目标视频帧，并根据各个目标视频帧的时间标签识别出视频数据中目标人物人脸出现的第一视频帧，以及目标人物人脸消失的第二视频帧；

保留视频数据中所述第一视频帧至第二视频帧中间的视频帧，以作为新的视频数据并替换所述视频数据库中原有的视频数据。

进一步地，所述通过预设的解析方法对所述视频数据库中的视频数据进行解析，得到各个视频数据的解析结果的步骤，包括：

提取所述视频数据中的音频信息；

通过自动声音识别技术将所述音频信息转化为文本信息；

将所述文本信息分解为层次语义图；其中所述层次语义图为一种解析结果，所述层次语义图用于计算与检索信息的相似度。

进一步地，所述通过自动声音识别技术将所述音频信息转化为文本信息的步骤之后，还包括：

获取视频数据的标题信息和描述性文字；

将所述标题信息和所述描述性文字加入所述文本信息构成新的文本信息；

将新的文本信息分解为层次语义图。

进一步地，所述计算所述检索标签和所述视频数据的视频标签的相似度的步骤，包括：

通过文本分类器对所述检索标签和视频标签进行分词；

将分词后的所述检索标签和所述视频标签进行向量化，得到检索向量的多维坐标X＝(x₁，x₂，x₃…x_n)，x₁，x₂，x₃…x_n分别为检索向量的多个坐标，以及视频向量的多维坐标Y＝(y₁，y₂，y₃…y_n)，y₁，y₂，y₃…y_n分别为视频向量的多个坐标，其中所述检索向量为所述检索标签对应的向量，所述视频向量为视频标签对应的向量；

根据公式：

计算检索向量与所述视频向量的相似度，其中，cosθ为所述相似度。

进一步地，所述基于所述检索标签获取视频数据库的步骤，包括：

通过Python的第三方request库向多个视频网站的网页获取视频获取权限；

基于所述获取权限以及所述检索标签设置对应的筛选方法；

基于所述筛选方法设置对应的网络爬虫；

基于所述网络爬虫获取各个视频网站中的多个视频数据以构成视频数据库。

本发明还提供了一种视频数据检索装置，包括：

第一获取模块，用于获取所述目标人物的检索信息；

生成模块，用于根据所述检索信息生成对应的检索标签；

第二获取模块，用于基于所述检索标签获取视频数据库；其中，所述视频数据库中包括多个视频数据；

解析模块，用于通过预设的解析方法对所述视频数据库中的视频数据进行解析，得到各个视频数据的解析结果；

设置模块，用于根据各个视频数据的解析结果对视频数据设置视频标签；

计算模块，用于计算所述检索标签和所述视频数据的视频标签的相似度；

反馈模块，用于根据所述相似度反馈所述检索信息的目标视频数据，其中所述视频数据包括目标视频数据，所述目标视频数据包括一个或者多个。

进一步地，所述视频检索装置，还包括：

特征获取模块，用于获取目标人物的人脸信息特征；

视频帧抽取模块，用于从视频数据中按照预设的规则抽取多个视频帧，并保留各个视频帧在视频数据中的时间标签；

判断模块，用于通过预设的人脸识别网络识别所述视频帧中是否具有人脸信息特征；

记为模块，用于将具有人脸信息特征的视频帧记为目标视频帧，并根据各个目标视频帧的时间标签识别出视频数据中目标人物人脸出现的第一视频帧，以及目标人物人脸消失的第二视频帧；

保留模块，用于保留视频数据中所述第一视频帧至第二视频帧中间的视频帧，以作为新的视频数据并替换所述视频数据库中原有的视频数据。

本发明的有益效果：通过获取到目标人物的检索信息，并生成标签以获取视频数据库，并通过对视频数据库中的视频数据进行解析，来达到精准获取目标视频数据，从而实现了无需技术人员为各个视频数据手动录入标签，节省了大量的人工成本，另外，自动从各个视频网站中获取视频数据，并基于获取的视频数据进行标签的赋予，从而使用户的检索时间大大减少，提高了视频的检索效率。

附图说明

图1是本发明一实施例的一种视频数据检索方法的流程示意图；

图2是本发明一实施例的一种视频数据检索装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变，所述的连接可以是直接连接，也可以是间接连接。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参照图1，本发明提出一种视频数据检索方法，包括：

S1：获取所述目标人物的检索信息；

S2：根据所述检索信息生成对应的检索标签；

S3：基于所述检索标签获取视频数据库；其中，所述视频数据库中包括多个视频数据；

S4：通过预设的解析方法对所述视频数据库中的视频数据进行解析，得到各个视频数据的解析结果；

S5：根据各个视频数据的解析结果对视频数据设置视频标签；

S6：计算所述检索标签和所述视频数据的视频标签的相似度；

S7：根据所述相似度反馈所述检索信息的目标视频数据，其中所述视频数据包括目标视频数据，所述目标视频数据包括一个或者多个。

如上述步骤S1所述，获取所述目标人物的检索信息，该检索信息为搜索人员输入的信息，其表现形式一般为文字，当然也可以是语音，然后将语音转换为文字，也可以是目标人物的画像，需要说明的是，该检索信息可以确定出目标人物的身份信息，可以是人物代言的产品信息。

如上述步骤S2所述，根据所述检索信息生成对应的检索标签，在搜索的过程中，用户可能还需要输入相关的描述，例如“演员A，电视剧V”，即需要获取的信息为演员A在电视剧V中的片段，那么对应的检索标签即为“演员A”和“电视剧V”，需要说明的是，该检索标签可以包括多个，也可以只有一个，根据用户输入的检索信息进行提取。

如上述步骤S3所述，此处根据检索标签可以获取到相关的视频数据，例如“演员A”和“电视剧V”，可以提取“演员A”中的视频数据以及“电视剧V”相关的视频数据，当然这个范围依然很大，此处仅仅是获取到相关的视频数据，以构建视频数据库，在获取了视频数据后，由于用户只关心“演员A”，因此可以通过对视频数据进行剪辑，一个完整的视频一般有十几分钟到几个小时不等的时间，这么长的视频不能够作为我们检索人脸的基本单元。首先需要利用镜头对视频进行切割，作为视频处理的一个基本单元。然后，对剪切过的视频单元进行关键帧抽取，抽取信息比较丰富的视频帧，因为有些视频帧没有“演员A”，所以可以将这部分视频帧删除。利用人脸检测网络对这些关键帧进行人脸检测和追踪。通过上一步操作，识别出原始长视频中人脸出现和消失的视频帧，并通过时间节点对视频进行切割，从而得到专注于人物的视频部分。

如上述步骤S4所述，通过预设的解析方法对所述视频数据库中的视频数据进行解析，得到各个视频数据的解析结果，其中，解析的方法可以通过语义分析，即提取其中的语音数据，然后将其转化为文本信息继续分析，另外，还可以基于视频的人脸识别，识别对应的视频数据中是否包含有目标人物，从而进行视频的图像分析，在一个优选的实施例中，采用语义分析和图像分析共同对视频进行分析，从而得到视频数据的分析结果。

如上述步骤S5所述，根据各个视频数据的解析结果对视频数据设置视频标签，在获取到了解析结果后，可以基于解析结果打上视频标签，例如“演员A”在“电视剧V”中保护“演员B”的视频，从而赋予该视频数据“保护演员B”、“演员A”、“电视剧V”等三个标签，然后根据用户的检索信息来进行匹配。

如上述步骤S6所述，计算所述检索标签和所述视频数据的视频标签的相似度，相似度的计算方式不作限定，例如可以是余弦相似度的计算方式，也可以是其他的相似度计算方式，本申请对此不作限定。

如上述步骤S7所述，根据所述相似度反馈所述检索信息的目标视频数据，其中所述视频数据包括目标视频数据，所述目标视频数据包括一个或者多个。根据相似度的大小，以及匹配程度来反馈检索信息的目标视频数据，其中，相似度越高，那么反馈的优先级越高。从而实现了无需技术人员为各个视频数据手动录入标签，节省了大量的人工成本，另外，自动从各个视频网站中获取视频数据，并基于获取的视频数据进行标签的赋予，从而使用户的检索时间大大减少，提高了视频的检索效率。

在一个实施例中，所述通过预设的解析方法对所述视频数据库中的视频数据进行解析，得到各个视频数据的解析结果的步骤S4之前，还包括：

S301：获取目标人物的人脸信息特征；

S302：从视频数据中按照预设的规则抽取多个视频帧，并保留各个视频帧在视频数据中的时间标签；

S303：通过预设的人脸识别网络识别所述视频帧中是否具有人脸信息特征；

S304：将具有人脸信息特征的视频帧记为目标视频帧，并根据各个目标视频帧的时间标签识别出视频数据中目标人物人脸出现的第一视频帧，以及目标人物人脸消失的第二视频帧；

S305：保留视频数据中所述第一视频帧至第二视频帧中间的视频帧，以作为新的视频数据并替换所述视频数据库中原有的视频数据。

如上述步骤S301所述，获取目标人物的人脸信息特征，其中，人脸信息特征可以从现有的数据库中进行获取，因为检索的目标人物一般是公知人物，在数据库中存在有这个人物的人脸信息特征，若没有，则可以预先建立一个公知人物的人脸信息特征数据库，在获取到目标人物的身份信息后，可以从该数据库中进行提取。

如上述步骤S302所述，从视频数据中按照预设的规则抽取多个视频帧，并保留各个视频帧在视频数据中的时间标签。其中，预设的规则可以是设定每5帧视频帧抽取一帧，也可以是其他的抽取方式，本申请对此不作限定，需要说明的是，若抽取的帧数过少，则可能会无法准确识别到目标人物在视频数据中消失和出现的视频帧，若抽取的帧数过多，则会造成不必要的计算力。

如上述步骤S303所述，通过预设的人脸识别网络识别所述视频帧中是否具有人脸信息特征，其中人脸识别网络可以是深度学习之人脸检测网络MTCNN，也可以是其他的人脸识别网络，本申请对此不作限定，可以识别处人脸信息特征即可，需要说明的是，该人脸信息特征可以只包括局部的特征，例如演员A的侧脸，也可以认为是具有该人脸信息特征。

如上述步骤S304所述，将具有人脸信息特征的视频帧记为目标视频帧，并根据各个目标视频帧的时间标签识别出视频数据中目标人物人脸出现的第一视频帧，以及目标人物人脸消失的第二视频帧。即为了将视频数据进行压缩，将没有目标人物的视频帧进行剔除，从而使用户可以只观看其喜欢的目标人物的画面，从而得到专注于人物的视频部分，如是产品，则还可以融入对应的产品特征，作为目标视频帧。

如上述步骤S305所述，保留视频数据中所述第一视频帧至第二视频帧中间的视频帧，以作为新的视频数据并替换所述视频数据库中原有的视频数据，即将新的视频数据替换原有的视频数据，使视频数据更加精准于人物的视频部分。

在一个实施例中，所述通过预设的解析方法对所述视频数据库中的视频数据进行解析，得到各个视频数据的解析结果的步骤S4，包括：

S401：提取所述视频数据中的音频信息；

S402：通过自动声音识别技术将所述音频信息转化为文本信息；

S403：将所述文本信息分解为层次语义图；其中所述层次语义图为一种解析结果，所述层次语义图用于计算与检索信息的相似度。

如上述步骤S401-S403所述，实现了语义分析，即将视频数据中的音频数据进行提取，其中会有目标人物的相关信息，然后通过自动声音识别技术(ASR)将视频的音频信息转化为文本信息，然后利用一种层次图推理(HGR)模型，将视频的文本信息分解为层次语义图，包括事件、动作和人物，从语义程度与检索信息进行匹配，在网络购物中，音频信息中也可以含有产品的数据特征。

在一个实施例中，所述通过自动声音识别技术将所述音频信息转化为文本信息的步骤S402之后，还包括：

S4031：获取视频数据的标题信息和描述性文字；

S4032：将所述标题信息和所述描述性文字加入所述文本信息构成新的文本信息；

S4033：将新的文本信息分解为层次语义图。

如上述步骤S4031-S4033所述，由于视频标题和描述性文字中也会有相关的语义信息，因此可以将这部分数据一起与文本信息构建视频的语义信息，即新的文本信息，然后利用一种层次图推理(HGR)模型，将视频的文本信息分解为层次语义图，包括事件、动作和人物，从语义程度与检索信息进行匹配，从而达到了从语义解析的程度进行精准的匹配，提高了匹配度，在网络购物的过程中，还可以加入对网络购物视频中对应的卖的产品信息。

在一个实施例中，所述计算所述检索标签和所述视频数据的视频标签的相似度的步骤S6，包括：

S601：通过文本分类器对所述检索标签和视频标签进行分词；

S602：将分词后的所述检索标签和所述视频标签进行向量化，得到检索向量的多维坐标X＝(x₁，x₂，x₃…x_n)，x₁，x₂，x₃…x_n分别为检索向量的多个坐标，以及视频向量的多维坐标Y＝(y₁，y₂，y₃…y_n)，y₁，y₂，y₃…y_n分别为视频向量的多个坐标，其中所述检索向量为所述检索标签对应的向量，所述视频向量为视频标签对应的向量；

S603：根据公式：

如上述步骤S601所述，通过文本分类器对所述检索标签和视频标签进行分词，文本分类器具体可以是开源免费的Python LibShortText文本分类器，并自定义替换为中文分词器，对检索标签和视频标签中的文字进行分词，分词可以通过决策树、多层感知器、朴素贝叶斯(包括伯努利贝叶斯、高斯贝叶斯和多项式贝叶斯)、随机森林、AdaBoost、前馈神经网络和LSTM等任一种算法计算得到。

如上述步骤S402所述，将分词后的所述检索标签和视频标签向量化，得到检索向量与所述视频向量的多维坐标以便于后续进行计算。将检索标签和视频标签向量化的方式可以是通过Google word2vec工具将分词后的检索标签和视频标签向量化。

如上述步骤S403所述，根据公式：

计算检索向量与视频向量之间的余弦值，其中余弦值cosθ值越大，相似度越高，可以设置一个相似度阈值，当大于相似度阈值时，可以认为视频数据中的视频标签与检索标签类似；当小于或等于第一相似度阈值时，可以认为视频数据中的视频标签与检索标签不相似，最终根据各个视频数据的视频向量与检索向量之间的相似度为用户提供相关的视频数据，从而提高了检索网络购物中特定人物代言的产品。

在一个实施例中，所述基于所述检索标签获取视频数据库的步骤S3，包括：

S301：通过Python的第三方request库向多个视频网站的网页获取视频获取权限；

S302：基于所述获取权限以及所述检索标签设置对应的筛选方法；

S303：基于所述筛选方法设置对应的网络爬虫；

S304：基于所述网络爬虫获取各个视频网站中的多个视频数据以构成视频数据库。

如上述步骤S301-S304所述，于Python的网络爬虫提取数据是目前常用到的提取网络数据的技术方法，本方案也是采用这一方法来获取海量的视频资源。利用Python的第三方request库对各大视频网站的网页进行获取视频获取权限的操作，然后通过正则、XPath和Beautiful Soup这三种筛选技术来设置爬虫以提取网页中的视频。这个技术不仅可以很精准地找到网页中所需的视频数据，而且可以很快速的将这些视频数据自动保存下来，从而得到一个包含海量视频的视频数据库，可以从大量的网络购物视频中获取到对于的视频数据以构成数据库。

参照图2，本发明还提供了本发明还提供了一种视频数据检索装置，包括：

第一获取模块10，用于获取所述目标人物的检索信息；

生成模块20，用于根据所述检索信息生成对应的检索标签；

第二获取模块30，用于基于所述检索标签获取视频数据库；其中，所述视频数据库中包括多个视频数据；

解析模块40，用于通过预设的解析方法对所述视频数据库中的视频数据进行解析，得到各个视频数据的解析结果；

设置模块50，用于根据各个视频数据的解析结果对视频数据设置视频标签；

计算模块60，用于计算所述检索标签和所述视频数据的视频标签的相似度；

反馈模块70，用于根据所述相似度反馈所述检索信息的目标视频数据，其中所述视频数据包括目标视频数据，所述目标视频数据包括一个或者多个。

在一个实施例中，所述视频检索装置，还包括：

特征获取模块，用于获取目标人物的人脸信息特征；

所述通过预设的解析方法对所述视频数据库中的视频数据进行解析，得到各个视频数据的解析结果的步骤，包括：

提取所述视频数据中的音频信息；

通过自动声音识别技术将所述音频信息转化为文本信息；

在一个实施例中，所述视频检索装置，还包括：

文字获取模块，用于获取视频数据的标题信息和描述性文字；

加入模块，用于将所述标题信息和所述描述性文字加入所述文本信息构成新的文本信息；

分解模块，用于将新的文本信息分解为层次语义图。

在一个实施例中，计算模块60，包括：

分词子模块，用于通过文本分类器对所述检索标签和视频标签进行分词；

向量化子模块，用于将分词后的所述检索标签和所述视频标签进行向量化，得到检索向量的多维坐标X＝(x₁，x₂，x₃…x_n)x₁，x₂，x₃…x_n分别为检索向量的多个坐标，以及视频向量的多维坐标Y＝(y₁，y₂，y₃…y_n)，y₁，y₂，y₃…y_n分别为视频向量的多个坐标，其中所述检索向量为所述检索标签对应的向量，所述视频向量为视频标签对应的向量；

计算子模块，用于根据公式：

在一个实施例中，所述第二获取模块30，包括：

权限获取子模块，用于通过Python的第三方request库向多个视频网站的网页获取视频获取权限；

筛选方法设置子模块，用于基于所述获取权限以及所述检索标签设置对应的筛选方法；

网络爬虫设置子模块，用于基于所述筛选方法设置对应的网络爬虫；

视频数据库构成子模块，用于基于所述网络爬虫获取各个视频网站中的多个视频数据以构成视频数据库。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种视频数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时可以实现上述任一实施例所述的视频数据检索方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时可以实现上述任一实施例所述的视频数据检索方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM一多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种视频数据检索方法，其特征在于，包括：

获取所述目标人物的检索信息；

根据所述检索信息生成对应的检索标签；

根据各个视频数据的解析结果对视频数据设置视频标签；

计算所述检索标签和所述视频数据的视频标签的相似度；

2.如权利要求1所述的视频数据检索方法，其特征在于，所述通过预设的解析方法对所述视频数据库中的视频数据进行解析，得到各个视频数据的解析结果的步骤之前，还包括：

获取目标人物的人脸信息特征；

3.如权利要求2所述的视频数据检索方法，其特征在于，所述通过预设的解析方法对所述视频数据库中的视频数据进行解析，得到各个视频数据的解析结果的步骤，包括：

提取所述视频数据中的音频信息；

通过自动声音识别技术将所述音频信息转化为文本信息；

4.如权利要求3所述的视频数据检索方法，其特征在于，所述通过自动声音识别技术将所述音频信息转化为文本信息的步骤之后，还包括：

获取视频数据的标题信息和描述性文字；

将新的文本信息分解为层次语义图。

5.如权利要求1所述的视频数据检索方法，其特征在于，所述计算所述检索标签和所述视频数据的视频标签的相似度的步骤，包括：

通过文本分类器对所述检索标签和视频标签进行分词；

根据公式：

6.如权利要求1所述的视频数据检索方法，其特征在于，所述基于所述检索标签获取视频数据库的步骤，包括：

基于所述获取权限以及所述检索标签设置对应的筛选方法；

基于所述筛选方法设置对应的网络爬虫；

7.一种视频数据检索装置，其特征在于，包括：

第一获取模块，用于获取所述目标人物的检索信息；

生成模块，用于根据所述检索信息生成对应的检索标签；

8.如权利要求7所述的视频数据检索装置，其特征在于，所述视频检索装置，还包括：

特征获取模块，用于获取目标人物的人脸信息特征；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。