CN110795597A

CN110795597A - 视频关键字确定、视频检索方法及装置、存储介质、终端

Info

Publication number: CN110795597A
Application number: CN201810783382.8A
Authority: CN
Inventors: 占钊; 钱凌; 杨舜; 张胜宏; 张泓卿; 杜玉清
Original assignee: Guizhou Little Love Robot Technology Co Ltd; Shanghai Xiaoi Robot Technology Co Ltd
Current assignee: Guizhou Little Love Robot Technology Co Ltd; Shanghai Xiaoi Robot Technology Co Ltd
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2020-02-14

Abstract

一种视频关键字确定、视频检索方法及装置、存储介质、终端，视频关键字确定方法包括：获取待处理的视频文件；对所述视频文件进行图像识别，以得到视频文件包含的目标物的目标物信息，并将所述目标物信息加入所述视频文件的关键字，所述关键字至少用于对所述视频文件的搜索。本发明技术方案可以保证视频关键字选取的全面性和便捷性，并提高视频搜索的准确性。

Description

视频关键字确定、视频检索方法及装置、存储介质、终端

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种视频关键字确定、视频检索方法及装置、存储介质、终端。

背景技术

不同于普通的信息检索，视频搜索通常较为复杂。传统的视频检索需要过人工注释得到视频的有关信息，例如视频的摘要等，并将这些信息存放在数据库中供此后的查询之用。也就是说，视频的检索需要通过用户预先对视频内容进行分析。

但是，人工注释不但耗费大量的人力和时间，而且往往带有很大的主观性，不能对视频内容进行准确、公正的刻画。此外，现有技术仅能对视频标题进行搜索，视频检索形成的搜索结果的准确性较低。

发明内容

本发明解决的技术问题是如何保证视频关键字选取的全面性和便捷性，以及提高视频搜索的准确性。

为解决上述技术问题，本发明实施例提供一种视频关键字确定方法，视频关键字确定方法包括：获取待处理的视频文件；对所述视频文件进行图像识别，以得到视频文件包含的目标物的目标物信息，并将所述目标物信息加入所述视频文件的关键字，所述关键字至少用于对所述视频文件的搜索。

可选的，所述对所述视频文件进行图像识别，以得到视频文件包含的目标物的目标物信息包括：按照预设时间间隔对所述视频文件进行帧图像抽取，以得到多个视频帧图像；对每一视频帧图像包含的目标物进行图像识别，以得到每一视频帧对应的目标物信息。

可选的，所述视频关键字确定方法还包括：抽取所述视频文件中的字幕文本，并加入所述关键字。

可选的，所述视频关键字确定方法还包括：对所述视频文件中的音轨进行语音识别，以得到音轨识别文本，并将所述音轨识别文本加入所述关键字。

可选的，所述视频关键字确定方法还包括：提取所述视频文件的属性信息，并加入所述关键字。

可选的，所述视频关键字确定方法还包括：对所述关键字进行去重整理。

可选的，所述目标物信息包括在所述视频文件中识别到的物体的特征信息和/或人脸信息。

为解决上述技术问题，本发明实施例还公开了一种视频检索方法，视频检索方法包括：获取搜索用户输入的搜索关键字；将所述搜索关键字与视频文件的关键字进行匹配，以得到匹配结果；如果所述匹配结果中存在与所述搜索关键字相匹配的关键字，则将匹配的关键字对应的全部或部分视频文件推送给所述搜索用户；其中，所述视频文件的关键字是通过所述的视频关键字确定方法确定的。

可选的，所述关键字与其在所述视频文件中的时间具备对应关系，所述将匹配的关键字对应的视频文件推送给所述搜索用户包括：将匹配的关键字对应的视频文件推送给所述搜索用户，并从与所述相匹配的关键字所处的时间开始对所述视频文件进行播放。

可选的，所述关键字中还包括抽取自所述视频文件中的字幕文本或音轨识别文本，以及所述字幕文本或音轨识别文本与其在所述视频文件中的时间的对应关系，所述将匹配的关键字对应的视频文件推送给所述搜索用户包括：将所述关键字中的字幕文本或音轨识别文本与所述搜索关键字匹配的视频文件推送给所述搜索用户，并从所述字幕文本或音轨识别文本的匹配位置所处的时间开始对所述视频文件进行播放。

为解决上述技术问题，本发明实施例还公开了一种视频关键字确定装置，视频关键字确定装置包括：视频文件获取模块，用以获取待处理的视频文件；关键字确定模块，用以对所述视频文件进行图像识别，以得到视频文件包含的目标物的目标物信息，并将所述目标物信息加入所述视频文件的关键字，所述关键字至少用于对所述视频文件的搜索。

为解决上述技术问题，本发明实施例还公开了一种视频检索装置，视频检索装置包括：搜索关键字获取模块，用以获取搜索用户输入的搜索关键字；匹配模块，用以将所述搜索关键字与视频文件的关键字进行匹配，以得到匹配结果；推送模块，用以在所述匹配结果中存在与所述搜索关键字相匹配的关键字时，将匹配的关键字对应的全部或部分视频文件推送给所述搜索用户；其中，所述视频文件的关键字是通过所述的视频关键字确定方法确定的。

本发明实施例还公开了一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述视频关键字确定方法的步骤，或者执行所述视频检索方法的步骤。

本发明实施例还公开了一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行所述视频关键字确定方法的步骤，或者执行所述视频检索方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明技术方案获取待处理的视频文件；对所述视频文件进行图像识别，以得到视频文件包含的目标物的目标物信息，并将所述目标物信息加入所述视频文件的关键字，所述关键字至少用于对所述视频文件的搜索。本发明技术方案通过对视频文件进行图像识别，并将视频文件所包含的目标物信息作为视频文件的关键字，至少可以在对视频文件进行搜索时，能够搜索到包含指定目标物的视频文件，避免了现有技术中需要人工对视频进行注释，并且只能对视频标题进行搜索的问题，保证了视频关键字选取的全面性和便捷性，进而实现对视频文件搜索的全面性。

进一步地，按照预设时间间隔对所述视频文件进行帧图像抽取，以得到多个视频帧图像；对每一视频帧图像包含的目标物进行图像识别，以得到每一视频帧对应的目标物信息。由于视频文件中相邻视频帧图像中所包含的目标物是一致的，因此本发明技术方案按照预设时间间隔对视频文件进行帧图像抽取，仅需对抽取后的视频帧图像进行图像识别操作，可以在保证关键字选取的准确性的基础上，减小计算量，提高效率。

进一步地，抽取所述视频文件中的字幕文本，并加入所述关键字；对所述视频文件中的音轨进行语音识别，以得到音轨识别文本，并将所述音轨识别文本加入所述关键字；提取所述视频文件的属性信息，并加入所述关键字。本发明技术方案还可以抽取字幕文本、音轨识别文本和/或属性信息，并加入用于视频文件搜索的关键字，进一步保证了关键字的全面性，进而保证了视频文件搜索的准确性。

附图说明

图1是本发明实施例一种视频关键字确定方法的流程图；

图2是本发明实施例另一种视频关键字确定方法的流程图；

图3是本发明实施例一种视频检索方法的流程图；

图4是本发明实施例一种具体应用场景的示意图；

图5是本发明实施例一种视频关键字确定装置的结构示意图；

图6是本发明实施例一种视频检索装置的结构示意图。

图7是本发明实施例一种视频检索装置的结构示意图。

具体实施方式

如背景技术中所述，人工注释不但耗费大量的人力和时间，而且往往带有很大的主观性，不能对视频内容进行准确、公正的刻画。此外，现有技术仅能对视频标题进行搜索，视频检索形成的搜索结果的准确性较低。

本发明技术方案通过对视频文件进行图像识别，并将视频文件所包含的目标物信息作为视频文件的关键字，至少可以在对视频文件进行搜索时，能够搜索到包含指定目标物的视频文件，避免了现有技术中需要人工对视频进行注释，并且只能对视频标题进行搜索，保证了视频关键字选取的全面性，进而实现对视频文件搜索的全面性。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例一种视频关键字确定方法的流程图。

本发明实施例的视频关键字确定方法可以确定视频文件的关键字，以用于对视频文件进行搜索。关键字的准确性和全面性将影响对视频文件的搜索准确性。

图1所示视频关键字确定方法可以包括以下步骤：

步骤S101：获取待处理的视频文件；

步骤S102：对所述视频文件进行图像识别，以得到视频文件包含的目标物的目标物信息，并将所述目标物信息加入所述视频文件的关键字，所述关键字至少用于对所述视频文件的搜索。

在步骤S101的具体实施中，可以从数据库或文件服务器中获取待处理的视频文件，数据库或文件服务器中存储有多个视频文件；待处理视频文件也可以是用户上传的视频。

视频文件的每帧图像可以包括至少一个目标物，所述目标物可以是任意的物理实体，例如可以是汽车、人、动物等。目标物信息是指可以用于描述目标物的信息，目标物信息可以是目标物的属性信息。

具体而言，由于视频文件可以包括多个视频帧，因此所述目标物信息可以是视频文件的所有视频帧所包含的目标物的信息。

更具体地，对所述视频文件进行图像识别还可以包括对视频文件中所包含的目标物进行解析，以获取该目标物的特征信息，以作为所述目标物信息。例如，目标物为汽车时，可以解析出汽车的车牌标识、车型等。

需要说明的是。对视频文件进行图像识别可以采用任意可实施的现有技术，例如人脸识别技术、目标识别技术等，本发明实施例对此不做限制。

目标物信息可以加入所述视频文件的关键字，从而在利用目标物信息对视频文件进行搜索时可以搜索到包括该目标物信息指向的目标物的视频文件。例如，视频文件1的关键字包括轿车，视频文件2的关键字包括卡车，则利用“轿车”对视频文件进行搜索时，可以搜索到视频文件1。

视频文件与其关键字相对应，视频文件可以对应至少一个关键字。当用户利用视频文件对应的关键字进行搜索时可以搜索到该视频文件。

进一步地，关键字还可以与视频文件的视频帧图像相对应。例如，视频帧图1对应关键字1，视频帧图像对应关键字2等。

视频文件的关键字可以对视频文件进行标识。由此，关键字除了可以用于对所述视频文件的搜索之外，还可以利用关键字建立该视频文件的索引等。

本发明技术方案实施例通过对视频文件进行图像识别，并将视频文件所包含的目标物信息作为视频文件的关键字，至少可以在对视频文件进行搜索时，能够搜索到包含指定目标物的视频文件，避免了现有技术中需要人工对视频进行注释，并且只能对视频标题进行搜索，保证了视频关键字选取的全面性，进而实现对视频文件搜索的全面性。

本发明一个具体实施例中，图1所示步骤S102可以包括以下步骤：按照预设时间间隔对所述视频文件进行帧图像抽取，以得到多个视频帧图像；对每一视频帧图像包含的目标物进行图像识别，以得到每一视频帧对应的目标物信息。

具体实施中，视频文件中连续的视频帧可以记录目标物的连续动作，在相邻的视频帧中可以包括相同的目标物。为了避免在相邻视频帧图像中识别出重复的目标物，可以减少需要进行图像识别的视频帧图像的数量。

例如，时间长度为10秒的视频文件可以包括10×24＝240帧图像，如果全部进行图像识别，将会导致巨大的计算量。按照预设时间间隔对视频文件进行帧图像抽取的话，如果预设时间间隔为1秒，则将会生成10张视频帧图像；如果预设时间间隔为2秒，将会生成5张视频帧图像；需要进行图像识别的图像数量为10或5，计算量大大减小。

本实施例中，由于视频文件中相邻视频帧图像中所包含的目标物是一致的，因此本发明实施例按照预设时间间隔对视频文件进行帧图像抽取，仅需对抽取后的视频帧图像进行图像识别操作，可以在保证关键字选取的准确性的基础上，减小计算量，提高效率。

本发明一个具体实施例中，请参照图2，视频关键字确定方法还可以包括步骤S201：抽取所述视频文件中的字幕文本，并加入所述关键字。

具体实施中，视频文件中的字幕文本也可以作为视频文件的关键字。可以抽取视频文件中全部视频帧图像的字幕文本。

也可以是，按照预设时间间隔对所述视频文件进行帧图像抽取，以得到多个视频帧图像，抽取多个视频帧图像中的字幕文本。如前所述，视频文件每秒可以包括24、25或48帧图像，在时间长度为一秒的视频文件中，字幕文本可能是重复的。为了避免抽取到重复的字幕文本，同时为了减小计算量，可以对抽取后的多个视频帧图像进行字幕文本的抽取操作。

具体地，视频文件的字幕可以是外挂字幕或内嵌字幕。对于外挂字幕，视频文件具备对应的字幕文件，可以在字幕文件中提取得到字幕文本。对于内嵌字幕，可以对视频文件的每个视频帧图像进行图像识别，以得到所述字幕文本。

在具体的应用中，可以使用应用程序快进MPEG(Fast Forward Mpeg, FFMPEG)来实现字幕文本的抽取操作。

视频关键字确定方法还可以包括步骤S202：对所述视频文件中的音轨进行语音识别，以得到音轨识别文本，并将所述音轨识别文本加入所述关键字。

具体实施中，视频文件中可能不存在字幕文本。在这种情况下，可以对视频文件中的音轨进行语音识别，并得到音轨识别文本。音轨识别文本可以作为视频文件的关键字。

在具体的应用中，可以使用应用程序快进MPEG(Fast Forward Mpeg, FFMPEG)来实现对视频文件的音轨的抽取操作，并使用自动语音识别技术 (Automatic SpeechRecognition,ASR)技术得到音轨识别文本。

视频关键字确定方法还可以包括步骤S203：提取所述视频文件的属性信息，并加入所述关键字。

具体实施中，视频文件的属性信息可以是描述视频文件的相关信息，具体可以是视频文件的标题、副标题、备注、媒体来源、视频格式、内容摘要等信息。

本领域技术人员可以理解的是，可以选择执行步骤S201至步骤S203的一种或多种，并加入图1所示方法得到的关键字，以用于对视频文件进行搜索。

本发明一个优选实施例中，图1所示方法还可以包括以下步骤：对所述关键字进行去重整理。

具体实施中，视频文件的关键字会发生重复，例如相邻帧图像包含相同的目标物。为了提升利用关键字搜索的计算效率，可以对视频文件的关键字进行去重。

具体地，利用多种方式获取视频文件的关键字时，例如利用图1所示步骤S101、图2所示步骤S201至步骤S203获取到视频文件的关键字时，多种方式所获取的关键字之间出现重合，因此可以对关键字进行去重。

本发明一种具体应用中，所述目标物信息包括在所述视频文件中识别到的物体的特征信息和/或人脸信息。

本实施例中，可以对视频文件进行人脸识别，已获得视频文件中所包含的人脸。还可以对视频文件进行目标物的特征提取操作，以得到视频文件的特征信息。

本领域技术人员应当理解的是，人脸识别和特征提取可以采用现有技术中任意可实施的方式，本发明实施例对此不做限制。

请参照图3，视频检索方法可以包括以下步骤：

步骤S301：获取搜索用户输入的搜索关键字；

步骤S302：将所述搜索关键字与视频文件的关键字进行匹配，以得到匹配结果；

步骤S303：如果所述匹配结果中存在与所述搜索关键字相匹配的关键字，则将匹配的关键字对应的全部或部分视频文件推送给所述搜索用户；

其中，所述视频文件的关键字是通过图1或图2所示的视频关键字确定方法确定的。

本实施例中，视频文件具有关键字，搜索用户在搜索视频文件时会输入搜索关键字。因而可以通过对搜索关键字与视频文件的关键字进行匹配，确定匹配结果。如果存在与所述搜索关键字相匹配的关键字，则表示存在与搜索关键字相对应的视频文件，则将匹配的关键字对应的视频文件推送给所述搜索用户。

在具体实现中，可以采用搜索引擎技术来实现对视频文件的搜索。例如可以使用搜索引擎Lucene/solr/elasticsearch/nutch等。

具体而言，可以将匹配的关键字对应的全部视频文件推送给所述搜索用户。也可以将匹配的关键字对应的部分视频文件推送给所述搜索用户；在这种情况下，可以按照预设条件将部分文件推送给搜索用户。例如，可以将视频文件的更新时间靠前的十个视频文件推送给搜索用户；可以将文件从大到小的十个视频文件推送给用户等等。

可以理解的是，搜索用户可以预先设置需要推送的部分视频文件的筛选条件，本发明实施例对此不做限制。

本发明一个优选实施例中，所述关键字与其在所述视频文件中的时间具备对应关系，图3所示步骤S303可以包括以下步骤：将匹配的关键字对应的视频文件推送给所述搜索用户，并从与所述相匹配的关键字所处的时间开始对所述视频文件进行播放。

本实施例中，关键字与其在所述视频文件中的时间相对应，例如，关键字1在视频文件中的时间为第10秒，关键字2在视频文件中的时间为第40 秒等。进而在将视频文件推送给搜索用户时，还可以从与所述相匹配的关键字所处的时间开始对所述视频文件进行播放。

也就是说，本发明实施例可以确定搜索关键字在视频文件中的时间位置；通过从所述时间位置播放视频文件的方式，可以快速方便的呈现用户所需要的信息，避免用户在收到推送视频文件后手动查询搜索关键字所在的时间位置，提升用户体验。

在本发明一个具体实施例中，所述关键字中还包括抽取自所述视频文件中的字幕文本或音轨识别文本，以及所述字幕文本或音轨识别文本与其在所述视频文件中的时间的对应关系。

图3所示步骤S303可以包括以下步骤：将所述关键字中的字幕文本或音轨识别文本与所述搜索关键字匹配的视频文件推送给所述搜索用户，并从所述字幕文本或音轨识别文本的匹配位置所处的时间开始对所述视频文件进行播放。

本实施例中，音轨识别文本和字幕文本与其在视频文件中的时间具备对应关系，在用户的搜索关键字与音轨识别文本或字幕文本相匹配时，可以将字幕文本或音轨识别文本在视频文件中所处的时间作为起始播放时间，对所述视频文件进行播放。

在本发明一个具体应用场景中，请参照图4，服务器2可以执行所述视频关键字确定方法以及所述视频检索方法；服务器2可以将确定的视频文件的关键字存储至数据库3；内容用户终端1可以上传待处理的视频文件至服务器 2；搜索用户终端4可以利用搜索关键字搜索视频文件。所述数据库3可以是搜索引擎数据库。

具体地，在步骤S11中，内容用户终端1上传视频文件至服务器2。服务器2执行步骤S12，对所述视频文件进行图像识别，以得到视频文件包含的目标物的目标物信息，并将所述目标物信息加入所述视频文件的关键字。

此外，服务器2还可以选择性地执行步骤S13、步骤S14和/或步骤S15，以确定视频文件的关键字。也就是说，服务器可以提取所述视频文件的属性信息，加入视频文件的关键字；也可以抽取所述视频文件中的字幕文本，并加入所述关键字；还可以对所述视频文件中的音轨进行语音识别，以得到音轨识别文本，并将所述音轨识别文本加入所述关键字。

数据库3中存储有多个视频文件及其关键字。

在步骤S16中，搜索用户终端4输入搜索关键字至服务器2。服务器2 执行步骤S17，将搜索关键字与数据库3中的视频文件的关键字进行匹配。并在步骤S18中，服务器2将将匹配的关键字对应的全部或部分视频文件推送给所述搜索用户。

可以理解的是，在服务器2未找到与搜索关键字相匹配的视频文件的关键字时，可以向搜索用户终端4提示相关信息，例如，向搜索用户终端4提示“未找到视频文件”。

请参照图5，视频关键字确定装置50可以包括视频文件获取模块501和关键字确定模块502。

其中，视频文件获取模块501用以获取待处理的视频文件。关键字确定模块502用以对所述视频文件进行图像识别，以得到视频文件包含的目标物的目标物信息，并将所述目标物信息加入所述视频文件的关键字，所述关键字至少用于对所述视频文件的搜索。

本发明实施例通过对视频文件进行图像识别，并将视频文件所包含的目标物信息作为视频文件的关键字，至少可以在对视频文件进行搜索时，能够搜索到包含指定目标物的视频文件，避免了现有技术中需要人工对视频进行注释，并且只能对视频标题进行搜索，保证了视频关键字选取的全面性，进而实现对视频文件搜索的全面性。

本发明一个具体实施例中，关键字确定模块502可以包括视频帧抽取单元(图未示)，用以按照预设时间间隔对所述视频文件进行帧图像抽取，以得到多个视频帧图像；图像识别单元(图未示)，用以对每一视频帧图像包含的目标物进行图像识别，以得到每一视频帧对应的目标物信息。

进一步地，请参照图6，图5所示视频关键字确定装置50还可以包括字幕文本抽取模块503，用以抽取所述视频文件中的字幕文本，并加入所述关键字。

图5所示视频关键字确定装置50还可以包括语音识别模块504，用以对所述视频文件中的音轨进行语音识别，以得到音轨识别文本，并将所述音轨识别文本加入所述关键字。

图5所示视频关键字确定装置50还可以包括属性信息提取模块505，用以提取所述视频文件的属性信息，并加入所述关键字。

图5所示视频关键字确定装置50还可以包括去重模块506，用以对所述关键字进行去重整理。

关于所述视频关键字确定装置50的工作原理、工作方式的更多内容，可以参照图1至图4中的相关描述，这里不再赘述。

请参照图7，视频检索装置70可以包括搜索关键字获取模块701、匹配模块702和推送模块703。

其中，搜索关键字获取模块701用以获取搜索用户输入的搜索关键字；匹配模块702用以将所述搜索关键字与视频文件的关键字进行匹配，以得到匹配结果；推送模块703用以在所述匹配结果中存在与所述搜索关键字相匹配的关键字时，将匹配的关键字对应的全部或部分视频文件推送给所述搜索用户；

其中，所述视频文件的关键字是通过图1或图2所述的视频关键字确定方法确定的。

在本发明一个具体实施例中，所述关键字与其在所述视频文件中的时间具备对应关系；推送模块703可以包括第一推送播放单元(图未示)，用以将匹配的关键字对应的视频文件推送给所述搜索用户，并从与所述相匹配的关键字所处的时间开始对所述视频文件进行播放。

在本发明另一个具体实施例中，所述关键字中还包括抽取自所述视频文件中的字幕文本或音轨识别文本，以及所述字幕文本或音轨识别文本与其在所述视频文件中的时间的对应关系；推送模块703可以包括第二推送播放单元(图未示)，用以将所述关键字中的字幕文本或音轨识别文本与所述搜索关键字匹配的视频文件推送给所述搜索用户，并从所述字幕文本或音轨识别文本的匹配位置所处的时间开始对所述视频文件进行播放。

关于所述视频检索装置70的工作原理、工作方式的更多内容，可以参照图1至图4中的相关描述，这里不再赘述。

本发明实施例还公开了一种存储介质，其上存储有计算机指令，所述计算机指令运行时可以执行图1至图4中所示方法的步骤。所述存储介质可以包括ROM、RAM、磁盘或光盘等。所述存储介质还可以包括非挥发性存储器 (non-volatile)或者非瞬态(non-transitory)存储器等。

本发明实施例还公开了一种终端，所述终端可以包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令。所述处理器运行所述计算机指令时可以执行图1至图4中所示方法的步骤。所述终端可以是服务器。所述终端包括但不限于手机、计算机、平板电脑等终端设备。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种视频关键字确定方法，其特征在于，包括：

获取待处理的视频文件；

对所述视频文件进行图像识别，以得到视频文件包含的目标物的目标物信息，并将所述目标物信息加入所述视频文件的关键字，所述关键字至少用于对所述视频文件的搜索。

2.根据权利要求1所述的视频关键字确定方法，其特征在于，所述对所述视频文件进行图像识别，以得到视频文件包含的目标物的目标物信息包括：按照预设时间间隔对所述视频文件进行帧图像抽取，以得到多个视频帧图像；

对每一视频帧图像包含的目标物进行图像识别，以得到每一视频帧对应的目标物信息。

3.根据权利要求1所述的视频关键字确定方法，其特征在于，还包括：

抽取所述视频文件中的字幕文本，并加入所述关键字。

4.根据权利要求1所述的视频关键字确定方法，其特征在于，还包括：

对所述视频文件中的音轨进行语音识别，以得到音轨识别文本，并将所述音轨识别文本加入所述关键字。

5.根据权利要求1所述的视频关键字确定方法，其特征在于，还包括：

提取所述视频文件的属性信息，并加入所述关键字。

6.根据权利要求1至5中任一项所述的视频关键字确定方法，其特征在于，还包括：

对所述关键字进行去重整理。

7.根据权利要求6所述的视频关键字确定方法，其特征在于，所述目标物信息包括在所述视频文件中识别到的物体的特征信息和/或人脸信息。

8.一种视频检索方法，其特征在于，包括：

获取搜索用户输入的搜索关键字；

将所述搜索关键字与视频文件的关键字进行匹配，以得到匹配结果；

如果所述匹配结果中存在与所述搜索关键字相匹配的关键字，则将匹配的关键字对应的全部或部分视频文件推送给所述搜索用户；

其中，所述视频文件的关键字是通过权利要求1至7任一项所述的视频关键字确定方法确定的。

9.根据权利要求8所述的视频检索方法，其特征在于，所述关键字与其在所述视频文件中的时间具备对应关系，所述将匹配的关键字对应的视频文件推送给所述搜索用户包括：

将匹配的关键字对应的视频文件推送给所述搜索用户，并从与所述相匹配的关键字所处的时间开始对所述视频文件进行播放。

10.根据权利要求8所述的视频检索方法，其特征在于，所述关键字中还包括抽取自所述视频文件中的字幕文本或音轨识别文本，以及所述字幕文本或音轨识别文本与其在所述视频文件中的时间的对应关系，所述将匹配的关键字对应的视频文件推送给所述搜索用户包括：

将所述关键字中的字幕文本或音轨识别文本与所述搜索关键字匹配的视频文件推送给所述搜索用户，并从所述字幕文本或音轨识别文本的匹配位置所处的时间开始对所述视频文件进行播放。

11.一种视频关键字确定装置，其特征在于，包括：

视频文件获取模块，用以获取待处理的视频文件；

关键字确定模块，用以对所述视频文件进行图像识别，以得到视频文件包含的目标物的目标物信息，并将所述目标物信息加入所述视频文件的关键字，所述关键字至少用于对所述视频文件的搜索。

12.一种视频检索装置，其特征在于，包括：

搜索关键字获取模块，用以获取搜索用户输入的搜索关键字；

匹配模块，用以将所述搜索关键字与视频文件的关键字进行匹配，以得到匹配结果；

推送模块，用以在所述匹配结果中存在与所述搜索关键字相匹配的关键字时，将匹配的关键字对应的全部或部分视频文件推送给所述搜索用户；

13.一种存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至7中任一项所述视频关键字确定方法的步骤，或者执行权利要求8至10中任一项所述视频检索方法的步骤。

14.一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求1至7中任一项所述视频关键字确定方法的步骤，或者执行权利要求8至10中任一项所述视频检索方法的步骤。