CN111694984A

CN111694984A - 视频搜索方法、装置、电子设备及可读存储介质

Info

Publication number: CN111694984A
Application number: CN202010535144.2A
Authority: CN
Inventors: 王璐; 杨羿; 裴中佑; 李�一; 贺翔; 朱延峰; 陈晓冬; 刘林
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-09-22
Anticipated expiration: 2040-06-12
Also published as: CN111694984B

Abstract

本申请公开了一种视频搜索方法、装置、电子设备及可读存储介质，涉及计算机视觉领域。具体实现方案为：获取待搜索信息；根据所述待搜索信息进行搜索，得到目标视频；对所述目标视频进行解析，获得视频摘要信息；所述视频摘要信息包括以下至少一项：关键文本信息、关键帧图像；展示所述视频摘要信息。根据本申请中方案，在进行视频搜索时，可以直接展示搜索得到的目标视频的视频摘要信息，从而对目标视频中有效内容进行提高曝光，使得用户不必借由观看完整视频来获得所需的内容，减少用户的时间开销。

Description

视频搜索方法、装置、电子设备及可读存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及计算机视觉领域。

背景技术

目前，当搜索视频时，通常是根据待搜索信息进行搜索以得到相应视频。然而，由于视频本身带有多样化的内容和差异化的表达，比如可包括图、文字、动作、音频等，因此对于搜索得到的视频，若想从该视频中获取所需关键内容，则需要用户完整观看该视频，并从中挑选内容。这将会给用户带来很大的时间开销。

发明内容

本公开提供了一种用于视频搜索的方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种视频搜索方法，包括：

获取待搜索信息；

根据所述待搜索信息进行搜索，得到目标视频；

对所述目标视频进行解析，获得视频摘要信息；其中，所述视频摘要信息包括以下至少一项：关键文本信息、关键帧图像；

展示所述视频摘要信息。

这样，在进行视频搜索时，可以直接展示搜索得到的目标视频的视频摘要信息，从而对目标视频中有效内容进行提高曝光，使得用户不必借由观看完整视频来获得所需的内容，减少用户的时间开销。

根据本公开的另一方面，提供了一种视频搜索装置，包括：

获取模块，用于获取待搜索信息；

搜索模块，用于根据所述待搜索信息进行搜索，得到目标视频；

解析模块，用于对所述目标视频进行解析，获得视频摘要信息；其中，所述视频摘要信息包括以下至少一项：关键文本信息、关键帧图像；

第一展示模块，用于展示所述视频摘要信息。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本申请的技术解决了目前在获取搜索视频中内容时会给用户带来很大的时间开销的问题，通过在进行视频搜索时，直接展示搜索得到的目标视频的视频摘要信息，可以使得用户不必借由观看完整视频来获得所需内容，从而减少用户的时间开销。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请实施例的视频搜索方法的流程图；

图2是本申请具体实例的内容展示示意图之一；

图3是本申请具体实例的内容展示示意图之二；

图4是本申请实施例的视频搜索装置的框图；

图5是用来实现本申请实施例的视频搜索方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例可以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。说明书以及权利要求中“和/或”表示所连接对象的至少其中之一。

请参见图1，图1是本申请实施例提供的一种视频搜索方法的流程图，该方法应用于电子设备，如图1所示，该方法包括如下步骤：

步骤101：获取待搜索信息。

本实施例中，根据应用场景的不同，可以采用不同的方式获取待搜索信息。比如，在搜索场景下，可以将用户在信息输入框中输入的内容确定为待搜索信息；或者在推荐场景下，可以基于用户历史搜索信息、用户浏览记录、和/或用户信息等，确定待搜索信息。需指出的，对于获取待搜索信息的方式，本实施例不进行限制。

步骤102：根据所述待搜索信息进行搜索，得到目标视频。

本实施例中，当根据待搜索信息进行搜索时，可以在预设视频库中进行搜索。而得到的目标视频是与待搜索信息关联匹配的视频。比如，若待搜索信息为XX食物的制作方法，则相应目标视频为介绍该XX食物的制作方法的视频。又比如，若待搜索信息为YY玩具，则相应目标视频可为与该YY玩具相关的广告视频。

步骤103：对所述目标视频进行解析，获得视频摘要信息。

可选的，该视频摘要信息可以包括以下至少一项：关键文本信息、关键帧图像。比如，该视频摘要信息包括从目标视频中解析出的关键文本信息；或者，该视频摘要信息包括从目标视频中解析出的一幅或者多幅关键帧图像；或者，该视频摘要信息包括从目标视频中解析出的关键文本信息和关键帧图像，该关键帧图像比如为一幅或者多幅图像。

步骤104：展示所述视频摘要信息。

可选的，在展示视频摘要信息时，可以将视频摘要信息显示在搜索结果展示页上。

本申请实施例中的视频搜索方法，可以在获取待搜索信息之后，根据待搜索信息进行搜索，得到目标视频，并对目标视频进行解析，获得包括关键文本信息和/或关键帧图像的视频摘要信息，并展示该视频摘要信息。由此，在进行视频搜索时，可以直接展示搜索得到的目标视频的视频摘要信息，从而对目标视频中有效内容进行提高曝光，使得用户不必借由观看完整视频来获得所需的内容，减少用户的时间开销。

本申请实施例中，为了使得展示的视频摘要信息能够充分、确切的体现目标视频，可以从多个角度对目标视频进行解析，从而基于多模态视频理解对目标视频中内容进行展示，方便用户了解目标视频中内容。该多个角度包括但不限于文本、音频、图像等。

可选的，在视频摘要信息包括关键文本信息的情况下，上述获得视频摘要信息的过程可包括：对目标视频中的以下至少一项进行识别，得到与待搜索信息关联的关键文本信息：文本内容、音频、视频帧图像。这样可以从多个角度对目标视频进行解析，从而使得展示的视频摘要信息能够充分、确切的体现目标视频。

下面分别以文本内容标签、音频标签、视频帧图像标签为例，说明对目标视频进行解析的过程。

<文本内容标签>

对于视频中的文本内容，通常可分为标题(title)、字幕(subtitle)、滚动字幕(roll_titles)、广告Logo(logo)和其他文本(docs)类。每类文本内容的所处位置、持续时间、表示含义等通常不同。比如，标题以及广告Logo的持续时间一般较长，而字幕、滚动字幕的持续时间较短。又比如，标题通常表示视频的主旨，字幕、滚动字幕等通常表示视频的详细内容。又比如，对于字幕而言，标准字幕是位于图像下方的横向文字序列，而非标准字幕有竖向的，有大小不一的，有原生背景文字等。因此，本实施例在对目标视频中的文本内容进行识别时，可以分类识别，以提高识别准确性。

可选的，在视频摘要信息包括关键文本信息的情况下，上述获得视频摘要信息的过程可包括：

选取目标视频中的文本框；其中，该文本框可理解为目标视频中每一帧图像上的包含文本内容的区域，可以利用目标检测方法比如基于参考框anchor的检测方法来检测得到；进一步的在选取文本框之后，还可采用预设规则(比如不同图像位置对应不同的预设得分，和/或不同持续时间对应不同的预设得分等)对每一帧文本框进行打分(此可不区分是否在同一帧)，并选取打分(即置信度)大于预设阈值(比如0.85、或0.9等)的文本框进行后续处理；

基于持续时间对选取的文本框进行分类；其中为了准确对文本框进行分类，可以利用持续时间duration字段对选取的文本框进行标注，并对相同位置、相同高度、和/或相同字体等的文本框进行聚类，并按照不同持续时间对聚类的文本框进行打分，以对文本框进行分类；其中尽量每个聚类为同一类别的文本框；

分别针对每类文本框进行文本识别，得到每类文本框中的文本内容；比如，可以利用光学字符识别(Optical Character Recognition，OCR)进行文本识别；优选的针对不同类别的文本框，考虑到各自特点可以采用不同的识别方式；

基于所述待搜索信息，对所述每类文本框中的文本内容进行关联分析，得到相应的关键文本信息；其中为了使得展示的关键文本信息更确切的体现目标视频，可以利用基于自然语言处理NLPC的专名识别算子对文本框中的文本内容进行分词处理，获得关键词组，进一步得到关键文本信息。

这样，借由分类识别目标视频中的文本内容，可以提高识别的准确性。

此外，为了避免过多无用文本内容的干扰，比如滚动字幕、其他文本(docs)类甚至广告Logo中的文本内容的重要程度较低，而标准字幕中的文本内容的重要程度较高，可以仅针对标准字幕进行文本识别。此情况下的文本识别过程可包括：首先进行检测优化，由于标准字幕是位于图像下方的横向文字序列，而非标准字幕有竖向的、有大小不一的、有原生背景文字等，因此可利用目标检测方法(比如基于Anchor)选取标准字幕的文本框，即去除具有不必要长宽比的文本框，并利用发现(Detect)检测确定标准字幕可能出现的位置，以基于标准字幕在图像中可能出现的相对位置缩小检测范围；然后进行识别优化，由于文本框信息是基于字幕位置相对固定，因此可通过引入帧间时序信息进行帧与帧之间的去重，并进一步对图像和文本同时进行后处理，图像后处理包括减少图像大小变形，文字后处理包括通过滑动时间窗过滤重复内容；最后对处理后图像中文本框的文本内容进行识别。

<音频标签>

从音频模态上，可以基于自动语音识别技术(Automatic Speech Recognition，ASR)进行视频内容破壳。由于视频中复杂环境、地方性口音、说话方式等的影响，ASR识别结果的噪声信号非常多，因此为了提高语音识别的准确性，在进行ASR识别之前，在抽取音频阶段可剔除音频中断信号，比如利用基于网页即时通信webRTC的语音活动检测(VoiceActivity Detection，VAD)模型进行静音检测，判断是否存在非活动FRAME(比如一个FRAME抽取时长默认10s，活动代表有声音，不活动代表静音)，以剔除音频中断信号对识别结果的干扰。其次，基于ASR模型进行语音转文本时，由于视频内容中噪音环境、口音、说话方式、场景领域等的影响，可以进一步优化ASR识别结果，包括但不限于：1)通过定位音轨时间点，拼接单个短串；2)剔除口音词，比如口语词、感叹词、语气词等；3)针对ASR识别结果进行通顺度判别，比如借由NLPC神经网络DNN语言模型的困惑度ppl值进行通顺度判别；4)针对ASR识别结果进行文本纠错。

<视频帧图像标签>

从视频帧图像模态上，可以基于连续帧OCR进行视频内容破壳。由于视频是时间序列的图集，需要剔除掉大量重复帧的干扰。比如在抽取图像帧阶段，可以基于Hecate模型选取关键帧，具体方式是Hecate聚类特征为帧HSL(色相Hue、饱和度Saturation、亮度Lightness)直方图和梯度直方图，并将聚类(比如可先聚类K个shots，再对每个shot聚类出K个subshots)中心的帧作为关键帧，并对关键帧进行OCR识别。其次，基于OCR模型进行图像转文本时，由于视频独有的时序信息，可以进行优化处理，包括但不限于：1)基于时间聚类去重，按照滑动时间窗口过滤，比如每5秒钟内帧与帧50％重叠度进行过滤；2)基于空间聚类去重，将坐标位置相近的文本框进行聚合，比如采用K最近邻(k-NearestNeighbor，kNN)算法聚类识别框坐标位置相近的文本；3)针对文本转化结果进行文本去重(比如根据帧内位置、帧序号以及编辑距离(Levenshtein距离)进行去重)、通顺度过滤、文本纠错等，并抽取文本关键词。

可选的，在视频摘要信息包括关键帧图像的情况下，上述获得视频摘要信息的过程可以包括：对目标视频中的视频帧图像进行抽取，获得与待搜索信息关联的关键帧图像。可选的，对于该关键帧图像，可为与待搜索信息最为关联匹配的一幅或者多幅图像。比如，若待搜索信息为XX食物的制作方法，则抽取的关键帧图像可为一幅该XX食物被制作完成后的效果图；或者，若待搜索信息为YY玩具，则抽取的关键帧图像可为不同视角下该YY玩具的多幅图像。这样，借由关键帧图像的展示，可以方便用户快熟了解视频内容。

本申请实施例中，为了方便用户查看，还可对视频摘要信息的展示形式进行规范。可选的，在获得视频摘要信息之后，还可对该视频摘要信息进行处理，得到满足预设规则的目标展示内容，并对该目标展示内容进行展示。比如，该处理为文本重要度归纳，以剔除一些内容，使得展示内容更精简；和/或，该处理为对展示内容进行调整等。该预设规则比如为高亮显示重要文本内容、提取关键内容作为标题、优先显示某类内容、和/或采用左图右文本的方式进行展示等等。这样，借由规范展示形式，可以方便用户查找所需内容，而不必从杂乱无章的展示内容中获取所需内容。

进一步的，在展示视频摘要信息之后，所述方法还包括：接收用户针对所述视频摘要信息的输入；响应于所述输入，展示所述目标视频的详情页。其中该输入可选为对该视频摘要信息的显示页面或显示区域的点击操作、或滑动操作等。这样，可以便于用户了解完整的视频内容，提高用户体验。

需指出的，本申请实施例适用的场景可包括但不限于搜索场景、推荐场景等。比如，以搜索场景中的视频广告为例，当投放视频广告时，常利用视频播放标和封面图、和/或视频标签等静态元素来表征视频。用户需要点击视频播放标或视频标签进入落地页后观看视频广告，才能了解广告内容。但这样以视频播放标和视频标签的形式表征视频广告，用户并不知道视频能给他带来怎样的价值，是否可以满足其诉求，故可能会迟疑、不愿意打开视频广告，从而很难能进一步直接了解到落地页的视频内容。而借助本申请实施例中的展示视频摘要信息，可以对视频广告中有效内容进行提高曝光，更直接满足用户搜索诉求，在单位时间内向用户传递出更多的未打开视频广告中的内容，以便用户了解视频广告能否满足其需求。在确定满足其需求的情况下，还可借由输入操作进一步打开该视频广告，以了解视频广告中的完整内容，从而给广告主带来转化和点击，为广告主提供充分展现内容的机会。

比如，在搜索场景中，若待搜索信息为“鱼香肉丝的做法”，则搜索结果页上展示的视频摘要信息可如图2中所示；或者若待搜索信息为“哪里治雀斑”，则搜索结果页上展示的视频摘要信息可如图2中所示。进一步的，在用户点击该“鱼香肉丝的做法”的搜索结果页时，可以显示相应视频的落地页，以便用户了解完整的鱼香肉丝的做法。

又比如，以推荐场景中的视频广告为例，当基于用户历史搜索信息和用户浏览记录，确定待搜索信息为小轿车时，借助本申请实施例在进行推荐时，可以直接展示搜索得到的某视频的视频摘要信息，如图3所示。进一步的，在用户点击展示该视频摘要信息的搜索结果页时，可以显示相应视频的详情页，以便用户了解完整视频广告内容。

请参见图4，图4是本申请实施例提供的一种视频搜索装置的结构示意图，如图4所示，该视频搜索装置40包括：

获取模块41，用于获取待搜索信息；

搜索模块42，用于根据所述待搜索信息进行搜索，得到目标视频；

解析模块43，用于对所述目标视频进行解析，获得视频摘要信息；其中，所述视频摘要信息包括以下至少一项：关键文本信息、关键帧图像；

第一展示模块44，用于展示所述视频摘要信息。

可选的，在所述视频摘要信息包括关键文本信息的情况下，所述解析模块43具体用于：

对所述目标视频中的以下至少一项进行识别，得到与所述待搜索信息关联的关键文本信息：文本内容、音频、视频帧图像。

可选的，在所述视频摘要信息包括关键帧图像的情况下，所述解析模块43具体用于：

对所述目标视频中的视频帧图像进行抽取，获得与所述待搜索信息关联的关键帧图像。

可选的，所述解析模块43包括：

选取单元，用于选取所述目标视频中的文本框；

分类单元，用于基于持续时间对选取的文本框进行分类；

识别单元，用于分别针对每类文本框进行文本识别，得到每类文本框中的文本内容；

分析单元，用于基于所述待搜索信息，对所述每类文本框中的文本内容进行关联分析，得到相应的关键文本信息。

可选的，该视频搜索装置40还包括：

处理模块，用于对所述视频摘要信息进行处理，得到满足预设规则的目标展示内容；

所述第一展示模块44具体用于：

对所述目标展示内容进行展示。

可选的，该视频搜索装置40还包括：

接收模块，用于接收用户针对所述视频摘要信息的输入；

第二展示模块，用于响应于所述输入，展示所述目标视频的详情页。

可理解的，本申请实施例的视频搜索装置40，可以实现上述图1所示方法实施例中实现的各个过程，以及达到相同的有益效果，为避免重复，这里不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图5所示，是根据本申请实施例的视频搜索方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的视频搜索方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的视频搜索方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的视频搜索方法对应的程序指令/模块(例如，附图4所示的获取模块41、搜索模块42、解析模块43和第一展示模块44)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的视频搜索方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据视频搜索的电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至视频搜索的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

视频搜索方法的电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与视频搜索的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，在进行视频搜索时，可以直接展示搜索得到的目标视频的视频摘要信息，从而对目标视频中有效内容进行提高曝光，使得用户不必借由观看完整视频来获得所需的内容，减少用户的时间开销。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种视频搜索方法，包括：

获取待搜索信息；

根据所述待搜索信息进行搜索，得到目标视频；

展示所述视频摘要信息。

2.根据权利要求1所述的方法，其中，在所述视频摘要信息包括关键文本信息的情况下，所述对所述目标视频进行解析，获得视频摘要信息，包括：

3.根据权利要求1所述的方法，其中，在所述视频摘要信息包括关键帧图像的情况下，所述对所述目标视频进行解析，获得视频摘要信息，包括：

4.根据权利要求1所述的方法，其中，在所述视频摘要信息包括关键文本信息的情况下，所述对所述目标视频进行解析，获得视频摘要信息，包括：

选取所述目标视频中的文本框；

基于持续时间对选取的文本框进行分类；

分别针对每类文本框进行文本识别，得到每类文本框中的文本内容；

基于所述待搜索信息，对所述每类文本框中的文本内容进行关联分析，得到相应的关键文本信息。

5.根据权利要求1所述的方法，所述对所述目标视频进行解析，获得视频摘要信息之后，还包括：

对所述视频摘要信息进行处理，得到满足预设规则的目标展示内容；

所述展示所述视频摘要信息，包括：

对所述目标展示内容进行展示。

6.根据权利要求1所述的方法，所述展示所述视频摘要信息之后，还包括：

接收用户针对所述视频摘要信息的输入；

响应于所述输入，展示所述目标视频的详情页。

7.一种视频搜索装置，包括：

获取模块，用于获取待搜索信息；

第一展示模块，用于展示所述视频摘要信息。

8.根据权利要求7所述的装置，其中，在所述视频摘要信息包括关键文本信息的情况下，所述解析模块具体用于：

9.根据权利要求7所述的装置，其中，在所述视频摘要信息包括关键帧图像的情况下，所述解析模块具体用于：

10.根据权利要求7所述的装置，其中，所述解析模块包括：

选取单元，用于选取所述目标视频中的文本框；

分类单元，用于基于持续时间对选取的文本框进行分类；

11.根据权利要求7所述的装置，还包括：

所述第一展示模块具体用于：

对所述目标展示内容进行展示。

12.根据权利要求7所述的装置，还包括：

接收模块，用于接收用户针对所述视频摘要信息的输入；

13.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。