CN111324768B

CN111324768B - 一种视频搜索系统和方法

Info

Publication number: CN111324768B
Application number: CN202010088912.4A
Authority: CN
Inventors: 杨丛聿; 仇应俊
Original assignee: Xinhua Zhiyun Technology Co ltd
Current assignee: Xinhua Zhiyun Technology Co ltd
Priority date: 2020-02-12
Filing date: 2020-02-12
Publication date: 2023-07-28
Anticipated expiration: 2040-02-12
Also published as: CN111324768A

Abstract

本发明提供一种视频搜索系统和方法，搜索系统包括：获取模块；处理模块；和排序模块，其中所述获取模块获取视频，所述处理模块对获取的视频进行分段；所述排序模块根据视频发布时间、文本相关度进行排序，所述视频搜索系统和方法对视频内容的标签建立索引体系可确保搜索的多样性，使得搜索时可以快速定位到人脸、突发事件等出现的段落或帧。编辑人员借此可以对自己的素材进行更有效的管理，同时通过自定义搜索可以大幅减少寻找素材所消耗的时间。

Description

一种视频搜索系统和方法

技术领域

本发明涉及一种视频搜索系统和方法，特别涉及一种视频搜索系统和方法

技术背景

短视频作为一种新闻载体，其具有时长短、传播快、参与感强等特点而广泛传播。现有技术中，短视频的搜索通常采用通用搜索引擎或视频网站内部的搜索引擎获取，以上两种搜索引擎均以视频标题或分类作为筛选条件，筛选获得的短视频无法聚焦视频内容本身，无法凸显短视频作为新闻形式的时效性、新奇性和重要性。视频编辑人员需要花费大量的时间浏览视频内容并剪辑素材。并且由于传统搜索引擎使用的是字段搜索，搜索时使用的字段是黑盒的，无法实现自定义搜索。

发明内容

本发明其中一个目的在于提供一种视频搜索系统和方法，所述搜索系统和方法可对视频进行有效理解，并帮助视频剪辑人员高效地寻找目标视频材料进行编辑，提高视频剪辑效率。

本发明另一个目的在于提供一种视频搜索系统和方法，所述搜索系统和方法采用视频内容和音频内容双线分析的方法，对视频内容中的文字、人脸、事件等数据进行提取分析，并对提取的数据标签化后建立视频索引表，对音频中的语音信息进行分析提取，从而可提高检索的效率和成功率。

本发明另一个目的在于提供一种视频搜索系统和方法，所述搜索系统和方法根据发布时间采用多段高斯衰减对视频进行排序，可兼顾视频的时效性。

本发明另一个目的在于提供一种视频搜索系统和方法，所述搜索系统和方法根据视频中的语音信息对视频进行分段，通过ASR语音识别技术，分析语音信息中的段落，并根据语音中的段落对视频分段裁剪，从而确保同一句话在同一分段中。

本发明另一个目的在于提供一种视频搜索系统和方法，所述搜索系统和方法可通过ASR语音识别技术，建立自适应的分段索引。

本发明另一个目的在于提供一种视频搜索系统和方法，所述搜索系统和方法采用开源的ElasticSearch(分布式全文搜索)，并采用nested(嵌套)的父子结构索引，以减少索引构建成本。

本发明另一个目的在于提供一种视频搜索系统和方法，所述标签提取方法和系统通过对视频中的每一帧图像进行识别，通过构建的索引表可实现对图像目标的快速定位。

本发明另一个目的在于提供一种视频搜索系统和方法，所述标签提取方法和系统可筛选出具有时效性，新奇性和重要性的视频内容，便于剪辑后视频内容的传播推广。

为了实现上述至少一个发明目的，本发明提供一种视频搜索系统，包括：

获取模块；

处理模块；

排序模块；

其中所述获取模块获取视频，所述处理模块对获取的视频进行分段；所述排序模块根据视频发布时间、文本相关度对分段视频进行排序。

根据本发明一个较佳实施例，所述处理模块还用于生成全局唯一的视频ID，所述视频ID包括总视频ID和分段视频ID，所述处理模块还用于提取视频基础信息，其中所述基础信息包括标题、时长、码率、简介、转存链接、宽度、高度、缩略图。

根据本发明一个较佳实施例，所述处理模块用于对视频进行标签提取，其中标签提取依据为视频中的图像信息和语音信息。

根据本发明一个较佳实施例，所述处理模块包括人脸识别模块，OCR图片识别模块和ASR语音识别模块，分别用于人脸识别、图片识别和ASR语音识别。

根据本发明一个较佳实施例，所述处理模块根据每一帧中的图像信息和语音信息获取目标搜索视频。

根据本发明一个较佳实施例，所述处理模块根据语音识别模块获取的语音信息对视频分段，其中所述语音信息包括同一对象完整的语音信息或同一事件完整语音信息。

根据本发明一个较佳实施例，所述处理模块设立一分段阈值时长，当所述ASR语音识别模块未识别语音信息时，所述处理模块将视频信息以分段阈值时长为最大时长分段。

根据本发明一个较佳实施例，所述处理模块包括一存储模块，所述存储模块采用ElasticSearch搜素引擎，并建立nested(嵌套)父子结构的索引存储，其中父结构中存储视频，子结构存储标签信息。

根据本发明一个较佳实施例，所述处理模块nested(嵌套)父子结构的子结构中每一分段的标签以列表方式存储，其中所述标签包括：分段视频开始时间、结束时间、分段内音频的ASR语音识别结果，分段内多个帧的OCR图片识别结果，人脸识别得到的多个人物实体信息，突发事件标签。

根据本发明一个较佳实施例，所述排序模块还根据分段视频热点、时效性进行排序。

为了实现上述至少一个发明目的，本发明进一步提供一种视频分段方法，包括如下步骤：

采集视频；

提取视频标签；

对视频分段，并建立分段视频索引；

对分段视频排序。

根据本发明一个较佳实施例，所述视频搜索方法中还包对采集的视频进行去重处理：对比获取视频和数据库视频中的标题、网站信息和首帧图像中至少一种，并删除相同图片。

根据本发明另一个较佳实施例，将采集的视频和分段的视频生成全局唯一ID，并采集视频的标题、首帧图像，时长、码率、简介、转存链接、宽度、高度、缩略图，用于构建视频索引列表。

根据本发明另一个较佳实施例，包括生成并提取分段视频标签，所述标签包括分段视频的开始时间、结束时间，分段视频内的人脸信息、事件信息以及语音信息，用于建立分段视频索引。

根据本发明另一个较佳实施例，所述视频搜索方法还包括：采集视频中的每一帧图像信息和音频信息，采用人脸识别技术识别每一帧图像中的人脸、自然灾害、交通事故、热点事件。

根据本发明另一个较佳实施例，采用ASR语音识别技术将音频信息转换为文本信息，根据文本信息识别人物、自然灾害、交通事故、热点事件。

根据本发明另一个较佳实施例，根据所述音频信息对采集的视频进行分段，所述分段方法包括如下步骤：

若能识别语音信息，则根据识别的语音信息获取完整句落、段落、同一对象完整语音信息、同一事件完整语音信息中至少一种；

若无法识别语音信息，则根据以下公式对视频分段：

其中x为视频长度，单位/s，D(x)为分段视频长度。

根据本发明另一个较佳实施例，包括根据ASR语音识别信息获取的人物、自然灾害、交通事故、热点事件提取标签，并存储所述标签。

根据本发明另一个较佳实施例，包括根据图像识别获取的人脸、自然灾害、交通事故、热点事件提取标签、并存储所述标签。

根据本发明另一个较佳实施例，在人脸识别方法步骤中，预建立人脸对比库，其中所述人脸对比库中包括政治人物和文体明星，用于识别目标人物。

为了实现上述至少一个发明目，本发明进一步提供一种视频搜索方法，所述搜索方法根据上述视频标签提取方法执行，包括如下步骤：

接受一请求；

分析请求内容；

根据分析结果形成一查询语句；

根据查询语句查询索引；

根据查询索引获取指定片段图像视频；

对搜索的视频进行排序。

根据本发明一个较佳实施例，包括调用实体链接或关键词算法分析请求内容。

根据本发明一个较佳实施例，根据获取的实体信息和关键词改写请求，以形成查询语句。

根据本发明一个较佳实施例，根据子结构中的标签信息获取指定片段的视频信息。

根据本发明另一个较佳实施例，对分段视频排序包括如下方法：根据视频文本相关度采用BM25算法对视频排序，其中所述文本包括OCR图像识别获取的文本和ASR语音识别获取的文本，根据相关度大小从高到低排序，其中算法

其中q是query(查询)，t是其中单词，N是所有的文档数目；

df_t是包含t的文档数目，tf_td是单词t在文档d中的权重；

L_d为字段长度，L_avg为字段平均长度；

k1和b是调优所用参数，k1(默认1.2)控制着词频结果在词频饱和度中的上升速度，b(默认0.75)控制着字段长归一值。

根据本发明另一个较佳实施例，对分段视频排序还包括如下方法：根据视频所处状态，对时间系数生成采用分段高斯衰减，公式如下：

x为视频发布时长，单位为(/天)，F(x)为最大时间系数；

用于生成(0,2]区间的时间系数；

其中短期内热点视频初始时间系数为2，发酵周期内视频初始系数为1.5，历史视频时间系数为1；

所述视频根据生成的时间系数从大到小排序。

根据本发明另一个较佳实施例，将文本相关度和时间系数相乘形成一排序系数S_i:

S_i＝F(x)*similar；

所述视频根据排序系数S_i从大到小排序显示。

附图说明

请参考图1显示的是本发明一种视频标签提取方法的构建索引流程示意图；

请参考图2显示的是本发明一种视频搜索处理方法流程示意图；

请参考图3显示的是本发明一种视频标签提取方法视频索引结构示意图；

请参考图4显示的是本发明一种视频标签提取方法的流程示意图；

请参考图5显示的是本发明一种视频搜索方法示意图。

具体实施方式

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例，本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本发发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。

本领域技术人员应理解的是，在本发明的揭露中，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系是基于附图所示的方位或位置关系，其仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此上述术语不能理解为对本发明的限制。

可以理解的是，术语“一”应理解为“至少一”或“一个或多个”，即在一个实施例中，一个元件的数量可以为一个，而在另外的实施例中，该元件的数量可以为多个，术语“一”不能理解为对数量的限制。

请参考图1-5，其中所述视频搜索系统包括：获取模块；处理模块和排序模块，其中所述获取模块用于获取视频，视频获取方式可以包括但不仅限于用户上传、互联网下载以及爬虫抓取，进一步地，所述处理模块获取视频的ID以及基础信息，所述视频ID为全局唯一ID，所述ID可由URI(统一资源标识符)或URL(统一资源定位符)标记和定位，其中所述基础信息包括：视频来源、标题、时长，帧数，码率、简介、转存链接、宽度、高度、缩略图等，并将该基础信息保存，所述处理模块根据视频的来源网站、标题、首帧图片、简介等其中的一种或多种信息判别是否是相同视频，若重复则剔除该重复信息，若不同则保存该视频用于分段和标签提取。

需要说明的是所述处理模块包括处理器、服务器、芯片等具有数据处理功的装置，所述排序模块根据优先规则对输出的数据进行排序。

进一步地，所述处理模块包括人脸识别模块，图片识别模块和ASR语音识别模块，所述人脸识别模块用于识别目标人物，比如政治人物或文体明星等，具体地所述人脸识别模块还可以根据包括人脸表情特征、瞳膜特征、和形体特征识别目标，也就是说，所述人脸识别模块包括表情识别模块，瞳膜识别模块，形体姿态识别模块，当视频因为拍摄角度、拍摄方式以及图像清晰度等影响人脸识别时，可根据形体识别，瞳膜识别和形体姿态识别等识别方式识别视频中目标人物，进一步地所述表情识别模块可判别表情特征，并将该人脸特征和表情特征作为搜索目标提取和存储，其中，在本发明一个较佳实施例方式中，可建立一人脸数据库，并通过实体连接的方式获取对应的个人信息。

进一步地，所述图片识别模块包括OCR图片识别模块和突发事件识别模块，OCR(图片-文字)识别模块用于识别视频中的文字，并将图片文字转化为文本文字，并记录该文本信息，在一较佳实施方式中，所述图片识别模块记录该文本信息的首帧图像信息。所述突发事件识别模块用于识别突发事件，需要说明的是，突发事件识别模块可基于现有机器学习突发事件识别模型。具体地，所述突发事件识别模块识别每一帧图像，根据人工智能中已训练好的机器学习模型判断每一帧图像中是否存在突发事件以及突发事件类型，记录突发事件的首帧信息和尾帧信息，其中所述首帧信息包括首帧时刻、分辨率、图像宽高，尾帧信息包括尾帧时刻、分辨率、图像宽高等。

值得一提的是，由于所述采集模块采集的视频长短不一，需要将视频进行合理分段，并且需要保证每一分段视频的内容是完整的，因此本发明以ASR语音识别信息作为视频分段依据，以保证每一分段视频中表达是完整的，其中分段视频的分段依据可以是句落、段落、整个事件的完整表述或指定对象的完整表述分段，举例来说，在视频处理过程中，获取一自然人的视频信息和语音信息，所述ORC识别模块识别视频中的文字信息，并根据文字信息出现的先后顺序排序，通过语音识别模块识别语音信息，并将语音信息转化为文本信息，根据语音先后顺序排列，一般而言，视频中图像的文字信息和语音信息是相对应的，但在部分视频中可能会出现无文字或语音和文字不对应的现象，因此基单纯基于文字的分段在部分视频中效果不佳，本发明以语音识别获取的文字信息作为优先分段依据，将OCR图像识别获取的文字信息作为第二分段依据对视频分段。

需要说明的是，在视频分段过程中还需对分段视频指定唯一ID，其中所述ID包括统一资源标识符和统一资源定位符中任意一种，在分类过程中可根据分段视频ID获取相应的图像信息。

具体而言，对于存在语音识别结果的视频，语音识别模块记录语音首字帧图片，并以首字帧图片作为分段视频的起始片段，所述语音识别模块根据识别的文字信息读取句落、段落信息以及事件完整信息或同一对象完整表述等信息对视频进行分段，举例来说，句落信息可根据语音信息表达停顿时间长度作为筛选依据，也就是说，对识别的语音信息可设定一停顿阈值，若无表述时间段大于该阈值，则说明出现了句落，以该停顿片段作为上一片段的尾帧或下一段落首帧，同理于段落分段。

在一较佳实施例中，同一事件的完整表述可根据识别语音信息转化的文本信息以连续帧内的时间、人物、地点和动词等作为关键词提取并分析，并结合句落或段落的分段实现对同一事件的分段，举例来说，在一视频中，识别出地址，人物和人物相关的动词或主谓宾结构的语句或段落，以及根据段落或句落的分段，则可判断该视频讲述了完整的事件，需要说明的是，本发明根据现有的语音识别技术对语音信息进行识别。

在一较佳实施例中，进一步根据同一对象的完整表述进行视频分段，根据语音识别中获取识别对象的身份信息，其中该身份信息可以是预建立的，也就是说，可建立语音、身份信息、人脸建立数据库，根据相关机械学习算法获取匹配信息，其中用于匹配的机器学习算法中人脸识别模型包括但不仅限于deepface模型、keras cnn模型，语音识别模型包括但不仅限于ASR语音识别模型、DFSMN模型，本发明优选ASR语音识别模型将语音转换为文字，可以理解的是上述模型皆是现有技术，本发明对模型功能不再赘述。

进一步地，根据ASR语音识别获取的不同人语音信息对视频进行分段，其中根据对同一事件的判别方法对同一目标人物完整事件描述的视频分段。

进一步地，若视频未识别语音信息则根据，则将视频分段时长设定阈值时长，具体方法如下：

设定阈值时长；

计算首帧到尾帧的时长；

根据以下公式分段视频：

其中x为时长，单位为秒(/s)，D(x)为分段后时长；

通过(1)公式分段可获得阈值时长为60/s,当视频时长大于60秒时，将最大视频分段为60秒，其中同一视频的最大分段数为100段。

在本发明另一较佳实施例中，阈值时长S和可作为具有ASR语音识别信息的分段依据，具体而言，若根据ASR语音识别获取的句落、段落、同一事件完整表示或同一对象完整表述所分段的事件大于60秒时，对首帧时刻到60秒帧时刻这一时间段内最接近60秒帧时刻的句落或段落进行分段，换句话说，当具有ASR语音识别片段的视频时长大于60秒时，则根据从首帧到不超过60秒帧时刻的最大句落或段落帧为尾帧对视频分段，并将该尾帧作为下一分段的首帧计算首尾时长，并进一步对下一段视频分段。需要说明的阈值时长在本发明中以60秒作为一种举例，在其他可行实施方式中，阈值时长可被设置为20秒-100秒中的任意值。

具体地，对识别获取的语音信息和图像信息提取标签，用于构建索引，其中所述视频索引的构建方法为：

指定每一分段视频唯一ID；

获取视频基础信息，其中所述基础信息包括：视频标题、时长、码率、简介、转存链接、宽度、高度、缩略图等，所述基础信息用于构建视频检索列表；

提取视频中的ASR语音识别结果、人脸识别结果和OCR图像识别结果、突发事件识别结果等，其中所述人脸识别结果包括人脸数据库中的多个实体信息，关键帧包括人脸识别过程中视频中的正脸帧，关键动作帧、以及特定表情帧等，ASR语音识别结果包括关键词首帧，停顿帧等，突发时间关键帧包括突发事件视频首帧等，可以理解的是，关键帧类别在本发明中仅举例说明。

将识别后的分段视频和标签进行保存，本发明采用开源的ElasticSearch(分布式全文搜索)，并采用nested(嵌套)父子结构建立索引，其中对分段视频中提取的标签保存于子结构中，视频信息保存于父结构中，子结构中的标签包括：分段视频的起始时间和结束时间，ASR语音识别结果，多个关键帧的OCR图片识别结果，以及通过人脸识别模块获取的人脸实体信息，突发事件信息等，其中突发事件识别可基于机器学习算法对火灾，水灾、地震等自然灾害的识别，对人群事件的识别可采用动作识别模型。

本发明根据搜索视频标签提取方法进一步提供一种视频搜索方法,包括如下步骤：

接受一请求；

分析请求内容；

根据分析结果形成一查询语句；

根据查询语句查询索引；

根据查询索引获取指定片段图像视频；

对搜索的视频进行排序。

其中请求内容包括搜索语句、搜索时间范围和内容等，其中搜索的方式包括文字输入、语音输入和图像输入，语音输入和图像输入可通过ASR语音识别模块和OCR识别模块获得对应文本信息。

进一步地，对输入的搜索语句文本进行分析，通过构建知识库和实体链接的方式，调用实体连接和关键词算法获取搜索语句的实体信息和关键词，用于对搜索语句改写，并将改写后的搜索语句输入代理层网络进行视频搜索，其中关键词算法包括但不仅限于。

根据数据索引获取视频的标题、时长、标签信息、ASR语音识别结果以及OCR图像文字识别结果，获取视频信息和时间段信息，其中该时间段信息包括首帧时刻，尾帧时刻，以及根据人脸识别、ASR语音识别和OCR图像识别获取的特定帧时刻依据对应的时间段，通过视频ID搜索获取指定分段的视频，通过实体链接和关键词获取该分段目标对象的起始帧和末尾帧的时间信息，因此视频检索人员可大幅降低重复无效工作量，提高检索效率。

值得一提的是，本发明进一步对输出的视频进行排序，排序的依据为视频的热度和时间，其中视频热度可根据关键词检索量判别，通过如下公式对搜索的视频排序：

其中q是query(查询)，t是其中单词，N是所有的文档数目；

df_t是包含t的文档数目，tf_td是单词t在文档d中的权重；

L_d为字段长度，L_avg为字段平均长度；

k1和b是调优所用参数，k1(默认1.2)控制着词频结果在词频饱和度中的上升速度，b(默认0.75)控制着字段长归一值，其中simlarity为文本相关度。

通过公式(2)可获取搜索关键词和文档的相关性，其中相关性高的关键词获取的视频信息优先排序输出，其中，由于视频是通过爬虫从互联网抓取或用户上传，因此通过对文本相关性的排序规则可体现视频内容在网络中的热度，并且对热度视频的剪辑需求也高，通过公式(2)可适应市场需求。

进一步地由于视频具有时效性，对于不同时间的分段视频需要不同的处理方式，因此本发明进一步提供兼顾视频时效的视屏排序方法，包括如下步骤：

根据视频热度类型进行分类；

对不同热度的视频采用分段高斯衰减，获取时间系数F(x)；

将时间系数和关键词系数相乘，以获取最终的排序系数S_i。

其中时间系数获得的公式为：

其中对于短期热点视频采用第一段获取时间系数，该段时间初始系数为2；

对于发酵期内的热点视频，采用的是第二段时间系数，该段时间初始系数为1.5；

对于历史数据，统一时间系数为1.

需要说明的是，所述排序系数将根据视频的热点和时效性进行排序，排序系数公式如下：

Si＝F(x)*simlarity。

藉此，可实现视频检索兼顾时效和热点。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域的技术人员应理解，上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明，本发明的目的已经完整并有效地实现，本发明的功能及结构原理已在实施例中展示和说明，在没有背离所述原理下，本发明的实施方式可以有任何变形或修改。

Claims

1.一种视频搜索系统，其特征在于，包括：

获取模块；

处理模块；

排序模块；

其中所述获取模块获取视频，所述处理模块对获取的视频进行分段；所述排序模块根据视频发布时间、文本相关度对分段视频进行排序；

对分段视频排序包括如下方法：根据视频文本相关度采用BM25算法对视频排序，所述文本包括OCR图像识别获取的文本和ASR语音识别获取的文本，根据相关度大小从高到低排序；

对分段视频排序还包括如下方法：根据视频所处状态，对时间系数生成采用分段高斯衰减，公式如下：

x为视频发布时长，单位为(/天)，F(x)为最大时间系数；

用于生成(0,2]区间的时间系数；

所述视频根据时间生成的时间系数从大到小排序。

2.根据权利要求1所述一种视频搜索系统，其特征在于，所述处理模块还用于生成全局唯一的视频ID，所述视频ID包括总视频ID和分段视频ID，所述处理模块还用于提取视频基础信息，其中所述基础信息包括标题、时长、码率、简介、转存链接、宽度、高度、缩略图。

3.根据权利要求1所述一种视频搜索系统，其特征在于，所述处理模块包括人脸识别模块，OCR图片识别模块和ASR语音识别模块。

4.根据权利要求3所述一种视频搜索系统，其特征在于，所述处理模块用于对视频进行标签提取，根据视频中的图像信息和语音信息提取视频标签；所述处理模块优先根据ASR语音识别模块获取的语音信息对视频分段，其中所述语音信息包括句落、段落、同一对象完整的语音信息或同一事件完整语音信息。

5.根据权利要求3所述一种视频搜索系统，其特征在于，所述处理模块设立一分段阈值时长，当所述ASR语音识别模块未识别语音信息时，所述处理模块将视频信息以分段阈值时长为最大时长分段。

6.根据权利要求3所述一种视频搜索系统，其特征在于，所述处理模块包括一存储模块，所述存储模块采用ElasticSearch搜素引擎，并建立nested嵌套父子结构的索引存储，其中父结构中存储视频，子结构存储标签信息。

7.一种视频分段方法，包括如下步骤：

采集视频；

提取视频标签；

对视频分段，并建立分段视频索引；

对分段视频排序；

x为视频发布时长，单位为(/天)，F(x)为最大时间系数；

用于生成(0,2]区间的时间系数；其中短期内热点视频初始时间系数为2，发酵周期内视频初始系数为1.5，历史视频时间系数为1；

所述视频根据时间生成的时间系数从大到小排序。

8.根据权利要求7所述的一种视频分段方法，其特征在于，包括生成并提取分段视频标签，所述标签包括分段视频的开始时间、结束时间，分段视频内的人脸信息、事件信息以及语音信息，用于建立分段视频索引。

9.根据权利要求8所述的一种视频分段方法，其特征在于，采用ASR语音识别技术将音频信息转换为文本信息，根据文本信息识别人物、自然灾害、交通事故、热点事件。

10.根据权利要求9所述的一种视频分段方法，其特征在于，根据所述音频信息对采集的视频进行分段，所述分段方法包括如下步骤：

若无法识别语音信息，则根据以下公式对视频分段：

其中x为视频长度，单位/s，D(x)为分段视频长度。

11.根据权利要求10所述的一种视频分段方法，其特征在于，包括对根据ASR语音识别获取的人物、自然灾害、交通事故、热点事件提取标签，记录并存储所述标签；根据人脸识别和OCR图像识别获取的人脸、自然灾害、交通事故、热点事件提取标签、并存储所述标签。

12.一种视频搜索方法，其特征在于，包括如下步骤：

接受一请求；

分析请求内容；

根据分析结果形成一查询语句；

根据查询语句查询索引；

根据查询索引获取指定片段图像视频；

x为视频发布时长，单位为(/天)，F(x)为最大时间系数；用于生成(0,2]区间的时间系数；

所述视频根据时间生成的时间系数从大到小排序。

13.根据权利要求12所述的一种视频搜索方法，其特征在于，包括调用实体链接或关键词算法分析请求内容，根据获取的实体信息和关键词改写请求，以形成查询语句。

14.根据权利要求12所述的一种视频搜索方法，其特征在于，根据视频ID和实体信息查询标签索引获取指定片段的指定帧视频信息。

15.根据权利要求12所述的一种视频搜索方法，其特征在于，将文本相关度和时间系数相乘形成一排序系数S_i:

S_i＝F(x)*similar；

所述视频根据排序系数S_i从大到小排序显示。