CN101021857A

CN101021857A - 基于内容分析的视频搜索系统

Info

Publication number: CN101021857A
Application number: CN 200610150588
Authority: CN
Inventors: 苏磊; 鲍东山
Original assignee: 鲍东山
Current assignee: Beijing Nufront Software Technology Co., Ltd.
Priority date: 2006-10-20
Filing date: 2006-10-20
Publication date: 2007-08-22

Abstract

本发明提供一种基于内容的视频搜索系统，包括视频、语音、字幕、人脸等分析服务器，融合分析服务器、视频检索服务器集群和视频搜索调度服务器。分析服务器能够自动从视频中分析提取视频内容信息；可以通过对音频信号的分析，生成相应的拼音图信息；可以通过分析和描述视频内容文字信息来建立视频索引。融合分析系统将经过视频分析、语音分析、字幕分析得到的数据进行融合，生成检索信息。视频检索服务器集群保存经过分析系统得到的视频内容及结构化。检索系统可以查询各种内容信息，并将结果返回给搜索调度服务器。搜索调度服务器接收客户端搜索请求，解析和转发请求到检索集群并生成有序的查询结果。

Description

基于内容分析的视频搜索系统

技术领域

本发明涉及基于内容的视频、语音、字幕、图像分析、检索领域。包括视频内容结构化分析、关键帧图像分析、字幕提取识别、语音特征数据的组织、存储，以及视频、图像、语音和字幕等信息的索引、检索以及分布式检索等领域的技术。

背景技术

基于内容的视频检索是指根据视频节目内容方面的特征进行视频节目的检索。目前，业界已经有一些针对视频节目的检索系统，这些系统都是将已有的视频文件进行人工注释，如敲入视频节目名称，内容介绍等等，对这些视频的检索实际上是根据人工文字注释进行匹配的，其核心技术仍然是传统的基于文字的检索技术。但是，人工的注释往往受到主观因素的影响，无法客观的刻画出视频节目的真正特征，再加上不同用户本身对一个视频也有自己的认识，因此基于人工注释的视频检索并不是总能满足检索要求，检索系统的性能受到牵制。此外，人工的为视频节目进行注释工作量很大，造成生产效率的低下，也增加了企业的用人成本。

目前，针对视频、音频的特征分析提取已经有很广泛的研究，也有相当客观的研究成果。但是，真正利用这些研究成果的可以商用的基于内容的视频检索系统却仍然是空白。在已有科研、技术成果的基础上，我们开发了一套基于内容的视频检索系统。视频节目的特征信息被计算机程序自动提取并保存，整个过程非常快捷，而且不需人参与。在进行检索时，用户给出的检索条件也更加丰富，除了文字条件外，还可以给出视频、音频的样例文件，这使得用户不必为那些难以用文字描述的检索条件而烦恼，同时也使得检索条件的描述更加准确。这些检索条件的特征信息也被计算提取出来，并与媒体库中的视频特征信息比较，最终检索出用户想要的节目。

基于内容的视频检索由于自动化的提取视频特征，从而方便了检索服务的提供方，由于允许用户提交样例文件作为检索条件，从而方便了用户的使用。无论从技术上还是从市场上都具有广阔的前景。

如图1所示，可以看到整个系统由如下几部分组成：视频内容分析集群、检索服务器集群。

融合分析模块通过对视频的结构化信息的分析，融合了视频、语音和字幕的综合信息，形成基于XML的统一描述文档。这些文档包含了内容信息，可以作为视频搜索的手段，为用户返回匹配的视频场景或者片段信息。

视频检索服务器机群位于网络中，负责将经视频分析部件得到的信息组织、保存，并对检索条件进行匹配、查询。我们了一套分布式多媒体检索服务器机群。

由于语音分析功能相对复杂，我们设计了一套分级语音检索系统。该系统由语音检索服务器、语音最优化检索服务器和语音检索缓存服务器组成。语音检索服务器中保存的是整个节目的拼音图信息信息。由于信息量大，而且不能形成索引，因而检索速度很慢。我们根据一定策略，选择最优的若干词图分支，并将它保存在语音最优化服务器中，由于以拼音串进行保存，可以建立索引，因而大大提供了检索速度。语音检索缓存服务器可以保存热点检索结果集、用户检索结果集等信息，可以进一步提高搜索的效率。

搜索调度服务器负责接收、解析用户的请求，将其搜索请求分配给检索服务器，以执行实际检索。在检索结果返回到搜索调度服务器后，搜索调度服务器要对返回结果进行处理，如排序、合并、筛选等。处理之后将其返回给用户。

发明内容

本发明的一个目的在于实现一个基于内容的视频搜索系统，使得可以完成对节目的视频内容、语音内容、字幕内容进行分析，并将分析结果进一步融合分析形成可供检索的信息。相应的检索信息保存在视频检索服务器、语音检索服务器组、字幕检索服务器中，可供视频搜索调度服务器检索、查询。

本发明的其他优点、目的和特征将在随后的说明书的部分中提出并且一部分在那些在本领域中具有一般技术的人员对随后的内容进行验证后将变得明显或者可以从本发明的实践中了解。本发明的目的和其他的优点可以通过所写的说明书及其权利要求书和附图中的结构而被认识和获得。

如图2所示，系统由视频内容分析集群、视频检索服务器集群组成。其中，视频内容分析集群由视频内容分析服务器、语音内容分析服务器、字幕提取分析服务器、视频融合分析服务器组成。

视频内容分析服务器包括接收用户视频分析指令、视频解码、视频内容分析、视频内容信息审核和视频内容信息上传到视频信息数据库等一系列流程，系统能从视频中提取出包括镜头、场景、镜头关键帧、场景关键帧、关键帧图像信息和人脸信息等丰富的视频内容信息，系统以全自动方式从视频中提取出了丰富的视频内容信息，可为基于内容的视频检索提供支持。

如图3所示，所述的视频内容分析系统主要包括七个部分：输入接口、任务调度模块、视频流获取模块、视频内容分析模块、视频内容结构化信息审核模块、输出接口和用户界面。

输入接口用于接收视频内容分析命令，系统包含两种命令接收方式：从网络接收视频分析命令或者接受本机用户分析视频文件的命令。任务调度模块用于根据视频内容分析任务的优先级，调度分配任务的执行次序。视频流获取模块，用于依据一定解码规则从外部视频源获取视频流；视频内容分析模块，是本系统的核心功能模块，如图4所示，用于进行视频内容分析，其中包括六个子模块：镜头分割子模块、镜头关键帧提取子模块、场景分割子模块、场景关键帧提取子模块、关键帧图像分析子模块和人脸分析子模块。

镜头分割子模块，用于将视频按内容分割为一系列基本的单元——镜头；镜头关键帧提取子模块，用于在镜头分割完成后，从镜头中提取能够代表镜头主要内容的视频帧；场景分割子模块，用于在镜头分割和镜头关键帧提取之后，将镜头组合成有语义意义的视频场景；场景关键帧提取子模块，用于提取场景中具有代表性的帧来表示场景；关键帧图像分析模块，用于从镜头关键帧和场景关键帧中提取帧图像底层信息，包括图像的纹理、颜色和边缘；人脸分析子模块，用于从视频中提取视频高层语义信息——人脸信息。

视频内容结构化信息审核模块，用于审核视频内容分析模块产生的结果是否有误差，并能够对产生误差的地方进行人工修改。输出接口，用于将视频内容分析结果上传到视频信息数据库。用户界面，主要包含两个界面：视频内容分析界面和视频分析结果审核界面。视频内容分析界面用于在视频内容分析过程中显示分析进度、分析状态和分析结果，视频分析结果审核界面用于修改视频内容分析的结果。

视频内容分析系统业务流程：系统通过输入接口接收来自网络的视频融合分析服务器指令或来自用户界面输入的本机视频内容分析请求，任务调度服务器根据任务的优先级决定视频分析任务的执行顺序，开始启动视频分析服务，视频流获取模块解码相应的视频，将解码出的视频流发送给视频内容分析模块，视频内容分析模块对解码出的视频流进行包括镜头分割、镜头关键帧提取、场景分割、场景关键帧提取、人脸分析、关键帧图像分析等一系列视频内容分析过程；之后，在用户审核模式下，视频内容结构化信息审核模块会对结构化分析结果进行审核，审核通过后，视频内容结构化信息将通过输出接口以XML形式上传到视频信息数据库。

语音内容分析服务器包括音频流获取模块，用以依据一定解码规则从外部音频源获取音频流；音频流分段模块，用以对从音频流获取模块获取的音频流进行分段，使得分段后的每个部分具有单一的声学特征；音频流类型判别模块，用以对从音频流分段模块输出的具有单一声学特征的音频流进行分析，得到其确定的声学特征；语音流分析模块，用以对音频流类型判别模块判别出的声学特征为语音的音频流进行识别得到拼音图；基于拼音序列的关键词检索模块，用以对语音流分析模块得到的拼音图进行检索，对感兴趣的关键词，得到该关键词在音频流中的位置。

如图5所示，音频流获取模块，依据一定解码规则从外部音频源获取音频流。外部音频源可以是音频文件101，可以是视频文件102，也可以是音频输入设备103。对于音频文件和视频文件，需要按照一定的解码规则对文件进行解码，得到只包含数据部分的音频流；对于音频输入设备，如麦克风，需要提供该设备到音频分析系统的接口，从而得到只包含数据部分的音频流。得到的音频流送入音频流分段模块进行下一阶段的处理。

音频流分段模块，对从音频流获取模块获取的音频流进行分段。分段后，每个分段都具有单一的声学特征。对音频流分段需要首先通过能量方差201、能量202两个单元寻找音频流中的静音点，静音点是通过计算音频信号的能量和能量方差得到的。当音频信号的能量值小于特定阈值时，系统判定找到音频流中的静音点；当音频信号能量值的方差值小于特定阈值时，系统判定找到音频流中存在静音点，在确定音频流中存在静音点后，计算音频信号能量值的方差，当音频信号能量值的方差大于特定阈值时，确定音频流中静音段结束，至此确定找到音频流中的静音点。将已知静音点的音频流送入音频特征检测单元203，得到更细致的音频变化点。通过计算在音频流中取得相邻音频片段的差异度值，可以判定音频特征的变化点。当差异度值超过特定阈值后确定音频特征变化点存在。203单元分出的每个部分都已具有单一的声学特征，但是由于203单元对音频处理的特性，此时得到的划分会过于精细，因此需要进行分段点合并单元204。204单元会检测到相邻分段中声学特性的变化情况，如果发现相邻分段的声学特性十分相似，则判定这两个分段应该合并。分段后的音频流被送入音频流类型判断模块以判断该分段的具体类型。

音频流类型判别模块，对从音频流分段模块输出的具有单一声学特征的音频流进行分析，得到其确定的声学特征。分析的方法有两种，根据时域特征分类单元301和根据频域特征分类单元302分别根据时域和频域特征对音频流的特征进行分析。301单元通过过零率、短时能量、短时能量均方差、静音帧比、子频带能量分布中的一种时域特征或几种时域特征来判断单一音频流的类型；302单元通过线性预测倒谱系数、梅尔倒谱系数中的一种时域特征或两种时域特征来判断单一音频流的类型。这两个单元是并行处理音频流的，两个单元输出的结果经过置信度的判别之后合并，由此确定声学特征的类型。具有单一声学特性的音频流经过301和302两个单元的判别，其声学特性会被确定。在本发明的系统中的语音流分析模块，主要对语音流部分进行分析，非语音流部分在音频流类型判别模块被抛弃。语音流被送入语音流分析模块进行内容的分析与识别。

语音流分析模块，对音频流类型判别模块判别出的声学特征为语音的音频流进行识别得到拼音图。语音分析主要基于分帧后的特征矢量分析，因此，从音频流类型判别模块输入的语音流首先进入特征矢量序列提取单元401，得到可以代表该语音流的特征矢量序列。在模型匹配单元402，该特征矢量序列和拼音的声学模型进行匹配，对各个候选拼音序列分别计算拼音的匹配距离。加入拼音间统计依存关系单元403后，拼音序列的匹配距离被重新计算，得到多候选拼音构成的拼音图。此时的拼音图还停留在初化拼音图404的阶段。对粗化拼音图进行自适应修正和平滑修正后，便可以得到细化拼音图405。405单元被存储，至此对语音流的分析过程结束。

基于拼音序列的关键词检索模块，对语音流分析模块得到的拼音图进行检索。被检索的拼音序列单元502和单元405同时送入置信度计算单元501，对被检索的拼音序列进行置信度的计算。置信度的计算是利用前后向算法，计算拼音串的后验概率，根据事先设定的置信度门限判断该音频片段中是否出现被检索的拼音序列。如果存在该拼音序列，501单元可以得到该关键词在音频流中的位置。

视频字幕内容分析系统，对视频流包含的字幕信息进行分析处理，自动提取出字幕文本信息并以此形成基于内容的视频特征元数据描述。见图6，系统自动化地对海量视频节目进行分类和管理，改变传统视频节目的手工存库/检索模式，减轻人类对海量视频数据进行人工注解关键字的劳动程度。系统由如下部件组成：字幕分析任务调度模块，主要提供与视频分析调度服务器交互的接口和提供本地视频文件字幕分析的接口；视频播放模块，主要提供视频文件播放和视频流实时播放功能；复杂背景去除模块，主要用来将视频图像复杂背景去除，以减少背景对字幕信息的干扰；视频字幕自动检测定位模块主要完成对视频流中的字幕进行快速检测定位和提取；字幕自适应分割模块主要对提取出来的字幕进行字符块分割和处理，以便于OCR识别，获取视频文本元数据；视频内容描述模块主要实现用OCR识别出来的文本信息形成XML文档，以形成对基于内容的视频文本元数据描述；用户界面，用来显示分析提取出来的视频字幕信息以及其他系统信息，其中它包括视频播放界面、提取包含字幕的视频帧界面、字幕信息界面、任务调度信息界面和控制单元。

系统提供基于任务调度服务器的视频字幕分析和本地视频文件字幕分析功能。在任务调度信息界面区域显示与上层任务调度服务器的交互信息，包括任务内容和状态信息、待分析视频信息以及与任务调度服务器端通信状态等相关信息。在任务调度信息界面区域显示本地视频字幕分析任务信息，包括任务内容和状态信息和待分析视频信息。系统能提供对待分析实时视频码流的解码和待分析本地视频文件的解码功能，并能在视频播放界面上回放显示。系统提供将后台分析处理得到的包含字幕视频帧信息同步地显示在字幕帧界面区域的功能。在字幕视频帧界面中可以动态显示多幅字幕视频帧信息。

系统提供将后台分析处理得到的当前字幕识别得到的文本信息同步地显示在字幕信息界面区域的功能。在字幕信息界面中可以实时显示当前字幕视频帧的文本信息及其对应的时间位置或帧序号。

系统提供视频字幕特征元数据描述功能，通过标准的XML格式以一种适于视频结构化描述的组织形式表述出来，将视频帧、场景帧和镜头帧信息与其相应的文本信息对应起来，形成对基于内容的视频文本元数据描述。视频融合分析系统旨在提供一个控制系统，该系统可以适用于基于内容的视频分析和融合，可以有效的控制视频分析的各个服务器，使其正常运转。

为了实现这些目的和其他优点并根据本发明的目的，如这里所列举和广泛描述的一样，根据本发明的基于内容的视频分析融合系统如图7所示，包括以下几个部分：融合管理单元、结果审核单元、集中控制单元、设备管理单元、核心数据库和基本信息配置单元。

融合管理单元的主要功能是处理视频分析、音频分析、字幕分析的结果，对各个结果进行整合、优化，并且将生成结果审核、入库；结果审核单元的主要功能是将经过融合的分析结果显示在界面上，并且为用户提供增加、删除、平移场景和镜头的操作，使用户能够人工对场景镜头进行修改，然后再将用户修改的结果保存起来；集中控制单元的主要功能是监视元数据库是否有新的文件产生、管理所有的任务按照分析、融合、审核、入库的流程进行；设备管理单元的主要功能是监视各个相关设备的状态，相关设备包括：视频分析服务器、音频分析服务器、字幕分析服务器、视频元数据库、音频元数据库、图片元数据库、视频特征数据库、音频特征数据库、字幕特征数据库、视频特征FTP服务器、音频特征FTP服务器、字幕特征FTP服务器、临时文件FTP服务器、流媒体服务器；核心数据库存储视频分析融合系统的所有的基本视频信息、基本任务信息、文件状态信息、访问元数据库信息；基本信息配置单元的主要功能是管理视频分析融合系统所必须的参数，包括各个数据库的用户信息、各个FTP服务器的用户信息、各个任务的基本配置信息等。

视频检索服务器在于实现一个可以基于视频节目内容信息进行视频检索的系统。对于这套系统，要求它不但能向后兼容传统的基于文字等基本信息的检索，还要提供以下检索功能：

1.基于图片的检索。

系统用户给出一张图片作为检索条件，图片中可能含有用户感兴趣的情景、人物或建筑。

检索系统要在数据库中寻找与上述检索条件图片相匹配，即匹配度达到一定门限的关键帧图片，并将这些关键帧所在的视频节目片段返回给用户。

检索系统在检索时，可能根据检索条件图像的整体特征，如整个图片的颜色、纹理、形状等，进行检索。也可能是根据检索条件图像的局部特征，如图像中出现的人物(人脸识别)、建筑物、自然景物等，进行检索。甚至还可以根据检索条件图像中物体的运动特征进行检索。

2.基于一个视频片段的检索

系统用户给出一个视频片段作为检索条件，这个片段通常比较短小，可能是用户感兴趣的那个目标视频节目的宣传片或片段。

检索系统则首先将用户给出的视频片段进行分析，抽取出它的关键帧，然后用这些关键帧的特征数据作为检索条件对数据库进行检索。

与单纯的图像检索不同，从用户提供的视频片段中抽取的各个关键帧图像之间具有一定的关联，因为他们来自同一个视频。所以在对检索结果进行处理时，要考虑到这种相关性。保证返回给用户的检索结果，是与用户检索条件匹配的视频片段，而非多个独立的、无关联的帧。

对于1和2，考虑到视频关键帧特征数据量的庞大，要为特征数据建立索引。

与传统的文本内容的索引不同，视频特征数据索引要对高维的视频特征向量进行索引。高维特征向量索引的基本思想是聚类。即把“相似”的特征向量分成一类，以减少以后检索时进行比对的次数。

3.基于用户在线语音的检索。

系统用户使用麦克风在线的口述一个或多个检索关键词。在客户端，计算机软件将对用户的语音做简单的分析，将其语音信号转换成检索系统需要的形式，然后交给检索系统执行实际检索。

检索系统在得到上述检索条件后，将对语音检索集群进行检索。找到与之匹配程度达到一定门限的语音片段，并将这些语音片段所在的视频节目片段返回给用户。

考虑到语音特征数据量的庞大和检索的精确度，将语音检索系统设计成一个分布式的检索集群。采用高速缓存策略提高检索的速度。

4.基于一个语音片段的检索。

系统用户给出一段语音文件，如wav格式，其中的内容是一段语音。计算机软件将对用户给出的语音文件做简单的分析，将其语音信号转换成检索系统需要的形式，然后交给检索系统执行实际检索。

同样，考虑到语音特征数据量的庞大和检索的精确度，将语音检索系统设计成一个分布式的检索集群。采用高速缓存策略提高检索的速度。

5.基于字幕信息的检索

对于系统用户来说，这种检索方式与传统检索方式没有直观上的不同。用户仍然是手工键入文本形式的检索条件。这些条件被发送给检索系统。

检索系统的工作方式也和传统检索系统相似。只不过，检索的目标是字幕数据库，而字幕数据库中的内容并非来自人工的录入，而是字幕分析模块处理视频节目的结果。

视频节目的数量可能是海量的，同时每部节目内的字幕信息量也非常庞大。因此，整个字幕数据库的内容就更是海量的了。为此要为字幕信息也建立索引，提高检索效率。

6.综合检索

例如，当用户给出文字检索条件时，检索系统会综合检索元数据库、字幕数据库，甚至将文字变成拼音，去检索语音数据库。

该系统的结构图如附图8所示。系统分为如下几个模块。

1.元数据检索服务器；

元数据是在制作节目时人工填写的文字信息，用来刻画视频节目的题目、导演、演员、产地、简介等内容信息，以及帧率、分辨率、点播费用、是否需要DRM验证等特征数据。

这一部分是整个系统中唯一需要人工参与的模块。在人工填写好这些数据后，将其录入到元数据库中。在执行简单的元数据查询，或执行基于内容查询后需要搜索结果的相关信息时，都要向元数据检索服务器发出检索请求、对元数据库进行查询。

2.字幕检索服务器；

得到字幕特征数据就是视频节目中出现过的字幕文本。在字幕分析时，将这些文本及其出现处所属的场景和镜头的开始和结束时间保存为指定格式的XML文件，并录入到字幕数据库中。

字幕检索服务器的检索模块结构如附图9所示。由搜索调度服务器发来的检索条件是一个字符串，其中包含若干个检索条件，用指定分隔符分隔。

首先，要提取出不同的检索条件，并按照以后检索程序的要求将他们连接成指定模式的逻辑表达式。然后，根据这个表达式对字幕数据库中的视频节目字幕XML文件进行过滤，将文件中包含检索条件的节目挑选出来。最后，在选出来的文件中定位检索条件，找到该条件出现处所属场景和镜头的时间信息。

3.视频检索集群；

鉴于视频关键帧的特征数据量庞大，为了保证响应时间，将视频检索模块设计成一个检索集群。该集群包含视频场景和视频检索两个服务器。虽然视频特征数据在录入数据库时也是以XML文件的形式存放的，但是为了提高检索效率，会将所有的视频关键帧进行索引。

索引采用基于R树的高维向量索引技术，其基本思想是：定义两个图像特征数据之间的距离，将相互距离在指定范围内的图像划分为一个聚类，即把“相似”的图像分成一类。

在进行检索时，只检索索引，计算检索条件与每个聚类之间的“最小距离”和“最大距离的最小值”，根据这两个特征值淘汰掉那些与检索条件图像差的很远的聚类。最后，只计算未被淘汰的聚类内的图像与检索条件图像之间的距离，并排序返回。这样，就大大减少了参与比较的图像数量和计算的次数，提高了检索的速度。在视频检索集群的两台服务器中，都用上述索引来表示视频节目的关键帧图像。两台服务器的协作方式如附图9所示。

(1)视频场景检索服务器：

这里存放所有视频场景关键帧聚类。因为在一个视频节目中，场景关键帧的数量要比总关键帧数量少一个数量级，而场景关键帧本身也具有很强的代表性，所以，首先对场景关键帧进行检索，这样可以提高检索速度。

(2)视频检索服务器：

这里存放有所有场景和镜头关键帧的聚类。当只检索场景关键帧得不到满足一定要求的检索结果时，要对所有关键帧进行检索，以得到真正匹配的结果。视频关键帧的匹配算法是一个模糊匹配算法。即数据库中的关键帧与检索条件图像的匹配程度只要达到一定的门限即可被接受。

4.语音检索集群；

在对视频节目的语音进行分析时，将得到语音的拼音图，通过搜索拼音图可以获得节目中出现过哪些话。但是，一个30分钟左右的节目的语音信息需要600幅以上的拼音图加以刻画，而拼音图的搜索速度本身也不高，因此，为了保证检索系统的检索速度，将语音检索部分设计为一个检索集群，包括语音缓存检索、语音最优化检索和语音拼音图检索三个检索服务器。

这三台服务器保证了用户可以快速的检索到那些“经常被访问”的语音信息，即语音缓存中的信息。当语音缓存中不存在所需信息时，检索语音最优化服务器中的内容，即从少量较优的语音分析结果中检索。同时，检索服务器的后台程序将使用用户检索过的那些条件对语音拼音图进行离线的全面检索，并将得到的结果更新到缓存中。这样，就提高了此后用户的检索速度。分布式语音检索系统的目的在于实现一个可以基于语音内容信息进行语音检索的系统。系统组织成一个检索集群，以保证检索速度。

该系统的结构图如附图11所示。系统分为如下几个模块。模块间的合作关系如图12所示。

1.语音缓存检索服务器；

语音缓存检索服务器负责检索语音缓存，并更新缓存内关键词被访问的次数。语音缓存中存放的是被用户使用次数最多的关键词。初始，语音缓存中是空的。当用户发出检索请求后，首先执行对语音缓存的检索。如果缓存中某些条目的关键词字段与用户的检索条件关键词匹配，则将这些条目返回给用户，并更新这些条目的访问次数字段。

如果语音缓存内没有与用户检索条件关键词匹配的条目，则要检索语音最优化数据库。同时，把这个在缓存中检索不到的关键词插入到队列表中。

2.语音最优化检索服务器；

语音最优化检索服务器的数据库中存放的是最优拼音字符串。在对一个语音文件进行分析后，会得到对应于各段语音的拼音图。然后，对拼音图执行图搜索算法，得到后验概率最高的若干拼音串，并将它们保存在XML文件中录入语音最优化数据库。

当无法从语音缓存中检索到用户给出的关键词时，要检索语音最优化数据库。如果仍然得不到检索结果，则此次检索失败。为了提高语音最优化检索的速度，要对此处存放的XML文档进行索引。只对XML中最有价值的部分，即拼音串部分，进行索引。使用XML的分段索引。

3.语音拼音图检索服务器；

语音拼音图检索服务器的数据库中存放的是语音文件的拼音图信息。语音拼音图是对一段语音信息最全面的记录。但是，信息完整的代价就是大量的存储空间和低下的搜索效率。如果在数据库中保存拼音图的信息(图的节点和弧的信息)，当需要检索一个拼音图时，再从数据库中读取这些信息交给外部的图搜索算法，则大量的时间都被浪费在了数据库读取数据和外部算法解析数据的操作上。

为此，在拼音图XML文档录入数据库时，就将其中的拼音图信息提取出来，保存在一些外部文件中。此后，在需要搜索拼音图时，数据库的检索程序只需给出目标拼音图的出现位置(在哪个节目内的什么时间位置)，然后根据这些位置确定存储相应的拼音图的文件的名字，再把这个文件名告知外部图搜索程序，图搜索程序直接去使用那个文件即可。

这样，拼音图的读取操作放在了离线状态下完成，大大减少了在线操作所需的时间。

4.语音缓存条目的添加；

语音拼音图检索服务器还运行一个后台作业。该作业每隔10分钟调度一次。

作业首先远程访问语音缓存检索服务器上的队列表(这里存放有用户给出的但目前缓存中不存在的关键词)，从队列表中取出所有关键词，并在语音拼音图数据库中检索这些关键词，将检索到的结果(即关键词出现在哪个节目、所属场景的开始和结束时间、所属镜头的开始和结束时间、关键词所在语音段本身的开始和结束时间和匹配概率)添加到缓存数据库中。最后，删除队列表中的相应关键词条目。

通过上面的步骤，检索集群就离线的对用户给出的但缓存中不存在的关键词进行了全面的拼音图搜索。当此后该关键词再次被检索时，语音缓存就可以返回大量的优质的结果。

5.语音缓存的更新

当有新的语音节目被添加时，也就是新的XML文件录入数据库时，语音拼音图检索服务器还将启动一个更新操作。

该操作首先远程访问语音缓存数据库中的缓存表，得到缓存表中所有的关键词，并以这些关键词为检索条件对新录入的语音节目所对应的所有拼音图执行搜索。将搜索到的结果即关键词出现在哪个节目、所属场景的开始和结束时间、所属镜头的开始和结束时间、关键词所在语音段本身的开始和结束时间和匹配概率更新到语音缓存数据库中。

通过上面的操作，缓存中关键词的出现位置信息就可以保持最新。由于拼音图的搜索算法相对较为复杂，不能在数据库的存储过程中实现，因此使用外部高级语言程序实现拼音图搜索算法，并将其转换成动态链接库。该动态链接库中的核心搜索算法将与数据库中的函数绑定，这样，数据库内的检索程序就可以调用外部的拼音图搜索算法，使得二者可以协同工作，完成检索。

如前面所述。对于语音最优拼音串、语音拼音图、视频特征向量和字幕信息都是以XML文件的形式传递给数据库的。

1.语音最优拼音串XML文件的核心内容包括：最优拼音串内容，最优拼音串的后验概率，最优拼音串出现位置(场景、镜头、语音的开始和结束时间)。最优拼音串是按照一定的门限要求从语音拼音图中提取出的后验概率较高的拼音图搜索结果。

2.语音拼音图XML文件的核心内容包括：一段语音对应的拼音图的节点和弧信息，拼音图出现位置(场景、镜头、语音的开始和结束时间)。

3.视频特征向量XML文件的核心内容包括：一个关键帧的类别(场景或镜头)，关键帧图像的颜色矩特征数据，关键帧图像的颜色直方图特征数据，关键帧图像的纹理特征数据，关键帧所属场景、镜头的开始和结束时间，关键帧的时间点。

4.字幕XML文件的核心内容包括：字幕内容(文本格式)，字幕的出现位置(场景、镜头和这段字幕的开始和结束时间)。

在上述检索模块中使用了如下索引。

1.XML分段索引。对于字幕和语音最优化数据库，都是直接检索XML文件的，因此对XML文件中最核心内容，即语音拼音串和字幕文本，建立分段索引，以提高检索速度。

在插入、更新、删除数据库内容时，要对上述XML分段索引进行同步。每隔一段时间，要对上述XML分段索引执行优化操作。这一工作被设计为检索服务器的后台作业，每隔15天调度一次。

2.基于R树的高维向量索引。对视频关键帧特征数据(以高维向量形式表示)建立了基于R树的索引。

目前，基于R树的索引技术的研究成果很多。本系统使用“先来先索引”的思想，对先进入数据库的关键帧图像优先建立索引，而对随后入库的关键帧图像则检查它们可以被划分到已有哪一个聚类中。如果他们不属于任何已有的聚类，则用他们去依次扩展已有的聚类，扩展成功的条件是：扩展后聚类内关键帧之间的最大距离(即聚类超矩形的主对角线长度)不超过指定门限且扩展后的聚类(即聚类超矩形)不与其他已有聚类相交。

3.普通文本索引。包括元数据库的某些热点字段，如导演、演员、简介等，以及语音缓存数据库的关键词。

视频搜索调度服务器的目的在于实现一个基于视频节目内容的搜索调度系统，它是用户端和多媒体数据库之间的接口，完成接受用户搜索请求，把搜索请求调度到不同种类的多媒体数据库上，并二次处理数据库返回的结果集，按照结果集和用户输入的搜索条件的匹配程度有序的将搜索结果返回给客户端。如图10：

1、客户端软件

作为整个视频检索系统的最前端，客户端软件负责收集用户输入的查询条件，如果客户输入的是图片、视频片段或者是通过麦克风输入的声音则需要客户端软件做进一步的处理，转化为符合数据库查询接口的条件数据。

2、多媒体数据库集群

视频内容会被分解成为字幕、语音、图像、元数据，每一种媒体内容被存储在不同的数据库中，它们分别称为字幕数据库、语音数据库、图像数据库、元数据数据库。每类数据库都是由多个计算机组成的数据库集群。每类数据库的数据组织结构、存储方法、查询接口都不相同。

3、搜索条件解析模块

此模块位于搜索调度服务器的最前端，接收用户的搜索请求，如果用户的搜索请求是单类条件，所有可能的输入为一张图片(称为图像搜索)、一段语音(称为语音搜索)、一段字幕字符串(称为字母搜索)、一段视频片段(称为片段搜索)、某类元数据或者是多个类型元数据的组合(凡是只有元数据条件的都称为元数据搜索)。

对于图像搜索此模块收到并不是图像数据而是经过客户端软件处理后的图像特征值，在分析出是图像的特征值后此模块要近一步对特征值进行处理，将特征值转化为图像数据库接受的数据结构。同理对于语音条件也采用这样的处理方式。对于字幕和元数据搜索条件客户端是不做任何处理的，而是将用户在界面的输入直接发送到搜索调度服务器。此模块在识别了是字幕搜索或者是元数据搜索后会对字模和元数据进行分词处理，再生成适合字幕和元数据数据库查询接口的数据结构。对于片段搜索，客户端会抽取多个图片，再提取多个图片的特征值发送给搜索调度服务器。搜索条件解析模块识别出是片段搜索后会按照图像搜索的流程进行处理，在此模块的处理过程中一个片段搜索相当于多次图像搜索。

4、搜索条件分发模块

此模块完成从用户条件到相应数据库接口的转发工作，对于图像搜索和片段搜索条件数据被转发到图像数据库查询接口，对于语音搜索条件数据被转发到语音数据库查询接口，对于字幕搜索条件数据被转发到字幕数据库查询接口，对于元数据艘素条件数据被转发到元数据库查询接口。

5、单类条件搜索结果评分模块

1)图像搜索结果的评分算法

用户输入的图像和图像数据库中存储的图像之间的相似程度是用两幅图像之间的距离来衡量的，距离值越小则表示两幅图像越相似。但这样的表示方式在处理多类条件组合查询的时候会很不方便，因为其他种类的搜索在表示条件和结果的相似程度的时候都采用了百分比表示法，因此必须将距离转化为以百分比表示的相似度。在转化时必须设置一个槛值，凡是大于这个槛值的记过记录都被过滤掉不返回给用户，然后以这个槛值为基准对距离值做归一化处理，再减1就成为以百分比表示的相似度。

2)字幕搜索结果的评分算法

判断字幕数据库中的字幕片段所在的节目和用户希望搜到的节目之间的匹配程度的主要依据为：

A、字幕片段中是否包含完整的条件字幕串，条件字幕串在字幕片段中出现的频率为多少。

B、条件字幕串被分成多个词之后，多少个词出现在字幕片段中，每个词出现的频率为多少。

如果满足A则会得到很高的评分，完整的条件字幕串出现的频率越高则此项结果的评分也会越高，如果字幕片段中不包含完整的条件字幕串则主要考察字幕片段中包含多少个条件字幕串中的词，包含的越多则评分越高，条件字幕串中的词出现的频率越高则评分也会越高。但只要满足A标准的就肯定比满足B标准的评分高。

3)元数据搜索结果的评分算法

元数据搜索是传统的搜索方式，虽然基于内容的搜索和元数据搜索有很大不同，但它们之间并不是完全孤立的两类搜索，相反如果对节目进行人工编目，元数据的搜索效率和精度都是非常高的，基于内容的搜索如果和元数据搜索相结合则会极大的提高基于内容搜索的性能。所以在构件基于内容的视频搜索系统时，我们也把元数据搜索纳入其中。元数据类型非常多，我们这里采用了一部分能提供搜索功能的元数据项，它们是：节目的名字、导演、演员、语种、产地、类型、格式、简介。用户针对元数据的搜索包括两类，一种是全库搜索：用户输入的关键字会被用于搜索元数据库的所有元数据类型字段。这里我们采用的评分方式是首先计算针对每类元数据此结果项的评分，计算方法和字幕搜索结果的评分算法相同，再得到了针对每项元数据的评分后，我们会根据不同元数据的重要性程度对各项元数据评分加权求和，每类元数据会事先分配一个权重值(例如节目的名字对于视频搜索的重要性要高于节目的产地，节目名字的权重值当然会比产地的权重值高很多)，它是一个0到1之间的浮点数。加权求和得到的就是此结果项的最终评分。

元数据搜索的第二种形式为多类元数据项的组合搜索，比如用户指定了搜索节目的导演包含张艺谋且演员包含李连杰的节目，这就是一个包含了两类元数据的组合搜索。这类元数据的评分方法为：首先还是计算组合类型中针对每个类型元数据的评分，然后把针对单类元数据的评分加权求和，但此时选用的权重值不是原始的此类元数据的预设权重值，而要对此类元数据的预设权重值进行换算，换算的方法为以组合类型中的全部元数据类型的预设权重值的和为单位一，分别求出组合类型中每类元数据的预设权重值所占的百分比作为加权求和的权重因子。

4)语音搜索结果的评分

对于语音搜索的评分则主要依赖于语音数据库查询接口返回的相似度，我们就使用此值作为结果的评分

5)重复结果的评分算法

从数据库返回的结果中会有重复的结果的情况只存在于基于内容的搜索。之所以会产生这样的情形是由于视频内容的分解粒度和用户要求返回的视频片段粒度不一致。在构件图像、字幕、语音数据时，视频内容是以镜头为最小的单位分别存储于三类数据库中。而在客户端则要求返回的是视频场景，一个视频场景中可以包含多个视频镜头。在进行这三类搜索的时候用户的搜索条件在和数据库中的媒体数据进行匹配的时候都是以镜头单位为最小单位进行匹配查找。在返回给搜索调度服务器时也都是以镜头为单位的结果。这就要求我们在面对同一场景的多个镜头结果时只生成一个场景结果。

场景结果的评分主要依赖于多个镜头结果评分中的最高分和同一场景中出现的镜头结果个数，我们会挑选出镜头结果中的最高分，并以它作为场景结果评分的基准再进一步调整。在调整的算法中属于同一个场景的镜头结果数越多场景结果的评分也会越高。我们会预先设定三个值，它们分别是图像重复结果预设权重、语音重复结果预设权重、字幕重复结果预设权重。调整算法对除了最高评分外的不同镜头结果评分乘上重复结果的权重值，然后对这些值求和，最再将这个和加上最高评分就得到了场景结果的最终评分。

6、多类条件组合查询结果融合、评分模块

基于内容的视频搜索的最大特点就是根据多类媒体内容条件搜索视频内容，利用属于同一视频内容的多类媒体内容的内在联系以及不同媒体内容反应的信息量的不同可以极大的提高视频搜索的效率和精度。所以在视频搜索的时候客户端会发送多种类型的检索条件的组合到调度服务器，图像、语音、字幕、元数据这几类媒体内容可以任意组合。为了能灵活的处理这样的情况，我们根据经验给每类媒体预设了一个权重值，所有的权重值相加得1，每个权重值为0到1的浮点数。很多时候搜索条件的类型不是包含所有的媒体类型，所以不能直接使用预设的权重值来计算最后结果的评分，必须再对预设的权重值做一次变换，目的是要体现本次搜索不同媒体类型对结果的影响。具体做法为将本次搜索包含的媒体条件的权重值做归一化处理，例如元数据的预设权重为0.6，图像的预设权重值为0.2，则元数据的归一化权重为0.6/(0.6+0.2)＝0.75，图像的归一化权重为0.25。

7、搜索结果生成模块

在最终结果评分完成后要进行的工作就是对最终结果集按照评分的降序排序，对于图像、语音、字幕、部分元数据搜索由于多媒体数据库没能给出完整的节目介绍信息，所有还要根据节目ID再反查元数据库来生成最终的结果，这样用户才能完整的了解这个节目是不是他需要的。

应该理解，本发明的前面的一般描述和随后的详细描述都是示范性和解释性的，目的是提供所要求的发明的进一步解释。

附图说明

附图提供本发明的一种更深入的理解，是本申请的整体的一部分，根据本发明的具体实施用例，并与说明书一起用于解释本发明的原理。图中：

图1：基于内容的视频搜索系统框图

图2：基于内容的视频搜索系统结构图

图3：视频内容分析系统框图

图4：视频内容分析模块的子模块结构图

图5：基于内容的自动音频分析系统框图

图6：视频字幕分析系统功能结构图

图7：视频分析融合系统结构图

图8：基于内容的视频检索系统结构图

图9：字幕检索流程图

图10：视频搜索调度系统框图

图11：基于内容的语音检索系统结构图

图12：基于内容的语音检索流程图

具体实施方式

如图1、2所示，基于内容的视频搜索系统由视频内容分析、语音分析、字幕分析和融合分析等视频分析服务器集群以及元数据检索、分布式语音检索、字幕检索、视频检索和视频搜索调度服务器等视频检索服务器集群组成。

如图3所示，视频内容分析子系统包含视频流获取模块、视频内容分析模块、视频内容分析结果审核模块、输入接口、输出接口、任务调度模块和用户界面。

系统通过输入接口接收视频分析命令，接收方式有两种：通过网络TCP连接从视频融合分析服务器接收视频分析命令和从本地获取用户的视频分析命令。其中视频融合分析服务器是视频分析的总体调度服务器，用于分发视频分析指令。

如图5所示，对于音频分析系统来说，音频流获取模块是整个音频分析的基础，是对数据进行预处理的过程。解码器会针对不同的音频流来源采取不同的解码方式。通过音频流获取模块后，各种不同来源的音频流都被统一成一种格式，该统一格式的音频流具有相同的采样频率和采样位数，并且只包含有数字化的音频本身的信息。

通过能量的高低来判断静音点是否存在是最容易实现的一种方式，在音频分段模块中，我们使用能量作为判断静音点的依据之一。检测音频特性的变化点的本质是计算两个模型之间的距离。首先将音频信号用声学特征矢量进行建模，然后计算两个相邻窗之间声学特征矢量的距离。直接计算声学特征矢量的距离是难以进行的，因此需要采取间接的方式。

如图6所示，视频字幕内容分析系统实现了视频流解码、复杂背景去除、字幕帧自动探测、字幕区域自动定位提取、字幕区域字符自适应分割、OCR识别、字幕特征元数据XML生成等工作。

字幕帧的自动检测和字幕区域自动定位提取由字幕自动检测定位模块完成。该模块首先将彩色视频图像进行灰度变化，通过亮度信息边缘检测、水平和垂直形状投影、由粗到精的定位，并辅之以字幕文本区域预测、长宽比、前背景亮度对比等先验知识最终完成字幕文本的自动化探测定位和提取。

提取字幕区域后，需要将其进行预处理并对单个字符进行切分，才能提交OCR识别。视频字幕自适应分割模块是根据对复杂背景下字符的特性研究分析后，通过采用区域动态局部阈值法对字幕区域二值化，同时进行侯选区域增强和重采样，在一定程度滤除了复杂背景对文字信息的干扰，也提高了文字的分辨率。通过区域垂直投影法探测准则对孤立噪声进行滤除，对粘连字符进行自适应分裂，对断裂字符进行自适应合并，最终完成单个字符的分割。

当单个字符分割完成后，采用成熟的OCR识别技术对单个字符进行识别，得到相应的文字信息，最终获取该字幕帧的文本信息。分析任务结束后，将任务结束状态通知上层视频分析调度服务器，并且由文件上传模块将相应的视频字幕元数据描述XML文件上传至字幕特征FTP服务器。

如图7所示，视频分析融合系统将每一个经过转码并且在视频元数据库中生成记录的文件作为一个任务，以该文件在元数据库中的ID值来标识任务。每个任务有可能有以下几种状态：未处理状态、正分析状态(开始视频分析状态、开始音频分析状态、开始字幕分析状态、视频分析结束状态、音频分析结束状态、字幕分析结束状态)、可融合状态、可审核状态、可入库状态、处理完成状态。对于每个任务的处理也需要严格按照分析、融合、审核、入库流程进行，换句话说，每个任务必须经过未处理状态、正分析状态、可融合状态、可审核状态、可入库状态、处理完成状态才能完成整个的视频分析流程。

分布式语音检索系统如图11所示，分为如下几个模块：

1.语音缓存检索服务器；

语音缓存检索服务器负责检索语音缓存，并更新缓存内关键词被访问的次数。

2.语音最优化检索服务器；

3.语音拼音图检索服务器；

语音拼音图检索服务器的数据库中存放的是语音文件的拼音图信息。语音拼音图是对一段语音信息最全面的记录。但是，信息完整的代价就是大量的存储空间和低下的搜索效率。为此，在拼音图XML文档录入数据库时，就将其中的拼音图信息提取出来，保存在一些外部文件中。此后，在需要搜索拼音图时，数据库的检索程序只需给出目标拼音图的出现位置，然后根据这些位置确定存储相应的拼音图的文件的名字，再把这个文件名告知外部图搜索程序，图搜索程序直接去使用那个文件即可。

基于内容的视频检索子系统的结构图如附图8所示。系统分为如下几个模块。

1.元数据检索服务器；

2.字幕检索服务器；

3.视频检索集群；

鉴于视频关键帧的特征数据量庞大，为了保证响应时间，将视频检索模块设计成一个检索集群。该集群包含视频场景和视频检索两个服务器。

4.语音检索集群；

在对视频节目的语音进行分析时，将得到语音的拼音图，通过搜索拼音图可以获得节目中出现过哪些话。为了保证检索系统的检索速度，将语音检索部分设计为一个检索集群，包括语音缓存检索、语音最优化检索和语音拼音图检索三个检索服务器。

关于这一部分的详细说明，请参见专利《分布式语音检索系统》。

如图10所示，基于内容的视频搜索调度服务器以下模块组成：

1、网络模块

客户端的搜索请求和查询所得的最终结果集都要通过网络模块来接收和发送，客户端和搜索调度系统之间定义了一套报文格式用于通信。

2、数据库查询模块

视频内容会被分解成为字幕、语音、图像、元数据，每一种媒体内容被存储在不同的数据库中，它们分别称为字幕数据库、语音数据库、图像数据库、元数据数据库。每类数据库都是由多个计算机组成的数据库集群。每类数据库的数据组织结构、存储方法、查询接口都不相同。此模块封装了各类多媒体数据库的查询接口，并提供统一的接口给上层的调用模块。

3、搜索条件解析模块

此模块位于搜索调度系统的最前端，接收用户的搜索请求，如果用户的搜索请求是单类条件，所有可能的输入为一张图片(称为图像搜索)、一段语音(称为语音搜索)、一段字幕字符串(称为字幕搜索)、一段视频片段(称为片段搜索)、某类元数据或者是多个类型元数据的组合(凡是只有元数据条件的都称为元数据搜索)。

4、搜索条件分发模块

此模块完成从用户条件到相应数据库接口的转发工作。对于图像搜索和片段搜索，条件数据被转发到图像数据库查询接口；对于语音搜索，条件数据被转发到语音数据库查询接口；对于字幕搜索，条件数据被转发到字幕数据库查询接口；对于元数据搜索，条件数据被转发到元数据库查询接口。

5、评分策略模块

此模块保存了对结果进行评分时需要的各种参数和系统运行模式的各种参数，主要包括了4类参数。前3类是和评分相关的，第4类是和运行模式相关的。这些参数在系统启动的时候从配置文件中读入，这样做提高了系统的可配置性，在系统运行的过程中通过向系统发命令也可以改变运行参数。

6、单类条件搜索结果评分模块

1)图像搜索结果的评分算法

用户输入的图像和图像数据库中存储的图像之间的相似程度是用两幅图像之间的距离来衡量的，距离值越小则表示两幅图像越相似。

2)字幕搜索结果的评分算法

完整的条件字幕串出现的频率越高则此项结果的评分也会越高，如果字幕片段中不包含完整的条件字幕串则主要考察字幕片段中包含多少个条件字幕串中的词，包含的越多则评分越高，条件字幕串中的词出现的频率越高则评分也会越高。

3)元数据搜索结果的评分算法

元数据类型非常多，它们是：节目的名字、节目的导演、节目的演员、节目的语种、节目的产地、节目的类型、节目的格式、节目的简介。我们采用的评分方式是首先计算针对每类元数据此结果项的评分，在得到了针对每项元数据的评分后，我们会根据不同元数据的重要性程度对各项元数据评分加权求和，加权求和得到的就是此结果项的最终评分。

4)语音搜索结果的评分

对于语音搜索的评分则主要依赖于语音数据库查询接口返回的相似度，我们就使用此值作为结果的评分。

5)镜头重复结果的评分算法

场景结果的评分主要依赖于多个镜头结果评分中的最高分和同一场景中出现的镜头结果个数。我们会挑选出镜头结果中的最高分，并以它作为场景结果评分的基准再进一步调整。在调整的算法中属于同一个场景的镜头结果数越多场景结果的评分也会越高。我们会预先设定三个值，它们分别是图像镜头重复结果预设权重值、语音镜头重复结果预设权重值、字幕镜头重复结果预设权重值。调整算法对除了最高评分外的不同镜头结果评分乘上镜头重复结果的权重值，然后对这些值求和，最后再将这个和加上最高评分就得到了场景结果的最终评分。

7、多类条件组合查询结果融合、评分模块

基于内容的视频搜索的最大特点就是根据多类媒体内容条件搜索视频内容，利用属于同一视频内容的多类媒体内容的内在联系以及不同媒体内容反映的信息量的不同可以极大的提高视频搜索的效率和精度。

8、搜索结果生成模块

在最终结果评分完成后要进行的工作就是对最终结果集按照评分的降序排序，对于图像、语音、字幕、部分元数据搜索由于多媒体数据库没能给出完整的节目介绍信息，所以还要根据节目ID再反查元数据库来生成最终的结果，这样用户才能完整的了解这个节目是不是他需要的。

Claims

1.一个基于内容的视频搜索系统，其特征在于：包括：

一个视频内容分析系统，用于对视频结构化信息、关键帧图片的分析和提取；

一个语音内容分析系统，用于音频分类、语音提取和识别、拼音图生成；

一个字幕内容分析系统，用于字幕的提取和识别；

一个视频分析融合系统，用于将视频、语音、字幕分析系统得到的信息进行融合，从而形成供视频检索系统使用的节目内容信息，如视频结构化信息、语音信息和文字信息；

一个视频搜索调度系统，用于接受用户查询请求，分析用户的请求并将该请求依据一定策略分发到不同的检索服务器上；对于返回的结果，该系统会依据一定策略进行打分，并按照一定的优先级顺序返回给用户；

一个元数据检索服务器，用来对视频节目的元数据进行检索；

一个基于内容的视频检索系统，用于保存视频结构化信息、关键帧、语音、字幕等关键信息，以及作为信息检索使用；

一个分布式语音检索系统，用于对视频节目对应的语音拼音图进行保存、检索，对拼音图中后验概率最高的语音字符串进行保存、检索，以及用于缓存条目生成、更新和替换的程序包。

2.如权利要求1所述的基于内容的视频搜索系统，其特征在于：视频内容分析系统，可分析提取出视频镜头、场景、镜头关键帧、场景关键帧、关键帧图像信息、人脸信息等视频信息的视频内容自动分析系统，满足不同的基于内容的检索需求。该系统包括：

一个输入接口，用于接收视频内容分析指令；

一个任务调度模块，用于调度视频分析任务的执行顺序；

一个视频流获取模块，用于依据一定解码规则从外部视频源获取视频流；

一个视频内容分析模块，用于视频内容结构化分析，其中包括七个子模块：镜头分割子模块、镜头关键帧提取子模块、场景分割子模块、场景关键帧提取子模块、关键帧图像分析子模块、人脸分析子模块；

一个视频内容结构化信息审核模块，用于审核视频内容分析模块产生的结果是否有误差，并能够对产生误差的地方进行人工修改；

一个输出接口，用于将视频内容分析结果上传到视频信息数据库；

用户界面，包括一个视频内容分析过程界面和一个视频内容分析结果审核界面。用于在视频内容分析过程中显示分析进度、分析状态和分析结果，同时用户可以通过界面修改视频内容分析的结果；

与其他相关系统的接口：与视频融合分析服务器的接口、与视频信息数据库的接口。

3.如权利要求2所述的基于内容的视频搜索系统，其特征在于：输入接口，既可以接收用户的分析本地视频命令，也可以通过网络连接接收来自视频融合分析服务器的视频分析命令。

4.如权利要求2所述的基于内容的视频搜索系统，其特征在于：视频内容分析模块，镜头分割子模块，能够完成突变和渐变两种镜头的分割；镜头关键帧提取子模块根据视频镜头分割子模块的结果，对镜头内的关键帧进行聚类分析，产生能够代表镜头信息的关键帧。

5.如权利要求2所述的基于内容的视频搜索系统，其特征在于：视频内容分析模块，其中的场景分割子模块包括两种算法，针对新闻视频的基于主持人镜头的场景分割算法和针对故事片视频的基于镜头聚类的场景分割算法。

6.如权利要求2所述的基于内容的视频搜索系统，其特征在于：视频内容分析模块，其中的场景关键帧提取子模块根据场景分割子模块的结果，选取场景中包含的镜头的关键帧，进行聚类分析，产生代表场景信息的关键帧。

7.如权利要求2所述的基于内容的视频搜索系统，其特征在于：视频内容分析模块，其中的关键帧图像分析子模块，对提取出来的视频镜头关键帧和视频场景关键帧图像进行颜色、纹理和形状三种特征的信息提取。

8.如权利要求2所述的基于内容的视频搜索系统，其特征在于：视频内容分析模块，其中的人脸分析子模块，对视频帧、视频镜头关键帧和视频场景关键帧进行人脸检测和人脸识别，为视频内容结构化提供索引信息。

9.如权利要求5所述的基于内容的视频搜索系统，其特征在于：场景分割子模块，其中的针对新闻视频的基于主持人镜头的场景分割算法，包含镜头持续时间分析、镜头视频帧直方图距离变化的方差分析、镜头关键帧人脸检测和镜头关键帧人脸识别算法。

10.如权利要求1所述的基于内容的视频搜索系统，其特征在于：语音内容分析系统，用以通过对音频信号的分析，满足不同的基于内容的检索需求，该系统包括：

一个音频流获取模块，用以依据一定解码规则从外部音频源获取音频流；

一个音频流分段模块，用以对从音频流获取模块获取的音频流进行分段，使得分段后的每个部分具有单一的声学特征；

一个音频流类型判别模块，用以对从音频流分段模块输出的具有单一声学特征的音频流进行分析，得到其确定的声学特征；

一个语音流分析模块，用以对音频流类型判别模块判别出的声学特征为语音的音频流进行识别得到拼音图；

一个基于拼音序列的关键词检索模块，用以对语音流分析模块得到的拼音图进行检索，对感兴趣的关键词，得到该关键词在音频流中的位置。

11.如权利要求10所述的基于内容的视频搜索系统，其特征在于：音频流分段模块，包括三个子模块：检测静音点子模块；检测音频特征变换点子模块；分段点置信度判断子模块。

12.如权利要求11所述的基于内容的视频搜索系统，其特征在于：检测静音点子模块通过从音频流中检测静音点以对音频流进行分段；音频信号的静音点，是通过计算音频信号的能量值得到的；当音频信号的能量值小于特定阈值时，确定找到音频流中的静音点。

13.如权利要求11所述的基于内容的视频搜索系统，其特征在于：检测静音点子模块，其中音频信号能量值的阈值，是通过对一完整音频信号片段的能量值估计得到的；音频信号的静音点，还是通过计算音频信号能量值的方差值得到的；当音频信号能量值的方差值小于特定阈值时，确定音频流中存在静音点；在确定音频流中存在静音点后，计算音频信号能量值的方差，当音频信号能量值的方差大于特定阈值时，确定音频流中静音段结束，确定找到音频流中的静音点；音频信号能量值的方差值的阈值，是通过对一完整音频信号片段的能量值的方差值估计得到的。

14.如权利要求1所述的基于内容的视频搜索系统，其特征在于：字幕内容分析系统，包括：

一个字幕分析任务调度模块，主要提供与视频分析调度服务器交互的接口和提供本地视频文件字幕分析的接口；

一个视频播放模块，主要提供视频文件播放和视频流实时播放功能；

一个复杂背景去除模块，主要用来将视频图像复杂背景去除，以减少背景对字幕信息的干扰；

一个字幕自动检测定位模块，主要用来检测视频流中有无字幕信息并准确定位字幕区域在整个视频中的位置；

一个字幕自适应分割模块，主要对视频字幕区域中的字符进行自适应的分割以形成单一字符，并对其进行相应的预处理，便于OCR识别；

一个视频文本信息内容描述模块，主要将OCR识别出来的视频文本信息通过XML文档的形式以形成对基于内容的视频文本元数据描述；

一个用户界面，用来显示分析提取出来的视频字幕信息以及其他信息，其中它包括视频播放界面、提取包含字幕的视频帧界面、字幕信息界面、任务调度信息界面和控制单元；

15.如权利要求14所述的基于内容的视频搜索系统，其特征在于：字幕内容分析系统，其中的复杂背景去除模块，通过对视频图像中复杂背景进行滤波处理，同时增强字幕区域的图像信息。

16.如权利要求14所述的基于内容的视频搜索系统，其特征在于：字幕内容分析系统，其中的字幕自动检测定位模块，通过灰度变化，亮度信息边缘检测、水平和垂直形状投影、由粗到精的定位，并辅之以字幕文本区域预测、长宽比、前背景亮度对比等先验知识最终完成字幕文本的自动化探测定位。

17.如权利要求14所述的基于内容的视频搜索系统，其特征在于：字幕内容分析系统，其中的视频字幕自适应分割模块，通过对字幕区域动态局部阈值二值化，侯选区域增强、垂直投影区域探测完成单个字符的自适应分割。

18.如权利要求14所述的基于内容的视频搜索系统，其特征在于：字幕内容分析系统，其中的视频字幕自适应分割模块，将分割得到单个字符通过OCR识别得到当前视频帧相关的文本信息。

19.如权利要求1所述的基于内容的视频搜索系统，其特征在于：视频分析融合系统，包括：

一个融合管理单元，主要是将视频、音频、字幕分析的结果进行提取、优化、融合，进而进行审核、入库；

一个结果审核单元，将视频、音频、字幕分析的结果进行显示，并且为用户提供接口，使用户通过插入、删除、平移等操作对分析结果进行修改、细化；

一个核心数据库，以保存整个系统所需要处理的管理任务以及系统的基本配置信息；

一个设备管理单元，主要监视视频分析服务器、音频分析服务器、字幕分析服务器、元数据库、特征数据库、流媒体FTP服务器、临时文件FTP服务器设备的状态；

一个集中控制单元，主要是对整个视频分析系统进行控制，集中发布命令；

一个基本信息配置单元，主要对整个系统的基本信息进行配置。

20.如权利要求19所述的基于内容的视频搜索系统，其特征在于：视频分析融合系统，一个视频分析文件需要经过视频分析、音频分析、字幕分析、人脸分析四种分析以及分析、融合、审核、入库四个步骤才能够进入到特征分析数据库。

21.如权利要求1所示的基于内容的视频搜索系统，其特征在于：

包括：

一个元数据检索服务器，根据搜索调度服务器的要求对视频节目的元数据进行检索；

一个字幕检索服务器，用来对存放节目字幕文本的XML文件进行检索；

一个视频检索集群，用来对视频关键帧的特征数据进行检索；

一个语音检索集群，用来对视频节目的语音信息，包括拼音串和拼音图进行检索；

一个面向用户的搜索接口：按照约定的报文格式接收用户的搜索请求并返回搜索结果。

22.如权利要求21所述的基于内容的视频搜索系统，其特征在于：元数据检索服务器，其中的元数据表包含节目ID，节目名称，导演，演员，语言，产地，类型1，类型2，文件格式，文件大小，长度，屏幕宽度，屏幕高度，节目地址，节目文件名，上载时间，上载地址，上载状态，是否必审，节目级别，审查标志，节目价格，节目简介，封杀标志字段；其中的元数据检索模块包含一个根据节目ID来检索节目的存储过程、一个根据组合条件来检索节目的存储过程；其中的元数据录入模块包含一个将指定元数据信息插入数据库表的存储过程。

23.如权利要求21所述的基于内容的视频搜索系统，其特征在于：字幕检索服务器，其中包括一个用来存储字幕XML文件的数据库表，一个用于存储服务器相关配置信息的表，一个读取配置信息的存储过程，一个用于XML检索的存储过程，一个用于向数据库录入XML文件的存储过程和一个XML的分段索引。

24.如权利要求1所述的基于内容的视频搜索系统，其特征在于：视频搜索调度系统，包括：

一个搜索条件解析模块；

一个搜索条件分发模块；

一个评分策略模块；

一个单类条件搜索结果评分模块；

一个多类条件组合查询结果融合、评分模块；

一个搜索结果生成模块。

25.如权利要求24所述的基于内容的视频搜索系统，其特征在于：搜索条件解析模块，包含了对搜索请求的分析，并生成多媒体数据库接受的查询条件。

26.如权利要求24所述的基于内容的视频搜索系统，其特征在于：搜索条件分发模块，将不同种类搜索条件生成的查询条件分发到相应的多媒体数据库查询接口。

27.如权利要求24所述的基于内容的视频搜索系统，其特征在于：评分策略模块，包含了元数据搜索时，计算这个元数据结果评分时各类元数据域的预设权重，在图像、语音、字幕搜索时出现重复结果后计算场景结果评分的重复结果预设权重，在多类条件组合搜索时计算最终结果评分时各类媒体结果的预设权重。

28.如权利要求1所述的基于内容的视频搜索系统，其特征在于：，一个分布式语音检索系统，包括：

一个语音缓存检索服务器，用于对检索次数最多的热点语音信息进行保存、检索和维护；

一个语音最优化检索服务器，用于对拼音图中后验概率最高的语音字符串进行保存、检索；

一个语音拼音图检索服务器，用于对视频节目对应的语音拼音图进行保存、检索和维护；

一个用于语音缓存数据库中热点语音信息缓存条目(以后简称缓存条目)生成、更新和替换的程序包。

29.如权利要求28所述的分布式语音检索系统，其特征在于：语音缓存检索服务器，包括一个保存缓存条目的数据库表，一个用于保存缓存访问记录的临时表，一个用于保存未检索到的关键词队列的表，一个用于检索缓存内容的存储过程，一个检索关键词的索引，一个用于更新缓存条目访问频率的后台作业，一个用于将缓存中检索不到的关键词插入处理队列的存储过程。