CN104391924A

CN104391924A - 一种混合音视频检索方法及系统

Info

Publication number: CN104391924A
Application number: CN201410668366.6A
Authority: CN
Inventors: 马展; 田海
Original assignee: NANJING XUNSIYA INFORMATION TECHNOLOGY Co Ltd
Current assignee: NANJING XUNSIYA INFORMATION TECHNOLOGY Co Ltd
Priority date: 2014-11-21
Filing date: 2014-11-21
Publication date: 2015-03-04

Abstract

本发明公开了一种混合音视频检索方法及系统，方法包括：步骤（1）将任意视频数据分解成视频序列和音频序列；步骤（2）针对视频序列，通过场景分析提取有限场景帧；步骤（3）在有限场景帧上提取特征点组成表征该场景帧的特征矢量；步骤（4）针对音频序列，通过使用音频转文字的算法，将其转换成和音频时间轴匹配的文字串；步骤（5）根据音视频同步时间轴信息将步骤（3）所述场景帧的特征矢量和步骤（4）所述文字串匹配，作为元数据附加在原始视频数据头文件，开放给上层接口检索。本发明提出一种混合音视频检索系统。本发明通过综合视频特征提取，音频转文字，文字关键字自动传递，将海量视频数据检索效率和准确性大大提高。

Description

一种混合音视频检索方法及系统

技术领域

本发明涉及一种视频文件检索技术，尤其涉及一种混合音视频的检索方法和系统。

背景技术

日前，70%乃至更多的网络传输已被海量的多媒体数据，特别是视频数据占据。而这样的趋势还在继续。这样的多媒体数据包括视频，音频，文字，以及它们的聚合体。对于这样海量的数据，如何行之有效的检索是一件非常挑战的工作。

目前的检索系统主要技术包括：

纯文字关键字检索：该技术目前最为成熟，通过匹配检索的关键字获取相关信息，已被广泛商用，例如Google, Bing, Baidu等。主要优点是快速，技术成熟，但是对于图形图像需要定义统一的规则描述其内容，难度较大。

纯图像检索：该技术通过模式识别将上传图像作为特征矢量寻找数据库中匹配或者近似的图像。Google或者Baidu已经集成了相关的技术给用户进行图片匹配检索。此外，国际标准组织ISO/IEC针对图片检索的进行了图片特征矢量标准化工作，以期通过统一的格式来传输检索图片特征。主要优点是“所见即所得”，无需再通过文字进一步描述，但是检索效率和准确率都不及文字检索。

申请号为200810062073.8的专利申请公开了一种基于音频内容检索的多媒体资源检索方法。包括如下步骤：1)预处理服务器将视频和音频转化为标准的待识别语音；2)语音识别服务器将训练语料训练成声学模型，并将待识别语音和声学模型匹配得到语意文本索引；3)索引服务器存储和组织关键词索引，并匹配检索条件得到检索结果。该发明利用音频中关键词检出技术，获得了音视频资源内在的语意信息，对文本化的语意信息进行索引，提供了全面可靠的音视频资源信息索引，可以让检索系统更准确的匹配到多媒体资源，并且定位到检索词在音视频中出现的精确位置。

申请号为201110073050.9的专利申请公开了一种多媒体信息检索的方法，首先采集音视频数据，获取音频数据的Lattice结果，根据时间点信息和匹配似然值打分信息，获得置信度打分信息，采用更强的语音模型对多候选信息进行重新排序，并给出最优识别结果，建立前向索引和后向索引，输入待检索文本和时间点信息，进入后向索引库进行查询，获得一组前向索引库的入口位置以及对应的置信度打分信息，分别进行精确匹配，根据入口个数和置信度打分信息选择置信度阈值，返回候选位置列表以及对应的音视频位置处。采用了该发明的技术方案，能够对多媒体信息进行更彻底的标注，能够更加精细、快捷地索引和定位到感兴趣的位置。

申请号为201110073048.1的专利申请公开了一种多媒体信息模糊检索方法，首先采集音视频数据，获取音频数据的Lattice结果，根据时间点信息和匹配似然值打分信息，获得置信度打分信息，采用更强的语音模型对多候选信息进行重新排序，并给出最优识别结果，建立字词级和音素级索引库，生成原始信息库，输入待检索文本和时间点信息，转成音素序列，并利用音素混淆矩阵，获得类似的音素序列，拆分成多个音素组合，分别进入后向索引库进行查询，再进入原始信息库进行精确匹配，返回候选位置。采用该发明的技术方案，能够最大限度地增加检索到的数量，并在保证系统性能的前提下，极大提高检索速度。

但是上述方案的流程比较复杂，需要消耗较多的系统资源。除去上述方法，现有的流行的检索系统中还未有结合音频特征进行检索的文献公开。

发明内容

本发明所要解决的技术问题是针对背景技术的缺陷，从多媒体数据的内在联系出发，通过分析视频，图像，音频和相关文字的特征，提出一种高效精确的多媒体检索方法。

本发明为解决上述技术问题采用以下技术方案：

一种混合音视频检索方法，包括以下步骤：

步骤（1）、将任意视频数据分解成视频序列和音频序列；所述视频序列和音频序列中均包含音视频同步时间轴信息；

步骤（2）、针对视频序列，通过场景分析提取有限场景帧；

步骤（3）、在有限场景帧上提取特征点组成表征该场景帧的特征矢量；

步骤（4）、针对音频序列，通过使用音频转文字的算法，将其转换成和音频时间轴匹配的文字串；

步骤（5）、根据音视频同步时间轴信息将步骤（3）所述场景帧的特征矢量和步骤（4）所述文字串匹配，作为元数据附加在原始视频数据头文件，开放给上层接口检索。

作为本发明的一种混合音视频检索方法进一步的优化方案，步骤（2）中，有限场景帧是使用临近帧的像素误差分布进行场景分析提取获得。

作为本发明的一种混合音视频检索方法进一步的优化方案，步骤（3）中，特征点是使用SIFT算法提取获得。

作为本发明的一种混合音视频检索方法进一步的优化方案，步骤（4）中，音频转文字的算法为TranscribeMe。

作为本发明的一种混合音视频检索方法进一步的优化方案，步骤（5）中，在检索时，通过直接图片检索将图片生成的特征矢量和头文件中视频场景帧的特征矢量匹配，输出与特征矢量对应的视频流。

作为本发明的一种混合音视频检索方法进一步的优化方案，步骤（5）中，在检索时是通过关键字检索，通过输入关键字在文字串中找到匹配点，然后从匹配点输出对应的视频流。

本发明为解决上述技术问题还提出一种混合音视频检索系统，包括：

分解单元，用于将任意视频数据分解成视频序列和音频序列；

视频特征获取单元，用于对分解出的视频序列通过场景分析提取有限场景帧，并在有限场景帧上提取特征点组成表征该场景帧的特征矢量；

音频特征获取单元，用于通过使用音频转文字的算法，将音频序列转换成和音频时间轴匹配的文字串；

匹配单元，根据音视频同步时间轴信息将视频特征获取单元获取的特征矢量和音频特征获取单元获取的文字串匹配，作为元数据附加在原始视频数据头文件。

作为本发明的一种混合音视频检索系统进一步的优化方案，还包括一检索单元，通过直接图片检索将图片生成的特征矢量和头文件中视频场景帧的特征矢量匹配，输出与特征矢量对应的视频流。

作为本发明的一种混合音视频检索系统进一步的优化方案，还包括一检索单元，通过输入关键字在文字串中找到匹配点，然后从匹配点输出对应的视频流。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明提出一种新型混合框架，通过综合视频特征提取(Video Feature Extraction)，音频转文字(Audio-to-Text)，文字关键字定位(Text Keywords Detection)等创新技术，将海量视频数据检索效率和准确性大大提高。

附图说明

图1是常见网络视频数据结构图。

图2是音频文字转化与时间轴匹配图。

图3是本发明的方法流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语（包括技术术语和科学术语）具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

如图1所示，图1 给出了常见的视频数据结构，里面包括视频图像序列（Video Frame Track）和相应的音频序列（Audio Track）。音频和视频序列在时间轴上同步，例如图中虚线框画出的音视频同步点在hh小时, mm分钟和ss秒。

由于视频图像的数据量庞大，并且整个视频理论上总是以有限个场景聚合而成。因此，本发明将分析视频图像序列，提取不同场景的代表帧来获取图像特征矢量。图1中黑色图像帧为该序列中所提取的场景帧。

如图2所示，图2给出了目前流行的音频至文字转换方法，例如TranscribeMe，转换过程中保持音视频时间轴对应关系不变。

本发明基准点着眼于现有的网络中丰富的视频和音频数据。虽然现在可以通过人为的方式对视频数据（例如YouTube）进行关键字标注，由于不可估计的庞大数据量，明显这是一个不现实的方案。但是，网络视频数据通常带有视频图像文件（Video Frame Track）和对应的音频文件（Audio Track）。而视频图像和对应的音频是该视频数据的完备描述。此外，为了利用文字检索的高效和快速，本发明将视频数据中音频文件首先进行文字转化，按照时间片分割和视频图像帧对应。一种方法是通过关键字检索，直接操作音频转化后的文字片，精确定位视频图像。另外，除去文字检索的方法，本发明还可以通过直接输入图片，检索类似或者相同的视频数据。为了达到这样的目的，本发明将视频图像提取特征，并将特征矢量化。图像特征矢量表征作为视频的描述进行检索定位。

本发明主要包括两大部分：第一部分将网络视频数据元数据提取，包括视频图像特征提取，音频文字片转换，该部分主要在服务器后代操作；第二部分是前台客户端检索，主要包括文字关键字和图片直接输入检索。

如图3所示，本发明具体实现步骤如下：

1、将任意视频数据分解成视频序列和视频序列；

2、针对视频序列，通过场景分析提取有限场景帧，场景帧的分析可以使用临近帧的像素误差分布；

3、在有限场景帧上提取特征点组成表征该场景帧的特征矢量，特征点的提取可以使用常用的SIFT算法 (也可以使用其他方法，例如SURF) ；

4、针对音频序列，通过使用音频转文字的算法，例如TranscribeMe（也可以使用其他方法，例如科大讯飞语音识别），将其转换成和音频时间轴匹配的文字串。

5、根据音视频同步时间轴信息将特征场景帧矢量和文字串匹配，作为元数据附加在原始视频数据头文件，开放给上层接口检索。

在第5步中，可以采用以下两种方式进行匹配：

A）直接图片检索可以将图片生成的特征矢量和头文件中视频场景帧矢量匹配；

B）输入关键字在文字串中找到匹配，然后从匹配点输出对应的视频流。

本发明还提出一种混合音视频检索系统，包括：

本发明的一种混合音视频检索系统还包括一检索单元，通过直接图片检索将图片生成的特征矢量和头文件中视频场景帧的特征矢量匹配，输出与特征矢量对应的视频流。也可以通过输入关键字在文字串中找到匹配点，然后从匹配点输出对应的视频流。

本技术领域技术人员可以理解的是，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来生成机器，从而通过计算机或其他可编程数据处理方法的处理器来执行的指令创建了用于实现结构图和/或框图和/或流图的框或多个框中指定的方法。

本技术领域技术人员可以理解的是，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种混合音视频检索方法，其特征在于，包括以下步骤：

步骤（2）、针对视频序列，通过场景分析提取有限场景帧；

2.根据权利要求1所述的一种混合音视频检索方法，其特征在于，步骤（2）中，有限场景帧是使用临近帧的像素误差分布进行场景分析提取获得。

3.根据权利要求1所述的一种混合音视频检索方法，其特征在于，步骤（3）中，特征点是使用SIFT算法提取获得。

4.根据权利要求1所述的一种混合音视频检索方法，其特征在于，步骤（4）中，音频转文字的算法为TranscribeMe。

5.根据权利要求1所述的一种混合音视频检索方法，其特征在于，步骤（5）中，在检索时，通过直接图片检索将图片生成的特征矢量和头文件中视频场景帧的特征矢量匹配，输出与特征矢量对应的视频流。

6.根据权利要求1所述的一种混合音视频检索方法，其特征在于，步骤（5）中，在检索时是通过关键字检索，通过输入关键字在文字串中找到匹配点，然后从匹配点输出对应的视频流。

7.一种混合音视频检索系统，其特征在于，包括：

8.根据权利要求7所述的一种混合音视频检索系统，其特征在于，还包括一检索单元，通过直接图片检索将图片生成的特征矢量和头文件中视频场景帧的特征矢量匹配，输出与特征矢量对应的视频流。

9.根据权利要求7所述的一种混合音视频检索系统，其特征在于，还包括一检索单元，通过输入关键字在文字串中找到匹配点，然后从匹配点输出对应的视频流。