CN107688571A

CN107688571A - 多元化的视频检索方法

Info

Publication number: CN107688571A
Application number: CN201610630331.2A
Authority: CN
Inventors: 刘春根; 韩欣; 应业敏; 谢赟
Original assignee: Shanghai Tak Billiton Information Technology Ltd By Share Ltd
Current assignee: Shanghai Tak Billiton Information Technology Ltd By Share Ltd
Priority date: 2016-08-04
Filing date: 2016-08-04
Publication date: 2018-02-13

Abstract

本发明公开了一种多元化的视频检索方法，本方法选择以文字、图片、音频和视频检索方式对视频进行检索；根据检索方式做相应处理，获取检索信息，文字信息直接进行视频检索，图片样本做优化处理，获取颜色、纹理及形状的特征值信息，同时获取人脸信息；音频样本做优化处理，转换成文字信息并保存；提取视频样本中的字幕流和音频流，将字幕流转换成文字信息并保存，音频流按音频检索方式处理，同时提取视频流中的参考帧序列集，参考帧按图片检索方式处理；设置人脸、文字和图片特征值信息在视频检索中的权重值，按权重值设置视频检索策略并对视频样本进行检索，获得检索结果。本方法采用多元化视频检索手段，降低资源消耗，提高检索效率及准确性。

Description

多元化的视频检索方法

技术领域

本发明涉及一种多元化的视频检索方法。

背景技术

随着计算机网络的发展，以及多媒体技术的推广应用，各种多媒体数据源源不断的产生，其中以视频居多。而视频是一种数据量大，信息不定长且结构复杂的一种数据，其不像文字或者数字一样一目了然，并很难用一些文字或者数字去描述，如图片中的颜色、形状和纹理，视频中的运动形态，音频中的音调等。当欲采用这些比较抽象的特征去对视频进行检索时，必须要人为的将这些特征信息转化为易于被人们理解的文字或者数字，而这种转换无疑是一件既耗时又耗力的事情。于是，业界纷纷提出了各自的视频检索解决方法。

基于内容的视频检索技术是目前比较主流的视频检索方法，它通过从视频中取出部分关键帧，并获取其颜色、纹理等特征值，然后根据获取的特征值来对视频进行对比并得到相似度，最后将相似度最高的视频检索出来。这些方法虽然能在一定程度上对视频进行检索，但是还有些不足之处：（1）检索形式单一，几乎千篇一律的通过上传图片或者视频的方式提供检索样本，然后根据样本的颜色、形状特征信息进行检索；（2）效率低，资源消耗大，由于检索视频的过程中，要对视频进行相似度计算，而视频一般都是比较大的数据量，这样便导致对一个视频进行相似度计算会非常慢而且很耗资源；（3）以文字查询时，不便于组织关键词，通常视频检索时，更多的是依据人类的高级语义特征进行组词，如奥运会，世界杯等特征词，基本不会采用红色、矩形这些颜色、纹理特征词来对视频进行检索，而且用这些颜色、纹理特征词检索出来的视频恐怕也找不到想要的结果；（4）检索方式与惯用的查询方式差别较大，目前视频检索方式多是客户提供一个视频段或者一张视频截图作为样本，然后根据颜色、纹理特征的相似度比较，返回与待查询样本相似度最高的视频，如此，便面临着两个问题，一是习惯用文字来进行检索，二是待查询视频镜头或视频帧从哪里获取；（5）检索出来的结果显示简单，几乎不能根据检索策略来筛选检索出来的结果。

基于语音提取的视频检索技术是目前兴起的另一个视频检索方法，它通过将音频从视频中提取出来，再用语音识别技术将提取出来的音频转换成文字，利用转换出来的文字对视频进行检索。这种视频检索方法解决了基于内容的视频检索方法中的效率低、资源消耗大以及不能通过文字对视频进行检索的缺点，但该检索方法导致了新的问题：（1）语音识别的适用范围比较窄，语音识别技术虽然能将音频转换成文本，但是，如果待识别的音频质量不好的话，会导致语音识别的准确率非常低，甚至识别不出来，如音频的背景音乐太大、音频有回音、音频音量太低或是音频的编码不被支持等；（2）检索准确率比较低，由于语音识别的适用范围比较窄，当入库的视频包含的音频质量比较差时，会导致视频信息基本没有建立索引，或者所建立的索引正确率极低，进而导致检索结果错误；（3）单纯的以文字记录，不利于检索的精确度，视频一般都具有较大的时长，如一般的新闻报道，如果每秒说2个字，10分钟就是1200个字，一个小时更是达到7200个字，在这么大的基数下，也一定程度提高了其在视频中覆盖面的广度，这会导致在输入检索条件后，输出一大堆不相关的结果。

发明内容

本发明所要解决的技术问题是提供一种多元化的视频检索方法，本方法集内容比较、音频解析、字幕提取和人脸识别技术为一体的多元化视频检索手段，克服了传统视频检索方式的缺陷，降低了资源消耗，有效提高了检索效率及准确性。

为解决上述技术问题，本发明多元化的视频检索方法包括如下步骤：

步骤一、选择检索方式，分别以文字检索、图片检索、音频检索和视频检索方式对视频进行检索；

步骤二、根据不同的检索方式做相应处理，获取检索信息，

a.文字检索方式：直接以文字信息进行视频检索；

b.图片检索方式：首先判断待检索图片样本是否需要做优化处理，如果需要，则对待检索的图片样本进行优化处理，然后获取待检索图片样本的颜色、纹理及形状的特征值信息，如待检索图片样本有人脸，则同时检测人脸并获取相关人脸信息；

c.音频检索方式：首先判断待检索音频样本是否需要优化处理，如果需要，则对待检索音频样本进行优化处理，然后采用音频解析技术将待检索音频样本转换成文字信息，并以特定格式进行保存；

d.视频检索方式：首先分别提取待检索视频样本中的字幕流和视频流，若存在字幕流，则将字幕流转换成文字信息，并以特定格式保存，否则获取音频流，并按照音频检索方式对音频流进行处理，同时提取出视频流中的参考帧序列集，参考帧按照图片检索方式进行处理；

步骤三、设置人脸信息、文字信息和图片特征值信息在视频检索中的权重值，按权重值设置视频检索策略；

步骤四、按检索策略对待检索视频样本进行检索，获得检索结果。

进一步，图片检索方式中，对待检索图片样本进行的优化处理包括光照消弱、锯齿消除、分辨率调整，获取的人脸信息包括脸部特征、人脸在图片中的位置、脸部的偏移角以及人脸的唯一标识码。

进一步，人脸唯一标识码的获取根据脸部特征在人脸库中进行匹配，如果能匹配相似人脸，就以最优人脸的姓名对该人脸以及该人脸的相关信息进行标识；如果匹配失败，就产生一个随机的标识码对该人脸以及该人脸的相关信息进行标识，同时将该人脸信息存入人脸库。

进一步，根据从图片获取的人脸信息进行视频检索时，匹配人脸信息和/或人脸的唯一标识码。

进一步，音频检索方式中，音频优化处理包括将音频的格式、编码、码率、声道调整到特定值，对音频进行降噪、回声消除处理，音频优化处理后的音频格式为wav、编码格式为pcm_s16le、码率为1600k、声道为单声道。

进一步，音频检索方式中，待检索音频样本转换成文字信息后保存的特定格式包括音频解析成的文字内容以及该文字内容所对应的音频播放时间段。

进一步，根据音频的文字信息进行视频检索时，匹配音频的文字信息和/或该文字信息所对应的音频播放时间段。

进一步，视频检索方式中，字幕流转换成文字信息后保存的格式包括字幕流的文字内容以及该文字内容出现在视频中的时间信息。

进一步，视频检索方式中，参考帧序列集的获取方法为：1.取出视频的前两帧，以第一帧作为对比帧，算出该两帧的相似度k_i；2.设定相似度阀值k₀，如果该相似度k_i大于阀值k₀，则取出视频的下一帧与对比帧做相似度比较，如此重复，直至某一帧与对比帧的相似度小于阀值k₀；3.保存该帧到参考帧序列集，同时也将该帧作为对比帧，与后续视频帧进行相似度比较；4.重复步骤2和3，直至视频结束。

进一步，设定人脸信息、文字信息和图片特征值信息的权重值分别为s1、s2和s3，并设定视频检索方式中字幕流、音频流和参考帧的相似度分别为q1、q2和q3，则视频检索的最终相似度为s1×q1＋s2×q2＋s3×q3。

由于本发明多元化的视频检索方法采用了上述技术方案，即本方法首先分别选择以文字检索、图片检索、音频检索和视频检索方式对视频进行检索；根据不同的检索方式做相应处理，获取检索信息，文字信息直接进行视频检索，图片样本做优化处理，获取颜色、纹理及形状的特征值信息，同时检测人脸并获取相关人脸信息；音频样本做优化处理，转换成文字信息并以特定格式进行保存；提取视频样本中的字幕流和视频流，将字幕流转换成文字信息，并以特定格式保存，音频流按照音频检索方式处理，同时提取视频流中的参考帧序列集，参考帧按照图片检索方式进行处理；设置人脸信息、文字信息和图片特征值信息在视频检索中的权重值，按权重值设置视频检索策略；按检索策略对待检索视频样本进行检索，获得检索结果。本方法集内容比较、音频解析、字幕提取和人脸识别技术为一体的多元化视频检索手段，克服了传统视频检索方式的缺陷，降低了资源消耗，有效提高了检索效率及准确性。

附图说明

下面结合附图和实施方式对本发明作进一步的详细说明：

图1为本发明多元化的视频检索方法的流程框图。

具体实施方式

实施例如图1所示，本发明多元化的视频检索方法包括如下步骤：

步骤二、根据不同的检索方式做相应处理，获取检索信息，

a.文字检索方式：直接以文字信息进行视频检索；

优选的，图片检索方式中，对待检索图片样本进行的优化处理包括光照消弱、锯齿消除、分辨率调整，获取的人脸信息包括脸部特征、人脸在图片中的位置、脸部的偏移角以及人脸的唯一标识码。

优选的，人脸唯一标识码的获取根据脸部特征在人脸库中进行匹配，如果能匹配相似人脸，就以最优人脸的姓名对该人脸以及该人脸的相关信息进行标识；如果匹配失败，就产生一个随机的标识码对该人脸以及该人脸的相关信息进行标识，同时将该人脸信息存入人脸库。

优选的，根据从图片获取的人脸信息进行视频检索时，匹配人脸信息和/或人脸的唯一标识码，如人脸在图片中的位置和/或人脸的姓名。

优选的，音频检索方式中，音频优化处理包括将音频的格式、编码、码率、声道调整到特定值，对音频进行降噪、回声消除处理，音频优化处理后的音频格式为wav、编码格式为pcm_s16le、码率为1600k、声道为单声道。

优选的，音频检索方式中，待检索音频样本转换成文字信息后保存的特定格式包括音频解析成的文字内容以及该文字内容所对应的音频播放时间段。

优选的，根据音频的文字信息进行视频检索时，匹配音频的文字信息和/或该文字信息所对应的音频播放时间段。

优选的，视频检索方式中，字幕流转换成文字信息后保存的格式包括字幕流的文字内容以及该文字内容出现在视频中的时间信息。

优选的，视频检索方式中，参考帧序列集的获取方法为：1.取出视频的前两帧，以第一帧作为对比帧，算出该两帧的相似度k_i；2.设定相似度阀值k₀，如果该相似度k_i大于阀值k₀，则取出视频的下一帧与对比帧做相似度比较，如此重复，直至某一帧与对比帧的相似度小于阀值k₀；3.保存该帧到参考帧序列集，同时也将该帧作为对比帧，与后续视频帧进行相似度比较；4.重复步骤2和3，直至视频结束。其中k₀在视频检索时根据检索要求可预先作出定义。

优选的，设定人脸信息、文字信息和图片特征值信息的权重值分别为s1、s2和s3，并设定视频检索方式中字幕流、音频流和参考帧的相似度分别为q1、q2和q3，则视频检索的最终相似度为s1×q1＋s2×q2＋s3×q3。

本方法采用多元化的检索手段，其基于字幕提取，音频解析，人脸识别及视频特征提取，提供了多种视频的检索方式，克服了传统视频检索方式的缺陷，同时可以根据设置检索策略对搜索结果进行筛选，降低了视频检索过程的资源消耗，不仅提高了视频检索效率，同时也提高了视频检索的准确率。

Claims

1.一种多元化的视频检索方法，其特征在于本方法包括如下步骤：

步骤二、根据不同的检索方式做相应处理，获取检索信息，

a.文字检索方式：直接以文字信息进行视频检索；

2.根据权利要求1所述的多元化的视频检索方法，其特征在于：图片检索方式中，对待检索图片样本进行的优化处理包括光照消弱、锯齿消除、分辨率调整，获取的人脸信息包括脸部特征、人脸在图片中的位置、脸部的偏移角以及人脸的唯一标识码。

3.根据权利要求2所述的多元化的视频检索方法，其特征在于：人脸唯一标识码的获取根据脸部特征在人脸库中进行匹配，如果能匹配相似人脸，就以最优人脸的姓名对该人脸以及该人脸的相关信息进行标识；如果匹配失败，就产生一个随机的标识码对该人脸以及该人脸的相关信息进行标识，同时将该人脸信息存入人脸库。

4.根据权利要求2或3所述的多元化的视频检索方法，其特征在于：根据从图片获取的人脸信息进行视频检索时，匹配人脸信息和/或人脸的唯一标识码。

5.根据权利要求1所述的多元化的视频检索方法，其特征在于：音频检索方式中，音频优化处理包括将音频的格式、编码、码率、声道调整到特定值，对音频进行降噪、回声消除处理，音频优化处理后的音频格式为wav、编码格式为pcm_s16le、码率为1600k、声道为单声道。

6.根据权利要求1所述的多元化的视频检索方法，其特征在于：音频检索方式中，待检索音频样本转换成文字信息后保存的特定格式包括音频解析成的文字内容以及该文字内容所对应的音频播放时间段。

7.根据权利要求6所述的多元化的视频检索方法，其特征在于：根据音频的文字信息进行视频检索时，匹配音频的文字信息和/或该文字信息所对应的音频播放时间段。

8.根据权利要求1所述的多元化的视频检索方法，其特征在于：视频检索方式中，字幕流转换成文字信息后保存的格式包括字幕流的文字内容以及该文字内容出现在视频中的时间信息。

9.根据权利要求1所述的多元化的视频检索方法，其特征在于：视频检索方式中，参考帧序列集的获取方法为：1.取出视频的前两帧，以第一帧作为对比帧，算出该两帧的相似度k_i；2.设定相似度阀值k₀，如果该相似度k_i大于阀值k₀，则取出视频的下一帧与对比帧做相似度比较，如此重复，直至某一帧与对比帧的相似度小于阀值k_0,；3.将该帧保存到参考帧序列集，同时也将该帧作为对比帧，与后续视频帧进行相似度比较；4.重复步骤2和3，直至视频结束。

10.根据权利要求1所述的多元化的视频检索方法，其特征在于：设定人脸信息、文字信息和图片特征值信息的权重值分别为s1、s2和s3，并设定视频检索方式中字幕流、音频流和参考帧的相似度分别为q1、q2和q3，则视频检索的最终相似度为s1×q1＋s2×q2＋s3×q3。