CN107295284B

CN107295284B - 一种由音频和图片组成的视频文件的生成和检索播放方法、装置

Info

Publication number: CN107295284B
Application number: CN201710657600.9A
Authority: CN
Inventors: 邵之江; 张舵; 张丁; 王永铭
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-08-03
Filing date: 2017-08-03
Publication date: 2020-08-25
Anticipated expiration: 2037-08-03
Also published as: CN107295284A

Abstract

本发明公开了一种由音频和图片组成的视频文件的生成和检索播放方法、装置，本发明可以在录制音频的同时，以定时、用户点击、自动检测场景转换或者其他软硬件系统通知等方式触发拍照，并在对应时间点将图片嵌入音频中，最终生成一个方便检索、尺寸合适的视频文件；用户可以通过关键帧索引的方式，用图片作为辅助信息快速定位并播放音频。本发明提供了“音频+图片”的伪视频文件生成、播放、使用的新方法，能大大减小视频文件的尺寸，保留最重要的音频和图片信息，并提供有效的检索功能；特别适用于存储和传输语音解说为主、图片文字为辅的知识型信息；对于目前以微信等为代表的大规模网络化知识和信息分享来说，具有非常积极的作用。

Description

一种由音频和图片组成的视频文件的生成和检索播放方法、装置

技术领域

本发明涉及音视频处理技术领域，尤其涉及一种视频文件生成和检索播放方法、装置。

背景技术

随着录像录音设备的普及，用户录制、传播音视频的需求也越来越多。通过微信、QQ等网络方式进行音视频分享，已经成为大众网络用户的常态，也已经成为传播知识、文化的最重要途径。但用户录制讲座、课堂教学等场合的音视频时常常遇到一个两难的问题：只录制音频时一些关键的图像信息就难以同时采集，不能给人直观印象，并且长音频在回放时不好精确定位其中的某一部分；直接录制为带有声音的视频的话就会面临视频尺寸庞大、不便存储传输的问题。因此，一种能在音频中嵌入关键图片的录制方式将是一种好的解决方案：既控制了文件尺寸的大小，也便于给人直观信息以及精确定位。现有技术中，对音视频的去信息冗余和检索多采用后期处理的方式实现，操作比较麻烦，缺少一种在录制时直接对信息高效采集并整合成可检索视频的方法。

发明内容

本发明的目的在于针对现有技术的不足，提供一种由音频和图片组成的视频文件的生成和检索播放方法。

本发明的目的是通过以下技术方案实现的：一种由音频和图片组成的视频文件的生成方法，包括以下步骤：

S1、采集音频，同时采集与音频时间同步的图片，图片的采集方式为自动、手动或其他系统触发；

S2、将采集的图片编码为视频流，将音频编码为音频流；

S3、将视频流与音频流封装生成视频文件，所述视频文件用于对嵌入了图片后的音频进行索引和连续播放。

进一步地，所述步骤S2中，将要嵌入的图片编码为视频流对应时间点的I帧，视频流中的其他帧不编码为I帧(可编码为P帧)。

进一步地，I帧编码图片在视频中保持静止直到下一张图片出现。

进一步地，所述步骤S1中，自动触发方式为用户定时拍照：当计时器计时到用户设定的定时拍照时间时，自动获取一帧图像，将该图像编码为视频流；或者，自动触发方式为自动检测到场景转换时拍照：用户设置感兴趣的区域和触发拍照的阈值TH，按用户设定的视频帧率获取图像，从获取的图像中提取用户设置的感兴趣区域的图像G，对G进行运动估计得到运动矢量，对运动矢量的长度进行加和，除以感兴趣区域的图像大小，得到运动速度的指标E；当E大于TH时，将当前图像编码为视频流，否则，将载有上一帧信息的视频帧拷贝并写入到视频流中进行编码。

进一步地，所述步骤S1中，手动触发为用户点击按钮触发：当用户点击拍照按钮时，记录当前时间，获取一帧图像，将该图像编码为视频流；其他系统触发为：通过遥控器红外信号触发，当接收到其他系统拍照请求时，获取当前图像，将该图像编码为视频流。

进一步地，所述步骤S1中，采集音频之前，还包括参数设置的步骤，设置的参数包括音频录制参数、图片拍摄参数和视频生成参数；所述音频录制参数包括音频码率；所述图片拍摄参数包括图片大小和分辨率，所述视频生成参数包括视频帧率。

一种由音频和图片组成的视频文件的检索播放方法，该方法包括：

用户选取待播放的视频文件；

从视频文件中获取视频流并逐帧解码；

读取帧的类型，如果是关键帧，则将该帧图像展示给用户；关键帧出现的时间与图片嵌入的时间点对应；

当用户选中某个要播放的帧后，直接跳到选中帧对应的时间进行音频播放。

进一步地，所述关键帧为I帧。

一种由音频和图片组成的视频文件的生成装置，该装置包括：

音频采集单元：采集音频，将采集的音频编码为音频流；

图片采集单元：采集与音频时间同步的图片，将采集的图片编码为视频流，图片的采集方式为自动、手动触发或其他系统触发；

视频文件生成单元：将视频流与音频流封装生成视频文件，所述视频文件用于对嵌入了图片后的音频进行索引和连续播放。

一种由音频和图片组成的视频文件的检索播放装置，该装置包括：

显示单元，具有录音检索界面，该界面显示视频中所有关键帧图像，当用户点击某个关键帧图像时，自动定位到该帧所在的录音时间点，即用户拍摄该照片的录音时间点播放音频；

播放控制单元，对播放的音频进行控制，包括开始播放按钮、暂停播放按钮以及播放进度条。

本发明的有益效果是：本发明可以在录制音频的同时，以定时拍照、用户点击按钮触发拍照或者自动检测到场景转换时拍照等方式触发拍照，并在对应时间点将图片嵌入音频中，最终生成一个方便检索，尺寸合适的视频文件(如MP4格式)。该视频文件可以用普通视频播放器播放，也可以用使用了本发明所公开的方法的播放器播放。使用后一种方式时，用户可以通过关键帧索引的方式，用图片作为辅助信息快速定位并播放。采用本发明所述方法，可以在会议、讲座、课堂等场景中，在采集的音频中按时间轴不同位置补充附加图片或照片，以便在播放时更好理解音频内容、更快速检索和定位播放音频。同时，生成的视频文件，其尺寸由音频质量和图片尺寸决定。相较直接录像得到的视频文件，文件尺寸大大减小(在相同音频质量和图片分辨率情况下)。

附图说明

图1为本发明实施过程的流程示意图；

图2为本发明实施中手机端录制界面布局示意图；

图3为本发明实施中手机端播放界面布局示意图。

具体实施方式

为了便于本领域技术人员的理解，下面结合附图和具体实施例对本发明作进一步的描述。

本发明由音频和图片组成的视频文件的生成方法，包括如下步骤：

1.用户设置音频录制参数(音频录制格式为aac之后再编码成mp3，默认设置为固定码率128kbps，也可以是192kbps等，默认采样频率为44.1khz，单声道或立体声)，设置图片拍摄参数(即设置图片大小、分辨率，例如常用值可以是4160x3120，4160x2336，3104x3104，3264x2448，3264x1840等)，视频生成参数(即设置帧率，默认设置为25fps)，并设置触发拍照的条件，拍照的条件可以是定时拍照、用户点击按钮触发拍照或者自动检测到场景转换时拍照。

当用户发出“开始录音”命令时开始向文件中写入音频流，与此同时，当触发拍照条件时，摄像头获取一张照片并将其写入视频流。当用户发出“结束录音”命令时，将音频流和视频流压缩、封装并保存成视频文件(如MP4格式)。

例如，当该功能在手机APP中实现时，用户进入录制主界面。主界面利用手机端多媒体框架采集视频和音频信息，并将信息显示在界面上。除此之外，主界面还包括若干控制按钮，分别触发开始录音、结束录音、暂停录音和拍照。当用户点击“开始录音”按钮组件时，APP开始向文件中写入音频流，与此同时，当用户点击“拍照”按钮组件时，APP将拍摄图像并记录此时的录音时间点。当用户点击“结束录音”按钮组件时，APP暂停向文件中写入音频、视频流；同时，APP将压缩好的音频流和视频流按照记录的录音时间点按时间顺序进行封装，例如封装成MP4文件。为便于说明，以下步骤以生成MP4格式的“音频+图片”文件为例，其他格式视频文件的生成步骤与之类似。

当该功能在手机APP中实现时，整个录音框架可以采用MediaRecorder，基本步骤为：

①首先调用mediaRecorder.Java中的方法比如start方法，会调用jni；

②mediaRecoder.cpp和mediaplayerService是通过binder机制来进行进程间的通信的，这时client端就是通过操作服务端返回的imediaRecorder来对服务端进行控制的；

③在java层调用start就是调用了StagefrightRecorder中的strat方法，在这里可以看到根据传进来的mOutputFormat值(输出格式)会选择不同的编码类型的方法。

视频流采用H264编码格式，在主界面中，用户拍摄的图片作为视频流中的一个I帧编码，该图片的图像在视频中保持静止直到下一张照片出现。编码时将画面组(GOP)的帧数上限提高，保证视频中播放每张图片时只有一个I帧。

2.用户选择定时拍照模式，并点击开始录制按钮后，执行以下过程。

①用户设置定时时间T；

②按照用户的设置为音视频编码器设置音频码率、视频大小、视频分辨率、视频帧率，并初始化之后要用到的结构。例如用FFMPEG编码时，应执行av_register_all()、av_frame_alloc()等并对AVFormatContext结构相关参数进行设置；

③设置此次视频压缩的图像组大小和B帧数量，这是为了防止生成过多无用的I帧。例如在FFMPEG中，可以设置AVFormatContext结构中gop_size、max_b_frames参数的值均为1500；

④用户点击“开始录音”按钮后，启动录音和计时器，程序不断从多媒体框架中获取音频流并写入到AAC音频文件，压缩过程中的音频码率与用户的设定值相同；

⑤当计时器计时到用户定义的定时拍照时间时执行下一步，同时将计时器清零；

⑥用多媒体框架从摄像头获取一帧图像信息，其大小与分辨率与用户之前使之的图片拍摄参数相同，取得的图像格式为YUV像素图像；

⑦将YUV像素信息写入一个视频帧中，例如在FFMPEG中将YUV像素信息写入一个AVFrame的data中。然后将这个视频帧写入到视频流中进行编码，例如在FFMPEG中对应执行avcodec_encode_video2等函数；

⑧计算出每个视频帧重复的次数，计算公式为：次数N＝定时时间/帧率-1。将载有上一帧信息的视频帧拷贝N次，并写入到视频流中进行编码。例如在FFMPEG中可以通过av_frame_copy(pFrame2,pFrame1)实现拷贝，然后执行avcodec_encode_video2进行视频压缩，将压缩好的内容用fwrite函数写入H264视频文件；

⑨如果用户点击“结束录音”按钮，则停止从多媒体框架获取图像和声音，并将已经编码好的H264视频文件和AAC音频文件封装并保存成MP4格式的视频文件。如果用户没有点击“结束录音”按钮，则返回④。

3.用户选择点击按钮触发拍照模式，并点击开始录制按钮后，执行以下过程。

①按照用户的设置为音视频编码器设置音频码率、视频大小、视频分辨率、视频帧率，并初始化之后要用到的结构。例如用FFMPEG编码时，应执行av_register_all()、av_frame_alloc()等并对AVFormatContext结构相关参数进行设置；

②设置此次视频压缩的图像组大小和B帧数量，这是为了防止生成过多无用的I帧。例如在FFMPEG中，可以设置AVFormatContext结构中gop_size、max_b_frames参数的值均为1500；

③用户点击“开始录音”按钮后，启动录音，程序不断从多媒体框架中获取音频流并写入到AAC音频文件，压缩过程中的音频码率与用户的设定值相同；

④当用户点击“拍照”按钮时，记录当前时间，并用多媒体框架从摄像头获取一帧图像信息，其大小与分辨率与用户之前使之的图片拍摄参数相同，取得的图像格式为YUV像素图像；

⑤将YUV像素信息写入一个视频帧中，例如在FFMPEG中将YUV像素信息写入一个AVFrame的data中。然后将这个视频帧写入到视频流中进行编码，例如在FFMPEG中对应执行avcodec_encode_video2等函数；

⑥读取上一次拍摄照片时的时间，计算与当前照片拍摄时间的时间差，然后计算出每个视频帧重复的次数，计算公式为：次数N＝时间差/帧率-1。将载有上一帧信息的视频帧拷贝N次，并写入到视频流中进行编码。例如在FFMPEG中可以通过av_frame_copy(pFrame2,pFrame1)实现拷贝，然后执行avcodec_encode_video2进行视频压缩，将压缩好的内容用fwrite函数写入H264视频文件；

⑦如果用户点击“结束录音”按钮，则停止从多媒体框架获取图像和声音，并将已经编码好的H264视频文件和AAC音频文件封装并保存成MP4格式的视频文件。如果用户没有点击“结束录音”按钮，则返回③。

4.用户选择自动检测场景转换模式，并点击开始录制按钮后，执行以下过程。

①用户设置感兴趣的区域和触发拍照的阈值TH；

③设置此次视频压缩的图像组大小和B帧数量，这是为了防止压缩过程生成过多无用的I帧。例如在FFMPEG中，可以设置AVFormatContext结构中gop_size、max_b_frames参数的值均为1500；

④当用户设置的帧率为X fps时，每秒X次用多媒体框架从摄像头获取一帧图像信息，其大小与分辨率与用户之前使之的图片拍摄参数相同，取得的图像格式为YUV像素图像；

⑤从上述图像中提取出用户设置的感兴趣区域的图像G；

⑥对当前G进行运动估计，这个估计是相对于前一次获取的G而言的，运动估计采用三步搜索法等快速算法以节省时间，如果不能匹配到对应的宏块，则运动矢量的长度认为是整个图像的长；

⑦求得运动矢量后，对运动矢量的长度进行加和，然后除以感兴趣区域的图像大小，得到运动速度的一个指标E；

⑧当E大于用户设定的阈值TH时，将当前YUV像素信息写入一个视频帧中，例如在FFMPEG中将YUV像素信息写入一个AVFrame的data中。然后将这个视频帧写入到视频流中进行编码，例如在FFMPEG中对应执行avcodec_encode_video2等函数。否则，将载有上一帧信息的视频帧拷贝并写入到视频流中进行编码。例如在FFMPEG中可以通过av_frame_copy(pFrame2,pFrame1)实现拷贝，然后执行avcodec_encode_video2进行视频压缩，将压缩好的内容用fwrite函数写入H264视频文件。

5.在上述过程中如果用户按下“暂停录音”按钮，则停止获取录音，并向音频流中写入静音音频，直至用户按下“恢复录音”按钮，之后继续利用多媒体框架获取录音并写入音频流。

6.用本发明的检索播放装置播放录制好的视频文件(如MP4格式)时，用户可以选择进入一个录音检索界面，这个界面显示了视频中所有I帧的图像，当用户点击某个I帧图像时，自动定位到那个帧所在的录音时间点，即用户拍摄该照片的录音时间点播放音频。

获取所有I帧图像的方法具体步骤如下：

①用户从文件中选取待播放的视频文件(如MP4格式)；

②从视频文件中获取视频流并逐帧解码，在FFMPEG中，即解码获得一系列AVFrame；

③读取帧的类型，如果是I帧，就把这一帧图像的缩略图及其是第几帧、拍摄时间显示给用户看，在FFMPEG中，可以通过pict_type属性查看该帧是否是I帧；

④当用户选中某个要播放的帧后，就直接跳到那一帧对应的时间进行播放。

通过该方法，用户可以得到一个尺寸比纯录音文件和图片文件尺寸总和略大的视频，并可以很方便地根据图像来检索录音的内容。

7.录制视频文件的页面布局方面存在三大部分：对于用户拍照条件的选择、对于用户拍照的操作(包括但不限于开始拍照、停止拍照等操作)、对于用户录音的操作(包括但不限于开始录音、停止录音等操作)，附图2为安卓手机为例的界面布局；

其中，拍摄画面为摄像头捕捉的画面，录制操作包括：拍照，开始录音，暂停录音，结束，结束后将所有文件保存待后续操作；

播放画面包括两部分：帧捕捉画面及播放操作，附图3以安卓手机为例介绍播放界面布局。

其中，帧捕捉画面为采集的图片(I帧对应照片)，点击将以画面对应的时间点播放音频；播放操作包括：开始播放、暂停播放以及播放进度条。

本发明不仅局限于上述具体实施方式，本领域一般技术人员根据本发明公开的内容，可以采用其它多种具体实施方案实施本发明。因此，凡是采用本发明的设计结构和思路，做一些简单的变化或更改的设计，都落入本发明保护范围。

Claims

1.一种由音频和图片组成的视频文件的生成方法，其特征在于，包括以下步骤：

S1、采集音频，同时采集与音频时间同步的图片，图片的采集方式具体为：自动触发方式为自动检测到场景转换时拍照：用户设置感兴趣的区域和触发拍照的阈值TH，按用户设定的视频帧率获取图像，从获取的图像中提取用户设置的感兴趣区域的图像G，对G进行运动估计得到运动矢量，对运动矢量的长度进行加和，除以感兴趣区域的图像大小，得到运动速度的指标E；当E大于TH时，将当前图像编码为视频流，否则，将载有上一帧信息的视频帧拷贝并写入到视频流中进行编码；

S2、将采集的图片编码为视频流，将音频编码为音频流；

2.根据权利要求1所述的由音频和图片组成的视频文件的生成方法，其特征在于，所述步骤S2中，将要嵌入的图片编码为视频流对应时间点的I帧，视频流中的其他帧不编码为I帧。

3.根据权利要求2所述的由音频和图片组成的视频文件的生成方法，其特征在于，I帧编码图片在视频中保持静止直到下一张图片出现。

4.根据权利要求1所述的由音频和图片组成的视频文件的生成方法，其特征在于，所述步骤S1中，手动触发为用户点击按钮触发：当用户点击拍照按钮时，记录当前时间，获取一帧图像，将该图像编码为视频流；其他系统触发为：通过遥控器红外信号触发，当接收到其他系统拍照请求时，获取当前图像，将该图像编码为视频流。

5.根据权利要求1所述的由音频和图片组成的视频文件的生成方法，其特征在于，所述步骤S1中，采集音频之前，还包括参数设置的步骤，设置的参数包括音频录制参数、图片拍摄参数和视频生成参数；所述音频录制参数包括音频码率；所述图片拍摄参数包括图片大小和分辨率，所述视频生成参数包括视频帧率。

6.一种权利要求1-5任一项所述的由音频和图片组成的视频文件的生成方法，其特征在于，生成的视频文件的检索播放方法包括：

用户选取待播放的视频文件；

从视频文件中获取视频流并逐帧解码；

7.根据权利要求6所述的方法，其特征在于，所述关键帧为I帧。

8.一种由音频和图片组成的视频文件的生成装置，其特征在于，该装置包括：

音频采集单元：采集音频，将采集的音频编码为音频流；

图片采集单元：采集与音频时间同步的图片，将采集的图片编码为视频流，图片的采集方式具体为：自动触发方式为自动检测到场景转换时拍照：用户设置感兴趣的区域和触发拍照的阈值TH，按用户设定的视频帧率获取图像，从获取的图像中提取用户设置的感兴趣区域的图像G，对G进行运动估计得到运动矢量，对运动矢量的长度进行加和，除以感兴趣区域的图像大小，得到运动速度的指标E；当E大于TH时，将当前图像编码为视频流，否则，将载有上一帧信息的视频帧拷贝并写入到视频流中进行编码；

9.一种权利要求8生成的视频文件的检索播放装置，其特征在于，该装置包括：

显示单元，具有录音检索界面，该界面显示视频中所有关键帧图像，当用户点击某个关键帧图像时，自动定位到该帧所在的录音时间点，即用户拍摄该图像的录音时间点播放音频；