CN108307250B

CN108307250B - 一种生成视频摘要的方法及装置

Info

Publication number: CN108307250B
Application number: CN201810065769.XA
Authority: CN
Inventors: 李威
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2018-01-23
Filing date: 2018-01-23
Publication date: 2020-10-30
Anticipated expiration: 2038-01-23
Also published as: US20200349974A1; US11270737B2; WO2019144752A1; CN108307250A; EP3725088A1; EP3725088A4

Abstract

本发明公开了一种生成视频摘要的方法及装置，用以利用音频识别技术快速生成视频摘要，无需对视频内容进行智能分析，提高了生成视频摘要的效率。所述生成视频摘要的方法包括：将音视频文件按照帧的顺序依次分离出对应的音频帧和视频帧；当确定当前音频帧的声音类型与目标音频的声音类型相同时，确定包括当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息；当确定多个音频帧的特征信息与目标音频的特征信息匹配时，确定多个音频帧的发生时间段；根据发生时间段，确定与发生时间段相同的、连续多个视频帧；根据上述步骤确定完音视频文件中包括的、多个所述连续多个视频帧后，将确定的多个所述连续多个视频帧生成视频摘要。

Description

一种生成视频摘要的方法及装置

技术领域

本发明涉及视频快速检索领域，尤其涉及一种生成视频摘要的方法及装置。

背景技术

现有的技术方案中，生成视频摘要的方法基本都是利用智能图像分析算法，从视频中提取物体目标信息，再根据目标出现时间等信息融合在一起生成视频摘要的方法，最后用于存储和视频播放。

目前的产品视频摘要的技术方案都要借助智能视频分析技术，有如下缺点：1)视频分析计算量大，难度高；2)视频数据量大，生成摘要速度慢；3)无法感知音频信息。

发明内容

本发明提供一种生成视频摘要的方法及装置，用以利用音频识别技术快速生成视频摘要，无需对视频内容进行智能分析，提高了生成视频摘要的效率。

本发明实施例提供了一种生成视频摘要的方法，该方法包括：

将音视频文件按照帧的顺序依次分离出对应的音频帧和视频帧；

当确定当前音频帧的声音类型与目标音频的声音类型相同时，确定包括所述当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息；

当确定所述多个音频帧的特征信息与目标音频的特征信息匹配时，确定所述多个音频帧的发生时间段；

根据所述发生时间段，确定与所述发生时间段相同的、连续多个视频帧；

根据上述步骤确定完所述音视频文件中包括的、多个所述连续多个视频帧后，将确定的多个所述连续多个视频帧生成视频摘要。

在一种可能的实施方式中，本发明实施例提供的上述方法中，将确定的多个所述连续多个视频帧生成视频摘要，还包括：

将确定的多个所述连续多个视频帧和所述发生时间段所对应的多个音频帧进行融合，生成视频摘要。

在一种可能的实施方式中，本发明实施例提供的上述方法中，所述目标音频的特征信息可以通过如下方式确定：

获取包括目标声音的目标音频，根据语音识别算法，确定目标音频中包括的声音的类别、音调及音色，将该声音的类别、音调及音色作为目标音频的特征信息；或者，

建立包括目标声音的模型数据，根据语音识别算法，确定所述模型数据中包括的声音的类别、音调及音色，将该声音的类别、音调及音色作为目标音频的特征信息。

在一种可能的实施方式中，本发明实施例提供的上述方法中，当确定当前音频帧的声音类型与目标音频的声音类型相同时，确定包括所述当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息，包括：

根据语音识别方法，确定当前音频帧中包括的声音的内容，当确定当前音频帧的声音类型与目标音频的声音类型相同时，确定包括当前音频帧在内的、预设时长内的、连续多个音频帧；

根据语音识别方法，确定所述多个音频帧的特征信息。

在一种可能的实施方式中，本发明实施例提供的上述方法中，确定所述多个音频帧的特征信息与目标音频的特征信息匹配，包括：

当所述多个音频帧的特征信息与目标音频的特征信息之间的相似度在预设范围内时，确定所述多个音频帧的特征信息与目标音频的特征信息匹配。

在一种可能的实施方式中，本发明实施例提供的上述方法中，根据所述发生时间段，确定与所述发生时间段相同的、连续多个视频帧之后，且在生成视频摘要前，该方法还包括：

将所述连续多个视频帧进行存储；

当确定完所述音视频文件中包括的、多个所述连续多个视频帧后，将存储的多个所述连续多个视频帧进行融合并生成视频摘要。

将所述发生时间段进行存储；

当确定完所述音视频文件中包括的、多个所述连续多个视频帧后，将存储的多个所述发生时间段所对应的多个视频帧生成视频摘要。

在一种可能的实施方式中，本发明实施例提供的上述方法中，确定所述多个音频帧的发生时间段时，还包括：

确定所述多个音频帧所对应的通道来源或音频分类；

生成视频摘要之后，该方法还包括：

将所述视频摘要按照所述通道来源或音频分类进行保存。

在一种可能的实施方式中，本发明实施例提供的上述方法中，将音视频文件按照帧的顺序依次分离出对应的音频帧之后，且确定当前音频帧的声音类型与目标音频的声音类型相同之前，该方法还包括：

将所述音频帧进行解码处理。

相应地，本发明实施例还提供了一种生成视频摘要的装置，该装置包括：

分离模块，用于将音视频文件按照帧的顺序依次分离出对应的音频帧和视频帧；

特征信息确定模块，用于当确定当前音频帧的声音类型与目标音频的声音类型相同时，确定包括所述当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息；

发生时间段确定模块，用于当确定所述多个音频帧的特征信息与目标音频的特征信息匹配时，确定所述多个音频帧的发生时间段；

视频帧确定模块，用于根据所述发生时间段，确定与所述发生时间段相同的、连续多个视频帧；

生成视频摘要模块，用于确定完所述音视频文件中包括的、多个所述连续多个视频帧后，将确定的多个所述连续多个视频帧生成视频摘要。

在一种可能的实施方式中，本发明实施例提供的上述装置中，生成视频摘要模块将确定的多个所述连续多个视频帧生成视频摘要，还用于：

在一种可能的实施方式中，本发明实施例提供的上述装置中，所述目标音频的特征信息可以通过如下方式确定：

在一种可能的实施方式中，本发明实施例提供的上述装置中，所述特征信息确定模块具体用于：

根据语音识别方法，确定所述多个音频帧的特征信息。

在一种可能的实施方式中，本发明实施例提供的上述装置中，所述发生时间段确定模块确定所述多个音频帧的特征信息与目标音频的特征信息匹配，具体用于：

在一种可能的实施方式中，本发明实施例提供的上述装置中，所述生成视频摘要模块，还用于：

将所述连续多个视频帧进行存储；

将所述发生时间段进行存储；

在一种可能的实施方式中，本发明实施例提供的上述装置中，所述发生时间段确定模块确定所述多个音频帧的发生时间段时，还用于：

确定所述多个音频帧所对应的通道来源或音频分类；

所述生成视频摘要模块，还用于：

生成视频摘要之后，将所述视频摘要按照所述通道来源或音频分类进行保存。

在一种可能的实施方式中，本发明实施例提供的上述装置中，所述装置还包括：

解码模块，用于将音视频文件按照帧的顺序依次分离出对应的音频帧之后，且确定当前音频帧的声音类型与目标音频的声音类型相同之前，将所述音频帧进行解码处理。

本发明有益效果如下：

本发明实施例提供的生成视频摘要的方法中，首先将音视频文件按照帧的顺序依次分离出对应的音频帧和视频帧；当确定当前音频帧的声音类型与目标音频的声音类型相同时，确定包括所述当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息；当确定所述多个音频帧的特征信息与目标音频的特征信息匹配时，确定所述多个音频帧的发生时间段；根据所述发生时间段，确定与所述发生时间段相同的、连续多个视频帧；根据上述步骤确定完所述音视频文件中包括的、多个所述连续多个视频帧后，将确定的多个所述连续多个视频帧生成视频摘要。因此，本发明中通过将音视频文件按照帧的顺序分为对应的音频帧，然后根据多个音频帧的特征信息确定出包括目标音频的发生时间段，最后根据发生时间段查找发生目标音频的多个视频帧，并将该多个视频帧生成视频摘要。可见，本发明中根据连续多个音频帧查找对应的视频帧来生成视频摘要，无需对视频内容进行智能分析，提高了生成视频摘要的效率。

附图说明

图1为本发明实施例提供的一种生成视频摘要的方法的流程示意图；

图2为本发明实施例提供的生成视频摘要的方法的详细步骤示意图；

图3为本发明实施例提供的一种生成视频摘要的装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

参见图1，本发明实施例提供的一种生成视频摘要的方法，包括：

步骤101、将音视频文件按照帧的顺序依次分离出对应的音频帧和视频帧；

本发明实施例中的音视频文件可以为从硬盘或者网络中读取的音视频及数字信号经过MPEG-2编码器进行数据压缩后形成的基本码流，或者，从视频通道中获取的视频录像文件或者实时预览的音视频文件。其中，音视频文件包括多帧视频，每一帧视频中包括对应的音频帧和视频帧。

步骤102、当确定当前音频帧的声音类型与目标音频的声音类型相同时，确定包括当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息；

由于声音是一个连续发生的过程，且声音的发生一般连续发生在多帧时间段内，而且一个目标音频的特征信息包括的数据较大，而一个音频帧的特征信息种包括的数据很小，为了进一步保证当前音频帧中包括目标音频的声音时，将该音频帧所对应的特征信息与目标音频的特征信息匹配，需要将包括该音频帧在内的连续多帧时间内的音频帧的特征信息与目标音频的特征信息匹配，从而提高了匹配的成功率。其中，本发明中，声音类型可以包括典型的说话声、爆炸声、警报声或者尖叫声等。因此，目标音频包括的声音类型可以为报警声或爆炸声等，在此不做具体限定。由于同一声音类型还可以包括很多类别。如，当声音类型为报警声时，报警声的类别有很多，如120报警或火警报警等，为了进一步区别音频帧中的报警声是否为目标音频的报警声，还需要通过音频帧的特征信息进行判断。

其中，预设时长可以等于目标音频的时长，或者大于目标音频的时长。

步骤103、当确定多个音频帧的特征信息与目标音频的特征信息匹配时，确定多个音频帧的发生时间段；

其中，特征信息至少包括声音的类别、音调和音色。声音的类别是指声音为哪个类别，如声音为报警声，报警声的类别还包括火警报警声、120报警声等。声音的音调是指声音的高低，如，物体振动的快，发出声音的音调就高；物体振动的慢，发出声音的音调就低。音色指音的感觉特性，频率的高低决定声音的音调，振幅的大小决定声音的响度但不同的物体发出的声音我们还是可以通过音色分辨不同发生体的材料、结构不同，发出声音的音色也就不同。

步骤104、根据发生时间段，确定与发生时间段相同的、连续多个视频帧；

其中，根据发生时间段确定连续多个视频帧时，由于视频帧最近的一个IDR帧被保存着，因此在定位视频帧时，均需要从视频帧的第I帧开始。

步骤105、根据上述步骤101-步骤104的方式确定完音视频文件中包括的、多个连续多个视频帧后，将确定的多个连续多个视频帧生成视频摘要。

需要说明的是，步骤101-步骤104是一个不断循环的过程，直到确定完音视频文件中的包括目标音频的声音的所有视频帧；其中，步骤101中对音视频文件的分离可以按照帧的顺序一帧一帧分离，当分离完当前帧所对应音频帧后，则进行步骤102，或者，按照帧的顺序分离预设时长的音频帧后，再执行步骤102。

因此，本发明中通过将音视频文件按照帧的顺序分为对应的音频帧和视频帧，然后根据多个音频帧的特征信息确定出包括目标音频的发生时间段，最后根据发生时间段查找与该发生时间段相同的视频帧，不断循环上述步骤，直到将音视频文件中包括目标音频的所有多个音频帧确定完之后，将该多个视频帧生成视频摘要。可见，本发明中根据连续多个音频帧查找对应的视频帧来生成视频摘要，无需对视频内容进行智能分析，提高了生成视频摘要的效率。

在具体实施例中，本发明实施例提供的上述方法中，在将多个连续多个视频帧生成视频摘要时也可以将对应的音频帧融合进去，从而生成具有声音的视频摘要。因此，本发明中，步骤105中将确定的多个连续多个视频帧生成视频摘要，还包括：将确定的多个连续多个视频帧和发生时间段所对应的多个音频帧进行融合，生成视频摘要。

具体地，本发明中在形成视频摘要，且需要具有音频的视频摘要时，还可以通过下述方式形成：当确定发生时间段后，确定与该发生时间段所对应的音视频片段，当确定完所有音视频文件中包括的、多个音视频片段后，将该多个音视频片段进行融合生成具有声音的视频摘要。从而进一步简化了音频帧和视频帧融合的过程。

在具体实施例中，本发明实施例提供的上述方法中，目标音频的特征信息可以通过如下方式确定：

方式一、获取包括目标声音的目标音频，根据语音识别算法，确定目标音频中包括的声音的类别、音调及音色，将该声音的类别、音调及音色作为目标音频的特征信息；

具体地，首先输入一段包括目标声音的目标音频；然后根据语音识别算法对该目标音频进行识别，确定该目标音频中目标声音的内容，并提取该目标音频的声音的类别、音调及音色等特征信息，即，该目标音频的声音的类别、音调及音色等信息作为目标音频的特征信息。其中，语音识别算法采用现有技术中的算法即可实现，在此不做详细介绍。

方式二、建立包括目标声音的模型数据，根据语音识别算法，确定所述模型数据中包括的声音的类别、音调及音色，将该声音的类别、音调及音色作为目标音频的特征信息。

具体地，方式二主要是采用建立目标声音的模型数据，然后将模型数据中的声音的类别、音调及音色提取出来并进行标注，作为目标音频的特征信息。其中模型数据中还包括目标声音的内容，因此根据模型数据也可以确定目标声音的内容。

在具体实施例中，本发明实施例提供的上述方法中，当确定当前音频帧的声音类型与目标音频的声音类型相同时，确定包括当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息，包括：根据语音识别方法，确定当前音频帧中包括的声音的内容，当确定当前音频帧的声音类型与目标音频的声音类型相同时，确定包括当前音频帧在内的、预设时长内的、连续多个音频帧；根据语音识别方法，确定多个音频帧的特征信息。

具体地，若目标音频的声音为报警声，且该报警声为火警报警。本发明中声音的内容仅是指当前音频帧中是否包括报警声，根据语音识别方法，首先确定当前音频帧中是否包括报警声，若是，则进一步确定该当前帧预设时长内的特征信息，通过特征信息进一步判断当前音频帧的声音是否为火警报警声；否则，直接放弃该当前音频帧。其中，由于声音为一个延续的过程，为了便于辨识更完整的火警报警声，确定的是包括当前音频帧在内的预设时长的音频帧的特征信息。其中，包括当前音频帧在内的预设时长的音频帧，可以包括当前帧前后多帧的音频帧，或者包括当前帧之后的多帧的音频帧。

在具体实施例中，本发明实施例提供的上述方法中，确定多个音频帧的特征信息与目标音频的特征信息匹配，包括：当多个音频帧的特征信息与目标音频的特征信息之间的相似度在预设范围内时，确定多个音频帧的特征信息与目标音频的特征信息匹配。具体地，音频帧的特征信息至少包括声音的类别、音调及音色，还可以包括声音的大小等其他特征。多个音频帧的特征信息不仅包括声音的类别、音调及音色，且由于声音是一个由于振动而发出的，因此，当声音的内容和类别相同时，目标音频的特征信息中声音的音调与音频帧中声音的音调可能不会完全相同，但是若目标音频的特征信息中声音的音调与音频帧中声音的音调之差在一定范围内时，也可以确定该多个音频帧中包括目标声音；或者，当声音的内容和类别相同时，目标音频的特征信息中声音的音色与音频帧中声音的音色可能不会完全相同，但是若目标音频的特征信息中声音的音色与音频帧中声音的音色之差在一定范围内时，也可以确定该多个音频帧中包括目标声音。因而，本发明中可以预先设置一个阈值范围，使得多个音频帧的特征信息与目标音频的特征信息之间的匹配度在预设阈值范围内时，该多个音频帧包括目标声音。其中，多个音频帧的特征信息与目标音频的特征信息之间的匹配度是指，多个音频帧的特征信息与目标音频的特征信息的相似度，即声音类型和类别相同的情况下，对声音的音调及音色进行一个范围的设定，从而避免遗漏部分声音类型相同的音频帧。

在具体实施例中，本发明实施例提供的上述方法中，根据发生时间段，确定与发生时间段相同的、连续多个视频帧之后，且在生成视频摘要前，该方法还包括：将连续多个视频帧进行存储；当确定完音视频文件中包括的、多个连续多个视频帧后，将存储的多个连续多个视频帧进行融合并生成视频摘要。

具体地，由于音视频文件中包括的音频帧的个数非常多，且当确定连续多个音频帧中包括目标音频后，将与该多个音频帧的发生时间段相同的连续多个视频帧进行存储，从而方便后续确定完整个音视频文件中包括的多个、连续多个视频帧后，直接将存储空间中存储的多个连续多个视频帧进行融合生成视频摘要。

在具体实施例中，本发明实施例提供的上述方法中，根据发生时间段，确定与发生时间段相同的、连续多个视频帧之后，且在生成视频摘要前，该方法还包括：将发生时间段进行存储；当确定完音视频文件中包括的、多个连续多个视频帧后，将存储的多个发生时间段所对应的多个视频帧生成视频摘要。

进一步地，为了减少多个视频帧占用的存储空间，可以将可以生成视频摘要中的多个视频帧的发生时间段存储在存储空间，在生成视频摘要时，直接将多个发生时间段对应的多个连续多个视频帧进行融合，生成视频摘要。

在具体实施例中，本发明实施例提供的上述方法中，确定多个音频帧的发生时间段时，还包括：确定多个音频帧所对应的通道来源或音频分类；生成视频摘要之后，该方法还包括：将视频摘要按照通道来源或音频分类进行保存。

具体地，为了方便在生成视频摘要时，避免同一发生时间段内存在多个不同音视频文件中的音频帧，本发明中在确定发生时间段时，还可以进一步确定该多个音频帧所对应的通道来源或音频分类，从而方便根据发生时间段查找到同一通道来源下的视频帧，或音频分类相同的视频帧。进一步地，为了在生成视频摘要后，方便分类存储，可以按照音视频文件的通道来源进行存储，或按照音视频文件中音频的类别进行存储，从而使得用户在后续进行搜索时，可以根据通道来源或音频的类别进行搜索查找。

在具体实施例中，本发明实施例提供的上述方法中，将音视频文件按照帧的顺序依次分离出对应的音频帧之后，且确定当前音频帧的声音类型与目标音频的声音类型相同之前，该方法还包括：将音频帧进行解码处理。具体地，经过音视频文件分离后的音频帧，一般需要经过解码处理，得到原始脉冲编码调制(PCM)数据。

下面通过具体实施例详细描述本发明的生成视频摘要的方法。其中，以方式一确定目标音频的特征信息为例。

如图2所示，步骤201、输入一段包括目标声音的音频数据；

步骤202、将该音频数据进行解码；

步骤203、根据语音识别算法，将解码后的音频数据中的特征信息进行提取，作为目标音频的特征信息；

步骤204、将经过通道N获取的M时间段内的音视频文件进行分离得到音频帧和视频帧；

步骤205、判断当前帧分离的数据是否为音频帧，若是则执行步骤206、否则，执行步骤2013；

步骤206、将音频帧的数据进行解码；

步骤207、根据语音识别算法，将解码后的音频帧进行语音识别，确定当前音频帧的声音类型；

步骤208、判断当前音频帧的声音类型是否与目标声音类型相同，若是则执行步骤209；否则，执行步骤2013；

步骤209、根据步骤205-步骤208确定的音频帧，确定包括当前音频帧在内的、预设时长内的、连续多个音频帧，并提取该多个音频帧的特征信息；

步骤2010、判断多个音频帧的特征信息与目标音频的特征信息是否匹配，若是，则执行步骤2011，否则执行步骤2013；

步骤2011、根据发生时间段，确定与发生时间段相同的、连续多个视频帧，并将该多个视频帧进行存储；

步骤2012、判断当前帧是否为最后一帧，若是，则执行步骤2013，否则返回步骤205；

步骤2013、将存储的多个视频帧进行融合，生成视频摘要；

步骤2014、丢弃。

基于同一发明思想，参见图3，本发明实施例还提供了一种生成视频摘要的装置，该装置包括：

分离模块31，用于将音视频文件按照帧的顺序依次分离出对应的音频帧和视频帧；

特征信息确定模块32，用于当确定当前音频帧的声音类型与目标音频的声音类型相同时，确定包括所述当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息；

发生时间段确定模块33，用于当确定所述多个音频帧的特征信息与目标音频的特征信息匹配时，确定所述多个音频帧的发生时间段；

视频帧确定模块34，用于根据所述发生时间段，确定与所述发生时间段相同的、连续多个视频帧；

生成视频摘要模块35，用于确定完所述音视频文件中包括的、多个所述连续多个视频帧后，将确定的多个所述连续多个视频帧生成视频摘要。

可选地，生成视频摘要模块将确定的多个所述连续多个视频帧生成视频摘要，还用于：

可选地，目标音频的特征信息可以通过如下方式确定：

可选地，特征信息确定模块32具体用于：

根据语音识别方法，确定所述多个音频帧的特征信息。

可选地，发生时间段确定模块33确定多个音频帧的特征信息与目标音频的特征信息匹配，具体用于：

当多个音频帧的特征信息与目标音频的特征信息之间的相似度在预设范围内时，确定多个音频帧的特征信息与目标音频的特征信息匹配。

可选地，生成视频摘要模块35，还用于：

将连续多个视频帧进行存储；

当确定完音视频文件中包括的、多个连续多个视频帧后，将存储的多个连续多个视频帧进行融合并生成视频摘要。

可选地，生成视频摘要模块35，还用于：

将发生时间段进行存储；

当确定完音视频文件中包括的、多个连续多个视频帧后，将存储的多个发生时间段所对应的多个视频帧生成视频摘要。

可选地，发生时间段确定模块确定多个音频帧的发生时间段时，还用于：

确定多个音频帧所对应的通道来源或音频分类；

生成视频摘要模块35，还用于：

生成视频摘要之后，将视频摘要按照所述通道来源或音频分类进行保存。

可选地，该装置还包括：

解码模块，用于将音视频文件按照帧的顺序依次分离出对应的音频帧之后，且确定当前音频帧的声音类型与目标音频的声音类型相同之前，将音频帧进行解码处理。

综上所述，本发明实施例提供的生成视频摘要的方法中，首先将音视频文件按照帧的顺序依次分离出对应的音频帧和视频帧；当确定当前音频帧的声音类型与目标音频的声音类型相同时，确定包括所述当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息；当确定所述多个音频帧的特征信息与目标音频的特征信息匹配时，确定所述多个音频帧的发生时间段；根据所述发生时间段，确定与所述发生时间段相同的、连续多个视频帧；根据上述步骤确定完所述音视频文件中包括的、多个所述连续多个视频帧后，将确定的多个所述连续多个视频帧生成视频摘要。因此，本发明中通过将音视频文件按照帧的顺序分为对应的音频帧，然后根据多个音频帧的特征信息确定出包括目标音频的发生时间段，最后根据发生时间段查找发生目标音频的多个视频帧，并将该多个视频帧生成视频摘要。可见，本发明中根据连续多个音频帧查找对应的视频帧来生成视频摘要，无需对视频内容进行智能分析，提高了生成视频摘要的效率。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种生成视频摘要的方法，其特征在于，该方法包括：

根据上述步骤确定完所述音视频文件中包括的、多个所述连续多个视频帧后，将确定的多个所述连续多个视频帧生成视频摘要；

确定所述多个音频帧的发生时间段时，还包括：

确定所述多个音频帧所对应的通道来源或音频分类；

生成视频摘要之后，该方法还包括：

将所述视频摘要按照所述通道来源或音频分类进行保存；

当确定当前音频帧的声音类型与目标音频的声音类型相同时，确定包括所述当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息，包括：

根据语音识别方法，确定所述多个音频帧的特征信息。

2.根据权利要求1所述的方法，其特征在于，将确定的多个所述连续多个视频帧生成视频摘要，还包括：

3.根据权利要求1所述的方法，其特征在于，所述目标音频的特征信息可以通过如下方式确定：

4.根据权利要求1或3所述的方法，其特征在于，确定所述多个音频帧的特征信息与目标音频的特征信息匹配，包括：

5.根据权利要求1所述的方法，其特征在于，根据所述发生时间段，确定与所述发生时间段相同的、连续多个视频帧之后，且在生成视频摘要前，该方法还包括：

将所述连续多个视频帧进行存储；

6.根据权利要求1所述的方法，其特征在于，根据所述发生时间段，确定与所述发生时间段相同的、连续多个视频帧之后，且在生成视频摘要前，该方法还包括：

将所述发生时间段进行存储；

7.根据权利要求1所述的方法，其特征在于，将音视频文件按照帧的顺序依次分离出对应的音频帧之后，且确定当前音频帧的声音类型与目标音频的声音类型相同之前，该方法还包括：

将所述音频帧进行解码处理。

8.一种生成视频摘要的装置，其特征在于，该装置包括：

生成视频摘要模块，用于确定完所述音视频文件中包括的、多个所述连续多个视频帧后，将确定的多个所述连续多个视频帧生成视频摘要；

所述发生时间段确定模块确定所述多个音频帧的发生时间段时，还用于：

确定所述多个音频帧所对应的通道来源或音频分类；

所述生成视频摘要模块，还用于：

生成视频摘要之后，将所述视频摘要按照所述通道来源或音频分类进行保存；

所述特征信息确定模块具体用于：

根据语音识别方法，确定所述多个音频帧的特征信息。

9.根据权利要求8所述的装置，其特征在于，生成视频摘要模块将确定的多个所述连续多个视频帧生成视频摘要，还用于：

10.根据权利要求8所述的装置，其特征在于，所述目标音频的特征信息可以通过如下方式确定：

11.根据权利要求8或10所述的装置，其特征在于，所述发生时间段确定模块确定所述多个音频帧的特征信息与目标音频的特征信息匹配，具体用于：

12.根据权利要求8所述的装置，其特征在于，所述生成视频摘要模块，还用于：

将所述连续多个视频帧进行存储；

13.根据权利要求8所述的装置，其特征在于，所述生成视频摘要模块，还用于：

将所述发生时间段进行存储；

14.根据权利要求8所述的装置，其特征在于，所述装置还包括：