CN114461852A

CN114461852A - 音视频摘要提取方法、装置、设备及存储介质

Info

Publication number: CN114461852A
Application number: CN202210143536.3A
Authority: CN
Inventors: 刘钊
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2022-02-16
Filing date: 2022-02-16
Publication date: 2022-05-10

Abstract

本申请涉及人工智能技术领域，公开了一种音视频摘要提取方法、装置、设备及存储介质，方法包括：获取待处理音视频，按照预设步长和预设切割长度将音频信息切割成若干个音频片段，利用预设的人声识别模型对各个音频片段进行分析，以从各个音频片段中筛选人声片段，从各个人声片段中提取第一用户音频以及第二用户音频，对第一用户音频进行关键词提取，得到第一关键词集，并对第二用户音频进行关键词提取，得到第二关键词集；根据第一关键词集以及第二关键词集从视频帧集中筛选关键视频帧，并根据各个关键视频帧生成视频摘要。

Description

音视频摘要提取方法、装置、设备及存储介质

技术领域

本申请涉及人工智能的技术领域，尤其涉及一种音视频摘要提取方法、装置、设备及存储介质。

背景技术

当前，用户可以通过查看音视频对应的音视频摘要，来在短时间内获知音视频的核心内容。而现有技术中，通常通过人工的方式去进行音视频摘要提取，基于人工提取的方法提取内容虽然准确，但这种方式需要人工看完整段音视频后，才能基于音视频内容给出摘要结果。现急需一种方法来实现音视频摘要的智能提取。

发明内容

本申请的主要目的在于提供一种音视频摘要提取方法、装置、设备及存储介质，旨在实现对音视频摘要的智能提取。

第一方面，本申请提供一种音视频摘要提取方法，包括：

获取待处理音视频，所述待处理音视频包括视频帧集以及音频信息，且所述待处理音视频为第一用户拜访第二用户，以对所述第二用户讲解演示文稿的音视频；

按照预设步长和预设切割长度将所述音频信息切割成若干个音频片段，其中，所述预设步长小于所述预设切割长度；

利用预设的人声识别模型对各个所述音频片段进行分析，以从各个所述音频片段中筛选人声片段；

提取各个所述人声片段的语音特征，并根据所述语音特征对各个所述人声片段进行分组后按时间顺序进行存储，得到第一人声片段集以及第二人声片段集；

对所述第一人声片段集中的所述人声片段进行拼接，得到第一用户音频，并对所述第二人声片段集中的所述人声片段进行拼接，得到第二用户音频；

对所述第一用户音频进行关键词提取，得到第一关键词集，并对所述第二用户音频进行关键词提取，得到第二关键词集；

根据所述第一关键词集以及所述第二关键词集从所述视频帧集中筛选关键视频帧，并根据各个所述关键视频帧生成视频摘要。

第二方面，本申请还提供一种音视频摘要提取装置，所述音视频摘要提取装置包括：

处理对象获取模块，用于获取待处理音视频，所述待处理音视频包括视频帧集以及音频信息，且所述待处理音视频为第一用户拜访第二用户，以对所述第二用户讲解演示文稿的音视频；

音频信息切割模块，用于按照预设步长和预设切割长度将所述音频信息切割成若干个音频片段，其中，所述预设步长小于所述预设切割长度；

人声识别模块，用于利用预设的人声识别模型对各个所述音频片段进行分析，以从各个所述音频片段中筛选人声片段；

人声分类模块，用于提取各个所述人声片段的语音特征，并根据所述语音特征对各个所述人声片段进行分组后按时间顺序进行存储，得到第一人声片段集以及第二人声片段集；

人声拼接模块，用于对所述第一人声片段集中的所述人声片段进行拼接，得到第一用户音频，并对所述第二人声片段集中的所述人声片段进行拼接，得到第二用户音频；

关键词提取模块，用于对所述第一用户音频进行关键词提取，得到第一关键词集，并对所述第二用户音频进行关键词提取，得到第二关键词集；

视频摘要生成模块，用于根据所述第一关键词集以及所述第二关键词集从所述视频帧集中筛选关键视频帧，并根据各个所述关键视频帧生成视频摘要。

第三方面，本申请还提供一种计算机设备，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上所述的音视频摘要提取方法的步骤。

第四方面，本申请还提供一种存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上所述的音视频摘要提取方法的步骤。

本申请提供一种音视频摘要提取方法、装置、设备及存储介质，本申请中，获取待处理音视频，获取待处理音视频对应的视频帧集以及音频信息，对音频信息进行去噪处理并进行人声分离，得到第一用户音频以及第二用户音频，分别对第一用户音频以及第二用户音频进行关键词提取，得到第一关键词集以及第二关键词集；根据第一关键词集以及第二关键词集从视频帧集中筛选关键视频帧，并根据各个关键视频帧生成视频摘要。通过本申请所提供的技术方案，实现了对音视频摘要的智能提取。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种音视频摘要提取方法的步骤流程示意图；

图2为本申请实施例提供的一种音视频摘要提取装置的示意性框图；

图3为本申请实施例提供的一种计算机设备的结构示意性框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，虽然在装置示意图中进行了功能模块的划分，但是在某些情况下，可以以不同于装置示意图中的模块划分。

本申请实施例提供一种音视频摘要提取方法、装置、设备及存储介质。其中，该音视频摘要提取方法可应用于终端设备或服务器中，该终端设备可以为手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备；该服务器可以为单台的服务器，也可以为由多台服务器组成的服务器集群。以下以该音视频摘要提取方法应用于服务器为例进行解释说明。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请实施例提供的一种音视频摘要提取方法的步骤流程示意图。

如图1所示，该音视频摘要提取方法包括步骤S10至步骤S16。

步骤S10、获取待处理音视频，所述待处理音视频包括视频帧集以及音频信息，且所述待处理音视频为第一用户拜访第二用户，以对所述第二用户讲解演示文稿的音视频。

可以理解，当该方法执行主体接收到摘要提取指令时，执行主体可以根据该摘要提取指令获取待处理音视频，以对待处理音视频进行摘要提取。其中，待处理音视频包括视频帧集以及音频信息。

待处理音视频记录了第一用户与第二用户的拜访过程，并且，第一用户与第二用户在沟通过程中还用到了演示文稿，视频帧集为待处理音视频中的视频帧构成的集合，部分视频帧记录有第一用户为第二用户讲解的演示文稿信息，相应的，待处理音视频对应的音频信息也包括了第一用户以及第二用户的谈话音频信息。

步骤S11、按照预设步长和预设切割长度将所述音频信息切割成若干个音频片段，其中，所述预设步长小于所述预设切割长度。

可以理解，通过将预设步长设置成小于预设切割长度，可以实现冗余切割，通过这种实施方式，可以避免在切割过程中，将一个人的声音切断或者一个字切割成两个音节。

在一些实施方式中，预设步长可以设置为1秒，预设切割长度可以设置为3秒，另外，预设步长以及预设切割长度也可以根据需要进行设置，在此不做限制。

步骤S12、利用预设的人声识别模型对各个所述音频片段进行分析，以从各个所述音频片段中筛选人声片段。

在一些实施方式中，噪音识别模型为预先训练好的神经网络模型，也可以为其他可以识别人声的模型，在此不做限制。通过本实施方式所提供的技术方案，可以识别各个音频片段中哪些为人声片段。

步骤S13、提取各个所述人声片段的语音特征，并根据所述语音特征对各个所述人声片段进行分组后按时间顺序进行存储，得到第一人声片段集以及第二人声片段集。

在一些实施方式中，人声片段的语音特征包括但不限于梅尔频率倒谱系数，梅尔频率倒谱系数可以应用于语音识别的功能。另外，提取梅尔频率倒谱系数的方法，可以通过特征提取模型进行提取，也可以通过其他方法进行提取，在此不做限制。

提取到各个人声片段对应的语音特征后，则可以通过比对各个人生片段的语音特征，以根据比对相似度对人生片段进行分组，并且分组时按时间顺序进行存储。因为音频信息为包括第一用户以及第二用户的谈话音频信息，因此分组后，可以得到第一人声片段集以及第二人声片段集。其中，第一人声片段集以及第二人声片段集分别为第一用户以及第二用户的谈话音频片段集合。

步骤S14、对所述第一人声片段集中的所述人声片段进行拼接，得到第一用户音频，并对所述第二人声片段集中的所述人声片段进行拼接，得到第二用户音频。

可以理解，第一人声片段集中存储的为语音特征相近的若干个人声片段，因为切割人声片段的预设步长小于预设切割长度，因此，第一人声片段集中相邻的人生片段之间可能存在重复音频片段，将第一人声片段集中的人声片段在待处理音视频的时间轴上去重后进行拼接，即得到第一用户音频。同理，将第二人声片段集中的人声片段在待处理音视频的时间轴上去重后进行拼接，即得到第二用户音频。

步骤S15、对所述第一用户音频进行关键词提取，得到第一关键词集，并对所述第二用户音频进行关键词提取，得到第二关键词集。

可以理解，对第一用户音频以及第二用户音频进行语音识别后，即可获取第一用户音频对应的文字内容，第一关键词集为从第一用户音频对应的文字内容中提取到的关键词所组成的集合。同理，第二关键词集为从第二用户音频对应的文字内容中提取到的关键词所组成的集合。

在一些实施方式中，所述对所述第一用户音频进行关键词提取，得到第一关键词集，包括：

对所述第一用户音频进行语音识别，得到所述第一用户音频对应的文字信息；

对所述文字信息进行分词处理，得到第一词集；

利用预设的无用词滤除模型滤除所述第一词集中的无用词，得到第二词集；

计算所述第二词集中各个第二词语的词频，并根据计算得到的词频结果设置各个所述第二词语的权重；

根据各个所述第二词语的权重从所述第二词集中筛选关键词，得到第一关键词集。

可以理解，对音频进行语音识别的方法有很多种，可以通过使用 GMM-HMM、DMM-HMM等算法来进行语音识别，也可以根据需要采用其他算法或者通过训练好的模型来获取第一用户音频对应的文字信息，在此不做限制。

另外，对文字信息进行分词处理时，可以使用(NLP，Natural LanguageProcessing)自然语言处理技术来实现对文字信息进行分词，也可以根据情况需要采用其他方法来实现分词，在此不做限制。对文字信息禁售分词处理后，利用得到的分词组成的集合，即为第一词集。

第一词集中可能会存在一些无用词，比如说“可以”、“我们”、“通常”等，这些词语在人们日常说话的过程中出现频率较高，但是没有多少表征意义。通过预设的无用词滤除模型滤除掉第一词集中的无用词后，即得到第二词集。

第二词集中的词语即第二词语，因为第一词集并没有进行去重处理，对于一些出现频率较高，但是又不属于无用词的词语，仍然保留在了第二词集中。因此，可以统计第二词集中各个第二词语的词频，第二词语在第二词集中出现的频率越高，则可以推断这个第二词语越受到第一用户的关注，可以通过计算第二词集中各个第二词语的词频，来设置各个第二词语的权重，第二词语的词频越高，对应的权重越大。根据权重从第二词集中筛选关键词，由筛选得到的关键词组成的集合，即为第一关键词集。

另外，对第二用户音频进行关键词提取以得到第二关键词集的过程，可以参考上述对第一用户音频进行关键词提取，得到第一关键词集的过程，在此不做重复赘述。可以理解，因为第一用户以及第二用户的对于相同事物的关注点不可能完全相同，因此，分别获取第一用户音频对应的第一关键词集，以及第二用户音频对应的第二关键词集是很有必要的。

步骤S16、根据所述第一关键词集以及所述第二关键词集从所述视频帧集中筛选关键视频帧，并根据各个所述关键视频帧生成视频摘要。

可以理解，待处理音视频为第一用户拜访第二用户，以对所述第二用户讲解演示文稿的音视频。待处理音视频对应的视频帧集中的视频帧记录有第一用户为第二用户讲解的演示文稿信息，也即，根据视频帧提取到的文字信息中可能记录有第一关键词集以及第二关键词集中的关键词，利用第一关键词集以及第二关键词集中的关键词从视频帧集中筛选出关键视频帧后，即可利用各个关键视频帧构建视频摘要。

所生成视频摘要可以为PPT(Microsoft Office PowerPoint)文档，也可以为根据各个关键图片构成的动画视频，还可以为其他形式的文件，在此不做限制。

在一些实施方式中，所述根据所述第一关键词集以及所述第二关键词集从所述视频帧集中筛选关键视频帧，包括：

滤除所述视频帧集中的重复视频帧以及无用视频帧，得到目标视频帧集；

提取所述目标视频帧集中各个目标视频帧的文字特征；

根据所述第一关键词词集以及所述文字特征，计算各个所述目标视频帧的第一得分；

根据所述第二关键词词集以及所述文字特征，计算各个所述目标视频帧的第二得分；

根据所述第一得分以及所述第二得分，计算各个所述目标视频帧的综合得分；

根据所述综合得分从所述目标视频帧集中筛选关键视频帧。

可以理解，待处理音视频由大量的视频帧组成。通常来说，时间为一秒的视频就包含了十几个到几十个视频帧，因此，视频帧集中可能包含了大量的重复视频帧。另外，有一些视频帧对生成视频摘要是没有帮助的，比如片头片尾，通常不涉及待处理音视频的主题，这种视频帧为无用视频帧。滤除掉视频帧集中的重复视频帧以及无用视频帧后，剩下的视频帧所构成的集合即为目标视频帧集。

在一些实施方式中，可以通过使用OCR(Optical Character Recognition，光学字符识别)技术来提取目标视频帧的文字特征，也可以根据需要使用其他方法来进行视频帧的文字特征提取，在此不做限制。

提取到各个目标视频帧的文字特征后，即可以利用文字特征包含第一关键词词集以及第二关键词词集中的关键词的情况，来计算目标视频帧的综合得分。综合得分越高，说明目标视频帧越关键，关键视频帧为根据目标视频帧的综合得分从目标视频帧集中筛选得到。

在一些实施方式中，所述滤除所述视频帧集中的重复视频帧以及无用视频帧，得到目标视频帧集，包括：

逐个获取所述视频帧集中的视频帧，得到第一视频帧；

将所述第一视频帧与所述视频帧集中的比对视频帧进行比对，得到所述第一视频帧与所述比对视频帧的比对相似度，其中，所述比对视频帧为所述视频帧集中除所述第一视频帧之外的视频帧；

当所述比对相似度大于预设值时，确定所述比对视频帧为重复视频帧，将所述比对视频帧从所述视频帧集中移除；

当所述视频帧集中的所有所述重复视频帧均被移除时，滤除所述视频帧集中的无用视频帧，得到目标视频帧集。

可以理解，通过比对频帧集中的第一视频帧以及比对视频帧，可以得到第一视频帧与比对视频帧的相似度，当相似度大于预设值时，可以确定比对视频帧为第一视频帧的重复视频帧。

逐个获取视频帧集中的视频帧与视频帧集中的其他视频帧进行比对，可以确定视频帧集中的哪些视频帧为重复视频帧，当视频帧集中的所有重复视频帧均被移除后，再滤除掉视频帧集中的无用视频帧，即得到目标视频帧集。

在一些实施方式中，所述滤除所述视频帧集中的无用视频帧，得到目标视频帧集，包括：

逐个获取所述视频帧集中的视频帧，得到第二视频帧；

获取所述第二视频帧的图片元素，并判断所述图片元素是否包括人物元素以及文字元素；

当所述图片元素不包括所述人物元素时，或，当所述图片元素不包括所述文字元素时，确定所述第二视频帧为无用视频帧，将所述第二视频帧从所述视频帧集中移除；

当所述视频帧集中的所有所述无用视频帧均被移除时，得到目标视频帧集。

可以理解，当视频帧集中的重复视频帧均被移除时，视频帧集中余下的视频帧均为第二视频帧，可以通过第二视频帧的图片元素来推断第二视频帧是否为无用视频帧。

在一些实施方式中，识别第二视频帧的图片元素的方法，可以为利用训练好的神经网络模型来识别第二视频帧中的图片元素，也可以使用其他方法来识别第二视频帧中的图片元素，在此不做限制。

当第二视频帧的图片元素不包括人物元素或者文字元素时，可以推断该第二视频帧不涉及待处理音视频的核心内容，此时，确定该第二视频帧为无用视频帧。当视频帧集中的所有无用视频帧均被移除时，余下的视频帧所构成的集合即为目标视频帧集。

在一些实施方式中，所述根据所述第一关键词词集以及所述文字特征，计算各个所述目标视频帧的第一得分，包括：

从所述文字特征中逐个获取语句内容，以及所述语句内容在所述目标视频帧显示时对应的字号；

当所述语句内容包括所述第一关键词集中的关键词时，根据所述语句内容包括所述第一关键词集中的关键词的个数以及所述字号计算所述语句内容的得分；

累计所述文字特征中各个所述语句内容对应的得分，得到所述目标视频帧的第一得分。

可以理解，目标视频帧中可能会包含多个语句内容，比如演示文稿中的标题语句、小标题语句或者解释语句，每个语句内容在目标视频帧中显示时都有对应的字号。

根据目标视频帧的文字特征，可以获取目标视频帧所包含的语句内容，以及每一个语句内容在目标视频帧显示时对应的字号。进一步的，可以根据语句内容包含第一关键词集中的关键词的个数以及该语句内容的字号来计算该语句内容的得分。目标视频帧中各个语句内容的得分总和，即为目标视频帧的第一得分。

具体的，语句内容包含第一关键词集中的关键词的个数越多，语句内容的字号越大，该语句内容对应的得分也越高。

另外，获取目标视频帧的第二得分的方法与上述计算目标视频帧的第一得分的方法基本相同，区别在于匹配关键词时，使用的是第二关键词词集中的关键词。需要说明的是，计算各个目标视频帧的第二得分时，可是适当调高语句内容包括第二关键词集中的关键词的个数时所获得的得分。比如，在相同的字号下，同样的一个语句内容，包含了3个第一关键词集中的关键词，与宝行2个第二关键词集中的关键词所得到的得分相同。因为待处理音视频为第一用户拜访第二用户，以对第二用户讲解演示文稿的音视频，第二关键词集中的关键词体现了第二用户的关注点，适当调高语句内容包括第二关键词集中的关键词的个数时所获得的得分，可以更好的筛选关键视频帧。

在一些实施方式中，所述根据各个所述关键视频帧生成视频摘要之前，还包括：

确定所述关键视频帧在所述待处理音视频中所处的时间节点为目标时间节点；

从所述音频信息中截取与所述目标时间节点处于预设时间范围内的关键音频片段；

获取所述关键音频片段对应的谈话文字内容，并根据所述谈话文字内容设置所述关键视频帧的字幕信息；

当各个所述关键视频帧对应的所述字幕信息均已设置完成时，根据各个所述关键视频帧生成视频摘要。

可以理解，确定关键视频帧后，可以根据关键视频帧在待处理音视频中所处的时间节点，来获取预设时间范围内的关键音频片段。并根据提取到的关键音频片段的谈话文字内容来设置关键视频帧的字幕信息。

通过这种实施方式，每一个关键视频帧都包含了第一用户以及第二用户围绕这个关键视频帧的谈话内容，根据各个关键视频帧所生成视频摘要所包含的信息会更加详细。

本申请中，获取待处理音视频，获取待处理音视频对应的视频帧集以及音频信息，对音频信息进行去噪处理并进行人声分离，得到第一用户音频以及第二用户音频，分别对第一用户音频以及第二用户音频进行关键词提取，得到第一关键词集以及第二关键词集；根据第一关键词集以及第二关键词集从视频帧集中筛选关键视频帧，并根据各个关键视频帧生成视频摘要。通过本申请所提供的技术方案，实现了对音视频摘要的智能提取。

请参照图2，图2为本申请实施例提供的一种音视频摘要提取装置的示意性框图。

如图2所示，该音视频摘要提取装置201，包括：

处理对象获取模块2011，用于获取待处理音视频，所述待处理音视频包括视频帧集以及音频信息，且所述待处理音视频为第一用户拜访第二用户，以对所述第二用户讲解演示文稿的音视频；

音频信息切割模块2012，用于按照预设步长和预设切割长度将所述音频信息切割成若干个音频片段，其中，所述预设步长小于所述预设切割长度；

人声识别模块2013，用于利用预设的人声识别模型对各个所述音频片段进行分析，以从各个所述音频片段中筛选人声片段；

人声分类模块2014，用于提取各个所述人声片段的语音特征，并根据所述语音特征对各个所述人声片段进行分组后按时间顺序进行存储，得到第一人声片段集以及第二人声片段集；

人声拼接模块2015，用于对所述第一人声片段集中的所述人声片段进行拼接，得到第一用户音频，并对所述第二人声片段集中的所述人声片段进行拼接，得到第二用户音频；

关键词提取模块2016，用于对所述第一用户音频进行关键词提取，得到第一关键词集，并对所述第二用户音频进行关键词提取，得到第二关键词集；

视频摘要生成模块2017，用于根据所述第一关键词集以及所述第二关键词集从所述视频帧集中筛选关键视频帧，并根据各个所述关键视频帧生成视频摘要。

在一些实施方式中，所述关键词提取模块2016在对所述第一用户音频进行关键词提取，得到第一关键词集时，包括：

对所述文字信息进行分词处理，得到第一词集；

在一些实施方式中，所述视频摘要生成模块2017在根据所述第一关键词集以及所述第二关键词集从所述视频帧集中筛选关键视频帧时，包括：

提取所述目标视频帧集中各个目标视频帧的文字特征；

根据所述综合得分从所述目标视频帧集中筛选关键视频帧。

在一些实施方式中，所述视频摘要生成模块2017在滤除所述视频帧集中的重复视频帧以及无用视频帧，得到目标视频帧集时，包括：

逐个获取所述视频帧集中的视频帧，得到第一视频帧；

在一些实施方式中，所述视频摘要生成模块2017在滤除所述视频帧集中的无用视频帧，得到目标视频帧集时，包括：

逐个获取所述视频帧集中的视频帧，得到第二视频帧；

在一些实施方式中，所述视频摘要生成模块2017在根据所述第一关键词词集以及所述文字特征，计算各个所述目标视频帧的第一得分时，包括：

在一些实施方式中，音视频摘要提取装置201还包括字幕信息设置模块 2018，在视频摘要生成模块2017根据各个所述关键视频帧生成视频摘要之前，用于确定所述关键视频帧在所述待处理音视频中所处的时间节点为目标时间节点；

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块及单元的具体工作过程，可以参考前述音视频摘要提取方法实施例中的对应过程，在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图3所示的计算机设备上运行。

请参阅图3，图3为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备包括但不限定于服务器。

如图3所示，该计算机设备301包括通过系统总线连接的处理器3011、存储器和网络接口，其中，存储器可以包括存储介质3012和内存储器3015，存储介质3012可以是非易失性的，也可以是易失性的。

存储介质3012可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器3011执行任意一种音视频摘要提取方法。

处理器3011用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器3015为存储介质3012中的计算机程序的运行提供环境，该计算机程序被处理器3011执行时，可使得处理器3011执行任意一种音视频摘要提取方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器3011可以是中央处理单元(Central Processing Unit，CPU)，该处理器3011还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit， ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一些实施方式中，所述处理器3011用于运行存储在存储器中的计算机程序，以实现如下步骤：

在一些实施方式中，所述处理器3011在对所述第一用户音频进行关键词提取，得到第一关键词集时，用于实现：

对所述文字信息进行分词处理，得到第一词集；

在一些实施方式中，所述处理器3011在根据所述第一关键词集以及所述第二关键词集从所述视频帧集中筛选关键视频帧时，用于实现：

提取所述目标视频帧集中各个目标视频帧的文字特征；

根据所述综合得分从所述目标视频帧集中筛选关键视频帧。

在一些实施方式中，所述处理器3011在滤除所述视频帧集中的重复视频帧以及无用视频帧，得到目标视频帧集时，用于实现：

逐个获取所述视频帧集中的视频帧，得到第一视频帧；

在一些实施方式中，所述处理器3011在滤除所述视频帧集中的无用视频帧，得到目标视频帧集时，用于实现：

逐个获取所述视频帧集中的视频帧，得到第二视频帧；

在一些实施方式中，所述处理器3011在根据所述第一关键词词集以及所述文字特征，计算各个所述目标视频帧的第一得分时，用于实现：

在一些实施方式中，所述处理器3011在视频摘要生成模块2017根据各个所述关键视频帧生成视频摘要之前，还用于实现：

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述计算机设备的具体工作过程，可以参考前述音视频摘要提取方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种存储介质，该存储介质为计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本申请音视频摘要提取方法的各个实施例。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital， SD)卡，闪存卡(Flash Card)等。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种音视频摘要提取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述第一用户音频进行关键词提取，得到第一关键词集，包括：

对所述文字信息进行分词处理，得到第一词集；

3.根据权利要求1-2中任一项所述的方法，其特征在于，所述根据所述第一关键词集以及所述第二关键词集从所述视频帧集中筛选关键视频帧，包括：

提取所述目标视频帧集中各个目标视频帧的文字特征；

根据所述综合得分从所述目标视频帧集中筛选关键视频帧。

4.根据权利要求3所述的方法，其特征在于，所述滤除所述视频帧集中的重复视频帧以及无用视频帧，得到目标视频帧集，包括：

逐个获取所述视频帧集中的视频帧，得到第一视频帧；

5.根据权利要求4所述的方法，其特征在于，所述滤除所述视频帧集中的无用视频帧，得到目标视频帧集，包括：

逐个获取所述视频帧集中的视频帧，得到第二视频帧；

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一关键词词集以及所述文字特征，计算各个所述目标视频帧的第一得分，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据各个所述关键视频帧生成视频摘要之前，还包括：

8.一种音视频摘要提取装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如权利要求1至7中任一项所述的音视频摘要提取方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如权利要求1至7中任一项所述的音视频摘要提取方法的步骤。