CN112632329A

CN112632329A - 视频提取方法、装置、电子设备及存储介质

Info

Publication number: CN112632329A
Application number: CN202011511622.2A
Authority: CN
Inventors: 顾冬珏
Original assignee: China Mobile Communications Group Co Ltd; MIGU Interactive Entertainment Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Interactive Entertainment Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-04-09

Abstract

本发明实施例涉及音视频处理，公开了一种视频提取方法、装置、电子设备及存储介质。本发明中，视频提取方法，包括以下步骤：从游戏音视频中提取游戏音频；生成游戏音频的第一特征值；将第一特征值与预先得到的第二特征值进行匹配；第二特征值是当玩家完成精彩操作触发的第二音频的特征值；若第一特征值与第二特征值匹配成功，则根据第一特征值对应的游戏音频，从游戏音视频中提取与游戏音频对应的游戏视频，得到精彩操作视频。本发明实施例视频提取方法能够快速提取精彩操作视频，降低实现成本。

Description

视频提取方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及音视频处理，特别涉及一种视频提取方法、装置、电子设备及存储介质。

背景技术

随着移动互联网技术的飞速发展，网络游戏的受众越来越多，为了游戏玩家在游戏结束后可以对自己游戏时完成精彩操作的精彩时刻进行回顾，或进行网络游戏直播时，放送方能在游戏结束后快速为观众提供精彩时刻回顾，需要快速提取游戏过程中精彩时刻视频。

相关的提取精彩时刻视频技术通过实时录制显示界面或对赛事构建知识图谱，利用人脸识别等智能算法对视频进行处理，对赛事数据事件标签进行提取，基于事件标签和知识图谱进行统计分析，对赛事的视觉精彩程度评分，按照评分结果进行赛事片段截取。

因此，相关的提取精彩时刻视频技术存在以下问题：精彩时刻的内容是录制内容中的一小部分，录制完成后需要进行裁剪等后期处理，耗费时间长；人脸识别对于游戏画面适用性低，对于精彩时刻的识别成功率低，基于事件标签和知识图谱进行统计分析评分步骤复杂，需要较大的实现成本。

发明内容

本发明实施方式的目的在于提供一种视频提取方法、装置、电子设备及存储介质，能够快速提取精彩操作视频，降低实现成本。

为解决上述技术问题，本发明的实施方式提供了一种视频提取方法，包括以下步骤：从游戏音视频中提取游戏音频；生成游戏音频的第一特征值；将第一特征值与预先得到的第二特征值进行匹配；第二特征值是当玩家完成精彩操作触发的第二音频的特征值；若第一特征值与第二特征值匹配成功，则根据第一特征值对应的游戏音频，从游戏音视频中提取与游戏音频对应的游戏视频，得到精彩操作视频。

本发明的实施方式还提供了一种视频提取装置，包括：音频提取模块，用于从游戏音视频中提取游戏音频；生成模块，用于生成游戏音频的第一特征值；匹配模块，用于将第一特征值与预先得到的第二特征值进行匹配；第二特征值是当玩家完成精彩操作触发的第二音频的特征值；视频提取模块，用于若第一特征值与第二特征值匹配成功，则根据第一特征值对应的游戏音频，从游戏音视频中提取与游戏音频对应的游戏视频，得到精彩操作视频。

本发明的实施方式还提供了一种电子设备，包括：至少一个处理器；与至少一个处理器通信连接的存储器；存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述视频提取方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，其特征在于，计算机程序被处理器执行时实现上述视频提取方法。

本发明实施方式相对于相关技术而言，通过从游戏音视频中提取游戏音频，生成游戏音频的第一特征值与预先得到的第二特征值进行匹配，若匹配成功，根据第一特征值对应的游戏音频从游戏音视频中提取与游戏音频对应的游戏视频，得到精彩操作视频，由于第二特征值是当玩家完成精彩操作触发的第二音频的特征值，与第二特征值匹配成功的第一特征值对应的游戏音频和玩家完成精彩操作触发的第二音频相同，因此，与游戏音频对应的游戏视频是玩家完成精彩操作时的视频，即精彩操作视频，不需要再进行裁剪等后期处理，后期处理得到精彩操作视频耗费的时间；由于使用游戏音频的第一特征值与第二音频的第二特征值进行匹配，不需要人脸识别等复杂的智能算法对游戏音视频进行处理；因此，本申请的视频实现方法可以快速提取精彩操作视频，降低实现成本。

另外，第二特征值包括：与不同精彩等级的第二音频对应的多个第二特征值；将第一特征值与预先得到的第二特征值进行匹配，包括：将第一特征值与多个第二特征值分别进行匹配；若第一特征值与第二特征值匹配成功，根据第一特征值对应的游戏音频，从游戏音视频中提取与游戏音频对应的游戏视频，得到精彩操作视频，包括：若第一特征值与多个第二特征值中的一个第二特征值匹配成功，则根据第一特征值对应的游戏音频，从游戏音视频中提取与游戏音频对应的游戏视频，得到匹配成功的第二特征值对应的精彩等级的精彩操作视频。通过将第一特征值与不同精彩等级的第二音频对应的多个第二特征值分别匹配，若第一特征值与一个第二特征值匹配成功，根据第一特征值对应的游戏音频从游戏音视频中提取对应的游戏视频，得到与第二特征值对应的精彩等级的精彩操作视频，从而能够将游戏音频与不同精彩等级操作触发的第二音频进行匹配，对从游戏音视频中提取得到精彩操作视频进行不同精彩等级的分类。

另外，第一特征值，包括：第一频域特征值；生成游戏音频的第一特征值，包括：生成游戏音频的第一脉冲编码调制pcm数据；计算得到第一pcm数据的第一频域特征值；第二特征值，包括：第二音频的第二频域特征值；将第一特征值与预先得到的第二特征值进行匹配，包括：将第一频域特征值与第二频域特征值进行匹配。通过生成游戏音频的pcm数据，计算得到第一频域特征值，与第二音频的第二频域特征值进行匹配，不需要复杂的算法对游戏视频进行处理，降低提取精彩操作视频的实现成本。

另外，计算得到第一pcm数据的第一频域特征值，包括：对第一pcm数据进行频域变换，过滤高频噪音，得到第一频域特征值。通过对第一pcm数据进行频域变换，过滤高频噪音，得到第一频域特征值，由于高频噪音被过滤，仅保留游戏音频的低频轮廓部分，避免了高频噪音对第一频域特征值的影响，提高视频提取的准确度。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明第一实施方式提供的视频提取方法流程图；

图2是根据本发明第二实施方式提供的视频提取方法流程图；

图3是根据本发明第三实施方式提供的视频提取方法流程图；

图4是根据本发明第四实施方式提供的视频提取方法流程图；

图5是根据本发明第五实施方式提供的视频提取装置的结构示意图；

图6是根据本发明第六实施方式提供的电子设备示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的第一实施方式涉及一种视频提取方法。具体流程如图1所示，包括：

步骤101，从游戏音视频中提取游戏音频；

步骤102，生成游戏音频的第一特征值；

步骤103，将第一特征值与预先得到的第二特征值进行匹配；第二特征值是当玩家完成精彩操作触发的第二音频的特征值；

步骤104，若第一特征值与第二特征值匹配成功，则根据第一特征值对应的游戏音频，从游戏音视频中提取与游戏音频对应的游戏视频，得到精彩操作视频。

本实施方式中的视频提取方法，可以由游戏运营商设置在游戏程序中实现，为游戏玩家提供精彩操作视频，在游戏结束时，为玩家提供玩家的精彩操作时刻回顾，也可以被用于游戏直播活动，当游戏结束，直播放送方可以利用本实施方式的视频提取方法快速为观众提供直播时的精彩时刻回顾，还可以由云游戏平台实现，在平台用户即游戏玩家结束游戏时，为平台用户提供用户在游戏中的精彩操作视频等。本实施方式以能够运行云游戏平台的电子设备为例，如电脑、手机等，进行视频提取方法实现的说明。当存在一场游戏中存在多个精彩时刻时，可以对多个精彩时刻进行分别提取，从而向平台用户或游戏玩家进行一一展示。

下面对本实施方式的视频提取方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

在步骤101中，游戏音视频是玩家进行游戏时，设备上播放的游戏音视频。其中，游戏音视频是封装了音频的视频。从游戏音视频中提取游戏音频可以是对缓存得到的游戏音视频进行提取，也可以是对玩家的游戏界面和游戏播放的音频，进行录屏、录音，从而获取玩家的游戏音视频，进而提取游戏音频。游戏音视频是一个封装了音频和视频的文件，可以是mp4、flv、mkv等封装格式，从封装了音频和视频文件中提取出游戏音频，可以是从封装文件中分离提取得到音频文件和视频文件，也可以从封装文件中只提取出音频文件。由于游戏音视频是在设备上播放的，分离得到的音频与视频在时间上是对应的。其中，游戏音视频的长度可以与第二音频相同，第二音频是玩家完成精彩操作触发的音频，例如为“精彩”、“wonderful”等等语音提示。

在一个例子中，游戏音视频的长度大于第二音频的长度，从封装了音频和视频的文件中分离音频和视频后，以滑动窗口的形式，在音频中截取与第二音频长度相同的音频段，作为游戏音频。其中，在从左到向排列的音频数据中，滑动窗口可以每次向右滑动一字节，进行游戏音频的提取。

优选地，为了提高游戏音频的提取效率，滑动窗口可以每次向右滑动小于第二音频长度的多个字节，进行游戏音频的提取。

在步骤102中，第一特征值是对游戏音频进行处理得到的，为了能与预先得到的第二特征值进行匹配，对游戏音频处理得到第一特征值的过程与对第二音频的处理得到第二特征值的过程相同。其中，对游戏音频的处理包括：对游戏音频进行抽样、量化、编码等。抽样时，对游戏音频进行抽样的采样率与对第二音频进行抽样的采样率相同；编码时，对游戏音频采用的编码方式与对第二音频进行编码时采用的编码方式相同。处理后得到的第一特征值与预先得到的第二特征值是将音频声音波形数字化结果，可以用数组进行储存，以一个声音波形幅值作为一个数组元素。

在一个例子中，对游戏音频、第二音频的处理，包括：对游戏音频进行时域处理，生成游戏音频的第一时域特征值；对第二音频进行时域处理，生成第二音频的第二时域特征值；其中，生成游戏音频的第一时域特征值，包括：生成游戏音频的第一脉冲编码调制pcm数据；计算得到第一pcm数据的第一时域特征值。其中，第一pcm数据是未经压缩的音频采样数据裸流，有无符号8位、有符号8位、无符号16位、有符号16位等类型，可以用数组储存。计算得到第一pcm数据的第一时域特征值，包括：对第一pcm数据进行线性映射，将第一pcm数据映射到一个目标区间，作为第一特征值。映射公式如下所示：NormalizationValue＝CurValue*TargetMaxValue/OriginalMaxValue，其中，NormalizationValue是第一pcm数据中的一个数值进行映射后得到的数值，CurValue为当前一个待映射的第一pcm数据中的一个数值，TargetMaxValue为映射的目标区间的最大值，OriginalMaxValue为映射前的第一pcm数据中所有数据所属的数值区间的最大值。其中，第一特征值与预先生成的第二特征值计算步骤相同，且映射的目标区间相同。对应地，生成第二音频的第二时域特征值，包括：生成第二音频的脉冲编码调制pcm数据；计算得到此pcm数据的第二时域特征值，从而能够对第一时域特征值、第二时域特征值进行匹配。

在一个例子中，对游戏音频、第二音频的处理，还可以是：将游戏音频转换成文本数据，作为第一文本特征值；将第二音频转换得到的第二文本特征值；其中，可以利用语音识别技术，识别游戏音频的文本内容，将文本内容作为游戏音频的第一文本特征值。相同地，生成第二音频的第二文本特征值，包括：利用语音识别技术，识别第二音频的文本内容，将文本内容作为第二音频的第二文本特征值，从而能够对第一文本特征值、第二文本特征值进行匹配。

在步骤103中，将第一特征值与第二特征值进行匹配可以是计算第一特征值与第二特征值之间的相似度，也可以是计算第一特征值与第二特征值之间的差异度。

在一个例子中，若对游戏音频、第二音频的处理为时域处理，则计算第一特征值与第二特征值之间的差异度包括：对储存第一时域特征值的数组与储存第二时域特征值的数组中的元素进行计算，计算对应的i个元素的差值的绝对值之和。计算公式如下：

其中DiffSum为储存第一时域特征值的数组中各个元素和储存第二时域特征值的数组中下标相同的元素的差值的绝对值之和，pcm_i为储存第一时域特征值的数组中的第i个元素，pcmRef_i为储存第二时域特征值的数组中的第i个元素，i的取值为1到n，n是储存第一时域特征值或第二时域特征值的数组包含的元素个数。若第一时域特征值与第二时域特征值的元素差值较小，说明此刻的音频幅值很接近，若DiffSum的值小于预设阈值，说明第一时域特征值与第二时域特征值匹配成功。

在一个例子中，若对游戏音频、第二音频的处理为文本处理，则计算第一特征值与第二特征值之间的相似度，包括：对第一文本特征值、第二文本特征值进行相同文字匹配，若第一文本特征值中与第二文本特征值的文字相同率大于预设文字相同阈值，说明第一文本特征值与第二文本特征值匹配成功。

在步骤104中，若采用计算相似度进行第一特征值与第二特征值的匹配，当第一特征值与第二特征值之间的相似度大于预设的相似阈值，则此第一特征值与第二特征值匹配成功；若采用计算差异度进行第一特征值与第二特征值的匹配，当第一特征值与第二特征值之间的相似度小于预设的差异阈值，则此第一特征值与第二特征值匹配成功。若第一特征值与第二特征值匹配成功，则从游戏音视频中分离得到的视频即是与游戏音频对应的游戏视频。将从游戏音视频中分离得到的游戏视频，作为精彩操作视频。

在一个例子中，游戏音视频的长度大于第二音频的长度，若第一特征值与第二特征值匹配成功，则从分离的视频中，提取与游戏音频对应的视频段，作为精彩操作视频。游戏音视频、通过分离游戏音视频得到的音频、视频、以及从音频中提取的游戏音频的数据中都包含时间信息，从而在时间上进行对应，其中，可以通过时间戳的方法使得分离游戏音视频得到的音频、视频、从音频中提取的游戏音频的数据中都包含时间信息。从视频中提取与游戏音频对应的视频段，包括：从视频中提取与游戏音频开始时间、结束时间相同的视频段，作为精彩操作视频。

在一个例子中，若第一特征值与第二特征值匹配成功，则根据第一特征值对应的游戏音频，从游戏音视频中提取与游戏音频对应的游戏视频，得到精彩操作视频，包括：若第一特征值与第二特征值匹配成功，则根据第一特征值对应的游戏音频，从游戏音视频中提取与游戏音频对应的游戏视频，将游戏音频和游戏视频封装，得到封装了游戏音频的精彩操作视频。

在一个例子中，根据第一特征值对应的游戏音频，从游戏音视频中提取与游戏音频对应的游戏视频，得到精彩操作视频，包括：根据第一特征值对应的游戏音频，从游戏音视频中提取与游戏音频对应的游戏视频，提取在游戏音频前的第一预设时间阈值内的游戏视频、在游戏音频后的第二预设时间阈值内的游戏视频，按时间先后连接提取的游戏视频，得到精彩操作视频。其中，第一预设时间阈值、第二预设时间阈值的数值可以有一个设置为0。本实施例中，通过提取游戏音频对应的游戏视频、游戏音频前后预设时间阈值内的游戏视频，可以确保提取的精彩操作视频的完整性，提高视频提取的准确性。

在一个例子中，在得到精彩操作视频后，还可以将精彩操作视频保存为本地视频文件，供玩家保存留念。并且，还可以将保存的本地视频文件进行编辑，标记精彩标签，并上传至云平台储存。

本实施方式中，通过从游戏音视频中提取游戏音频，生成游戏音频的第一特征值与预先得到的第二特征值进行匹配，若匹配成功，则根据第一特征值对应的游戏音频从游戏音视频中提取与游戏音频对应的游戏视频，得到精彩操作视频，由于第二特征值是当玩家完成精彩操作触发的第二音频的特征值，与第二特征值匹配成功的第一特征值对应的游戏音频和玩家完成精彩操作触发的第二音频相同，因此，与游戏音频对应的游戏视频是玩家完成精彩操作时的视频，即精彩操作视频，不需要再进行裁剪等后期处理，后期处理得到精彩操作视频耗费的时间；由于使用游戏音频的第一特征值与第二音频的第二特征值进行匹配，不需要人脸识别等复杂的智能算法对游戏音视频进行处理；因此，本申请的视频实现方法可以快速提取精彩操作视频，降低实现成本。

另外，由于缓存的音视频文件是通过储存游戏实时播放的音视频得到的，因此通过从预先设置的缓存区中获取游戏音视频，使得获取游戏音视频需要的耗时少，从而提高视频提取效率。

进一步地，缓存区中缓存的游戏音视频的时间长短是可设置的，可以将缓存游戏音视频的缓存时间设置为与一个第二音频相同的时长，也可以将缓存时长设置为长于一个第二音频的时长。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明的第二实施方式涉及一种视频提取方法。第二实施方式与第一实施方式大致相同，主要区别之处在于：在第一实施方式中，对游戏音频、第二音频的处理，包括时域处理、文本转换，而在本发明第二实施方式中，对游戏音频、第二音频的处理，为频域处理，生成的第一特征值、第二特征值分别为第一频域特征值、第二频域特征值。

本实施方式的具体流程如图2所示。

步骤201，从游戏音视频中提取游戏音频；

步骤202，生成游戏音频的第一脉冲编码调制pcm数据；

步骤203，计算得到第一pcm数据的第一频域特征值；

步骤204，将第一频域特征值与预先得到的第二频域特征值进行匹配；

步骤205，若第一特征值与第二特征值匹配成功，则根据第一特征值对应的游戏音频，从游戏音视频中提取与游戏音频对应的游戏视频，得到精彩操作视频。

其中，步骤201、步骤205与第一实施例中的步骤101、步骤104大致相同，不再赘述。

在步骤202中，第一频域特征值是对游戏音频在进行频域处理得到的，为了能与预先得到的第二频域特征值进行匹配，对游戏音频处理得到第一频域特征值的过程与对第二音频的处理得到第二频域特征值的过程相同。其中，对游戏音频的处理包括：对游戏音频进行抽样、量化、编码得到第一pcm数据。第一pcm数据是未经压缩的音频采样数据裸流，有无符号8位、有符号8位、无符号16位、有符号16位等类型。抽样时，对游戏音频进行抽样的采样率与对第二音频进行抽样的采样率相同；编码时，对游戏音频采用的编码方式与对第二音频进行编码时采用的编码方式相同。处理后得到的第一pcm数据是将音频声音波形数字化结果，可以用数组进行储存，以一个声音波形幅值作为一个数组元素。

在步骤203中，计算得到第一pcm数据的第一频域特征值，包括：对第一pcm进行线性映射，将第一pcm数据映射到一个目标区间，对映射后的pcm数据进行频域变换，得到第一频域特征值。其中，频域变换可以包括离散余弦变换或傅里叶变换。由于第一特征值与预先生成的第二特征值计算步骤相同，且映射的目标区间相同。对应地，生成第二频域特征值包括：生成第二音频的脉冲编码调制pcm数据；对第二音频的pcm进行线性映射，将第二音频的pcm数据映射到目标区间，对映射后的pcm数据进行频域变换，得到第二频域特征值。

在一个例子中，计算得到第一pcm数据的第一频域特征值，包括：对第一pcm数据进行频域变换，过滤高频噪音，得到第一频域特征值。其中，可以通过低通滤波器过滤高频数据，保留低频数据，从低到高取m个低频值作为第一特征值，m可以是一个预先设置的数值。由于第一特征值与预先生成的第二特征值计算步骤相同，且映射的目标区间相同。对应地，生成第二频域特征值包括：对第二音频的pcm数据进行频域变换，过滤高频噪音，得到第二频域特征值。其中，可以通过低通滤波器过滤高频数据，保留低频数据，从低到高取m个低频值作为第二特征值。本实施例中，通过对第一pcm数据进行频域变换，过滤高频噪音，得到第一频域特征值，由于高频噪音被过滤，仅保留游戏音频的低频轮廓部分，避免了高频噪音对第一频域特征值的影响，提高视频提取的准确度。

在步骤204中，将第一频域特征值与第二频域特征值进行匹配可以是计算第一特征值与第二特征值之间的差异度。

在一个例子中，计算第一频域特征值与第二频域特征值之间的差异度包括：对储存第一频域特征值的数组与储存第二频域特征值的数组中的元素进行计算，计算对应i个元素的差值的绝对值之和。计算公式如下：

其中DiffSum为储存第一时域特征值的数组中的一个元素和储存第二时域特征值的数组中各元素的差值的绝对值之和，FrequencyDomain_i为储存第一频域特征值的数组中的第i个元素，FrequencyDomainRef_i为储存第二频域特征值的数组中的第i个元素，i的取值为1到n，n是储存第一频域特征值或第二频域特征值的数组包含的元素个数。若第一频域特征值与第二频域特征值的元素差值较小，说明此刻的音频幅值很接近，若DiffSum的值小于预设阈值，说明第一频域特征值与第二频域特征值匹配成功。

本实施方式中，通过生成游戏音频的pcm数据，计算得到第一频域特征值，与第二音频的第二频域特征值进行匹配，不需要复杂的算法对游戏视频进行处理，降低提取精彩操作视频的实现成本。

本发明的第三实施方式涉及一种视频提取方法。第三实施方式与第一、第二实施方式大致相同，主要区别之处在于：在第一、第二实施方式中，玩家完成精彩操作触发的第二音频为一个。而在本发明第三实施方式中，玩家完成精彩操作触发的第二音频有多个，不同的第二音频对应不同精彩等级。

本实施方式的视频提取方法具体流程如图3所示。

步骤301，从游戏音视频中提取游戏音频；

步骤302，生成游戏音频的第一特征值；

步骤303，将第一特征值与多个第二特征值分别进行匹配；第二特征值是当玩家完成精彩操作触发的第二音频的特征值；其中，第二特征值包括：与不同精彩等级的第二音频对应的多个第二特征值；

步骤304，若第一特征值与多个第二特征值中的一个第二特征值匹配成功，则根据第一特征值对应的游戏音频，从游戏音视频中提取与游戏音频对应的游戏视频，得到匹配成功的第二特征值对应的精彩等级的精彩操作视频。

其中，步骤301、步骤302与第一实施例中的步骤101、步骤102大致相同，不再赘述。

在步骤303中，第二特征值包括与不同精彩等级对应的多个第二音频对应的第二特征值。将游戏音频的第一特征值与多个第二特征值进行匹配。具体地，可以分别计算第一特征值与各个第二特征值之间的相似度，也可以分别计算第一特征值与各个第二特征值之间的差异度。

在一个例子中，将第一特征值与多个第二特征值分别进行匹配，包括：分别计算第一特征值与多个第二特征值的各差异值；检测是否存在小于预设阈值的差异值；若唯一存在小于预设阈值的差异值，则将小于预设阈值的差异值对应的第二特征值，作为与第一特征值匹配成功的第二特征值；若存在多个小于预设阈值的差异值，则将小于预设阈值且数值最小的差异值对应的第二特征值，作为与第一特征值匹配成功的第二特征值。例如，可以将小于预设阈值的差异值进行大小排序，取最小的差异值对应的第二特征值，作为与第一特征值匹配成功的第二特征值；也可以将预设阈值动态减小，再判断小于此阈值的差异值个数，重复此过程，直到小于此阈值的差异值个数只有一个，取此差异值对应的第二特征值，作为与第一特征值匹配成功的第二特征值。

在步骤304中，若第一特征值与一个第二特征值匹配成功，且游戏音视频与此第二音频的长度相同，则从游戏音视频中分离得到的视频即是与游戏音频对应的游戏视频；若游戏音视频的长度大于匹配成功的第二音频的长度，则需要从分离的视频中，提取与游戏音频对应的视频段，作为精彩操作视频。分离游戏音视频得到的音频、视频、从音频中提取的游戏音频的数据中都包含时间信息，从而在时间上进行对应，其中，可以通过时间戳的方法使得分离游戏音视频得到的音频、视频、从音频中提取的游戏音频的数据中都包含时间信息。从视频中提取与游戏音频对应的视频段，包括：从视频中提取与游戏音频开始时间、结束时间相同的视频段。

本发明的第四实施方式涉及一种视频提取方法。具体流程如图4所示，包括：

步骤401，从游戏音视频中提取游戏音频；

步骤402，生成游戏音频的第一特征值；

步骤403，将第一特征值与预先得到的第二特征值进行匹配；第二特征值是当玩家完成精彩操作触发的第二音频的特征值；

步骤404，若第一特征值与第二特征值匹配成功，则根据第一特征值对应的游戏音频，确定对应的游戏音频在游戏音视频中的位置，截取位置的游戏音视频，得到精彩操作视频。

其中，步骤401、步骤402、步骤403与第一实施例中的步骤101、步骤102、步骤103大致相同，不再赘述。

在步骤404中，截取游戏音频对应位置的游戏音视频，得到精彩操作视频，即，得到的精彩操作视频是封装了游戏音频的精彩操作视频。其中，若第一特征值与第二特征值匹配成功，且游戏音视频与第二音频的长度相同，则此游戏视频即是精彩操作视频；若游戏音视频的长度大于第二音频的长度，则需要从游戏音视频中，提取与游戏音频对应的音视频段，作为精彩操作视频。其中，游戏音视频、从游戏音视频中提取的音频、从音频中提取的游戏音频的数据中都包含时间信息，从而可以在时间位置上进行对应，其中，可以通过时间戳的方法使得游戏音视频、从游戏音视频中提取的音频、从音频中提取的游戏音频的数据中都包含时间信息。从游戏音视频中提取与游戏音频对应的游戏音视频，包括：从游戏音视频中提取与游戏音频开始时间、结束时间相同的游戏音视频段，作为精彩操作视频。

本实施例中，通过从游戏音视频中提取游戏音频，生成游戏音频的第一特征值与预先得到的第二特征值进行匹配，若匹配成功，根据第一特征值对应的游戏音频从游戏音视频中提取与游戏音频对应的游戏视频，得到精彩操作视频，由于游戏视频中封装了游戏音频，因此得到的精彩操作视频是包括游戏音频和游戏视频的精彩操作视频。

本发明第五实施方式涉及一种视频提取装置，如图5所示，包括：

音频提取模块501，用于从游戏音视频中提取游戏音频；

生成模块502，用于生成游戏音频的第一特征值；

匹配模块503，用于将第一特征值与预先得到的第二特征值进行匹配；第二特征值是当玩家完成精彩操作触发的第二音频的特征值；

视频提取模块504，用于若第一特征值与第二特征值匹配成功，则根据第一特征值对应的游戏音频，从游戏音视频中提取与游戏音频对应的游戏视频，得到精彩操作视频。

在一个例子中，第二特征值包括：与不同精彩等级的第二音频对应的多个第二特征值；匹配模块503，还用于将第一特征值与多个第二特征值分别进行匹配；视频提取模块504，还用于若第一特征值与多个第二特征值中的一个第二特征值匹配成功，则根据第一特征值对应的游戏音频，从游戏音视频中提取与游戏音频对应的游戏视频，得到匹配成功的第二特征值对应的精彩等级的精彩操作视频。

在一个例子中，匹配模块503，具体用于分别计算第一特征值与多个第二特征值的各差异值；检测是否存在小于预设阈值的差异值；若唯一存在小于预设阈值的差异值，则将小于预设阈值的差异值对应的第二特征值，作为与第一特征值匹配成功的第二特征值；若存在多个小于预设阈值的差异值，则将小于预设阈值且数值最小的差异值对应的第二特征值，作为与第一特征值匹配成功的第二特征值。

在一个例子中，第一特征值，包括：第一频域特征值；生成模块502，具体用于生成游戏音频的第一脉冲编码调制pcm数据；计算得到第一pcm数据的第一频域特征值；第二特征值，包括：第二音频的第二频域特征值；匹配模块503，具体用于将第一频域特征值与第二频域特征值进行匹配。

在一个例子中，生成模块502，具体用于对第一pcm数据进行频域变换，过滤高频噪音，得到第一频域特征值。

在一个例子中，第一特征值，包括：第一时域特征值；生成模块502，具体用于生成游戏音频的第一脉冲编码调制pcm数据；计算得到第一pcm数据的第一时域特征值；第二特征值，包括：第二音频的第二时域特征值；匹配模块503，具体用于将第一时域特征值与第二时域特征值进行匹配。

在一个例子中，视频提取装置还包括：获取模块，用于从预先设置的缓存区中获取游戏音视频，缓存区用于缓存实时播放的游戏音视频。

在一个例子中，视频提取模块504，还用于根据第一特征值对应的游戏音频，确定对应的游戏音频在游戏音视频中的位置，截取此位置的游戏音视频，得到精彩操作视频。

本发明第六实施方式涉及一种电子设备，如图6所示，包括：至少一个处理器601；与至少一个处理器通信连接的存储器602；其中，存储器602存储有可被至少一个处理器601执行的指令，指令被至少一个处理器601执行上述的视频提取方法。

其中，存储器602和处理器601采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器601和存储器602的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器601处理的信息通过天线在无线介质上进行传输，进一步，天线还接收信息并将信息传送给处理器601。

处理器601负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器602可以被用于存储处理器在执行操作时所使用的信息。

本发明第七实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种视频提取方法，其特征在于，包括：

从游戏音视频中提取游戏音频；

生成所述游戏音频的第一特征值；

将所述第一特征值与预先得到的第二特征值进行匹配；所述第二特征值是当玩家完成精彩操作触发的第二音频的特征值；

若所述第一特征值与所述第二特征值匹配成功，则根据所述第一特征值对应的所述游戏音频，从所述游戏音视频中提取与游戏音频对应的游戏视频，得到精彩操作视频。

2.根据权利要求1所述的视频提取方法，其特征在于，所述第二特征值包括：与不同精彩等级的第二音频对应的多个第二特征值；

所述将所述第一特征值与预先得到的第二特征值进行匹配，包括：

将所述第一特征值与所述多个第二特征值分别进行匹配；

所述若所述第一特征值与所述第二特征值匹配成功，根据所述第一特征值对应的所述游戏音频，从所述游戏音视频中提取与所述游戏音频对应的游戏视频，得到精彩操作视频，包括：

若所述第一特征值与所述多个第二特征值中的一个第二特征值匹配成功，则根据所述第一特征值对应的游戏音频，从所述游戏音视频中提取与游戏音频对应的游戏视频，得到匹配成功的第二特征值对应的精彩等级的精彩操作视频。

3.根据权利要求2所述的视频提取方法，其特征在于，所述将所述第一特征值与所述多个第二特征值分别进行匹配，包括：

分别计算所述第一特征值与所述多个第二特征值的各差异值；

检测是否存在小于预设阈值的所述差异值；

若唯一存在小于预设阈值的所述差异值，则将小于预设阈值的所述差异值对应的第二特征值，作为与所述第一特征值匹配成功的第二特征值；

若存在多个小于预设阈值的所述差异值，则将小于预设阈值且数值最小的差异值对应的第二特征值，作为与所述第一特征值匹配成功的第二特征值。

4.根据权利要求1至3中任一项所述的视频提取方法，其特征在于，所述第一特征值，包括：第一频域特征值；

所述生成所述游戏音频的第一特征值，包括：

生成所述游戏音频的第一脉冲编码调制pcm数据；

计算得到所述第一pcm数据的第一频域特征值；

所述第二特征值，包括：所述第二音频的第二频域特征值；

所述将所述第一特征值与预先得到的第二特征值进行匹配，包括：将所述第一频域特征值与所述第二频域特征值进行匹配。

5.根据权利要求4所述的视频提取方法，其特征在于，所述计算得到所述第一pcm数据的第一频域特征值，包括：

对所述第一pcm数据进行频域变换，过滤高频噪音，得到所述第一频域特征值。

6.根据权利要求1至3中任一项所述的视频提取方法，其特征在于，所述第一特征值，包括：第一时域特征值；

所述生成所述游戏音频的第一特征值，包括：

生成所述游戏音频的第一脉冲编码调制pcm数据；

计算得到所述第一pcm数据的第一时域特征值；

所述第二特征值，包括：第二音频的第二时域特征值；

所述将所述第一特征值与预先得到的第二特征值进行匹配，包括：将所述第一时域特征值与所述第二时域特征值进行匹配。

7.根据权利要求1所述的视频提取方法，其特征在于，在所述从游戏音视频中提取游戏音频前，还包括：

从预先设置的缓存区中获取所述游戏音视频，所述缓存区用于缓存实时播放的游戏音视频。

8.一种视频提取装置，其特征在于，包括：

音频提取模块，用于从游戏音视频中提取游戏音频；

生成模块，用于生成所述游戏音频的第一特征值；

匹配模块，用于将所述第一特征值与预先得到的第二特征值进行匹配；所述第二特征值是当玩家完成精彩操作触发的第二音频的特征值；

视频提取模块，用于若所述第一特征值与所述第二特征值匹配成功，则根据所述第一特征值对应的所述游戏音频，从所述游戏音视频中提取与游戏音频对应的游戏视频，得到精彩操作视频。

9.一种电子设备，其特征在于，包括：

至少一个处理器；

与所述至少一个处理器通信连接的存储器；

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的视频提取方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一所述的视频提取方法。