CN113542810A

CN113542810A - 一种视频处理方法、装置、电子设备和存储介质

Info

Publication number: CN113542810A
Application number: CN202110794718.2A
Authority: CN
Inventors: 姚广; 苏仲岳; 徐麟; 闫正
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2021-10-22

Abstract

本发明公开了一种视频处理方法、装置、电子设备和存储介质，该方法包括：根据视频记录的音频信息确定至少一个说话人的发言信息；根据各所述发言信息确定所述视频记录的交谈频率；基于阈值频率和各所述交谈频率在所述视频记录中确定重要事件记录。本发明实施例通过音频信息实现数据视频记录的自动化处理，提高了重要内容的识别率，可提高视频记录的利用率。

Description

一种视频处理方法、装置、电子设备和存储介质

技术领域

本发明实施例涉及计算机应用技术领域，尤其涉及一种视频处理方法、装置、电子设备和存储介质。

背景技术

随着互联网技术的发展，生活的方方面面逐渐进入数字化时代，越来越多的生活事务依赖于数字化视频记录，例如，会议视频记录、警察视频执法记录和车辆行驶视频记录等，但是这些数字化视频记录往往存在较多的数据冗余，不利于后期数字化视频的使用。因此，需要对数字化视频进行处理，自动化识别重要视频内容。

现有技术中，对数字化视频的处理往往基于视频画面进行分类，达到视频内容识别的目的，常见的分类类别可以包括动作、常见、物体等，然而仅依靠视频画面进行分类，无法准确识别出数字化视频记录中的重要内容，或者识别效率极差，例如，对于警察视频执法记录，往往拍摄到海量的道路画面，且道路中内容较丰富，仅通过画面对数字化视频处理往往不能获取到重要视频内容。

发明内容

本发明提供一种视频处理方法、装置、电子设备和存储介质，以实现数字视频记录的自动处理，识别出视频重要内容，提高数字化视频记录的利用效率，可增强用户的使用体验。

第一方面，本发明实施例提供了一种视频处理方法，该方法包括：

根据视频记录的音频信息确定至少一个说话人的发言信息；根据各所述发言信息确定所述视频记录的交谈频率；基于阈值频率和各所述交谈频率在所述视频记录中确定重要事件记录。

第二方面，本发明实施例还提供了一种视频处理装置，该装置包括：

发言确定模块，用于根据视频记录的音频信息确定至少一个说话人的发言信息；

频率确定模块，用于根据各所述发言信息确定所述视频记录的交谈频率；

事件获取模块，用于基于阈值频率和各所述交谈频率在所述视频记录中确定重要事件记录。

第三方面，本发明实施例还提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例中任一所述的视频处理方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明实施例中任一所述的视频处理方法。

本发明实施例，通过视频记录中的音频信息确定出说话人的发言信息，并根据发言信息与视频记录的对应关系确定出交谈频率，按照阈值频率和交谈频率在视频记录中确定出重要事件记录。本发明通过音频信息对视频记录进行处理，提高了视频记录处理的准确性，快速识别视频记录中的重要内容，有助于视频记录的分析利用。

附图说明

图1是本发明实施例一提供的一种视频处理方法的流程图；

图2是本发明实施例二提供的一种视频处理方法的流程图；

图3是本发明实施例二提供的一种频率曲线的示例图；

图4是本发明实施例二提供的一种视频处理方法的示例图；

图5是本发明实施例二提供的一种说话人发言的示例图；

图6是本发明实施例二提供的一种交谈频率统计的示例图；

图7是本发明实施例二提供的一种频率二值化后的频率曲线示例图；

图8是本发明实施例三提供的一种视频处理装置的结构示意图；

图9是本发明实施例四提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构，此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

图1是本发明实施例一提供的一种视频处理方法的流程图，本实施例可适用于海量数字视频记录的情况，该方法可以由视频处理装置来执行，该装置可以采用硬件和/或软件的方式来实现，参见图1，本发明实施例提供的方法具体包括如下步骤：

步骤110、根据视频记录的音频信息确定至少一个说话人的发言信息。

其中，视频记录可以是数字视频格式的记录信息，可以将一系列影像和声音以电信号的方式加以步骤、记录、处理、存储、传输和重现，视频记录可以由视频流和音频流组成。音频信息可以是视频记录中的音频流，包括视频记录中的所有声音信息。说话人可以是视频记录中发言的人员，视频记录中的说话人可以包括一个或者多个，发言信息可以是说话人发言的属性信息，可以包括发言持续时间、发言开始时间和发言结束时间等。

在本发明实施例中，可以通过分析视频记录的音频信息确定出一个或者多个发言人，对音频信息中各发言人的发言情况进行统计分析，获取到各发言人对应的发言信息，该发言信息可以包括发言开始时间、发言结束时间和发言持续时间等信息，可以理解的是，在视频记录中一个说话人可以包括一个或者多个发言，每个发言可以存在各自对应的发言信息，视频记录中说话人的发言信息可以为一个发言属性信息集，包括有多段发言的发言开始时间、发言结束时间和发言持续时间等信息。

示例性的，在对视频记录进行处理时，可以先从视频记录中抽取音频信息并存储，对抽取到的音频信息可以使用预先训练的模型进行人声分类，获取到不同说话人对应的发言，提取各发言的属性信息作为对应说明人的发言信息。

步骤120、根据各所述发言信息确定所述视频记录的交谈频率。

其中，交谈频率可以是视频记录中某个时刻或者某个时间段内不同说话人的交谈次数，例如，视频记录10S处，存在三个说话人正在发言，交谈频率可以为3。

具体的，可以通过发言信息确定出各段发言在视频记录中所处的位置，可以按照视频记录的时间顺序分别统计出各位置处发言段数，可以将不同位置处的发言段数作为该视频记录的交谈频率。

步骤130、基于阈值频率和各所述交谈频率在所述视频记录中确定重要事件记录。

其中，阈值频率可以是判断视频记录中内容为重要信息的交谈频率阈值，由于视频记录中内容的重要性往往与交谈频率成正比，当交谈频率大于或者等于阈值频率时，此时视频记录中的内容可以被认为是重要信息，否则，视频记录中的内容可以被认为是非重要信息，在后续的分析过程中无需对该部分的视频记录进行分析。重要事件记录可以表示视频记录中具有重要内容的记录信息，例如，警察的执法记录中警察与群众进行交谈的部分可以为重要事件记录，而执法记录中无交谈的部分可以为非重要事件记录。

具体的，可以将视频记录各位置处的交谈频率与阈值频率进行对比，若某个位置处的交谈频率大于或者等于阈值频率时，可以将该位置处的视频记录确定为重要事件记录，可以理解的是，可以将该位置处的视频记录单独保存作为重要事件记录，也可以将该位置处的添加标签信息，标识该位置处的视频记录为重要事件记录。

本发明实施例，通过分析视频记录中的音频信息获取到各说话人的发言信息，根据发言信息确定出视频记录的交谈频率，根据阈值频率和交谈频率在视频记录确定重要事件记录，实现了视频记录中重要内容的自动识别，提高了视频记录处理的效率，便于视频记录的有效利用，可增强用户的使用体验。

实施例二

图2是本发明实施例二提供的一种视频处理方法的流程图，本发明实施例是在上述实施例基础上的具体化，通过时间窗口和频率曲线在视频记录中划分重要事件记录，参见图2，本发明实施例提供的方法具体包括如下步骤：

步骤210、提取视频记录中的音频信息。

在本发明实施例中，可以通过预设程序对视频记录中的音频信息进行提取，例如，可以使用视频记录的存储位置读取视频记录，利用视频编辑函数或者视频编辑软件对视频记录进行处理以获取音频信息，可以将音频信息存储为音频文件。

步骤220、将音频信息输入到预设音频识别模型以确定音频信息中各每帧音频数据对应的说话人。

其中，预设音频识别模型可以是说话人分类模型，可以对输入的音频文件进行分析输出说话人的分类结构，预设音频识别模型可以通过包括不同说话人的音频文件样本训练生成。

在本发明实施例中，可以将音频信息的每帧音频数据输入到预设音频识别模型中，在该模型中分析出当前帧音频数据中的说话人，确定出每帧音频数据与说话人的对应关系。

进一步的，在上述发明实施例的基础上，所述预设音频识别模型至少包括Speaker-diarization模型、隐马尔可夫模型、支持向量机模型、深度神经网络模型中至少一种。

在本发明实施例中，预设音频识别模型可以是通过训练样本预先训练生成的Speaker-diarization模型、隐马尔可夫模型、支持向量机模型、深度神经网络模型中至少一种，可以对视频记录的音频信息进行分类，确定出音频信息每帧信息对应的说话人。

步骤230、按照每帧音频数据与说话人的对应关系确定各说话人至少一段发言的发言起始时间和发言结束时间作为发言信息。

其中，对应关系可以标识每帧音频数据是否属于说话人发言的信息，当一帧音频数据与说话人存在对应关系时，该帧音频数据中的声音可以为说话人的发言的声音，发言可以是由一帧或者多帧音频数据组成，说话人可以对应至少一段发言，发言起始时间可以是说话人一段发言的第一帧的音频数据的时间，发言结束时间可以是说话人一段发言的最后一帧的音频数据的时间。

在本发明实施例中，可以将音频数据根据对应的说话人进行分类，在各分类中可以将连续帧的音频数据合并为一段发言，可以将其中第一帧音频数据的时间作为发言起始时间，可以将最后一帧音频数据的时间作为发言结束时间，将发言起始时间和发言结束时间作为对应发言的发言信息。

步骤240、提取各发言信息中的发言起始时间和发言结束时间。

具体的，提取各发言信息中属于不同发言的发言起始时间和发言结束时间。

步骤250、按照预设时间长度将视频记录划分为至少一个时间窗口。

其中，预设时间长度可以是视频记录中时间窗口的最大时间长度，该预设时间长度的取值与视频记录的实际应用情况相关，例如，视频记录为执法记录时，预设时间长度可以取较大的时间值，视频记录为会议记录时，预设时间长度可以取较小的时间值。

在本发明实施例中，可以将视频记录按照预设时间长度进行划分为时间窗口，各时间窗口的时间长度可以相同，每个时间窗口可以对应视频记录中一段内容。

步骤260、针对各所述时间窗口，统计发言起始时间和发言结束时间均位于时间窗口的发言的数量作为交谈频率。

具体的，可以统计各时间窗口内发言的数量，当一个发言的发言起始时间和发言结束时间均处于该时间窗口内，可以确定该发言属于对应时间窗口，可以将各时间窗口内的发言数量分别作为对应的交谈频率。

步骤270、将各交谈频率按照对应时间窗口的时间信息排列生成频率曲线。

其中，频率曲线可以是表示视频记录中随时间变化的交谈频率，频率曲线的横坐标可以为时间，纵坐标可以为交谈频率。时间信息可以是各时间窗口在视频记录中时间，不同的时间窗口可以在视频记录中不同的时间位置。

在本发明实施例中，可以分别获取到各时间窗口的在视频记录中的时间以及时间窗口对应的交谈频率，可以按照时间和对应的交谈频率构成频率曲线，该频率曲线可以时间为横坐标以交谈频率为纵坐标。示例性的，图3是本发明实施例二提供的一种频率曲线的示例图，参见图3，一个视频记录中随着时间变化，交谈频率可以随着时间变化而变化，不同的时间窗口内的交谈频率可以不同。

步骤280、按照阈值频率对频率曲线进行频率二值化，其中，频率曲线中大于或等于阈值频率的交谈频率的取值置为1，小于阈值频率的交谈频率的取值置为0。

其中，频率二值化可以是将频率曲线中的交谈频率改变为两个不同交谈频率数值的操作。

具体的，可以将频率曲线中各位置处的交谈频率与阈值频率进行对比，若频率曲线中一个位置处的交谈频率大于或等于阈值频率，则将频率曲线中该位置处的交谈频率的取值置为1，若频率曲线中一个位置处的交谈频率小于阈值频率，则将频率曲线中该位置处的交谈频率的取值置为0。

步骤290、根据频率二值化后的频率曲线划分视频记录以获取重要事件记录。

在本发明实施例中，将频率曲线二值化后，该频率曲线可以由一个或者多个平行于横坐标轴的线段组成，每个线段可以是对应视频记录中的一个事件记录，可以选择交谈频率置为1的事件记录分别作为重要事件记录。

本发明实施例，提取视频记录中的音频信息，依靠预设音频识别模型识别每帧音频数据中的说话人，根据说话人与每帧音频数据的对应关系确定出发言的发言起始时间和发言结束时间作为发言信息，按照预设时间长度将视频记录划分为多个时间窗口，根据各发言的发言起始时间和发言结束时间与时间窗口的时间对应关系确定各时间窗口内发言的数量作为交谈频率，将各交谈频率按照时间顺序排序生成频率曲线，并对频率曲线进行频率二值化处理，通过处理后的频率曲线在视频记录中选取重要事件记录，实现了视频记录的自动化处理，提高了重要事件识别的准确性，可增强视频记录的利用效率，提高用户的使用体验。

进一步的，在上述发明实施例的基础上，还包括：过滤持续时间大于或等于过滤时长的发言。

在本发明实施例中，视频记录中持续时间较长的发言重要较低，可以使用过滤时长对发言进行过滤，去除持续时间大于或等于过滤时长的发言。

进一步的，在上述发明实施例的基础上，所述根据所述频率二值化后的频率曲线划分所述视频记录以获取重要事件记录，包括：

将频率曲线中交谈频率取值置为1的至少一个连续线段对应的视频记录作为事件记录；针对各事件记录，合并时间差值小于或等于谈话暂停时间的事件记录；将各事件记录中持续时间小于谈话持续时间的事件记录清除后分别作为重要事件记录。

在本发明实施例中，频率二值化后的频率曲线中可以包括一个或者多个取值为1或者0的连续线段，每个连续线段可以对应于视频记录的不同事件记录，可以仅获取频率曲线的交谈频率为1的连续线段，可以将视频记录中该连续线段对应的内容作为事件记录。在获取到事件记录后，若这些事件记录中存在时间差值小于或等于谈话暂停时间的事件记录，可以将时间差值小于或等于谈话暂停时间合并为一个事件记录，还可以对事件记录的持续时间进行判断，若持续时间小于谈话持续时间，则认为该事件记录不为重要事件记录，可以将符合谈话持续时间长度的事件记录作为重要事件记录。

在一个示例性的实施方式中，图4是本发明实施例二提供的一种视频处理方法的示例图，参见图4，该方法可以从视频记录中抽取音频信息，并对音频信息分析获取不同说话人的发言信息，通过发言信息识别事件记录中的重要事件记录，具体方法可以包括如下步骤：

1、音频信息抽取过程，可以采用多种方法抽取视频记录中的音频信息，通过python进行音频抽取，处理过程如下：

(1)video_path,audio_path＝"video.mp4"，"audio.wav"#初始化视频文件地址，音频文件目标存放位置

(2)from moviepy.editor import*#导入库

(3)video＝VideoFileClip(video_path)#读取视频

(4)audio＝video.audio#获取音频对象

(5)audio.write_audiofile(audio_path)#写入音频

此部分完成后，会生成一个从视频文件中生成的音频文件audio.wav。

2、说话人识别过程，此部分以使用Speaker-diarization模型进行说话人分类为例：

(1)模型功能说明：模型会对一段音频文件读取，并进行逐帧的分类，得到每一帧对应的人的ID，最后输出音频的说话人分类结果。

(2)输出结果为json文件，格式如下：

若绘制成易于理解的图片，可见下图5，图中横坐标为时间轴，纵坐标中每一行代表一个说话人的发言时间跨度。

3、重要事件记录确定过程，在本过程中使用交谈频率的变化作为视频记录中确定重要事件记录的依据，具体包括如下步骤：

(1)读取第2步的说话人对应的发言信息json文件，过滤掉持续时间过长的声音片段，本例中使用5秒。

(2)忽略说话人的id，仅保留每段发言的起始与终止时间，得到一系列发言的起始与终止时间列表。

(3)根据第二步的结果，统计每一时刻的说话频率。对于视频抽取出的音频序列，在每一个时刻，统计该时刻一定时间窗口内的发言次数作为该时刻的发言频率并记录。参见图6，实际使用中根据需要设置不同的时间窗口，本例中的时间窗口可以设置为60秒。

(4)根据第三步得到的频率曲线，设置一定的频率阈值，将每一时刻的说话频率进行频率二值化，频率二值化后的曲线如图7所示，纵坐标1表示超过该阈值的时刻，0表示低于该阈值的时刻，该曲线的阈值为50次。

(5)此时，根据第四步的结果确定重要事件记录，此时可以设置一个谈话暂停时间长度阈值，为同一时间窗口中发言可以暂停的最长时间。若发言的暂停时间窗口超过该阈值，则认为该发言已停止，发言对应的事件不是重要事件记录。再设置一个最小谈话持续时间，防止出现单独的一句话构成的发言，将整理后的发言对应的事件作为视频记录中的重要事件记录。

实施例三

图8是本发明实施例三提供的一种视频处理装置的结构示意图，可执行本发明任意实施例所提供的视频处理方法，具备执行方法相对应的功能模块和有益效果，该装置可以由软件和/或硬件实现，具体包括：发言确定模块301、频率确定模块302和事件获取模块303。

发言确定模块301，用于根据视频记录的音频信息确定至少一个说话人的发言信息。

频率确定模块302，用于根据各所述发言信息确定所述视频记录的交谈频率。

事件获取模块303，用于基于阈值频率和各所述交谈频率在所述视频记录中确定重要事件记录。

本发明实施例，通过发言确定模块分析视频记录中的音频信息获取到各说话人的发言信息，频率确定模块根据发言信息确定出视频记录的交谈频率，事件获取模块根据阈值频率和交谈频率在视频记录确定重要事件记录，实现了视频记录中重要内容的自动识别，提高了视频记录处理的效率，便于视频记录的有效利用，可增强用户的使用体验。

进一步的，在上述发明实施例的基础上，所述发言确定模块301包括：

音频提取单元，用于提取所述视频记录中的音频信息。

说话人单元，用于将所述音频信息输入到预设音频识别模型以确定所述音频信息中各每帧音频数据对应的所述说话人。

发言信息单元，用于按照所述每帧音频数据与所述说话人的对应关系确定各所述说话人至少一段发言的发言起始时间和发言结束时间作为发言信息。

进一步的，在上述发明实施例的基础上，所述说话人单元中的预设音频识别模型至少包括Speaker-diarization模型、隐马尔可夫模型、支持向量机模型、深度神经网络模型中至少一种。

进一步的，在上述发明实施例的基础上，所述频率确定模块302包括：

信息提取单元，用于提取各所述发言信息中的发言起始时间和发言结束时间。

时间窗口单元，用于按照预设时间长度将所述视频记录划分为至少一个时间窗口。

频率确定单元，用于针对各所述时间窗口，统计发言起始时间和发言结束时间均位于所述时间窗口的发言的数量作为交谈频率。

进一步的，在上述发明实施例的基础上，所述频率确定模块302还包括：过滤单元，用于过滤持续时间大于或等于过滤时长的发言。

进一步的，在上述发明实施例的基础上，所述事件获取模块303包括：

频率曲线单元，用于将各所述交谈频率按照对应时间窗口的时间信息排列生成频率曲线。

二值处理单元，用于按照所述阈值频率将所述频率曲线进行频率二值化，其中，大于或等于阈值频率的频率曲线的取值置为1，小于阈值频率的频率曲线的取值置为0。

记录确定单元，用于根据所述频率二值化后的频率曲线划分所述视频记录以获取重要事件记录。

进一步的，在上述发明实施例的基础上，所述记录确定单元具体用于：将频率曲线中交谈频率取值置为1的至少一个连续线段对应的视频记录作为事件记录；针对各所述事件记录，合并时间差值小于或等于谈话暂停时间的事件记录；将各所述事件记录中持续时间小于谈话持续时间的事件记录清除后分别作为重要事件记录。

实施例四

图9是本发明实施例四提供的一种电子设备的结构示意图，如图9所示，该电子设备包括处理器40、存储器41、输入装置42和输出装置43；电子设备中处理器40的数量可以是一个或多个，图9中以一个处理器40为例；电子设备中的处理器40、存储器41、输入装置42和输出装置43可以通过总线或其他方式连接，图9中以通过总线连接为例。

存储器41作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的视频处理方法对应的程序指令/模块(例如，视频处理装置中的发言确定模块301、频率确定模块302和事件获取模块303)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述的视频处理方法。

存储器41可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器41可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器41可进一步包括相对于处理器40远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置42可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置73可包括显示屏等显示设备。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种视频处理方法，该方法包括：

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的视频处理方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述视频处理装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

根据视频记录的音频信息确定至少一个说话人的发言信息；

根据各所述发言信息确定所述视频记录的交谈频率；

基于阈值频率和各所述交谈频率在所述视频记录中确定重要事件记录。

2.根据权利要求1所述的方法，其特征在于，所述根据视频记录的音频信息确定至少一个说话人的发言信息，包括：

提取所述视频记录中的音频信息；

将所述音频信息输入到预设音频识别模型以确定所述音频信息中各每帧音频数据对应的所述说话人；

按照所述每帧音频数据与所述说话人的对应关系确定各所述说话人至少一段发言的发言起始时间和发言结束时间作为发言信息。

3.根据权利要求2所述的方法，其特征在于，所述预设音频识别模型至少包括Speaker-diarization模型、隐马尔可夫模型、支持向量机模型、深度神经网络模型中至少一种。

4.根据权利要求2所述的方法，其特征在于，所述根据各所述发言信息确定所述视频记录的交谈频率，包括：

提取各所述发言信息中的发言起始时间和发言结束时间；

按照预设时间长度将所述视频记录划分为至少一个时间窗口；

针对各所述时间窗口，统计发言起始时间和发言结束时间均位于所述时间窗口的发言的数量作为交谈频率。

5.根据权利要求1至4任意一项所述的方法，其特征在于，还包括：

过滤持续时间大于或等于过滤时长的发言。

6.根据权利要求4所述的方法，其特征在于，所述基于阈值频率和各所述交谈频率在所述视频记录中确定重要事件记录，包括：

将各所述交谈频率按照对应时间窗口的时间信息排列生成频率曲线；

按照所述阈值频率将所述频率曲线进行频率二值化，其中，大于或等于阈值频率的频率曲线的取值置为1，小于阈值频率的频率曲线的取值置为0；

根据所述频率二值化后的频率曲线划分所述视频记录以获取重要事件记录。

7.根据权利要求6所述的方法，其特征在于，所述根据所述频率二值化后的频率曲线划分所述视频记录以获取重要事件记录，包括：

将频率曲线中交谈频率取值置为1的至少一个连续线段对应的视频记录作为事件记录；

针对各所述事件记录，合并时间差值小于或等于谈话暂停时间的事件记录；

将各所述事件记录中持续时间小于谈话持续时间的事件记录清除后分别作为重要事件记录。

8.一种视频处理装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的视频处理方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的视频处理方法。