CN112565885B

CN112565885B - 一种视频分割方法、系统、设备及存储介质

Info

Publication number: CN112565885B
Application number: CN202011374280.4A
Authority: CN
Inventors: 胡玉针; 叶俊杰; 李�权; 王伦基; 李嘉雄; 朱杰; 成秋喜; 黄桂芳; 韩蓝青
Original assignee: CYAGEN BIOSCIENCES (GUANGZHOU) Inc; Research Institute Of Tsinghua Pearl River Delta
Current assignee: CYAGEN BIOSCIENCES (GUANGZHOU) Inc; Research Institute Of Tsinghua Pearl River Delta
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2023-01-06
Anticipated expiration: 2040-11-30
Also published as: CN112565885A

Abstract

本发明公开了一种视频分割方法、系统、设备及存储介质，方法包括从第一视频中提取第一音频并去噪得到第二音频；分析第二音频获得第三音频和第一时间节点信息，并得到第一视频片段；对第三音频进行人声识别，得到第二视频片段；对第二视频片段进行人脸检测；对含人脸视频片段进行唇形同步检测；对唇形同步视频片段进行语音增强，进一步对已有视频片段进行语音识别，得到语音识别结果。本发明通过对视频采用诸如去噪、神经网络分析、人声识别、人脸检测、唇形同步检测、语音增强结果等处理手段，能够自动化实现对视频的高精度切割。本发明可以广泛应用于视频处理技术领域。

Description

一种视频分割方法、系统、设备及存储介质

技术领域

本发明涉及视频处理技术领域，尤其涉及一种视频分割方法、系统、设备及存储介质。

背景技术

随着互联网技术的不断发展，视频已经成为了信息传递的新载体，但因为不同语种的客观事实，使得采用不同语种的视频在传播过程中存在障碍，针对这一现状现阶段主要通过添加字幕或使用其他语种的人工配音。然而添加字幕的方式会分散观众的注意力，使得观众过于关注文字信息，忽略整体画面，影响观看效果；使用其他语种的人工配音则会因为配音与视频中演员的唇形变化不匹配，产生声音与画面不同步的现象，同样影响观众的观看效果；因此，如果能根据其他语种的人工配音对视频中相应的表演者的唇形进行合成匹配，将有效解决上述方法中缺陷。

对视频中的唇形进行合成匹配其难点之一在于大部分视频中的场景复杂，发声人数不固定，同时存在背景噪音干扰语音识别模型的准确度；为保证视频中的音画同步，视频在人说话的断句处、场景转换及背景中人声与背景音的衔接处都需要进行分割，需要较高的视频分割精度才能满足后期进行视频翻译的要求，如何能够以较高的分割精度对视频进行前期的分割处理，从而更好地实现后期的视频翻译，是当前急需解决的技术问题。

发明内容

为至少解决现有技术中存在的技术问题之一，本发明的目的在于提供一种视频分割方法、系统、设备及存储介质。

根据本发明实施例的第一方面，一种视频分割方法，包括以下步骤：

获取第一视频，从所述第一视频中提取第一音频，并对所述第一音频进行去噪，得到第二音频；

利用卷积神经网络分析所述第二音频，得到第三音频和第一时间节点信息，根据所述第一时间节点信息对所述第一视频进行分割，得到第一视频片段；所述第一时间节点信息包括第一起始节点信息和第一终止节点信息；

对所述第三音频进行人声识别，得到第二时间节点信息，根据所述第二时间节点信息对所述第一视频片段进行分割，得到第二视频片段；所述第二时间节点信息包括第二起始节点信息和第二终止节点信息；

对所述第二视频片段进行人脸检测，得到含人脸视频片段和无人脸视频片段；

对所述含人脸视频片段进行唇形同步检测，得到唇形同步视频片段和唇形未同步视频片段；

对所述唇形同步视频片段进行语音增强，得到语音增强视频片段，对所述语音增强视频片段、所述唇形未同步视频片段和所述无人脸视频片段进行语音识别，得到语音识别结果。

进一步，所述利用卷积神经网络分析所述第二音频，得到第三音频和第一时间节点这一步骤，包括：

获取所述第二音频，并对所述第二音频进行分帧，得到分帧结果；

利用所述卷积神经网络对所述分帧结果进行粗粒度语音检测，提取语音特征；

对所述语音特征进行分类筛选，得到所述第三音频；

根据所述第三音频在所述第一视频中的所处位置，生成所述第一时间节点信息。

进一步，所述对所述第三音频进行人声识别，得到第二时间节点信息这一步骤，包括：

获取所述第三音频；

对所述第三音频进行语音跟踪和聚类分析，区分不同人声所处的音频片段；

根据所述音频片段在所述第一视频中的所处位置，生成所述第二时间节点信息。

进一步，所述对所述第二视频片段进行人脸检测，得到含人脸视频片段和无人脸视频片段这一步骤，包括：

获取所述第二视频片段；

对所述第二视频片段进行人脸检测，得到所述人脸检测结果；

根据所述人脸检测结果将所述第二视频片段分割为所述含人脸视频片段和所述无人脸视频片段。

进一步，所述对所述含人脸视频片段进行唇形同步检测，得到唇形同步视频片段和唇形未同步视频片段这一步骤，包括：

获取所述含人脸视频片段；

对所述含人脸视频片段进行唇形同步检测，得到唇形同步检测结果；

根据所述唇形同步检测结果将所述含人脸视频片段分割为所述唇形同步视频片段和所述唇形未同步视频片段。

进一步，所述对所述唇形同步视频片段进行语音增强，得到语音增强视频片段这一步骤，包括：

获取所述唇形同步视频片段；

利用音视频模态学习和视觉唇形信息对所述唇形同步视频片段进行语音增强，得到所述语音增强视频片段。

进一步，所述对所述语音增强视频片段、所述唇形未同步视频片段和所述无人脸视频片段进行语音识别，得到语音识别结果这一步骤，包括：

获取所述语音增强视频片段、所述唇形未同步视频片段和所述无人脸视频片段；

对所述语音增强视频片段、所述唇形未同步视频片段和所述无人脸视频片段进行句子级别的停顿切分，得到切分结果；

根据所述切分结果进行逐句语音识别，得到所述语音识别结果。

根据本发明实施例的第二方面，一种视频分割系统，包括以下模块：

预处理模块，用于获取第一视频，从所述第一视频中提取第一音频，并对所述第一音频进行去噪，得到第二音频；

第一分割模块，用于利用卷积神经网络分析所述第二音频，得到第三音频和第一时间节点信息，根据所述第一时间节点信息对所述第一视频进行分割，得到第一视频片段；所述第一时间节点信息包括第一起始节点信息和第一终止节点信息；

第二分割模块，用于对所述第三音频进行人声识别，得到第二时间节点信息，根据所述第二时间节点信息对所述第一视频片段进行分割，得到第二视频片段；所述第二时间节点信息包括第二起始节点信息和第二终止节点信息；

人脸检测模块，用于对所述第二视频片段进行人脸检测，得到含人脸视频片段和无人脸视频片段；

唇形同步检测模块，用于对所述含人脸视频片段进行唇形同步检测，得到唇形同步视频片段和唇形未同步视频片段；

语音识别模块，用于对所述唇形同步视频片段进行语音增强，得到语音增强视频片段，对所述语音增强视频片段、所述唇形未同步视频片段和所述无人脸视频片段进行语音识别，得到语音识别结果。

根据本发明实施例的第三方面，一种视频分割设备，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如第一方面所述的方法。

根据本发明实施例的第四方面，一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于实现第一方面所述的方法。

本发明的有益效果是：本发明通过对视频采用诸如去噪、神经网络分析、人声识别、人脸检测、唇形同步检测、语音增强结果等分析处理手段，能够自动化实现对视频的高精度切割，为后期视频翻译运行的流畅度提供了有效保障。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例提供的方法流程图；

图2是本发明实施例提供的执行步骤图；

图3是本发明实施例提供的模块连接图；

图4是本发明实施例提供的设备连接图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明实施例提供了一种视频分割方法，该方法可应用于终端中，也可应用于服务器中，还可以是运行于终端或服务器中的软体。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。参照图1，该方法包括以下步骤S100～S700：

S100、获取第一视频，从第一视频中提取第一音频，并对第一音频进行去噪，得到第二音频。

S200、利用卷积神经网络分析第二音频，得到第三音频和第一时间节点信息，根据第一时间节点信息对第一视频进行分割，得到第一视频片段；第一时间节点信息包括第一起始节点信息和第一终止节点信息。

可选地，步骤S200可以通过以下子步骤实现：

S201、获取第二音频，并对第二音频进行分帧，得到分帧结果；

S202、利用卷积神经网络对分帧结果进行粗粒度语音检测，提取语音特征；

S203、对语音特征进行分类筛选，得到第三音频；

S204、根据第三音频在第一视频中的所处位置，生成第一时间节点信息。

S300、对第三音频进行人声识别，得到第二时间节点信息，根据第二时间节点信息对第一视频片段进行分割，得到第二视频片段；第二时间节点信息包括第二起始节点信息和第二终止节点信息。

可选地，步骤S300可以通过以下子步骤实现：

S301、获取第三音频；

S302、对第三音频进行语音跟踪和聚类分析，区分不同人声所处的音频片段；

S303、根据音频片段在第一视频中的所处位置，生成第二时间节点信息；

S400、对第二视频片段进行人脸检测，得到含人脸视频片段和无人脸视频片段。

可选地，步骤S400可以通过以下子步骤实现：

S401、获取第二视频片段；

S402、对第二视频片段进行人脸检测，得到人脸检测结果；

S403、根据人脸检测结果将第二视频片段分割为含人脸视频片段和无人脸视频片段。

S500、对含人脸视频片段进行唇形同步检测，得到唇形同步视频片段和唇形未同步视频片段。

可选地，步骤S500可以通过以下子步骤实现：

S501、获取含人脸视频片段；

S502、对含人脸视频片段进行唇形同步检测，得到唇形同步检测结果；

S503、根据唇形同步检测结果将含人脸视频片段分割为唇形同步视频片段和唇形未同步视频片段。

S600、对唇形同步视频片段进行语音增强，得到语音增强视频片段，对语音增强视频片段、唇形未同步视频片段和无人脸视频片段进行语音识别，得到语音识别结果。

可选地，步骤S600可以通过以下子步骤实现：

S601、获取唇形同步视频片段；

S602、利用音视频模态学习和视觉唇形信息对唇形同步视频片段进行语音增强，得到语音增强视频片段。

可选地，步骤S600还可以通过以下子步骤实现：

S611、获取语音增强视频片段、唇形未同步视频片段和无人脸视频片段；

S612、对语音增强视频片段、唇形未同步视频片段和无人脸视频片段进行句子级别的停顿切分，得到切分结果；

S613、根据切分结果进行逐句语音识别，得到语音识别结果。

本发明通过对视频采用诸如去噪、神经网络分析、人声识别、人脸检测、唇形同步检测、语音增强结果等分析处理手段，能够自动化实现对视频的高精度切割，为后期视频翻译运行的流畅度提供了有效保障。

参照图2所示为根据本发明实施例提供的执行步骤图，开始；获取第一视频，即原始视频资源；从第一视频中提取第一音频，然后对第一音频进行去噪或语音增强处理，抑制原视频中的噪声或背景音乐，得到相对纯净的人声音频资源，即第二音频；对第二音频进行分帧滑窗处理，利用卷积神经网络对分帧后的结果进行粗粒度语音活动检测，得到人声语音的起始时间点T1和结束时间点T2，T1和T2即第一时间节点信息中的第一起始节点信息和第一终止节点信息，需要说明的是，同一段视频中可能存在多段人声语音，得到第三音频；通过第一时间节点对第一视频进行分割，得到第一视频片段；对第三音频进行语音跟踪和聚类分析，得到不同个体或不同说话人的人声音频片段，同时得到相应的第二时间节点信息；通过第二时间节点信息对第一视频片段进行视频分割，得到第二视频片段；对第二视频片段进行人脸检测，将第二视频片段中存在人脸画面和不存在人脸画面的片段分开，对无人脸视频片段不作处理，对含人脸视频片段进行唇形同步检测；满足同步阈值的即视为唇形同步视频片段，不满足的则视为唇形未同步视频片段，将两者分开，唇形未同步视频片段不作处理；对于唇形同步视频片段进行语音增强，得到语音增强视频片段；对无人脸视频片段、唇形未同步视频片段和语音增强视频片段进行细粒度语音活动检测，以句子级别为执行标准，进行语音片段断句处理；最终进行语音识别，并按上述切分使用的时间点将所有视频片段重新合并形成待翻译的视频，即第二视频；本发明将第一视频中仅需合成语音和需要唇形合并的片段进行鉴别和划分，在对第二视频进行翻译时减少了后期工作量，保证了视频翻译的质量。

在部分优选实施例中，我们针对第三音频使用的需语音跟踪和聚类分析方法主要采用基于RNN的监督方法，该监督方法不限制说话人的数目，基于d-vector特征，为每个说话人建立了对应的循环神经网络模型，并且持续更新状态。首先对语音片段进行分帧处理，帧之间具有重合，采用一个无界交叉状态的循环神经网络进行建模，每个说话人之间共享参数。可以生成无界数量的说话人实例，将不同的说话人在时域中交叉。通过贝叶斯非参数模型自动估计说话人的数量，并通过循环神经网络的携带的时间信息，对说话人进行聚类。

具体执行方法如下：

给定一段语音，使用嵌入提取模块得到语音的序列的嵌入表示：X＝(x₁,x₂,...,x_T)，其中

t∈(1,2,...,T)。每个x_t都是对应于原始语音中某个分割片段的d-vector向量。并且在模型训练时候，对于每个分割片段都有对应的说话人分割的真实标签，Y＝(y₁,y₂,...,y_T)。每个y_t都是对应于x_t的真实说话者的ID，这里的ID用说话人出现顺序表示，比如第一个出现的说话人为1，第二个出现的说话人为2等等。如Y＝(1,1,2,3,2)表示该语音具有五个片段，其中具有三个不同说话人。相同的数字表示该片段属于该说话人。

该模型属于一个序列的生成模型，定义一个顺序集合(1,2,…,t)为[t]。

为了建模说话者的改变，上述公式可以表示为：

其中，Z＝(z₂,z₃,...,z_T)，z_t∈(0,1)，0表示说话者没有改变，1表示说话者改变。如Y＝(1,1,2,3,2)，则Z＝(0,1,1,1)。因此Y决定了Z的值。对上述公式进行展开得到：

其中，p(x_t|x_[t-1],y_[t])代表建模序列生成,p(y_t|z_t,y_[t-1])代表建模说话者分配，p(z_t|z_[t-1])代表建模说话者改变。并且让y₁＝1不建模说话人分配和说话人变更。

使用贝叶斯非参数估计隐式地建模未知数目的说话者。当z_t＝0表示说话者没有改变，z_t＝1表示说话者改变。让

p(y_t＝K|z_t＝1,y_[t-1])∝N_k,t-1，

p(y_t＝K_t-1+1|z_t＝1,y_[t-1])∝α，

比如：Y₅＝(1,1,2,3,2)，可以分成四块，(1,1)|(2)|(3)|(2)，N_1,4＝1，N_2,4＝2，N_3,4＝1。N_k,t-1表示将序列真实值标记分为t-1块，k表示第几个说话者，N_k,t-1的值表示该说话者所占的块数。切换为之前说话者的概率与该说话者说过的连续语音块的数目成正比，切换到新的说话者的概率与常数α成正比。Y和Z的联合概率分布为：

为了生成序列Y，使用GRU循环神经网络对序列进行建模，GRU的隐藏状态h_t与说话者y_t有关。并且：m_t＝f(h_t|θ)，作为GRU网络的输出。假设当前状态Y₅＝(1,1,2,3,2)，下一个状态y₇有四种可能：说话者1，2，3或新的说话者4。新的状态y₇取决于之前分配的标签序列y_[6]和之前的观测序列x_[6]。隐藏状态h_t为：h_t＝GRU(x_t′,h_t′|θ)。其中t′＝max{0,s<t:y_s＝y_t}，表示为将当前的时间步t看作t时刻之前的说话者y_s的时刻的最大时间步。最后，使用在线解码的方法按照时间顺序进行贪婪搜索，来降低在整个标记空间上进行搜索的时间复杂度，并且使用常数C限制每个语音中的最大说话人数，具体的采用集束搜索，即Beam Search方法进行解码，通过该算法，我们可以从一段语音中分割出说话人的时间节点。

在部分优选实施例中，我们针对含人脸片段进行唇形同步检测主要采用SyncNet(唇形同步检测器)神经网络，将人脸检测中获取的唇形和当前的语音进行特征提取，相似度比较从而判断当前语音是不是当前人脸在说，由此在视频合成时候，只需要对同步的视频片段进行语言匹配的唇形转换，其他仅需合成语音即可；具体来说，对于给定的语音进行短时傅里叶变换得到语音的频谱图，将0.2秒的语音和其对应的视频中的唇部图像输入分别输入到两个独立的编码器中分别编码为256维度的向量，编码器为CNN架构旨在进行特征降维和压缩，从而分别提取出语音和唇部特征，然后计算两个256维度向量的相似度。模型训练的目标是音频和视频编码器的输出对于真实的距离更近，不匹配的距离更远。通过该网络可以获得与视频中语音想匹配的人脸，从而在后面的唇形合成中进行替换。并且识别的结果可以用来验证说话者分割的结果是否准确。

在部分优选实施例中，我们针对唇形同步视频片段采用音视频多模态学习的方法，利用视觉唇形信息增强语音信息。具体的是采用了编码器-解码器的神经网络架构，输入为人的唇部图像序列和带噪音的语音频谱图，输出为增强后的语音频谱图。输入的唇部图像序列采用一个多层反卷积神经网络将其压缩成一个向量，频谱图同样使用卷积神经网络执行相似操作得到压缩的向量。将这两个向量进行注意力加权融合，然后对这个向量进行反卷积重建得到去噪后的增强语音频谱图。

在部分优选实施例中，我们进行了句子级别的停顿切分后，可以得到如下展示结果：

Speaker 1Time：00:00:00,000-->00:00:02,640，

hi,Dan,what are u doing？

Speaker 2Time：00:00:02,640-->00:00:07,910，

I am playing war craft。

Speaker 1Time：00:00:07,910-->00:00:11,390，

Where is Tommy？

参照图3所示为根据本发明实施例提供的模块连接图，包括以下模块：

预处理模块301，用于获取第一视频，从第一视频中提取第一音频，并对第一音频进行去噪，得到第二音频；

第一分割模块302，与预处理模块301连接实现交互，用于利用卷积神经网络分析第二音频，得到第三音频和第一时间节点信息，根据第一时间节点信息对第一视频进行分割，得到第一视频片段；第一时间节点信息包括第一起始节点信息和第一终止节点信息；

第二分割模块303，与第一分割模块302连接实现交互，用于对第三音频进行人声识别，得到第二时间节点信息，根据第二时间节点信息对第一视频片段进行分割，得到第二视频片段；第二时间节点信息包括第二起始节点信息和第二终止节点信息；

人脸检测模块304，与第二分割模块303连接实现交互，用于对第二视频片段进行人脸检测，得到含人脸视频片段和无人脸视频片段；

唇形同步检测模块305，与人脸检测模块304连接实现交互，用于对含人脸视频片段进行唇形同步检测，得到唇形同步视频片段和唇形未同步视频片段；

语音识别模块306，分别与人脸检测模块304、唇形同步检测模块305连接实现交互，用于对唇形同步视频片段进行语音增强，得到语音增强视频片段，对语音增强视频片段、唇形未同步视频片段和无人脸视频片段进行语音识别，得到语音识别结果；

参照图4，本发明还提供了一种设备，包括：

至少一个处理器401；

至少一个存储器402，用于存储至少一个程序；

当至少一个程序被至少一个处理器401执行，使得至少一个处理器401实现如图1所示的方法。

图1所示的方法实施例中的内容均适用于本设备实施例中，本设备实施例所具体实现的功能与图1所示的方法实施例相同，并且达到的有益效果与图1所示的方法实施例所达到的有益效果也相同。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

图1所示的方法实施例中的内容均适用于本存储介质实施例中，本存储介质实施例所具体实现的功能与图1所示的方法实施例相同，并且达到的有益效果与图1所示的方法实施例所达到的有益效果也相同。

可以理解的是，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种视频分割方法，其特征在于，包括以下步骤：

对所述唇形同步视频片段进行语音增强，得到语音增强视频片段，对所述语音增强视频片段、所述唇形未同步视频片段和所述无人脸视频片段进行语音识别，得到语音识别结果；

所述利用卷积神经网络分析所述第二音频，得到第三音频和第一时间节点这一步骤，包括：

对所述语音特征进行分类筛选，得到所述第三音频；

根据所述第三音频在所述第一视频中的所处位置，生成所述第一时间节点信息；

所述对所述第三音频进行人声识别，得到第二时间节点信息这一步骤，包括：

获取所述第三音频；

2.根据权利要求1所述的视频分割方法，其特征在于，所述对所述第二视频片段进行人脸检测，得到含人脸视频片段和无人脸视频片段这一步骤，包括：

获取所述第二视频片段；

对所述第二视频片段进行人脸检测，得到人脸检测结果；

3.根据权利要求1所述的视频分割方法，其特征在于，所述对所述含人脸视频片段进行唇形同步检测，得到唇形同步视频片段和唇形未同步视频片段这一步骤，包括：

获取所述含人脸视频片段；

4.根据权利要求1所述的视频分割方法，其特征在于，所述对所述唇形同步视频片段进行语音增强，得到语音增强视频片段这一步骤，包括：

获取所述唇形同步视频片段；

5.根据权利要求1所述的视频分割方法，其特征在于，所述对所述语音增强视频片段、所述唇形未同步视频片段和所述无人脸视频片段进行语音识别，得到语音识别结果这一步骤，包括：

6.一种视频分割系统，其特征在于，包括以下模块：

语音识别模块，用于对所述唇形同步视频片段进行语音增强，得到语音增强视频片段，对所述语音增强视频片段、所述唇形未同步视频片段和所述无人脸视频片段进行语音识别，得到语音识别结果；

对所述语音特征进行分类筛选，得到所述第三音频；

获取所述第三音频；

7.一种视频分割设备，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-5中任一项所述的方法。

8.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于实现如权利要求1-5中任一项所述的方法。