CN115880737A

CN115880737A - 一种基于降噪自学习的字幕生成方法、系统、设备及介质

Info

Publication number: CN115880737A
Application number: CN202111128577.7A
Authority: CN
Inventors: 陆赞信; 魏颖鹏
Original assignee: iMusic Culture and Technology Co Ltd
Current assignee: iMusic Culture and Technology Co Ltd
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2023-03-31
Anticipated expiration: 2041-09-26
Also published as: CN115880737B

Abstract

本发明公开了一种基于降噪自学习的字幕生成方法，包括：获取用户人脸图像以及用户视频；根据用户人脸图像对用户视频进行噪音检测，确定检测结果，其中，检测结果用于表征用户视频对应的音频为用户语音或环境噪音；将检测结果输入降噪模块中，通过降噪模块对用户语音进行降噪处理，得到降噪用户语音，其中，降噪模块通过环境噪音进行优化处理得到；对降噪用户语音进行语音识别，生成字幕。本发明通过对用户视频进行噪音检测，通过环境噪音优化降噪系统，对用户语音进行降噪处理，能够提高系统生成字幕的准确率，能广泛应用于视频处理技术领域。

Description

一种基于降噪自学习的字幕生成方法、系统、设备及介质

技术领域

本发明涉及视频处理技术领域，尤其是一种基于降噪自学习的字幕生成方法、系统、设备及介质。

背景技术

视频彩铃作为新一代的彩铃形态，将"听的彩铃"演进成"看的彩铃"，不仅为用户提供了个性化更强、互动性更高的使用体验，也为VoLTE业务提供了新的变现能力。

目前随着视频彩铃产品的发展，越来越多的用户提出了DIY制作个性化视频彩铃的需求。而在用户DIY制作视频彩铃的过程中，为用户的个性化视频彩铃自动生成字幕成为了一个重要的功能。这一功能不仅能大量节省用户制作的时间成本，还能大幅提升用户的使用体验。

但是，相对而言，视频彩铃自动生成字幕也面临着许多难点，其中最典型的难点在于视频彩铃的拍摄地点经常在环境复杂、人群聚集的室外，如大型活动现场、商业大街等。在环境嘈杂的场景下制作个性化视频彩铃时，环境噪音会对字幕自动生成造成很大的干扰。当需要在嘈杂的环境下实现高质量的视频彩铃字幕自动生成时，需面临以下问题的挑战：当用户说话时，用户语音与环境其他的人声或非人声噪音共同合成了复杂混合语音，使得用户语音内容很难被准确识别；当用户不说话时，环境中其他声源还在不断地产生声音，对字幕生成产生了其他干扰。

综上，如何在嘈杂的环境下进行精确的字幕生成，是目前本领域的技术人员需要解决的技术问题。

发明内容

有鉴于此，本发明实施例提供一种基于降噪自学习的字幕生成方法、系统、设备及介质，以提高对字幕自动生成的准确率。

一方面，本发明提供了一种基于降噪自学习的字幕生成方法，包括：

获取用户人脸图像以及用户视频；

根据用户人脸图像对用户视频进行噪音检测，确定检测结果，其中，检测结果用于表征用户视频对应的音频为用户语音或环境噪音；

将检测结果输入降噪模块中，通过降噪模块对用户语音进行降噪处理，得到降噪用户语音，其中，降噪模块通过环境噪音进行优化处理得到；

对降噪用户语音进行语音识别，生成字幕。

可选地，根据用户人脸图像对用户视频进行噪音检测，确定检测结果，其中，检测结果用于表征用户视频对应的音频为用户语音或环境噪音，包括：

对用户视频进行分帧处理，得到分帧图像以及分帧音频；

根据用户人脸图像对分帧图像进行用户人脸识别，得到用户人脸；

对用户人脸进行唇动检测，得到唇动概率；

根据唇动概率对分帧音频进行噪音检测，确定检测结果。

可选地，根据用户人脸图像对分帧图像进行用户人脸识别，得到用户人脸，包括：

对分帧图像中所有人脸进行标记，得到标记人脸；

将用户人脸图像与标记人脸进行相似度计算，得到人脸相似度评分；

从人脸相似度评分中选取最高的相似度评分，当最高的相似度评分大于第一预设阈值时，确定最高的相似度评分对应的标记人脸为用户人脸。

可选地，对用户人脸进行唇动检测，得到唇动概率，包括：

对用户人脸进行特征提取，得到人脸动态特征；

对人脸动态特征进行全局最大池化，得到第一特征向量；

将第一特征向量输入到第一分类器，得到唇动概率。

可选地，根据唇动概率对分帧音频进行噪音检测，确定检测结果，包括：

当唇动概率大于第二预设阈值时，将唇动概率对应的人脸动态特征进行全局最大池化，得到第二特征向量；

将第二特征向量输入到第二分类器，得到正常发声唇动概率；

当正常发声唇动概率大于第三预设阈值时，确定分帧音频为用户语音，否则，确定分帧音频为环境噪音。

可选地，通过降噪模块对用户语音进行降噪处理，得到降噪用户语音，包括：

将用户语音进行滤波预处理，得到预处理数据；

将预处理数据进行特征编码处理，得到编码特征；

对编码特征进行特征解码处理，得到降噪用户语音。

可选地，降噪模块通过环境噪音进行优化处理得到，包括：

获取第一训练语音；

将第一训练语音输入降噪模块，得到第一训练结果；

将环境噪音与第一训练语音进行叠加处理，得到第二训练语音；

将第二训练语音输入降噪模块，得到第二训练结果；

将第一训练结果与第二训练结果进行对比，计算得到差值；

根据差值对降噪模块进行参数更新。

另一方面，本发明实施例还公开了一种基于降噪自学习的字幕生成系统，包括：

第一模块，用于获取用户人脸图像以及用户视频；

第二模块，用于根据用户人脸图像对用户视频进行噪音检测，确定检测结果，其中，检测结果用于表征用户视频对应的音频为用户语音或环境噪音；

第三模块，用于将检测结果输入降噪模块中，通过降噪模块对用户语音进行降噪处理，得到降噪用户语音，其中，降噪模块通过环境噪音进行优化处理得到；

第四模块，用于对降噪用户语音进行语音识别，生成字幕。

另一方面，本发明实施例还公开了一种电子设备，包括处理器以及存储器；

存储器用于存储程序；

处理器执行程序实现如前面的方法。

另一方面，本发明实施例还公开了一种计算机可读存储介质，存储介质存储有程序，程序被处理器执行实现如前面的方法。

另一方面，本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明通过获取用户人脸图像以及用户视频；根据用户人脸图像对用户视频进行噪音检测，确定检测结果；将检测结果输入降噪模块中，通过降噪模块对用户语音进行降噪处理，得到降噪用户语音；对降噪用户语音进行语音识别，生成字幕。能够对视频进行人脸配对，对视频中的环境噪音和用户语音区分，根据环境噪音对降噪模块进行优化，根据降噪模块对用户语音进行降噪处理，得到降噪后的用户语音并生成字幕，能够提高对字幕自动生成的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的一种基于降噪自学习的字幕生成方法流程图；

图2为本发明实施例的一种用户人脸识别流程图；

图3为本发明实施例的一种唇动检测流程图；

图4为本发明实施例的一种噪音检测流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本发明实施例提供一种基于降噪自学习的字幕生成方法，包括：

S101、获取用户人脸图像以及用户视频；

S102、根据用户人脸图像对用户视频进行噪音检测，确定检测结果，其中，检测结果用于表征用户视频对应的音频为用户语音或环境噪音；

S103、将检测结果输入降噪模块中，通过降噪模块对用户语音进行降噪处理，得到降噪用户语音，其中，降噪模块通过环境噪音进行优化处理得到；

S104、对降噪用户语音进行语音识别，生成字幕。

其中，上述步骤S101中，获取用户人脸图像，可选方法包括但不限于：1、在视频彩铃DIY软件注册时要求用户拍摄一张人脸照片，将人脸照片作为用户人脸图像；2、在用户使用软件时要求用户上传一张人脸照片，将人脸照片作为用户人脸图像。在上述步骤S104中，对降噪用户语音进行语音识别前，还包括获取用户无杂音、清楚的用户声音，输入用户语音到语音识别模块，根据用户声音对用户语音进行识别，生成字幕。

进一步作为优选的实施方式，上述步骤S102中，根据用户人脸图像对用户视频进行噪音检测，确定检测结果，其中，检测结果用于表征用户视频对应的音频为用户语音或环境噪音，包括：

对用户视频进行分帧处理，得到分帧图像以及分帧音频；

对用户人脸进行唇动检测，得到唇动概率；

根据唇动概率对分帧音频进行噪音检测，确定检测结果。

其中，根据用户人脸图像对用户视频进行噪音检测的内容包括：对用户视频进行用户人脸识别，确定用户视频中的用户人脸。对用户人脸进行唇动检测，确定用户视频中的用户人脸是否发生唇动。根据唇动概率判断用户正在正常发声，将用户正常发生的视频音频确定为用户语音，将其余的视频音频确定为环境噪音。

进一步作为优选的实施方式，参照图2，根据用户人脸图像对分帧图像进行用户人脸识别，得到用户人脸，包括:

S301、对分帧图像中所有人脸进行标记，得到标记人脸；

S302、将用户人脸图像与标记人脸进行相似度计算，得到人脸相似度评分；

S303、从人脸相似度评分中选取最高的相似度评分，当最高的相似度评分大于第一预设阈值时，确定最高的相似度评分对应的标记人脸为用户人脸。

其中，在步骤S301中，识别分帧图像中的所有人脸的位置框，标记为人脸A、人脸B等。在步骤S302中，将标记人脸与用户人脸图像进行相似度计算，计算过程为利用人脸特征编码器分别获取标记人脸和用户人脸图像的特征向量，将特征向量输入相似度分类器中，输出标记人脸的人脸相似度评分。在本发明实施例中，人脸特征编码器包括但不限于基于CNN的图像生成式编码器。在步骤S303中，第一预设阈值为人工设定的阈值，在本发明实施例中，第一预设阈值为0.8。将每一个标记人脸与用户人脸图像进行相似度计算，得到多个人脸相似度评分，从多个人脸相似度评分中选取最高的人脸相似度评分，并与第一预设阈值进行对比，当最高的人脸相似度评分大于第一预设阈值时，确定最高相似度评分对应的标记人脸为用户人脸。

进一步作为优选的实施方式，参照图3，对用户人脸进行唇动检测，得到唇动概率，包括：

S401、对用户人脸进行特征提取，得到人脸动态特征；

S402、对人脸动态特征进行全局最大池化，得到第一特征向量；

S403、将第一特征向量输入到第一分类器，得到唇动概率。

其中，在步骤S401中，将用户人脸输入到特征编码网络中进行特征提取，生成得到人脸特征，将生成的人脸特征输入解耦模块，得到人脸动态特征。特征编码网络由残差结构、金字塔池化和注意力机制构建而成，使用的骨架网络包括但不限于VGG、ResNet、DenseNet和transformer。通过骨架网络提取到形状如(C，H，W)的特征图，其中C为通道数，H，W分别为特征图的高和宽。为了针对不同大小的目标都能高效的特征提取，在特征编码网络中设置了带有多个不同大小的卷积核的多尺度卷积模块。通过并行卷积层的结构将特征图送入不同大小卷积核的卷积，根据卷积核的大小对输入的特征图边缘进行补零，得到大小统一的特征图。最后对不同卷积核卷积的结果进行通道维度的相加，对相加的结果进行多次标准卷积，得到编码矩阵。将编码矩阵输入解耦模块，输出人脸动态特征。人脸动态特征是指人脸在说话时变化比较明显的区域特征，如嘴巴、下巴、脸颊区域的图像特征。在步骤S402中，对人脸动态特征进行全局最大池化处理，得到一维的第一特征向量。将第一特征向量输入第一分类器中，第一分类器为一个全连接层，通过softmax函数得到唇动概率。

进一步作为优选的实施方式，参照图4，根据唇动概率对分帧音频进行噪音检测，确定检测结果，包括：

S501、当唇动概率大于第二预设阈值时，将唇动概率对应的人脸动态特征进行全局最大池化，得到第二特征向量；

S502、将第二特征向量输入到第二分类器，得到正常发声唇动概率；

S503、当正常发声唇动概率大于第三预设阈值时，确定分帧音频为用户语音，否则，确定分帧音频为环境噪音。

其中，在步骤S501中，第二预设阈值为人工设定的数值，一般可以为0.8-1之间的实数，当唇动概率大于第二预设阈值时，将人脸动态特征矩阵进行全局最大池化，将人脸动态特征矩阵池化成一维的第二特征向量。在步骤S502中，将第二特征向量输入第二分类器，第二分类器为一个全连接层，最后通过softmax函数得到正常发声唇动概率。在步骤S503中，第三预设阈值为人工设定的数值，当正常发声唇动概率大于第三预设阈值时，判定此时对应的人脸动态特征为唇动特征，将唇动特征对应的分帧音频确定为用户语音，将其他分帧音频确定为环境噪音。

进一步作为优选的实施方式，通过降噪模块对用户语音进行降噪处理，得到降噪用户语音，包括：

将用户语音进行滤波预处理，得到预处理数据；

将预处理数据进行特征编码处理，得到编码特征；

对编码特征进行特征解码处理，得到降噪用户语音。

其中，降噪模块中的数据预处理子模块将用户语音进行滤波预处理，得到预处理数据。降噪模块中的特征编码子模块将预处理数据按照一定的长度进行划分，将每个划分片段输入深度神经网络编码器，输出片段特征向量，将所有片段特征向量按照切分时间顺序组成序列，得到编码特征。划分片段的长度可以为20ms，可按照实际情况进行调整。将编码特征输入解码模块进行解码获取降噪用户语音。解码模块分为训练后固化的子模块a和在线更新的子模块b，子模块a与子模块b都是基于深度神经网络的解码器，作用都是对编码特征进行解码。将编码特征中的每段特征向量依次输入解码子模块a，输出初步解码矩阵；子模块b对初步解码矩阵进行再解码输出语音信号，即为降噪用户语音。子模块a与编码模块相似，在大规模数据进行训练，待训练完成后参数将固定。主要是为了确保解码模块的解码能力，确保解码模块的泛用性。子模块b不仅可以使用大规模原始数据进行训练，还可以在用户进行字幕生成时，使用未唇动时录入的数据进行在线训练，在整个模型的运行过程中，子模块b参数为动态实时更新。能够确保解码模块的特异性，针对新输入的数据也可以保障高效的解码能力。同时子模块b的规模可以根据任务的难易程度进行神经网络网络参数复杂度的调节。

进一步作为优选的实施方式，降噪模块通过环境噪音进行优化处理得到，包括：

获取第一训练语音；

将第一训练语音输入降噪模块，得到第一训练结果；

将第二训练语音输入降噪模块，得到第二训练结果；

将第一训练结果与第二训练结果进行对比，计算得到差值；

根据差值对降噪模块进行参数更新。

其中，利用环境噪音可对降噪模块进行优化处理，优化处理过程如下：使用降噪系统的数据预处理模块对环境噪音进行预处理，利用处理后语音对降噪系统的特征解码模块的子模块b进行参数更新。参数更新的过程为：获取第一训练语音，将第一训练语音输入降噪系统得到第一训练结果。将环境噪音和第一训练语音进行叠加作为第二训练语音。将第二训练语音依次输入降噪模块中的特征编码子模块、解码子模块a和解码子模块b，输出第二训练结果。将第一训练结果和第二训练结果进行对比，计算得到差值。根据差值对解码子模块b的参数进行更新，更新算法可以为BP算法。

本发明的流程具体包括：获取用户上传的用户人脸图像和用户制作的用户视频。根据用户人脸图像对用户视频中出现的人脸进行识别，识别得到用户人脸。对用户人脸进行特征提取，确定此时的用户人脸是否发生唇动，在对唇动概括进行判断是否为正常唇动发声。若为正常唇动发声即代表此时用户视频中的语音为用户正常发生语音，确定为用户语音。否则，将语音确定为环境噪音。将用户语音输入到降噪模块中进行降噪处理，得到降噪后的用户语音。其中，将环境噪音输入到降噪模块中进行优化处理，对降噪模块中的子模块b的参数进行更新。最后将降噪用户语音进行语音识别，生成字幕。

本发明的一种实施例为：用户在背景嘈杂的大型庆典活动中录制DIY视频彩铃，当用户说话时，本发明实施例通过用户的人脸匹配，获取视频中用户人脸，根据人脸特征，判断用户说话行为。如果用户说话，则利用降噪系统进行降噪处理，得到用户的高信噪比语音，从而实现高质量的字幕生成；如果用户未说话时，通过语音优化降噪系统，在该场景的后续降噪过程中获取更好的性能。

另一方面，本发明实施例还提供了一种基于降噪自学习的字幕生成系统，包括：

第一模块，用于获取用户人脸图像以及用户视频；

第四模块，用于对降噪用户语音进行语音识别，生成字幕。

与图1的方法相对应，本发明实施例还提供了一种电子设备，包括处理器以及存储器；存储器用于存储程序；处理器执行程序实现如前面的方法。

与图1的方法相对应，本发明实施例还提供了一种计算机可读存储介质，存储介质存储有程序，程序被处理器执行实现如前面的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

综上，本发明实施例具有以下优点：

1)本发明实施例通过根据用户人脸图像对用户视频进行噪音检测，对用户视频中的用户人脸进行识别并检测用户人脸是否正常发声，判断此时用户视频为用户语音或环境噪音，能够进一步提高系统的识别率。

2)本发明实施例通过环境噪音对降噪模块进行优化，通过降噪模块对用户语音进行降噪处理，能够提升字幕生成的准确率。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-On ly Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于降噪自学习的字幕生成方法，其特征在于，包括：

获取用户人脸图像以及用户视频；

根据所述用户人脸图像对所述用户视频进行噪音检测，确定检测结果，其中，所述检测结果用于表征所述用户视频对应的音频为用户语音或环境噪音；

将所述检测结果输入降噪模块中，通过所述降噪模块对所述用户语音进行降噪处理，得到降噪用户语音，其中，所述降噪模块通过所述环境噪音进行优化处理得到；

对所述降噪用户语音进行语音识别，生成字幕。

2.根据权利要求1所述的一种基于降噪自学习的字幕生成方法，其特征在于，所述根据所述用户人脸图像对所述用户视频进行噪音检测，确定检测结果，其中，所述检测结果用于表征所述用户视频对应的音频为用户语音或环境噪音，包括：

对所述用户视频进行分帧处理，得到分帧图像以及分帧音频；

根据所述用户人脸图像对所述分帧图像进行用户人脸识别，得到用户人脸；

对所述用户人脸进行唇动检测，得到唇动概率；

根据所述唇动概率对所述分帧音频进行噪音检测，确定检测结果。

3.根据权利要求2所述的一种基于降噪自学习的字幕生成方法，其特征在于，所述根据所述用户人脸图像对所述分帧图像进行用户人脸识别，得到用户人脸，包括：

对所述分帧图像中所有人脸进行标记，得到标记人脸；

将所述用户人脸图像与所述标记人脸进行相似度计算，得到人脸相似度评分；

从所述人脸相似度评分中选取最高的相似度评分，当所述最高的相似度评分大于第一预设阈值时，确定所述最高的相似度评分对应的标记人脸为用户人脸。

4.根据权利要求2所述的一种基于降噪自学习的字幕生成方法，其特征在于，所述对所述用户人脸进行唇动检测，得到唇动概率，包括：

对所述用户人脸进行特征提取，得到人脸动态特征；

对所述人脸动态特征进行全局最大池化，得到第一特征向量；

将所述第一特征向量输入到第一分类器，得到唇动概率。

5.根据权利要求2所述的一种基于降噪自学习的字幕生成方法，其特征在于，所述根据所述唇动概率对所述分帧音频进行噪音检测，确定检测结果，包括：

当所述唇动概率大于第二预设阈值时，将所述唇动概率对应的人脸动态特征进行全局最大池化，得到第二特征向量；

将所述第二特征向量输入到第二分类器，得到正常发声唇动概率；

当所述正常发声唇动概率大于第三预设阈值时，确定所述分帧音频为用户语音，否则，确定所述分帧音频为环境噪音。

6.根据权利要求1所述的一种基于降噪自学习的字幕生成方法，其特征在于，所述通过所述降噪模块对所述用户语音进行降噪处理，得到降噪用户语音，包括：

将所述用户语音进行滤波预处理，得到预处理数据；

将所述预处理数据进行特征编码处理，得到编码特征；

对所述编码特征进行特征解码处理，得到降噪用户语音。

7.根据权利要求1所述的一种基于降噪自学习的字幕生成方法，其特征在于，所述降噪模块通过所述环境噪音进行优化处理得到，包括：

获取第一训练语音；

将所述第一训练语音输入所述降噪模块，得到第一训练结果；

将所述环境噪音与所述第一训练语音进行叠加处理，得到第二训练语音；

将所述第二训练语音输入所述降噪模块，得到第二训练结果；

将所述第一训练结果与所述第二训练结果进行对比，计算得到差值；

根据所述差值对所述降噪模块进行参数更新。

8.一种基于降噪自学习的字幕生成系统，其特征在于，包括：

第一模块，用于获取用户人脸图像以及用户视频；

第二模块，用于根据所述用户人脸图像对所述用户视频进行噪音检测，确定检测结果，其中，所述检测结果用于表征所述用户视频对应的音频为用户语音或环境噪音；

第三模块，用于将所述检测结果输入降噪模块中，通过所述降噪模块对所述用户语音进行降噪处理，得到降噪用户语音，其中，所述降噪模块通过所述环境噪音进行优化处理得到；

第四模块，用于对所述降噪用户语音进行语音识别，生成字幕。

9.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1-7中任一项所述的方法。