CN112261321B

CN112261321B - 字幕处理方法、装置及电子设备

Info

Publication number: CN112261321B
Application number: CN202011159807.1A
Authority: CN
Inventors: 海同舟
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2023-02-28
Anticipated expiration: 2040-10-26
Also published as: CN112261321A

Abstract

本申请公开了字幕处理方法、装置及电子设备，属于通信技术领域，所述方法包括：按照预设方式生成视频语音中的各噪音片段对应的第一字幕；在编辑区域中显示每段所述第一字幕和预设控件；在接收到对目标预设控件的第一输入的情况下，响应于所述第一输入对所述目标预设控件对应的所述第一字幕进行处理。本申请公开的字幕处理方法，可自动筛选出噪音片段对应的字幕，无需用户手动筛选，耗时短且可节省大量的人力资源。

Description

字幕处理方法、装置及电子设备

技术领域

本发明实施例涉及通信技术领域，尤其涉及一种字幕处理方法、装置及电子设备。

背景技术

随着短视频的流行，用电子设备直接制作短视频的博主越来越多。为了追求更加优质的制作效果以及帮助听力障碍的人士了解短视频内容，通常在短视频中添加字幕。

目前在为短视频添加字幕时，通过长语音识别方式将视频语音转换成字幕。但由于短视频录制时可能录入有噪声或与短视频内容不相关的其他声音，字幕转换后会将噪声或者其他声音也转入到字幕中，比如：街头小贩叫卖的广告语，影响字幕转换的准确性。为提升字幕转换的精准性，目前主要是通过人工核查筛选噪声或其他声音转换的字幕，该种方式不仅耗费大量的人力资源且耗时长。

发明内容

本申请实施例的目的是提供一种字幕处理方法，能够解决现有的字幕处理方法耗费大量人力资源且耗时长的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本申请实施例提供了一种字幕处理方法，按照预设方式生成视频语音中的各噪音片段对应的第一字幕；在编辑区域中显示每段所述第一字幕和预设控件；在接收到对目标预设控件的第一输入的情况下，响应于所述第一输入对所述目标预设控件对应的所述第一字幕进行处理；其中，预设方式包括以下至少之一：依据预设参数确定语音片段是否为噪音片段，并将噪音片段转换为第一字幕；依据预先训练的多模态模型，生成视频语音中的各段噪音片段对应的第一字幕；对所述第一字幕的处理包括以下至少之一：删除、恢复以及编辑。

第二方面，本申请实施例提供了一种字幕处理装置，其中，所述装置包括：生成模块，用于按照预设方式生成视频语音中的各噪音片段对应的第一字幕；显示模块，用于在编辑区域中显示每段所述第一字幕和预设控件；处理模块，用于在接收到对目标预设控件的第一输入的情况下，响应于所述第一输入对所述目标预设控件对应的所述第一字幕进行处理；其中，预设方式包括以下至少之一：依据预设参数确定语音片段是否为噪音片段，并将噪音片段转换为第一字幕；依据预先训练的多模态模型，生成视频语音中的各段噪音片段对应的第一字幕；对所述第一字幕的处理包括以下至少之一：删除、恢复以及编辑。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

本申请实施例中，通过按照预设方式生成视频语音中的各噪音片段对应的第一字幕；在编辑区域中显示每段第一字幕和预设控件；在接收到对目标预设控件的第一输入的情况下，响应于第一输入对目标预设控件对应的第一字幕进行处理，可自动筛选出噪音片段对应的字幕，无需用户手动筛选，耗时短且可节省大量的人力资源。不仅如此，用户还可以灵活地对系统筛选出的各噪音片段对应的第一字幕进行处理，既可提升字幕筛选的准确性，又可满足用户的个性化需求。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是表示本申请实施例的一种字幕处理方法的步骤流程图；

图2是表示本申请实施例的字幕编辑界面示意图；

图3是表示本申请实施例的一种字幕处理装置的结构框图；

图4是表示本申请实施例的一种电子设备的结构框图；

图5是表示本申请实施例的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的字幕处理方法进行详细地说明。

参照图1，示出了本申请实施例的一种字幕处理方法的步骤流程图。

本申请实施例的字幕处理方法包括以下步骤：

步骤101：按照预设方式生成视频语音中的各噪音片段对应的第一字幕。

其中，预设方式包括以下至少之一：依据预设参数确定语音片段是否为噪音片段，并将噪音片段转换为第一字幕；依据预先训练的多模态模型，生成视频语音中的各段噪音片段对应的第一字幕。在具体实现过程中，可采用上述至少一种预设方式生成各噪音片段对应的第一字幕。

本申请实施例中的所示的噪音片段为与视频主体内容不相关的语音片段，例如：视频拍摄地的噪音、视频的背景音乐或者旁人发出的声音等。

步骤102：在编辑区域中显示每段第一字幕和预设控件。

每段第一字幕可分别对应一组预设控件，也可以全部第一字幕对应一组预设控件，一组预设控件包括至少一个预设控件。

预设控件可以为虚拟按键，一组预设控件中的不同预设控件的作用不同，通过对不同作用的预设控件执行输入操作，可触发系统对被执行输入操作的预设控件对应的第一字幕进行相应处理。

步骤103：在接收到对目标预设控件的第一输入的情况下，响应于第一输入对目标预设控件对应的第一字幕进行处理。

对第一字幕的处理包括以下至少之一：删除、恢复以及编辑。

如图2中所示的字幕编辑界面所示，在确定第一字幕后在编辑区域中将第一字幕置灰显示，并提示用户已删除字幕置灰位置，同时显示有“编辑”这一预设控件，用户可对“编辑”控件执行第一输入，对当前显示的字幕进行编辑，如恢复部分置灰的第一字幕，或者调整置灰部分的第一字幕的内容等。

本申请实施例提供的字幕处理方法，通过按照预设方式生成视频语音中的各噪音片段对应的第一字幕；在编辑区域中显示每段第一字幕和预设控件；在接收到对目标预设控件的第一输入的情况下，响应于第一输入对目标预设控件对应的第一字幕进行处理，可自动筛选出噪音片段对应的字幕，无需用户手动筛选，耗时短且可节省大量的人力资源。不仅如此，用户还可以灵活地对系统筛选出的各噪音片段对应的第一字幕进行处理，既可提升字幕筛选的准确性，又可满足用户的个性化需求。

在一种可选地实施例中，按照预设方式生成视频语音中的各噪音片段对应的第一字幕的步骤，包括以下子步骤：

子步骤一：将视频语音划分为多个语音片段；

子步骤二：分别确定各语音片段所属的类别；

确定各语音片段所属的类别的时，可基于各语音片段的特征向量的相似度对各语音片段进行聚类，从而将所划分的多个语音片段划分至至少两个类别下。

子步骤三：将第一类别中包含的各语音片段确定为待筛选语音片段。

其中，第一类别中包含的语音片段数量小于预设数量。在具体实现过程中，预设数量可由本领域技术人员根据实际需求进行设置，本申请实施例中对此不做具体限制。例如：预设数量设置3、4或者5等。

由于非主体发言人对应的语音片段在视频语音中是少量的，所以挑出的声源类别里数量较少的语音片段，大概率会是噪音片段。

子步骤四：针对各待筛选语音片段，依据预设参数确定待筛选语音片段是否为噪音片段；

预设参数包括以下至少之一：语音片段的声音归属者信息、语音片段匹配的视频图像帧中人物信息以及语音片段与上下文的语义连贯度等。

子步骤五：分别将各噪音片段转换为第一字幕。

该种可选地生成第一字幕的方式，依据预设的多维度参数筛选噪音片段的方式，筛选结果准确。

在一种可选地实施例中，针对各待筛选语音片段，依据预设参数确定待筛选语音片段是否为噪声片段的步骤，包括以下子步骤：

子步骤一：针对各待筛选语音片段，确定待筛选语音片段的声音归属者的第一人物信息；

第一人物信息可以包括：人物性别和人物类型中的至少之一，人物性别包括：男性和女性，人物类型可以包括但不限于：老人、小孩以及青壮年等。

针对一个待筛选语音片段，确定声音归属者的第一人物信息时，可将该待筛选语音片段输入预先训练好的人物信息预测模型中，该人物信息预测模型的输出结果即为声音归属者的第一人物信息。

子步骤二：确定待筛选语音片段对应的视频图像帧中人物的第二人物信息；

第二人物信息可以包括：人物性别和人物类型。

在待筛选语音片段对应的视频图像帧中不包含人物的情况下，直接将待筛选语音片段确定为噪音片段。

在待筛选语音片段对应的视频图像帧中包含人物的情况下，使用图像预训练模型判断视频图像帧中人物的性别和类型。

图像预训练模型使用的样本图像可以为网上开源的数据图库中的图像，也可为研发人员自行构建的数据图库中的图像。预测视频图像帧中人物的性别和类型时，只需要视频图像帧输入图像预训练模型中即可判定视频图像帧中人物的性别和类型。

子步骤三：第一人物信息与第二人物信息不匹配的情况下，确定待筛选语音片段为噪音片段；

第一人物信息与第二人物信息相同的情况下，确定二者匹配；反之，第一人物信息与第二人物信息不相同的情况下，确定二者不匹配。

子步骤四：在第一人物信息与第二人物信息匹配的情况下，确定待筛选语音片段与上下文的语义是否连贯；

在确定待筛选语音片段与上下文的语义是否连贯时，可依据二分类语义连贯模型进行判断。

语义连贯模型可以使用人工标注和人工伪造两种数据训练生成，前者生成成本高，在实际实现过程中，可以先用人工伪造数据来训练模型，待模型服务使用后，运营收集到判定结果错误事件后，再用人工标注数据来修正该模型。

其中，人工伪造数据即语义不连贯的伪造原则，主要处理方式为：打乱待训练的语音字幕文件，当给A字幕文件插入不连贯字幕时选取B-N文件的随机的数据。每个字幕文件控制在3-5条噪音数据插入。这里的不连贯特质上下文讲的不是一个话题。例如：本来在做口红直播，电视里突然响起还珠格格的台词，该台词与口红无关在上下文中就是语义不连贯。

子步骤五：在待筛选语音片段与上下文的语义不连贯的情况下，确定待筛选语音片段为噪音片段。

该种可选地确定待筛选语音片段是否为噪音片段的方式，准确度高且易于操作。

在一种可选地实施例中，分别确定各语音片段所属的类别的方式如下：

分别提取各语音片段的语音特征向量；

将语音特征向量相似度大于预设相似度的各语音片段，划分至同一类别。

在实际实现过程中，可将视频语音中的第一个语音片段进行语音特征向量提取得到第一语音特征向量，将第二个语音片段进行语音特征向量提取得到第二语音特征向量，将第一语音特征向量和第二语言特征向量进行余弦相似度计算，如果二者相似度大于预设相似度，则将第二个语音片段归属至第一个语音片段所属的类别下，如果二者相似度小于或等于预设相似度，则将第二个语音片段划分至与第一个语音片段不同的类别下。然后，对于第三个语音片段进行语音特征向量提取得到第三语音特征向量，将第三语音特征向量与第一语音特征向量进行余弦相似度计算，如果第三语音特征向量和第一语音特征向量余弦相似度大于预设相似度，则将第三语音片段划分至第一语音片段所属的类别下；如果第三语音特征向量和第一语音特征向量余弦相似度小于或等于预设相似度，则将第三语音特征向量与第二语音特征向量进行余弦相似度计算，如果第三语音特征向量和第二语音特征向量余弦相似度大于预设相似度，则将第三语音片段划分至第二语音片段所属的类别下；如果第三语音特征向量和第一语音特征向量余弦相似度小于或等于预设相似度，则将第三个语音片段划分至一个新的类别下。循环上述流程，对视频语音中的各语音片段进行处理，可将各语音片段划分至相应类别下。

该种可选地确定各语音片段所属的类别的方式，类别划分结果准确度高且易于实现。

在一种可选地实施例中，按照预设方式生成视频语音中的各噪音片段对应的第一字幕的方式如下：

首先，将视频语音转换成字幕文本；

其次，将字幕文本和视频图像对应输入预先训练的多模态模型中，筛选得到各噪音片段对应的第一字幕。

多模态模型训练时，需要将待训练的视频数据处理成音频，将视频抽帧图像和该视频抽帧图像所对应的字幕数据交由人工标注。多模态模型在学习时将音频、字幕和图像数据转成向量，然后拼接成一个多模态向量供神经网络模型学习预测。在预测时也需要先将视频数据处理成音频转换成字幕文本，将各帧视频图像和字幕一一对应输入至预先训练好的多模态模型中，

该种可选地依据预先训练的多模态模型，筛选得到各噪音片段对应的第一字幕的方式，处理效率高、筛选结果准确。

需要说明的是，本申请实施例提供的字幕处理方法，执行主体可以为字幕处理装置，或者该字幕处理装置中的用于执行字幕处理方法的控制模块。本申请实施例中后续以字幕处理模块执行字幕处理方法为例，说明本申请实施例提供的字幕处理装置。

图3为实现本申请实施例的一种字幕处理装置的结构框图。

本申请实施例的字幕处理装置300包括：

生成模块301，用于按照预设方式生成视频语音中的各噪音片段对应的第一字幕；

显示模块302，用于在编辑区域中显示每段所述第一字幕和预设控件；

处理模块303，用于在接收到对目标预设控件的第一输入的情况下，响应于所述第一输入对所述目标预设控件对应的所述第一字幕进行处理；

其中，预设方式包括以下至少之一：依据预设参数确定语音片段是否为噪音片段，并将噪音片段转换为第一字幕；依据预先训练的多模态模型，生成视频语音中的各段噪音片段对应的第一字幕；

对所述第一字幕的处理包括以下至少之一：删除、恢复以及修改。

可选的，所述生成模块包括：

第一子模块，用于将视频语音划分为多个语音片段；

第二子模块，用于分别确定各所述语音片段所属的类别；

第三子模块，用于将第一类别中包含的各语音片段确定为待筛选语音片段，其中，所述第一类别中包含的语音片段数量小于预设数量；

第四子模块，用于针对各所述待筛选语音片段，依据预设参数确定所述待筛选语音片段是否为噪音片段；

第五子模块，用于分别将各所述噪音片段转换为第一字幕。

可选的，所述第四子模块包括：

第一单元，用于针对各所述待筛选语音片段，确定所述待筛选语音片段的声音归属者的第一人物信息；

第二单元，用于确定所述待筛选语音片段对应的视频图像帧中人物的第二人物信息；

第三单元，用户所述第一人物信息与所述第二人物信息不匹配的情况下，确定所述待筛选语音片段为噪音片段；

第四单元，用于在所述第一人物信息与所述第二人物信息匹配的情况下，确定所述待筛选语音片段与上下文的语义是否连贯；

第五单元，用于在所述待筛选语音片段与上下文的语义不连贯的情况下，确定所述待筛选语音片段为噪音片段。

可选的，所述分第二子模块包括：

第六单元，用于分别提取各所述语音片段的语音特征向量；

第七单元，用于将语音特征向量相似度大于预设相似度的各所述语音片段，划分至同一类别。

可选的，所述生成模块包括：

第六子模块，用于将所述视频语音转换成字幕文本；

第七子模块，用于将所述字幕文本和视频图像输入预先训练的多模态模型中，筛选得到各噪音片段对应的第一字幕。

本申请实施例提供的字幕处理装置，通过按照预设方式生成视频语音中的各噪音片段对应的第一字幕；在编辑区域中显示每段第一字幕和预设控件；在接收到对目标预设控件的第一输入的情况下，响应于第一输入对目标预设控件对应的第一字幕进行处理，可自动筛选出噪音片段对应的字幕，无需用户手动筛选，耗时短且可节省大量的人力资源。不仅如此，用户还可以灵活地对系统筛选出的各噪音片段对应的第一字幕进行处理，既可提升字幕筛选的准确性，又可满足用户的个性化需求。

本申请实施例中的字幕处理装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的字幕处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为iOS操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的字幕处理装置能够实现图1至图2的方法实施例中实现的各个过程，为避免重复，这里不再赘述。

可选地，如图4所示，本申请实施例还提供一种电子设备400，包括处理器401，存储器402，存储在存储器402上并可在所述处理器401上运行的程序或指令，该程序或指令被处理器401执行时实现上述字幕处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要注意的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图5为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备500包括但不限于：射频单元501、网络模块502、音频输出单元503、输入单元504、传感器505、显示单元506、用户输入单元507、接口单元508、存储器509、以及处理器510等部件，电子设备500包含折叠屏。

本领域技术人员可以理解，电子设备500还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器510逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图5中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器510，用于按照预设方式生成视频语音中的各噪音片段对应的第一字幕；

显示单元506，用于在编辑区域中显示每段所述第一字幕和预设控件；

处理器510，还用于在接收到对目标预设控件的第一输入的情况下，响应于所述第一输入对所述目标预设控件对应的所述第一字幕进行处理；

对所述第一字幕的处理包括以下至少之一：删除、恢复以及修改

本申请实施例中，电子设备通过按照预设方式生成视频语音中的各噪音片段对应的第一字幕；在编辑区域中显示每段第一字幕和预设控件；在接收到对目标预设控件的第一输入的情况下，响应于第一输入对目标预设控件对应的第一字幕进行处理，可自动筛选出噪音片段对应的字幕，无需用户手动筛选，耗时短且可节省大量的人力资源。不仅如此，用户还可以灵活地对系统筛选出的各噪音片段对应的第一字幕进行处理，既可提升字幕筛选的准确性，又可满足用户的个性化需求。

可选的，处理器510按照预设方式生成视频语音中的各噪音片段对应的第一字幕时，具体用于：将视频语音划分为多个语音片段；分别确定各所述语音片段所属的类别；将第一类别中包含的各语音片段确定为待筛选语音片段，其中，所述第一类别中包含的语音片段数量小于预设数量；针对各所述待筛选语音片段，依据预设参数确定所述待筛选语音片段是否为噪音片段；分别将各所述噪音片段转换为第一字幕。

可选的，处理器510针对各所述待筛选语音片段，依据预设参数确定所述待筛选语音片段是否为噪声片段时，具体用于：针对各所述待筛选语音片段，确定所述待筛选语音片段的声音归属者的第一人物信息；确定所述待筛选语音片段对应的视频图像帧中人物的第二人物信息；所述第一人物信息与所述第二人物信息不匹配的情况下，确定所述待筛选语音片段为噪音片段；在所述第一人物信息与所述第二人物信息匹配的情况下，确定所述待筛选语音片段与上下文的语义是否连贯；在所述待筛选语音片段与上下文的语义不连贯的情况下，确定所述待筛选语音片段为噪音片段。

可选的，处理器510分别确定各所述语音片段所属的类别时，具体用于：分别提取各所述语音片段的语音特征向量；将语音特征向量相似度大于预设相似度的各所述语音片段，划分至同一类别。

可选的，处理器510所述按照预设方式生成视频语音中的各噪音片段对应的第一字幕时，具体用于：将所述视频语音转换成字幕文本；将所述字幕文本和视频图像输入预先训练的多模态模型中，筛选得到各噪音片段对应的第一字幕。

应理解的是，本申请实施例中，输入单元504可以包括图形处理器(GraphicsProcessing Unit，GPU)5041和麦克风5042，图形处理器5041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元506可包括显示面板5061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板5061。用户输入单元507包括触控面板5071以及其他输入设备5072。触控面板、5071，也称为触摸屏。触控面板5071可包括触摸检测装置和触摸控制器两个部分。其他输入设备5072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器509可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器510可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器510中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述字幕处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述字幕处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种字幕处理方法，其特征在于，所述方法包括：

按照预设方式生成视频语音中的各噪音片段对应的第一字幕；

显示每段所述第一字幕和预设控件；

在接收到对目标预设控件的第一输入的情况下，响应于所述第一输入对所述目标预设控件对应的所述第一字幕进行处理；

其中，预设方式包括以下至少之一：依据预设参数确定语音片段是否为噪音片段，并将噪音片段转换为第一字幕；依据预先训练的多模态模型，生成视频语音中的各段噪音片段对应的第一字幕，预设参数包括以下至少之一：语音片段的声音归属者信息、语音片段匹配的视频图像帧中人物信息以及语音片段与上下文的语义连贯度；

对所述第一字幕的处理包括以下至少之一：删除、恢复以及编辑。

2.根据权利要求1所述的方法，其特征在于，所述按照预设方式生成视频语音中的各噪音片段对应的第一字幕的步骤，包括：

将视频语音划分为多个语音片段；

分别确定各所述语音片段所属的类别；

将第一类别中包含的各语音片段确定为待筛选语音片段，其中，所述第一类别中包含的语音片段数量小于预设数量；

针对各所述待筛选语音片段，依据预设参数确定所述待筛选语音片段是否为噪音片段；

分别将各所述噪音片段转换为第一字幕。

3.根据权利要求2所述的方法，其特征在于，针对各所述待筛选语音片段，依据预设参数确定所述待筛选语音片段是否为噪声片段的步骤，包括：

针对各所述待筛选语音片段，确定所述待筛选语音片段的声音归属者的第一人物信息；

确定所述待筛选语音片段对应的视频图像帧中人物的第二人物信息；

所述第一人物信息与所述第二人物信息不匹配的情况下，确定所述待筛选语音片段为噪音片段，其中，第一人物信息和第二人物信息包括：人物性别和人物类型；

在所述第一人物信息与所述第二人物信息匹配的情况下，确定所述待筛选语音片段与上下文的语义是否连贯；

在所述待筛选语音片段与上下文的语义不连贯的情况下，确定所述待筛选语音片段为噪音片段。

4.根据权利要求2所述的方法，其特征在于，所述分别确定各所述语音片段所属的类别的步骤，包括：

分别提取各所述语音片段的语音特征向量；

将语音特征向量相似度大于预设相似度的各所述语音片段，划分至同一类别。

5.根据权利要求1所述的方法，其特征在于，所述按照预设方式生成视频语音中的各噪音片段对应的第一字幕的步骤，包括：

将所述视频语音转换成字幕文本；

将所述字幕文本和视频图像输入预先训练的多模态模型中，筛选得到各段噪音片段对应的第一字幕。

6.一种字幕处理装置，其特征在于，所述装置包括：

生成模块，用于按照预设方式生成视频语音中的各噪音片段对应的第一字幕；

显示模块，用于显示每段所述第一字幕和预设控件；

处理模块，用于在接收到对目标预设控件的第一输入的情况下，响应于所述第一输入对所述目标预设控件对应的所述第一字幕进行处理；

其中，预设方式包括以下至少之一：依据预设参数确定语音片段是否为噪音片段，并将噪音片段转换为第一字幕；依据预先训练的多模态模型，生成视频语音中的各噪音片段对应的第一字幕，预设参数包括以下至少之一：语音片段的声音归属者信息、语音片段匹配的视频图像帧中人物信息以及语音片段与上下文的语义连贯度；

7.根据权利要求6所述的装置，其特征在于，所述生成模块包括：

第一子模块，用于将视频语音划分为多个语音片段；

第二子模块，用于分别确定各所述语音片段所属的类别；

第五子模块，用于分别将各所述噪音片段转换为第一字幕。

8.根据权利要求7所述的装置，其特征在于，所述第四子模块包括：

第三单元，用户所述第一人物信息与所述第二人物信息不匹配的情况下，确定所述待筛选语音片段为噪音片段，其中，第一人物信息和第二人物信息包括：人物性别和人物类型；

9.根据权利要求7所述的装置，其特征在于，所述第二子模块包括：

第六单元，用于分别提取各所述语音片段的语音特征向量；

10.根据权利要求6所述的装置，其特征在于，所述生成模块包括：

第六子模块，用于将所述视频语音转换成字幕文本；

11.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至5中任一项所述的字幕处理方法的步骤。