CN114299950B

CN114299950B - 一种字幕生成方法、装置及设备

Info

Publication number: CN114299950B
Application number: CN202111668821.9A
Authority: CN
Inventors: 尹君豪; 姚佳立; 杨晶生
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2023-07-14
Anticipated expiration: 2041-12-30
Also published as: CN114299950A

Abstract

本申请实施例提供了一种字幕生成方法、装置及设备，将获取的语音数据转化为文本数据。将满足第一预设条件的文本数据确定为预选噪声文本数据。获取预选噪声文本数据对应的预选噪声语音数据，并确定预选噪声语音数据中的人声数据。当人声数据满足第二预设条件时，确定预选噪声语音数据为非噪声语音数据。将非噪声语音数据对应的文本数据作为字幕进行输出。如此，能够基于已经去噪处理的语音数据所生成的文本数据，进行第二次去噪处理，提高了噪声字幕的过滤能力，使得展示的字幕更加准确。

Description

一种字幕生成方法、装置及设备

技术领域

本申请涉及计算机技术领域，具体涉及一种字幕生成方法、装置及设备。

背景技术

随着ASR(Automatic Speech Recognition，自动语音识别)技术的发展，一些产品能够利用ASR技术将用户的语音转化为文字，进而生成并展示字幕。

通常，初始的待转化语音数据中除了用户语音，还有一些也会被转化为文字的噪声。这些噪声被转化成噪声文本，形成噪声字幕。例如，用户的呼吸声作为噪声可能会被转化成噪声文本，并生成“啊”“哈”等噪声字幕。这些噪声产生的噪声字幕是无意义的，需要去除。

目前，可先对待转化语音数据进行去噪处理，再通过ASR技术将去噪处理后的语音数据转化为文字，进而生成字幕。但是通过该方法生成的字幕中仍可能含有噪声字幕。

发明内容

有鉴于此，本申请实施例提供一种字幕生成方法、装置及设备，能够提高噪声字幕的过滤能力，使得生成的字幕更加准确。

为解决上述问题，本申请实施例提供的技术方案如下：

第一方面，本申请实施例提供一种字幕生成方法，所述方法包括：

获取语音数据，将所述语音数据转化为文本数据；

将满足第一预设条件的所述文本数据确定为预选噪声文本数据；

获取所述预选噪声文本数据对应的预选噪声语音数据，并确定所述预选噪声语音数据中的人声数据；

当所述预选噪声语音数据中的人声数据满足第二预设条件时，确定所述预选噪声语音数据为非噪声语音数据；

将所述非噪声语音数据对应的文本数据作为字幕进行输出。

第二方面，本申请实施例提供一种字幕生成装置，所述装置包括：

第一获取单元，用于获取语音数据，将所述语音数据转化为文本数据；

第一确定单元，用于将满足第一预设条件的所述文本数据确定为预选噪声文本数据；

第二获取单元，用于获取所述预选噪声文本数据对应的预选噪声语音数据，并确定所述预选噪声语音数据中的人声数据；

第二确定单元，用于当所述预选噪声语音数据中的人声数据满足第二预设条件时，确定所述预选噪声语音数据为非噪声语音数据；

第一输出单元，用于将所述非噪声语音数据对应的文本数据作为字幕进行输出。

第三方面，本申请实施例提供一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述的字幕生成方法。

第四方面，本申请实施例提供一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现上述的字幕生成方法。

由此可见，本申请实施例具有如下有益效果：

本申请实施例提供了一种字幕生成方法、装置及设备，获取语音数据，将获取的语音数据转化为文本数据。基于转化的文本数据，将满足第一预设条件的文本数据确定为预选噪声文本数据。预选噪声文本数据为可能是噪声文本数据的文本数据。进一步，获取预选噪声文本数据对应的预选噪声语音数据，并确定预选噪声语音数据中的人声数据。当预选噪声语音数据中的人声数据满足第二预设条件时，确定预选噪声语音数据为非噪声语音数据。将非噪声语音数据对应的文本数据作为字幕进行输出。可以理解的是，当获取的语音数据为已经进行过一次去噪处理的语音数据时，本申请实施例基于已经去噪处理的语音数据所生成的文本数据，又进行了第二次去噪处理。若预选噪声语音数据为非噪声语音数据，则说明预选噪声语音数据对应的文本数据不是噪声文本，直接将非噪声语音数据对应的文本数据作为字幕输出。若预选噪声语音数据为噪声语音数据，则可以进行进一步的后续处理。如此，能够提高噪声字幕的过滤能力，使得最终展示的字幕更加准确。

附图说明

图1为本申请实施例提供的一种示例性应用场景示意图；

图2为本申请实施例提供的一种字幕生成方法的流程图；

图3为本申请实施例提供的另一种字幕生成方法的流程图；

图4为本申请实施例提供的一种字幕生成装置的结构示意图；

图5为本申请实施例提供的一种电子设备的基本结构的示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

为了便于理解和解释本申请实施例提供的技术方案，下面将先对本申请的背景技术进行说明。

随着自动语音识别(Automatic Speech Recognition，ASR)技术的发展，使得现今能够利用ASR技术将用户的语音转化为文字。另外，一些会议应用程序还可利用ASR技术实时将用户语音转化为文字，生成字幕并进行展示。例如，在使用会议应用程序时开启字幕生成功能，使得在会议进行过程中，会议应用程序会将参与会议的用户的音频实时转化成字幕，并展示在字幕展示区以便用户查看。

一般情况下，初始的待转化语音数据中除了用户语音，还有一些也会被转化为文字的噪声。这些噪声会被转化成噪声文本，形成噪声字幕。例如，用户的呼吸声作为噪声可能会被转化成噪声文本，并生成“啊啊啊”“哈”等噪声字幕。这些噪声产生的噪声字幕是无意义的，不需要展示出来。

目前，可以先对待转化语音数据进行去噪处理，再通过ASR技术将去噪处理后的语音数据转化为文字，进而生成字幕。但是通过该方法生成的字幕中仍可能含有噪声字幕，使得最终生成的字幕仍然不准确。

基于此，本申请实施例提供了一种字幕生成方法、装置及设备，获取语音数据，将获取的语音数据转化为文本数据。基于转化的文本数据，将满足第一预设条件的文本数据确定为预选噪声文本数据。预选噪声文本数据为可能是噪声文本数据的文本数据。进一步，获取预选噪声文本数据对应的预选噪声语音数据，并确定预选噪声语音数据中的人声数据。当预选噪声语音数据中的人声数据满足第二预设条件时，确定预选噪声语音数据为非噪声语音数据。将非噪声语音数据对应的文本数据作为字幕进行输出。可以理解的是，当获取的语音数据为已经进行过一次去噪处理的语音数据时，本申请实施例基于已经去噪处理的语音数据所生成的文本数据，又进行了第二次去噪处理。若预选噪声语音数据为非噪声语音数据，则说明预选噪声语音数据对应的文本数据不是噪声文本，则直接将非噪声语音数据对应的文本数据作为字幕输出。若预选噪声语音数据为噪声语音数据，则可以进行进一步的后续处理。如此，能够提高噪声字幕的过滤能力，使得最终展示的字幕更加准确。

在一种可能的实现方式中，本申请实施例提供的字幕生成方法可以由终端设备执行。在一个或多个实施例中，终端设备可以是现有的、正在研发的或将来研发的、能够通过任何形式的有线和/或无线连接(例如，Wi-Fi、LAN、蜂窝、同轴电缆等)相互交互的任何用户设备，包括但不限于：现有的、正在研发的或将来研发的智能可穿戴设备、智能手机、非智能手机、平板电脑、膝上型个人计算机、桌面型个人计算机、小型计算机、中型计算机、大型计算机等。本申请的实施方式在此方面不受任何限制。在另一些实施例中，本申请实施例提供的字幕生成方法还可以由服务器执行，服务器可以是现有的、正在研发的或将来研发的、能够执行上述操作的设备的一个示例。本申请的实施方式在此方面不受任何限制。

为了便于理解本申请实施例提供的字幕生成方法，下面以本申请实施例提供的字幕生成方法应用于终端设备为例，对字幕生成方法的应用场景进行介绍。

参见图1所示的示例性应用场景示意图，终端设备101获取语音数据后，将语音数据转化为文本数据。其中，语音数据为去噪处理后得到的语音数据。进一步，终端设备101将满足第一预设条件的文本数据确定为预选噪声文本数据。可以理解的是，预选噪声文本数据为可能是噪声文本的文本数据。

终端设备101获取预选噪声文本数据对应的预选噪声语音数据，并确定预选噪声语音数据中的人声数据。人声数据即为需要被转换成文本数据进而生成字幕的用户语音。

当预选噪声语音数据中的人声数据满足第二预设条件时，终端设备101确定预选噪声语音数据为非噪声语音数据，即预选噪声语音数据对应的文本数据并非噪声文本。此时，终端设备101将非噪声语音数据对应的文本数据作为字幕进行输出。生成的字幕可以展示在字幕展示区1011。

本领域技术人员可以理解，图1所示的框架示意图仅是本申请的实施方式可以在其中得以实现的一个示例。本申请实施方式的适用范围不受到该框架任何方面的限制。

为了便于理解本申请，下面结合附图对本申请实施例提供的一种字幕生成方法进行说明。

参见图2所示，该图为本申请实施例提供的一种字幕生成方法的流程图。如图2所示，该方法可以包括S201-S205：

S201：获取语音数据，将语音数据转化为文本数据。

在本申请实施例中，语音数据为初始语音数据在去噪处理后的语音数据。其中，初始语音数据为实时获取、未被处理过的音频数据。例如，某个会议应用程序获取的由用户发言产生的音频数据。可以理解的是，初始语音数据是实时获取的，对应地，语音数据也是通过初试语音数据实时获取的。

具体实施时，获取语音数据，将语音数据转化为文本数据，包括：

获取初始语音数据，对初始语音数据进行去噪处理，获取去噪处理后的语音数据；

将去噪处理后的语音数据转化为文本数据。

可以理解的是，以用户使用会议应用程序开展线上会议的场景为例，会议应用程序获取线上会议过程中由用户发言所生成的初始语音数据。其中，初始语音数据中不仅包括用户语音，还可能包括一些噪声，例如，用户的呼吸声、用户周围可能存在的机器的声音等。一般情况下，为了使生成的字幕符合需求，需要先对初始语音数据进行去噪处理，将噪声进行去除，以提高后续生成的字幕的准确性。

基于上述内容，本申请实施例提供了一种获取初始语音数据，对初始语音数据进行去噪处理，获取去噪处理后的语音数据的具体实施方式，具体请参见下文A1-A2。

S202：将满足第一预设条件的文本数据确定为预选噪声文本数据。

一般，由于用户周围机器产生的噪声的产生频率较为稳定，使得机器产生的噪声时间较长，由机器产生的噪声文本可能为长噪声文本。针对机器产生的噪声以及同类能产生长噪声文本的噪声，一般在对初始语音数据进行去噪处理时已经将该类噪声进行了去除，进而获得去噪处理后的语音数据。由此，在一个或多个实施例中，本申请实施例S202-S205中可以针对文本数据中可能存在的短噪声文本数据进行进一步地过滤。

基于此，可设置第一预设条件来判断文本数据是否为短文本数据，若是短文本数据，则可能为短噪声文本，进一步将其确定为预选噪声文本数据。其中，作为一种可选示例，第一预设条件为文本数据对应的语音数据时间小于或等于时间阈值且文本数据的字数小于或等于字数阈值。例如，时间阈值为3s，字数阈值为5个字。

可以理解的是，本申请实施例不限定时间阈值和字数阈值的大小，可根据实际应用场景的实际需求进行设定。例如，第一预设条件还可用来确定其他长度的噪声文本。

通常，语音数据带有语音采集时间戳，不同的语音采集时间戳对应不同的语音数据。当语音数据转化为文本数据后，文本数据也对应有时间戳。例如，时间戳和对应的文本数据为“180000_181285_你有什么想法吗”。其中，时间戳为“180000-181285”，表示第180000ms到第181285ms，对应的文本数据为“你有什么想法吗”。又例，“398770_399335_对”，表明第398770ms到第399335ms对应的文本数据为“对”。可以理解的是，语音数据对应的语音采集时间戳和转化为的文本数据对应的时间戳是相同的。

根据上述内容可知，当第一预设条件为文本数据对应的语音数据时间小于或等于3s且文本数据的字数小于或等于5个字时，“398770_399335_对”中的文本数据“对”所对应的语音数据时间和文本数据的字数满足第一预设条件，可确定其为预选噪声文本数据。

S203：获取预选噪声文本数据对应的预选噪声语音数据，并确定预选噪声语音数据中的人声数据。

在确定预选噪声文本数据后，获取预选噪声文本数据对应的预选噪声语音数据。基于预选噪声语音数据实现预选噪声文本数据的噪声分析。

在一种可能的实现方式中，本申请实施例提供了一种获取预选噪声文本数据对应的预选噪声语音数据的具体实施方式，包括：

根据预选噪声文本数据对应的语音采集时间戳，从语音数据中查询语音采集时间戳对应的语音数据；

将语音采集时间戳对应的语音数据确定为预选噪声文本数据对应的预选噪声语音数据。

可以理解的是，上述获取预选噪声文本数据对应的预选噪声语音数据的方式是通过预选噪声文本数据对应的语音采集时间戳获取的。

进一步，确定预选噪声语音数据中的人声数据。用人声数据来实现预选噪声文本数据的噪声分析。

在一个或多个实施例中，将预选噪声语音数据输入人声检测模型中，可获取人声检测模型输出的预选噪声语音数据中的人声数据。其中，人声检测模型用于检测预选噪声语音数据中的人声数据。人声数据为用户语音，为被转化成文本数据进而生成字幕的语音数据。

例如，预选噪声文本数据“398770_399335_对”中的文本数据“对”所对应的语音数据经过人声检测模型后被确定为人声数据。预选噪声文本数据“343440_343945_啊”中的文本数据“啊”所对应的语音数据经过人声检测模型后被确定为非人声数据。

在一些可能的实现方式中，人声检测模型为SED(Sound Event Detection，声音事件检测)模型或VAD(Voice Activity Detection，语音活动检测)模型。其中，SED模型可实现多标签分类，即当音频数据中存在多个声音事件时，如机器声音、动物声音、人声、音乐声等声音事件，SED模型可检测出音频数据中各个声音事件的种类及其对应的时间戳。VAD模型可作为人声语音数据和非人声语音数据的二分类模型，能够通过机器学习的方法训练分类器，达到检测人声语音数据的目的。

可以理解的是，SED模型能确定音频数据中多种声音事件，VAD模型仅能识别出两种声音事件。相比于VAD模型，SED模型识别出的声音事件更多，更加准确。在一种可选示例中，执行S203时，可优先选择SED模型。

在一种可能的实现方式中，本申请实施例提供了一种获取预选噪声文本数据对应的预选噪声语音数据，将预选噪声语音数据输入人声检测模型中，获取人声检测模型输出的预选噪声语音数据中的人声数据的具体实施方式，具体请参见下文B1-B3。

S204：当预选噪声语音数据中的人声数据满足第二预设条件时，确定预选噪声语音数据为非噪声语音数据。

在一个或多个实施例中，第二预设条件为预选噪声语音数据中的人声数据在预选噪声语音数据中的占比满足第一预设范围。

具体实施时，在获取预选噪声语音数据中的人声数据后，计算预选噪声语音数据中的人声数据在预选噪声语音数据中的占比。作为一种可选示例，占比为人声数据对应的帧数在预选噪声语音数据对应的帧数中的占比。作为另一种可选示例，占比为人声数据对应的时间在预选噪声语音数据对应的时间中的占比。人声数据对应的时间和预选噪声语音数据对应的时间可通过语音采集时间戳获取。

进一步，判断预选噪声语音数据中的人声数据在预选噪声语音数据中的占比是否满足第一预设范围。若是，则确定预选噪声语音数据为非噪声语音数据。非噪声语音数据表明预选噪声语音数据不是噪声语音，非噪声语音数据对应的文本数据不是噪声文本。

举例说明，设置第一预设范围为大于或等于60％。预选噪声文本数据对应的预选噪声语音数据经过人声检测模型后，获取预选噪声语音数据中的人声数据和非人声数据。其中，若人声数据对应的时长为1500ms，预选噪声语音数据对应的时长为2000ms。则得到的人声数据在预选噪声语音数据中的占比为75％，超过了60％，该占比满足第一预设范围，因此确定该预选噪声文本为非噪声文本，预选噪声文本对应的语音数据为非噪声语音数据。反之，若人声数据所对应的时间为400ms，预选噪声语音数据对应的时间为2000ms。则人声数据在预选噪声语音数据中的占比为20％，不足60％，确定该预选噪声文本为噪声文本，预选噪声文本对应的语音数据为噪声语音数据。

可以理解的是，若第一预设范围为大于0，则只要预选噪声语音数据中存在人声数据，则可确定预选噪声语音数据为非噪声语音数据，对非噪声语音数据对应的文本数据进行保留。本申请实施例不限定第一预设范围，可根据实际应用场景的实际需求进行设置。

S205：将非噪声语音数据对应的文本数据作为字幕进行输出。

将非噪声语音数据对应的文本数据作为字幕进行输出，在字幕展示区中进行展示。可以理解的是，输出的字幕为实时字幕，即用户说完一句话后，生成实时的字幕并进行展示。

另外，若S204中得到的预选噪声语音数据中的人声数据不满足第二预设条件，例如预选噪声语音数据中的人声数据在预选噪声语音数据中的占比不满足第一预设范围时，确定预选噪声语音数据为噪声语音数据。预选噪声语音数据对应的文本数据为噪声文本。此时，需要将噪声语音数据对应的文本数据更新为空白文本，将空白文本作为空白字幕进行输出。即不将噪声文本作为字幕进行展示。由此，可提高生成字幕的准确性，满足用户需求。

本申请实施例提供了一种字幕生成方法，获取语音数据，将获取的语音数据转化为文本数据。基于转化的文本数据，将满足第一预设条件的文本数据确定为预选噪声文本数据。预选噪声文本数据为可能是噪声文本数据的文本数据。进一步，获取预选噪声文本数据对应的预选噪声语音数据，并确定预选噪声语音数据中的人声数据。当预选噪声语音数据中的人声数据满足第二预设条件时，，确定预选噪声语音数据为非噪声语音数据。将非噪声语音数据对应的文本数据作为字幕进行输出。可以理解的是，当获取的语音数据为已经进行过一次去噪处理的语音数据时，本申请实施例基于已经去噪处理的语音数据所生成的文本数据，又进行了第二次去噪处理。若预选噪声语音数据为非噪声语音数据，则说明预选噪声语音数据对应的文本数据不是噪声文本，则直接将非噪声语音数据对应的文本数据作为字幕输出。若预选噪声语音数据为噪声语音数据，则将噪声语音数据对应的噪声文本更新为空白文本，并将空白文本作为空白字幕进行输出。如此，能够提高噪声字幕的过滤能力，使得最终展示的字幕更加准确。

在一种可能的实现方式中，本申请实施例提供了一种S201中获取初始语音数据，对初始语音数据进行去噪处理，获取去噪处理后的语音数据的具体实施方式，包括以下两个步骤：

A1：获取初始语音数据，将初始语音数据输入人声检测模型中，获取人声检测模型输出的初始人声数据和噪声数据。

可以理解的是，在该步骤中的人声检测模型可为VAD模型、SED模型或其它模型，可根据实际需要进行选择。例如，可选择VAD模型，使分类过程更加简单方便。

A2：将初始人声数据确定为去噪处理后的语音数据。

基于A1-A2，先对获取的初始语音数据进行初步的去噪处理，获取去噪处理后的语音数据。再通过S201-S205提供的二次去噪处理过程，使得最终展示的字幕更加准确。

在一种可能的实现方式中，本申请实施例提供了一种S203中获取预选噪声文本数据对应的预选噪声语音数据，将预选噪声语音数据输入人声检测模型中，获取人声检测模型输出的预选噪声语音数据中的人声数据的具体实施方式，包括以下三个步骤：

B1：将预选噪声语音数据输入人声检测模型中，获取预选噪声语音数据中每帧语音数据的人声置信度。

预选噪声语音数据可能是噪声语音数据，也可能是非噪声语音数据。本申请实施例中基于人声检测模型以及后续的分析来确定预选噪声语音数据是否为非噪声语音数据。

将预选噪声语音数据输入人声检测模型中，获取预选噪声语音数据中每帧语音数据的人声置信度。其中，人声置信度用于判断预选噪声语音数据中的语音数据帧是否为人声数据帧。可以理解的是，除了用户语音之外的语音数据均为非人声数据，例如，用户呼吸声、音乐声和机器声等对应的语音数据均为非人声数据。

B2：基于预选噪声语音数据中每帧语音数据的人声置信度，获取人声置信度满足第二预设范围的各帧语音数据。

在该步骤中，确定满足第二预设范围的语音数据帧为人声数据帧。可以理解的是，第二预设范围为预先设定的范围，可根据经验或前期试验获取。

例如，预选噪声语音数据中有三个单语音数据帧的人声置信度分别为0.8、0.6、0.8，若第二预设范围为大于或等于0.7，则确定人声置信度为0.8的两个语音数据帧为人声数据帧。

B3：将人声置信度满足第二预设范围的各帧语音数据组合为人声数据，获取人声检测模型输出的预选噪声语音数据中的人声数据。

在一种可能的实现方式中，直接将人声置信度满足第二预设范围的各帧语音数据进行组合，获得人声数据。

在另一种可能的实现方式中，将人声置信度满足第二预设范围的连续的单帧语音数据组合成连续帧语音数据，进而再将无法组合成连续帧语音数据的单帧语音数据以及已经组合完成的连续帧语音数据进行组合，获取预选噪声语音数据中的人声数据。例如，1s，3s，4s分别对应有一个单帧语音数据，先将3s，4s分别对应的单帧语音数据进行组合，得到3～4s对应的连续帧语音数据。再将1s对应的单帧语音数据和3～4s对应的连续帧语音数据进行组合，得到1s对应的单帧语音数据，3～4s对应的连续帧语音数据。

在本申请实施例中，将预选噪声语音数据中不满足第二预设范围的单帧语音数据确定为噪声数据，通过人声检测模型舍弃噪声数据，保留预选噪声语音数据中的人声数据。

由于字幕是实时进行展示的，字幕展示的实时性和快速性便是用户考虑的重要指标。为了提高字幕的实时性，本申请实施例提供的另一种字幕生成方法。为了便于理解，下面结合附图对本申请实施例提供的一种字幕生成方法进行说明。

参见图3所示，该图为本申请实施例提供的另一种字幕生成方法的流程图，如图3所示，该方法可以包括S301-S308：

S301：获取语音数据，将语音数据转化为文本数据。

本实施例中S301与上一实施例S201相同，为了简要起见，在此不再详细描述，详细信息请参见上述实施例中的描述。

S302：将文本数据作为第一字幕进行输出。

该步骤中，文本数据为经过一次噪声处理的语音数据转化得到的。为了提高字幕展示的实时性和快速性，提升用户的感官感受，先将文本数据作为第一字幕进行输出。

S303：将满足第一预设条件的文本数据确定为预选噪声文本数据。

S304：获取预选噪声文本数据对应的预选噪声语音数据，并确定预选噪声语音数据中的人声数据。

S305：当预选噪声语音数据中的人声数据满足第二预设条件时，确定预选噪声语音数据为非噪声语音数据。

本实施例中S303-S305与上一实施例S202-S204相同，为了简要起见，在此不再详细描述，详细信息请参见上述实施例中的描述。

S306：将非噪声语音数据对应的文本数据确定为第二字幕，将第一字幕刷新为第二字幕。

当确定非噪声语音数据后，确定非噪声语音数据对应的文本数据为第二字幕，并将已经显示的第一字幕快速刷新为第二字幕。如此，展示的第一字幕，能够提高字幕展示的实时性和快速性。通过S303-S305得到的第二字幕为非噪声字幕，即第一字幕确实为非噪声字幕，将第一字幕刷新为第二字幕。虽然此时的第二字幕和第一字幕相同，但是提高了噪声字幕的过滤能力，并提高了字幕展示的准确性。可见，通过第一字幕和第二字幕的显示方式，能够提高用户的感官感受，提升用户的体验感。

作为另一种可选示例，当通过S303-S305确定预选噪声语音数据为非噪声语音数据，即由非噪声语音数据对应的文本数据所生成的第二字幕会和第一字幕相同，第一字幕确实为非噪声字幕时，可不进行第一字幕的刷新，仍展示第一字幕即可。

可以理解的是，在S302的条件下，S306中的内容为S205的一种具体实施方式。

S307：当预选噪声语音数据中的人声数据不满足第二预设条件时，确定预选噪声语音数据为噪声语音数据。

S308：将噪声语音数据对应的文本数据更新为空白文本，确定空白文本为第二字幕，将第一字幕刷新为第二字幕。

当确定预选噪声语音数据为噪声语音数据后，将噪声语音数据对应的文本数据更新为空白文本，并将空白文本作为第二字幕，对第一字幕进行刷新，将第一字幕刷新为空白字幕。如此，展示的第一字幕，能够提高字幕展示的实时性和快速性。通过S303-S305得到的第二字幕为噪声字幕，将第一字幕刷新为空白字幕，提高了噪声字幕的过滤能力，并提高了字幕展示的准确性。

本申请实施例提供了另一种字幕生成方法，获取语音数据，将获取的语音数据转化为文本数据。将文本数据作为第一字幕进行输出。基于转化的文本数据，将满足第一预设条件的文本数据确定为预选噪声文本数据。预选噪声文本数据为可能是噪声文本数据的文本数据。进一步，获取预选噪声文本数据对应的预选噪声语音数据，并确定预选噪声语音数据中的人声数据。当预选噪声语音数据中的人声数据满足第二预设条件时，确定预选噪声语音数据为非噪声语音数据。将非噪声语音数据对应的文本数据确定为第二字幕，将第一字幕刷新为第二字幕。可以理解的是，当语音数据为已经进行过一次去噪处理的语音数据时，本申请实施例基于已经去噪处理的语音数据所生成的文本数据，又进行了第二次去噪处理。先将文本数据作为第一字幕进行展示，提高字幕展示的实时性。进而，若预选噪声语音数据为非噪声语音数据，则说明预选噪声语音数据对应的文本数据不是噪声文本，则直接将非噪声语音数据对应的文本数据作为第二字幕，将第一字幕刷新为第二字幕进行输出。若预选噪声语音数据为噪声语音数据，则将噪声语音数据对应的噪声文本更新为空白文本，并将第一字幕刷新为空白文本对应的空白字幕。如此，还能提高噪声字幕的过滤能力，使得最终展示的字幕更加准确。

基于上述方法实施例提供的一种字幕生成方法，本申请实施例还提供了一种字幕生成装置，下面将结合附图对字幕生成装置进行说明。

参见图4所示，图4为本申请实施例提供的一种字幕生成装置的结构示意图。如图4所示，该字幕生成装置包括：

第一获取单元401，用于获取语音数据，将所述语音数据转化为文本数据；

第一确定单元402，用于将满足第一预设条件的所述文本数据确定为预选噪声文本数据；

第二获取单元403，用于获取所述预选噪声文本数据对应的预选噪声语音数据，并确定所述预选噪声语音数据中的人声数据；

第二确定单元404，用于当所述预选噪声语音数据中的人声数据满足第二预设条件时，确定所述预选噪声语音数据为非噪声语音数据；

第一输出单元405，用于将所述非噪声语音数据对应的文本数据作为字幕进行输出。

在一种可能的实现方式中，所述第二获取单元403，具体用于：

将所述预选噪声语音数据输入人声检测模型中，获取所述人声检测模型输出的所述预选噪声语音数据中的人声数据；

在一种可能的实现方式中，所述第二获取单元403，包括：

第一获取子单元，用于将所述预选噪声语音数据输入人声检测模型中，获取所述预选噪声语音数据中每帧语音数据的人声置信度；

第二获取子单元，用于基于所述预选噪声语音数据中每帧语音数据的人声置信度，获取所述人声置信度满足第二预设范围的各帧语音数据；

第三获取子单元，用于将所述人声置信度满足第二预设范围的各帧语音数据组合为人声数据，获取所述人声检测模型输出的所述预选噪声语音数据中的人声数据。

在一种可能的实现方式中，所述第一预设条件为所述文本数据对应的语音数据时间小于或等于时间阈值且所述文本数据的字数小于或等于字数阈值。

在一种可能的实现方式中，所述第二预设条件为所述预选噪声语音数据中的人声数据在所述预选噪声语音数据中的占比满足第一预设范围。

在一种可能的实现方式中，所述装置还包括：

第三确定单元，用于当所述预选噪声语音数据中的人声数据不满足第二预设条件时，确定所述预选噪声语音数据为噪声语音数据；

第一更新单元，用于将所述噪声语音数据对应的文本数据更新为空白文本，将所述空白文本作为空白字幕进行输出。

在一种可能的实现方式中，所述装置还包括：

第四确定单元，用于在获取语音数据，将所述语音数据转化为文本数据之后，所述将满足第一预设条件的所述文本数据确定为预选噪声文本数据之前，将所述文本数据作为第一字幕进行输出。

在一种可能的实现方式中，所述第一输出单元405，具体用于：

将所述非噪声语音数据对应的文本数据确定为第二字幕，将所述第一字幕刷新为所述第二字幕。

在一种可能的实现方式中，所述装置还包括：

第五确定单元，用于当所述预选噪声语音数据中的人声数据不满足第二预设条件时，确定所述预选噪声语音数据为噪声语音数据；

第二更新单元，用于将所述噪声语音数据对应的文本数据更新为空白文本，确定所述空白文本为第二字幕，将所述第一字幕刷新为所述第二字幕。

在一种可能的实现方式中，所述第一获取单元401，包括：

去噪子单元，用于获取初始语音数据，对所述初始语音数据进行去噪处理，获取去噪处理后的语音数据；

转化子单元，用于将所述去噪处理后的语音数据转化为文本数据。

在一种可能的实现方式中，所述去噪子单元，包括：

输入子单元，用于获取初始语音数据，将所述初始语音数据输入人声检测模型中，获取所述人声检测模型输出的初始人声数据和噪声数据；

第一确定子单元，用于将所述初始人声数据确定为去噪处理后的语音数据。

在一种可能的实现方式中，所述第二获取单元403，包括：

查询子单元，用于根据所述预选噪声文本数据对应的语音采集时间戳，从所述语音数据中查询所述语音采集时间戳对应的语音数据；

第二确定子单元，用于将所述语音采集时间戳对应的语音数据确定为所述预选噪声文本数据对应的预选噪声语音数据。

基于上述方法实施例提供的一种字幕生成方法，本申请还提供一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一实施例所述的字幕生成方法。

下面参考图5，其示出了适于用来实现本申请实施例的电子设备500的结构示意图。本申请实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(Personal Digital Assistant，个人数字助理)、PAD(portable androiddevice，平板电脑)、PMP(Portable Media Player，便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV(television，电视机)、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中，还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

通常，以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507；包括例如磁带、硬盘等的存储装置508；以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从ROM502被安装。在该计算机程序被处理装置501执行时，执行本申请实施例的方法中限定的上述功能。

本申请实施例提供的电子设备与上述实施例提供的字幕生成方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例与上述实施例具有相同的有益效果。

基于上述方法实施例提供的一种字幕生成方法，本申请实施例提供一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如上述任一实施例所述的字幕生成方法。

需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述字幕生成方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元/模块的名称在某种情况下并不构成对该单元本身的限定，例如，语音数据采集模块还可以被描述为“数据采集模块”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本申请的一个或多个实施例，【示例一】提供了一种字幕生成方法，所述方法包括：

获取语音数据，将所述语音数据转化为文本数据；

将所述非噪声语音数据对应的文本数据作为字幕进行输出。

根据本申请的一个或多个实施例，【示例二】提供了一种字幕生成方法，所述确定所述预选噪声语音数据中的人声数据，包括：

所述将所述预选噪声语音数据输入人声检测模型中，获取所述人声检测模型输出的所述预选噪声语音数据中的人声数据，包括：

将所述预选噪声语音数据输入人声检测模型中，获取所述预选噪声语音数据中每帧语音数据的人声置信度；

基于所述预选噪声语音数据中每帧语音数据的人声置信度，获取所述人声置信度满足第二预设范围的各帧语音数据；

将所述人声置信度满足第二预设范围的各帧语音数据组合为人声数据，获取所述人声检测模型输出的所述预选噪声语音数据中的人声数据。

根据本申请的一个或多个实施例，【示例三】提供了一种字幕生成方法，所述第一预设条件为所述文本数据对应的语音数据时间小于或等于时间阈值且所述文本数据的字数小于或等于字数阈值。

根据本申请的一个或多个实施例，【示例四】提供了一种字幕生成方法，所述第二预设条件为所述预选噪声语音数据中的人声数据在所述预选噪声语音数据中的占比满足第一预设范围。

根据本申请的一个或多个实施例，【示例五】提供了一种字幕生成方法，所述方法还包括：

当所述预选噪声语音数据中的人声数据不满足第二预设条件时，确定所述预选噪声语音数据为噪声语音数据；

将所述噪声语音数据对应的文本数据更新为空白文本，将所述空白文本作为空白字幕进行输出。

根据本申请的一个或多个实施例，【示例六】提供了一种字幕生成方法，在获取语音数据，将所述语音数据转化为文本数据之后，所述将满足第一预设条件的所述文本数据确定为预选噪声文本数据之前，所述方法还包括：

将所述文本数据作为第一字幕进行输出。

根据本申请的一个或多个实施例，【示例七】提供了一种字幕生成方法，所述将所述非噪声语音数据对应的文本数据作为字幕进行输出，包括：

根据本申请的一个或多个实施例，【示例八】提供了一种字幕生成方法，所述方法还包括：

将所述噪声语音数据对应的文本数据更新为空白文本，确定所述空白文本为第二字幕，将所述第一字幕刷新为所述第二字幕。

根据本申请的一个或多个实施例，【示例九】提供了一种字幕生成方法，所述获取语音数据，将所述语音数据转化为文本数据，包括：

获取初始语音数据，对所述初始语音数据进行去噪处理，获取去噪处理后的语音数据；

将所述去噪处理后的语音数据转化为文本数据。

根据本申请的一个或多个实施例，【示例十】提供了一种字幕生成方法，所述获取初始语音数据，对所述初始语音数据进行去噪处理，获取去噪处理后的语音数据，包括：

获取初始语音数据，将所述初始语音数据输入人声检测模型中，获取所述人声检测模型输出的初始人声数据和噪声数据；

将所述初始人声数据确定为去噪处理后的语音数据。

根据本申请的一个或多个实施例，【示例十一】提供了一种字幕生成方法，所述获取所述预选噪声文本数据对应的预选噪声语音数据，包括：

根据所述预选噪声文本数据对应的语音采集时间戳，从所述语音数据中查询所述语音采集时间戳对应的语音数据；

将所述语音采集时间戳对应的语音数据确定为所述预选噪声文本数据对应的预选噪声语音数据。

根据本申请的一个或多个实施例，【示例十二】提供了一种字幕生成装置，所述装置包括：

根据本申请的一个或多个实施例，【示例十三】提供了一种字幕生成装置，所述第二获取单元，具体用于：

所述第二获取单元，包括：

根据本申请的一个或多个实施例，【示例十四】提供了一种字幕生成装置，所述第一预设条件为所述文本数据对应的语音数据时间小于或等于时间阈值且所述文本数据的字数小于或等于字数阈值。

根据本申请的一个或多个实施例，【示例十五】提供了一种字幕生成装置，所述第二预设条件为所述预选噪声语音数据中的人声数据在所述预选噪声语音数据中的占比满足第一预设范围。

根据本申请的一个或多个实施例，【示例十六】提供了一种字幕生成装置，所述装置还包括：

根据本申请的一个或多个实施例，【示例十七】提供了一种字幕生成装置，所述装置还包括：

根据本申请的一个或多个实施例，【示例十八】提供了一种字幕生成装置，第一输出单元，具体用于：

根据本申请的一个或多个实施例，【示例十九】提供了一种字幕生成装置，所述装置还包括：

第五确定单元，用于当所述预选噪声语音数据中的人声数据在不满足第二预设条件时，确定所述预选噪声语音数据为噪声语音数据；

根据本申请的一个或多个实施例，【示例二十】提供了一种字幕生成装置，所述第一获取单元，包括：

根据本申请的一个或多个实施例，【示例二十一】提供了一种字幕生成装置，所述去噪子单元，包括：

根据本申请的一个或多个实施例，【示例二十二】提供了一种字幕生成装置，所述第二获取单元，包括：

根据本申请的一个或多个实施例，【示例二十三】提供了一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

根据本申请的一个或多个实施例，【示例二十四】提供了一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现上述的字幕生成方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种字幕生成方法，其特征在于，所述方法包括：

获取语音数据，将所述语音数据转化为文本数据；

将所述非噪声语音数据对应的文本数据作为字幕进行输出。

2.根据权利要求1所述的方法，其特征在于，所述确定所述预选噪声语音数据中的人声数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述第一预设条件为所述文本数据对应的语音数据时间小于或等于时间阈值且所述文本数据的字数小于或等于字数阈值。

4.根据权利要求1所述的方法，其特征在于，所述第二预设条件为所述预选噪声语音数据中的人声数据在所述预选噪声语音数据中的占比满足第一预设范围。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，在获取语音数据，将所述语音数据转化为文本数据之后，所述将满足第一预设条件的所述文本数据确定为预选噪声文本数据之前，所述方法还包括：

将所述文本数据作为第一字幕进行输出。

7.根据权利要求6所述的方法，其特征在于，所述将所述非噪声语音数据对应的文本数据作为字幕进行输出，包括：

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

9.根据权利要求1-8任一项所述的方法，其特征在于，所述获取语音数据，将所述语音数据转化为文本数据，包括：

将所述去噪处理后的语音数据转化为文本数据。

10.根据权利要求9所述的方法，其特征在于，所述获取初始语音数据，对所述初始语音数据进行去噪处理，获取去噪处理后的语音数据，包括：

将所述初始人声数据确定为去噪处理后的语音数据。

11.根据权利要求1所述的方法，其特征在于，所述获取所述预选噪声文本数据对应的预选噪声语音数据，包括：

12.一种字幕生成装置，其特征在于，所述装置包括：

13.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-11中任一项所述的字幕生成方法。

14.一种计算机可读介质，其特征在于，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-11中任一项所述的字幕生成方法。